Análisis de Series. Modelos Heterocedásticos PDF

TRABAJO FIN DE MASTER.
Análisis de Series. Modelos

Heterocedásticos.
Alumno: Manuel Quesada Pegalajar

Master en Estadística Aplicada.
Trabajo Fin de Master. Análisis de Series Temporales. Modelos Heterocedásticos.
ÍNDICE
1.INTRODUCCIÓN ..................................................................................................................... 3
2.MODELOS SARIMA ................................................................................................................ 7
2.1.FORMULACIÓN GENERAL MODELOS ARIMA ......................................................... 7
2.2.PASOS EN LA CONSTRUCCIÓN DE LOS MODELOS ARIMA .................................. 9
PASO 1: Identificación de los términos del Modelo. ............................................................ 9
PASO 2: Estimación de los parámetros del Modelo. .......................................................... 12
PASO 3: Validación de Modelo. ......................................................................................... 17
PASO 4: Predicción. ........................................................................................................... 18
2.3.EJEMPLO DE MODELIZACIÓN ................................................................................... 19
PASO 1: Identificación del modelo..................................................................................... 20
PASO 2 y 3: Estimación de los parámetros y validación del modelo. ................................ 22
PASO 4: Predicción. ........................................................................................................... 28
3.MODELOS ARCH Y GARCH................................................................................................ 31
3.1.MODELO ARCH.............................................................................................................. 31
3.1.1.MODELO ARCH(1) .................................................................................................. 32
3.1.2.MODELO ARCH(r)................................................................................................... 33
3.2.MODELO GARCH ........................................................................................................... 34
3.2.1.MODELO GARCH(1,1) ............................................................................................ 35
3.2.2.MODELO IGARCH .................................................................................................. 36
3.2.3.MODELO EGARCH ................................................................................................. 37
3.3.CONSTRUCCIÓN DE LOS MODELOS......................................................................... 38
PASO 1: Identificación de los términos del Modelo ........................................................... 38
PASO 2: Estimación de los parámetros del Modelo ........................................................... 38
PASO 3: Diagnosis.............................................................................................................. 40
3.4.EJEMPLO MODELO GARCH ....................................................................................... 41
4.MODELOS SV ........................................................................................................................ 48
4.1.MODELO SV(1) ............................................................................................................... 48
5.CONTRASTES DE AUTOCORRELACIÓN. ........................................................................ 50
5.1.CONTRASTE DE DURBIN-WATSON (1951)............................................................... 50
5.2.CONTRASTE DE WALLIS (1972) ................................................................................. 54
5.3.CONTRASTE DE DURBIN (1970) ................................................................................. 54
5.4.CONTRASTE DE BREUSCH-GODFREY (1978) .......................................................... 56

1
5.5.CONTRASTE DE BOX-PIERCE-LJUNG....................................................................... 58
5.6.SOLUCIONES PARA LA AUTOCORRELACIÓN........................................................ 59
5.6.1.MÉTODO DE MÍNIMOS CUADRADOS GENERALIZADOS .............................. 59
MÉTODO ITERATIVO DE COCHRANE-ORCUTT ....................................................... 62
MÉTODO DE PRAIS-WINSTEN ..................................................................................... 63
MÉTODO DE DURBIN .................................................................................................... 63
6.HETEROCEDASTICIDAD CONDICIONAL.CONTRASTES. ............................................ 65
6.1.CONTRASTES DE WHITE ............................................................................................. 65
6.2.CONTRASTES DE BREUSH-PAGAN/GODFREY ....................................................... 67
6.3.CONTRASTES DE GOLDFELD-QUANDT................................................................... 69
6.4.CONTRASTES DE GLESJER ........................................................................................ 70
6.5.CONTRASTES DE RESET RAMSEY ........................................................................... 71
6.6.CONTRASTE ARCH ....................................................................................................... 71
6.7.SOLUCIONES PARA LA HETEROCEDASTICIDAD CONDICIONAL ..................... 72
6.7.1.HETEROCEDASTICIDAD CONOCIDA................................................................. 72
6.7.2.HETEROCEDASTICIDAD DESCONOCIDA ......................................................... 74
7.MULTICOLINEALIDAD CON SERIES DE TIEMPO. ........................................................ 76
7.1.DETECCIÓN DE LA MULTICOLINEALIDAD ............................................................ 76
7.2.SOLUCIONES AL PROBLEMA DE MULTICOLINEALIDAD ................................... 78
8.HIPÓTESIS DE NORMALIDAD. .......................................................................................... 80
ANEXO ....................................................................................................................................... 81
ANEXO A ................................................................................................................................... 84
BIBLIOGRAFÍA......................................................................................................................... 86

2
1.INTRODUCCIÓN
Una serie temporal o cronológica se define como la evolución de una variable a

lo largo del tiempo, es decir, es una secuencia ordenada de observaciones en la cual, la
ordenación se hace en base al tiempo (de ahí el nombre de temporales). También puede
hacerse tal ordenación por otros criterios como por ejemplo el espacio.
Hay casos en los que la variable observada tiene un patrón de comportamiento

fijo. En términos estadísticos estamos ante una serie determinista.
Por el contrario, hay series que resultan impredecibles. Su pauta de comportamiento no
responde a un patrón fijo, por lo que son puramente aleatorias. Un ejemplo típico es la
sucesión de números premiados en un sorteo de loterías. En general, las series contienen
una componente determinista y una componente aleatoria.
Los objetivos que se persiguen con el estudio de las series temporales son los
siguientes:
Obtener una descripción concisa del fenómeno generador de la serie de

datos.
Construir un modelo que aproxime de la forma más fielmente posible el
comportamiento de la serie de datos
Predecir valores desconocidos (en el futuro o en el pasado), de la serie a
partir de la información disponible.
Controlar el proceso generador de la serie, examinando qué puede ocurrir
cuando se alteran algunos parámetros del modelo o estableciendo políticas
de intervención cuando el proceso se desvíe de un objetivo preestablecido
más de una cantidad determinada.
Una característica fundamental de una serie temporal es que sus observaciones

son dependientes o correladas y, por tanto, el orden en que se recogen las observaciones
es muy importante.
Podemos distinguir diferentes enfoques en el análisis de Series Temporales:
Métodos tradicionales. Se basan en la descomponen la serie en

componentes que se conjugan de acuerdo a alguna función (generalmente
sumadas o multiplicadas, esquemas aditivo o multiplicativo). También se
consideran como técnicas clásicas las de alisamiento exponencial, donde el
objetivo es predecir el valor de la serie de forma sencilla y “automática”.
Métodos basados en modelos de procesos estocásticos (Metodología de

Box-Jenkins (1970)). Se fundamenta en ajustar un modelo a los datos
seleccionándolo de entre aquellos de una cierta familia. La predicción en este
caso se realiza suponiendo que la estructura del modelo permanece
invariante en el tiempo, es decir, que en el futuro, el modelo sigue siendo
adecuado para modelizar la serie.

3
Métodos univariantes y métodos multivariantes. Estos atienden a la

dimensión de la magnitud en estudio. En este sentido también tiene interés el
estudio de causalidad entre las variables y los modelos matriciales, extensión
de los univariantes.
Análisis en el dominio del tiempo y análisis en el dominio de las

frecuencias. Explotan las características fundamentalmente de la función de
correlación y densidad espectral. Aunque existe una relación entre ellas,
ambas ponen de manifiesto características complementarias en el análisis de
la serie.
Nos vamos a basar en la metodología de Box-Jenkins, en el cual el desarrollo

estadístico se realiza a partir de un proceso estocástico estacionario (en sentido amplio o
débil) y para procesos que se puedan transformar en estacionarios mediante
transformaciones (diferenciación, ARIMA, o Box-Cox).
Cuando se produce la ausencia de la tendencia (determinista o aleatoria), hay un

numeroso conjunto de teorías y desarrollos matemáticos centrados en la
diferenciabilidad de la serie temporal y en la existencia o no de raíces unitarias a partir
de los conocidos test de Dickey y Fuller, de Mackinon o de Phillips y Perron. Estas
series se pueden describir con los modelos ARIMA o SARIMA.
Sin embargo, el estudio de la componente de varianza constante es un fenómeno menos

extendido y, de manera que el no tener en cuenta una posible no constancia de esta
componente, puede suponer diversos problemas estadísticos cuando se estiman modelos
(problemas ligados con la eficiencia de los parámetros estimados y su fuerte volatilidad
ante el amplio intervalo de confianza en el que se mueven).
Por tanto, para determinar un patrón de comportamiento estadístico para la varianza, se

encuentran los Modelos Autorregresivos Condicionales Herocedásticos: ARCH. Engle,
1982, es el autor de una primera aproximación a la varianza condicional. Para justificar
el desarrollo de estos modelos heterocedasticos condicional autorregresivos, este autor,
cita tres situaciones para exponer por qué estos modelos fueron propuestos para explicar
ciertas propiedades que no pueden ser explicados por los modelos ARIMA y que
aparecen con frecuencia en series temporales estacionarias de datos financieros y
ambientales de alta frecuencia:
1. La experiencia empírica nos lleva a contrastar períodos de amplia varianza de

error seguidos de otros de varianza más pequeña. Es decir, el valor de la
dispersión del error respecto a su media cambia en el pasado, por lo que es
lógico pensar que un modelo que atienda en la predicción a los valores de dicha
varianza en el pasado servirá para realizar estimaciones más precisas.

4
2. En segundo lugar, Engle expone la validez de estos modelos para determinar los
criterios de mantenimiento o venta de activos financieros. Los agentes
económicos deciden esta cuestión en función de la información proveniente del
pasado respecto al valor medio de su rentabilidad y la volatilidad que ésta ha
tenido. Con los modelos ARCH se tendrían en cuenta estos dos condicionantes.
3. El modelo de regresión ARCH puede ser una aproximación a un sistema más

complejo en el que no hubiera factores innovacionales con heterocedasticidad
condicional. Los modelos estructurales admiten, en multitud de ocasiones, una
especificación tipo ARCH infinito que determina con parámetros cambiantes, lo
que hace a este tipo de modelos capaces de contrastar la hipótesis de
permanencia estructural que supone una de las hipótesis de partida y condición
necesaria para la validez del modelo econométrico tradicional..
Esta series tienen poca estructura en la media y siguen paseos aleatorios o procesos AR
de orden bajo y coeficiente pequeño. Además puede ocurrir que aunque la serie de
rendimientos parezca un ruido blanco, su distribución no sea normal, y muestre colas
pesadas y alta curtosis; y que los datos estén casi incorrelados, pero al calcular las
autocorrelaciones de los cuadrados se observa una fuerte estructura de dependencia.
Otra propiedad es que la varianza de los residuos no es constante y aparecen rachas de
mayor variabilidad seguida de rachas de menor variabilidad. Por eso se plantean este
tipo de modelos, es decir, van a ser modelos con varianza marginal constate, y varianza
condicionada a los valores del pasado de la serie no constante, ya que depende de estos
valores previos.
El modelo ARCH (AutoRegressive Conditional Heteroscedastic), supone que la

varianza condicional depende del pasado con estructura autorregresiva.
Estos modelos fueron generalizados por Bollerslev (1986) para dar lugar a los
modelos GARCH que incorporan a esta dependencia términos de media móvil.
Proporcionan buenos ajustes con p y q pequeños (la mayoría de las series temporales
financieras pueden modelizarse correctamente con un GARCH(l,l)). Bollerslev(1986)
proporciona la justificación teórica de esta última afirmación expresando los procesos
GARCH(p,q) como un ARCH(∞). Otra propiedad importante de los modelos GARCH,
de interés en el área financiera, es que son una aproximación a procesos de difusión.
Así, Nelson(1990) prueba la convergencia del modelo GARCH(l,l) con errores
condicionales normales a un proceso de difusión continuo con distribuciones
estacionarias no condicionadas t.
Otra clase de modelos más flexible son los modelos de volatilidades estocásticas
(SV) introducidos por Harvey, Ruiz y Shephard (1994) y Jacquier y Polson y Rossi.
Estos modelos reproducen algunas de las propiedades típicas de las series financieras,
tales como exceso de curtosis, agrupamiento de los periodos de la volatilidad,
correlación en los cuadrados de la serie,…Se difiere de los anteriores en que la

5
volatilidad es una componente no observable cuyo logaritmo suele modelizarse

mediante un proceso lineal autorregresivo.
En resumen, al considerar la volatilidad como un proceso estocástico se busca

ajustar un modelo que permita describir y analizar su comportamiento presente y a
partir de éste su comportamiento futuro. Para el caso de procesos de varianza constante
la metodología de Box-Jenkins ha sido ampliamente utilizada, sin embargo, este
supuesto no es sostenible en varias áreas de investigación, por lo que se deben
consideran otras alternativas. Dentro de estas alternativas, destacamos los modelos
ARCH (Autorregresive Condicional Heterocedastic) y GARCH (Generalized
Autorregresive Condicional Heterocedastic) propuestos por Engle (1982) y Bollerslev
(1986) respectivamente, modelos que permiten especificar el comportamiento de la
varianza. Así como son los modelos de volatilidades estocástica (SV) introducidos por
Harvey, Ruiz y Shephard (1994) y Jacquier y Polson y Rossi.

6
2.MODELOS SARIMA
Vamos a describir los modelos ARIMA como uno de los métodos de predicción
basados en series temporales.
La metodología que seguiremos es la propuesta por Box-Jenkins, que consta de
cuatro etapas:
1. Identificación
Consiste en elegir uno o más modelos ARIMA, SARIMA como candidatos
que pueden representar adecuadamente el comportamiento de la serie. En
ésta etapa deben determinarse las transformaciones necesarias para conseguir
estacionariedad, contraste de inclusión de un término de tendencia
determinística (θ0) y elegir los órdenes p y q para cada uno de los modelos
competitivos.
2. Estimación
Consiste en estimar los parámetros de cada uno de los modelos identificados
en la fase anterior.
3. Diagnosis (Validación)
Trata de determinar si los modelos identificados y estimados son adecuados
para representar a los datos. Las deficiencias encontradas en ésta etapa
pueden utilizarse cómo información para reformular los modelos.
4. Predicción
Con los modelos que han sido diagnosticados favorablemente, se pueden
realizar predicciones. Esta etapa también puede poner de manifiesto qué
modelos poseen deficiencias a la hora de predecir, y puede utilizarse como
herramienta de validación de los modelos.
Para evaluar la calidad del ajuste teniendo en cuenta el número de parámetros

estimados en el modelo y la verosimilitud, existe el criterio AIC (Criterio de
información de Akaike); cuanto más pequeño sea el valor del criterio de información,
mejor será el modelo.
2.1.FORMULACIÓN GENERAL MODELOS ARIMA

Vamos a realizar la formulación general que presenta el modelo ARIMA de
órdenes p, d y q, es decir, el modelo ARIMA(p,d,q) es la siguiente:
1
(1)
donde es la variable de estudio, c una constante y es el término de error o residuo,

que sigue una distribución normal de media cero y varianza constante . El término
1 se aplica a la serie original para convertirla en estacionaria, y d corresponde al
orden de la parte I del modelo ARIMA. y son polinomios de orden p y q
que dependen del operador de retardo B.

7
El operador de retardo B está definido por:

.
El polinomio se define como:

1 ∑ (2)

donde
y donde
1, … ,
son los coeficientes del polinomio . p es el número de términos del polinomio
y el orden correspondiente a la parte AR del modelo ARIMA.
El polinomio se define como

1 ∑ (3)
donde
y donde
1, … , ! son
los coeficientes del polinomio . q es el número de términos del polinomio y
el orden correspondiente a la parte MA del modelo ARIMA.
Por tanto, si sustituimos (2) y (3) en la expresión (1) se obtiene:
"1 #1

"1 #
Los residuos , $
%&'(, !) * 1, … , + se obtiene de la ecuación anterior:

"1 #1 " #
En conclusión, el modelo ARIMA está compuesto de tres partes: una parte AR de orden
El número de términos para los polinomios y , es decir, los órdenes de la
p, una parte I de orden d y una parte MA de orden q.
parte AR y MA respectivamente, así como el orden de la parte I del modelo ARIMA se

determinan en el siguiente paso (utilizando la metodología de Box-Jenkins) que
explicaremos a continuación, y dependen de la serie temporal para la cual se realiza el
estudio.
Nota: el modelo definido (1) relaciona la variable $ con sus pasados a través del
polinomio , y el error presente con los errores pasados a través del polinomio .

8
2.2.PASOS EN LA CONSTRUCCIÓN DE LOS MODELOS ARIMA

PASO 1: Identificación de los términos del Modelo.
En este paso vamos a identificar el número de términos de los polinomios

y , es decir, vamos a determinar el valor de p y q, así como el orden de la parte I del
modelo ARIMA.
En este punto procederemos de la siguiente forma:
Análisis inicial de la serie. Vamos a identificar las principales características de

la serie temporal:
- Alta frecuencia
- Comportamiento no estacionario.
- Presencia de estacionalidad de los datos.
Cuanto menor es el tiempo transcurrido entre dos datos de la serie, mayor es la

frecuencia de la serie. La alta frecuencia es una característica intrínseca que no puede
corregirse.
Para la corrección de la no estacionariedad se pueden realizar dos tipos de

transformaciones (véase el anexo A) sobre la serie original de datos:
• Para estabilizar la varianza normalmente se toman transformaciones de Box-

Cox: logaritmo, raíz cuadrada, etc. También sirven estas transformaciones para
obtener normalidad a los datos (ver Apéndice A).
•
,-
1 -
- $
. 1, … , +
Para estabilizar la media se toman diferenciaciones del tipo:
Existe estacionalidad en los datos cuando los datos que componen la serie presentan un
comportamiento cíclico o periódico. Por ejemplo, para la serie de precios de la energía
eléctrica existe estacionalidad diaria, un día suele ser parecido al día anterior; es decir,
los martes tienden a ser similares a los lunes, los miércoles similares a los martes, y así
sucesivamente. La serie de precios también presenta estacionalidad semanal, un día
suele ser parecido al mismo día pero de la semana anterior; es decir, los lunes tienden a
ser similares a los lunes, los martes similares a los martes, y así sucesivamente.
Si los datos presentan estacionalidad, la formulación del modelo ARIMA resulta:
/ - 1 1 -

0". #$
donde s representa el tipo de estacionalidad que presentan los datos, s = 24 en el caso de

estacionalidad diaria y/o s = 168 en el caso de estacionalidad semanal. D corresponde a
la parte I del modelo ARIMA estacional. Normalmente D toma los valores 1 y 2. / -
y 0 - son polinomios que dependen del operador de retardo B .
s

9
El polinomio / - se define como:

3
-
/
1 1 /2 2-
2
/ -
/ - / - /3 3- y /2 4
1, … , 5 son los
coeficientes del polinomio / - ; P es el número de término del polinomio de / - y el
donde
orden correspondiente a la parte AR del modelo ARIMA estacional.
El polinomio 0 - se define como:

6
-
0
1 1 04 4.
4
1
0 -
0 - 0 7- 08 87- y 02 4
1, … , 6 son los
coeficientes del polinomio 0 - ; P es el número de término del polinomio de 0 - y el
donde
orden correspondiente a la parte MA del modelo ARIMA estacional.
Estos modelos ARIMA con una estacionalidad se denota como SARIMA(p,d,q)x(P,D,Q)s.
Estudio de la función de autocorrelación (FAC) y la función de autocorrelación

parcial (FACP). A través de la representación de estas funciones se determinan
los órdenes p, d, q del modelo ARIMA y los órdenes P, D y Q del modelo
ARIMA estacional.
La representación gráfica del coeficiente de autocorrelación 9: es lo que se

denomina FAC. Cuya expresión es:
1 >2
∑ < =2 <
;2
+
1 > <
∑
+
Donde < es la media de .
?
$ @A 1 $1 @A 2 $2 @A 42 $42
A $41 $
4 1, … , +, donde @C , @C , … , @C2 , @C2 son los valores estimados
@
Considerando la serie
41
de los parámetros que componen el modelo de regresión entre la serie y cada una de
las series , , … , 2= , 2= . Además ? es la serie que recoge la parte
de no explicada por cada una de las series , , … , 2= , 2= . Y la serie
E
$4 FG 1 $1 FG 2 $2 FG 42 $42 FG 41 $41 $
4
1, … , + donde FG , FG , … , FG2 , FG2 son los valores estimados de los parámetros que
componen el modelo de regresión entre la serie 2 y cada una de las series
, , … , 2= , 2= . Además E es la serie que recoge la parte de 2 no
explicada por cada una de las series , , … , 2= , 2= .
Las series ? H E se obtienen mediante técnicas de regresión.

10
correlación entre ? H E , ya que ? H E se han calculado con separación k.

El coeficiente de autocorrelación parcial de orden k es el coeficiente de
El coeficiente de autocorrelación parcial de orden k se define como:
1
∑> 2=? ?< E EL
IJ,K
+ 4
M 1 ∑> 2=? ?< M 1 ∑> 2=E EL
+4 +4
Donde ?< y EL son las medias de las series ? H E ,respectivamente y T es el número de

componentes de las series , ? H E .
Una vez definidos los coeficientes anteriores se estabiliza la varianza, aplicando

la transformación de Box-Cox necesaria, a continuación se identifican los órdenes d y D
del modelo ARIMA y por último se identifican los órdenes p, q, P y Q.
Para identificar los órdenes d y D del modelo, se representa la FAC de la serie. Si se

observa un patrón de comportamiento periódico en los múltiplos de s como en 12, 24,
36,… con decrecimiento lento a cero es necesario incluir D (generalmente 1 o 2). Si los
primeros valores son elevados con un decrecimiento muy lento, entonces d debe de
incluirse en el modelo.
Los patrones que deben seguir la FAC y la FACP para la identificación de los órdenes
del modelo ARIMA. El patrón que deben seguir la FAC y la FACP para la
identificación del orden de un modelo puro AR(p) es el siguiente: la FACP presenta los
p primeros valores distintos de cero y el resto de valores son cero o muy próximos a
cero con un comportamiento sinusoidal, y la FAC presenta un decrecimiento
exponencial y/o un comportamiento sinusoidal.
El patrón que deben seguir la FAC y la FACP para la identificación del orden de un
modelo puro MA(q) es el siguiente: la FAC presenta los q primeros valores distintos de
cero y el resto de valores son cero o muy próximos a cero con un comportamiento
sinusoidal, y la FACP presenta un decrecimiento exponencial y/o un comportamiento
sinusoidal.
El patrón que deben seguir la FAC y la FACP para la identificación de los órdenes p y q
de un modelo ARMA(p,q) es una superposición de los patrones que presentan estas
funciones para un modelo AR y MA: en la FAC, q – p + 1 valores iniciales distintos de
cero y a continuación un decrecimiento exponencial y/o un comportamiento sinusoidal
debido a la parte AR; y en la FACP, q – p + 1 valores iniciales distintos de cero
seguidos de un decrecimiento exponencial y/o un comportamiento sinusoidal debido a
la parte MA.

11
Con todo esto queda establecido cómo identificar los órdenes p y q correspondientes a
la parte no estacional del modelo ARIMA.
Para la identificación de los órdenes P y Q, correspondientes a la parte estacional del

modelo ARIMA, el procedimiento es similar, con la diferencia de que en lugar de
observar los primeros valores de la FAC y la FACP se observan los valores que
presentan un comportamiento periódico. Por ejemplo, en el caso que se presente
estacionalidad diaria (s = 24) los valores que habría que observar son el 24, el 48, el 72,
el 96, …
A modo de resumen presentamos el siguiente cuadro:
FAC FACP
Decrece exponencialmente
AR (p) o cómo una sinusoide Corta tras el retardo p
amortiguada
Decrece exponencialmente
MA (q) Corta tras el retardo q o cómo una sinusoide
amortiguada
ARMA (p, q) Decrece Decrece
PASO 2: Estimación de los parámetros del Modelo.
Una vez identificados los términos que contiene el modelo se estiman los
parámetros que lo constituyen.
La estimación de los parámetros del modelo se puede hacer a través de por
medio de diferentes métodos. El método más utilizado es el método de verosimilitud,
aunque en los modelos autorregresivos, la estimación utilizada es el método de los
momentos.
La maximización de la función de verosimilitud es no lineal en el sentido de que
la función a maximizar no es una función cuadrática de los parámetros desconocidos.
Esta maximización es por tanto realizada numéricamente. Por ello, la convergencia al
máximo será más rápida si se parte de un valor inicial de los parámetros próximo al
valor de convergencia. Hay distintos métodos para el cálculo de estos valores iniciales,
dos de ellos para el caso autorregresivo (método de Yule-Walker y algoritmo de Burg) y
otros dos para un caso general (algoritmo de las innovaciones y algoritmo de Hannan-
Rissanen).
12
El método de Yule-Walker, es un método de estimación que se utiliza para

procesos autorregresivos puros. Consiste en plantear el sistema de ecuaciones de Yule-
Walker y proceder a su resolución sustituyendo en dicho sistema las autocorrelaciones
por sus estimaciones. Por tanto, se iguala momentos teóricos con estimados.
Si la serie tiene estructura AR(p):

,
de con 2 4 N 1 con lo que obtenemos la ecuación en diferencias:

las ecuaciones de Yule-Walker se obtienen calculando las covarianzas o correlaciones
F2
1 F2 F2
O P Q
;2
1 ;2 ;2
incógnitas. Al resolverlas obtenemos la estimación de los parámetros , sustituyendo

Como estas funciones son pares, podemos plantear un sistema de p ecuaciones con p
los valores de las covarianzas o correlaciones teóricas por sus estimaciones muestrales.
El valor de la varianza de se obtiene de la ecuación:
F
T U … V

FR S
F
ecuación para k = 0.
Las covarianzas del modelo teórico así obtenido coinciden con las muestrales para los
valores k = 0,1,…,p.
Para tamaños muestrales grandes, la distribución del estimador así obtenido es:
A W X", Y Γ #,

donde Γ
"F #,,…, es la matriz que contiene las covarianzas y aparece en la
formulación del sistema de ecuaciones de Yule-Walker. Si se reemplaza y Γ por sus
Así un intervalo de confianza para un valor vendrá dado por:

estimaciones, podemos calcular regiones de confianza para muestras de tamaño elevado.
G
[ \]⁄ _
Y
donde es el elemento ii de Γ, y una región para el vector completo:

13
G
"A #SΓ "A # ` b,]

√Y
Por tanto este método proporciona la estimación de los parámetros bajo la hipótesis de
que la FAC estimada coincida con la teórica para los primeros retardos.
El algoritmo de Burg es otro método muy parecido al anterior. Se usa también en
coeficientes del mejor predictor lineal = en función de las p observaciones

el caso de un proceso autorregresivo puro. Los estimadores son precisamente los
anteriores, bajo la hipótesis de que su función de autocorrelación coincide con la

función de autocorrelación muestral en los retardos 1,…,p. La diferencia con el método
de Yule-Walker se basa en que el coeficiente que multiplica a Bp, es decir el último
factor del polinomio de retardos, se calcula minimizando los errores de predicción un
paso hacia adelante y hacia atrás. Los coeficientes de los restantes factores Bk se
calculan dividiendo la suma de los cuadrados de los errores de predicción un paso
adelante y hacia atrás del modelo ajustado (si es un AR(p) habrá T-p en cada sentido)
entre el número de sumandos ( es decir, 2(T-p)).
El algoritmo de las innovaciones es válido para procesos con estructura MA y ARMA.

Consiste en ajustar modelos MA a los datos:

Ac Acc c ,
siendo W X0, EGc mediante el algoritmo siguiente:
Sea 4,
ef , g, entonces
ER
41,1
2
h,h2
E2 i4Y 1, Y 1 1 2,2 h,h E j , 0 ` 4 ` Y
R
h
Eh
4Y 1, Y 1 1 h,h

E
R
Así procedemos siguiendo la siguiente secuencia:
ER W , E W , , E W kk , k k , Ek W
Nos vamos a apoyar en el siguiente teorema: Si W lm! con en o p q ∞ y si

definimos R
1 y
0 para j > q. Si Y W ∞ y m (n) es una sucesión que verifica
m(n) W ∞ pero W 0. Entonces para todo k entero, la distribución de
ch
s
√h

14
1
" Ac , … , Ac2 2 #S
√Y
Converge a una distribución normal multivariante de media cero y matriz de covarianza

A = (aij), donde
ch(,)
&
1 t t
t
Además EGc es un estimador consistente de .
Hay que observar que " A , … , A #S no es estimador consistente de los parámetros sino
es decir, " Ac , … , Ac #S.

que se calcula al aumentar el orden del proceso MA y truncar los parámetros al nivel q,
Para procesos ARMA, y bajo la hipótesis de estacionariedad, el polinomio Φ

es invertible, y la representación MA∞ de la serie será por tanto

1 /
R
donde los coeficientes satisfacen
cíh(,)
/
1 / 1,
0,1, …
R
con R
1 y
0 para j > q.
Así podemos estimar los coeficientes / , … , /= por el algoritmo de las innovaciones
" Ac , … , Ac,= #S. Reemplazar estos valores en la ecuación anterior y calcular las
estimaciones de y .
En primer lugar, de las últimas p ecuaciones, calculamos (los son nulos).
Ac,= A Ac, … Ac,=

z c, }
U … V
y Ac,= Ac, … Ac,= | U … V

Ac,= … … … …
A Ac,= … Ac, {
x c,=
Y por último determinamos los de las ecuaciones

15
cíh(,)

Ac 1 A Ac, ,
1, … , !

Finalmente: G
EGc .
El algoritmo de Hannan-Rissanen es válido para procesos con estructura AR(p), tiene la

expresión de un modelo de regresión, por tanto, una estimación preliminar puede
depende de cantidades no observadas . Sin embargo, se puede aplicar este

hacerse usando mínimos cuadrados, y ARMA(p,q), es algo más complicado porque
procedimiento (mínimos cuadrados) si reemplazamos por estimaciones suyas. Así el

algoritmo consta de los siguientes pasos:
ejemplo Yule-Walker. Así obtenemos "Ac , … , Acc #S.

Paso 1: Ajustamos un modelo AR(m) de orden alto ( m > máx{p,q}) usando por
Paso 2: Estimamos los residuos del modelo anterior
~̂
Ac Acc c , $
% 1, … , Y
Paso 3: Estimamos los parámetros " , … , , , … , #S mediante una regresión

mínimo cuadrática sobre y ~̂ , minimizando
@
1 " ~̂ ~̂ #

c=
Con respecto a @, es decir:
@C
S S>
>
c= , … , h
c c … c= ~̂c ~̂c … ~̂c=

c= c … c= ~̂c= ~̂c … ~̂c=
… … … … … … … …
h h … h ~̂h ~̂h … ~̂h
Paso 4: Por último,
"@C #
G
Y%
Vamos a explicar la estimación de los parámetros mediante la minimización de la suma

de los residuos al cuadrado.

16
Consiste en minimizar:
>

1 "1 #1 " #
c7(,)==
1
1, … ,

Sujeto a:
1
1, … , !
Donde son las raíces del polinomio (

0) y son las raíces del

polinomio (

0). La primera restricción se aplica para asegurar que el
modelo AR(p) cumple la condición de estacionariedad, y la segunda restricción se
aplica para asegurar que el modelo MA(q) cumple la condición de invertibilidad.
La sumatoria de los residuos al cuadrado comienza en $

%&'(, !) * 1 , ya que no
se dispone de datos para las series y , t = 1,2,…,T, cuando 1 t < 1. es un ruido
blanco que se genera de forma aleatoria.
El vector de parámetros a estimar es ", , … , , , … , #. Al resolver este problema

se obtienen los valores estimados de los parámetros que componen el modelo. Por tanto,
el modelo estimado queda:
"1 A A #1

̂ "1 A A #̂
Los residuos estimados son:
̂
"1 A A #1 ̂ " A A #̂ (4)
que han de comportarse como ruido blanco si el modelo es correcto.
PASO 3: Validación de Modelo.
Para asegurar la validez e idoneidad del modelo y la efectividad de las

predicciones, los residuos estimados (4) se deben comportar como un ruido blanco. Un
ruido blanco es una serie de datos que se caracteriza por tener distribución normal,
media y covarianza nulas y varianza constante.
Para comprobar que los residuos estimados obtenidos según (4) son ruido blanco:
• Representamos FAC y la FACP para los residuos: si los residuos estimados

según (4) son ruido blanco, tanto en la FAC como en la FACP de estos residuos

17
no debe aparecer ningún valor significativo; es decir, los valores de estas

funciones deben ser muy pequeños y estar dentro de las bandas de confianza
1S96 1S96
,
√+ √+
valores de la serie .
Estas son bandas asintóticas al 95 % de confianza, donde T es el número de
• Test de Ljung-Box: este test indica si existe dependencia entre los m primeros
residuos estimados (4), es decir, si estos residuos presentan correlación no nula.
El estadístico de Ljung-Box se define como:
c
;G
6
++ 2 1
+

Donde ; es el coeficiente de autocorrelación de los residuos estimados según

(4).T es el número de valores de la serie y r es el número de parámetros
estimados.
Este estadístico, Q, se distribuye como una Chi-cuadrado con un número de

grados de libertad igual al número de coeficientes utilizados en la suma, m,
menos el número de parámetros estimados r menos 1 (m-r-1).
En la mayoría de los casos es suficiente con representar la FAC y FACP, ya que si no

presentan valores significativos, el valor del estadístico Q será pequeño, y por tanto se
puede considerar que existe independencia entre los residuos.
Si se comprueba que el modelo es adecuado, se puede continuar con el procedimiento y

calcular las predicciones. En caso contrario, se estudia el comportamiento de los
residuos estimados según (4), lo que ayuda a identificar un nuevo modelo; se vuelve al
paso 2 y se repite todo el proceso.
PASO 4: Predicción.
Después de obtener el modelo y comprobar su validez, se puede proceder a
La predicción óptima de >=2 , A>=2 , es el valor esperado de >=2 condicionado

predecir.
a que se conoce , , … , > , es decir, la esperanza condicionada de >=2 conocido

, , … , > . De forma análoga se procede con los residuos.
Por lo tanto:
A> 4
en>=2 |> , … , p

18
̂> 4
en>=2 |> , … , p
Donde T representa el origen de la predicción y k el horizonte de la misma. Las

fórmulas correspondientes a las predicciones que se quieren obtener, según el modelo
estimado, son:
>=2
A >=2 A ">=2 # ̂ >=2 A1 >=2 A! >=2
Tomando esperanzas condicionadas en la expresión anterior, la ecuación de predicción

para el modelo ARIMA estimado es la siguiente:
> 4
A A> 4 1 A A> 4 ̂ ̂> 4 A1 ̂> 4 1
A! ̂> 4 !
Donde
A>
>= . ` 0 es el valor de la serie en el tiempo T+j.
A>
A>= . 0 es la predicción obtenida para la serie en el tiempo T+j.
̂>
̂>= . ` 0 es el valor de la serie ̂ en el tiempo T+j.
̂>
0 . 0
2.3.EJEMPLO DE MODELIZACIÓN
Realizaremos un ejemplo para ilustra los pasos a seguir en la construcción de un
modelo ARIMA.
electricidad de un mercado de energía eléctrica , t = 1,…,T donde T = 148 (véase el

Se dispone de una serie de datos correspondiente a los precios horarios de
Anexo A). En primer lugar, se analiza esta serie de datos y se estudia el comportamiento
que presenta.
Presentamos a continuación, la representación gráfica de la serie :

19
PASO 1: Identificación del modelo.

modelo
En primer lugar estudiamos la estacionariedad.

estacionariedad Si observamos la gráfica de la serie se
aprecia que la media no es constante. Veamos qué ocurre si dibujamos la FAC.
La FAC presenta un comportamiento típico de una serie no estacionaria, ya que los

primeros valores de la función son muy elevados con un decrecimiento muy lento a
cero. Por lo tanto, se confirma la necesidad de aplicar una diferenciación de orden 1 a la
serie . Esta diferenciación de orden 1 se define como
A continuación,, se representa la serie una vez tomada la diferenciación de primer

orden:

20
Después de diferenciada la serie, para poder identificar los términos del modelo
ARIMA, es necesaria la representación de la FAC y de la FACP.
Por lo tanto, se toma la diferenciación de orden 1 a la serie y se representa su FAC y

FACP, que mostramos a continuación:
FAC con
c diferenciación de orden 1 de
FACP con diferenciación de orden 1 de

21
La FAC no tiene persistencia luego no es necesaria otra diferenciación. Podemos

plantear 4 modelos:
- Modelo ARIMA(2,1,0). Debido a que la FACP corta en el segundo retardo y
la serie ' presenta la forma:

la FAC presenta un decrecimiento exponencial. . El modelo al que se ajusta
1 1 '

decrece exponencialmente. . El modelo al que se ajusta la serie ' presenta la

- Modelo ARIMA(0,1,2). Debido a que la FAC corta tras el retar 2 y la FACP
forma:
'
1
- Modelo ARIMA(1,1,1). Los valores de la FAC como los de la FACP

presentan un decrecimiento exponencial para los primeros valores seguidos
de un comportamiento sinusoidal con valores próximos a cero para los
que se ajusta la serie ' presenta la forma:

siguientes, y el primer valor es más significativo que el resto. El modelo al
1 1 '
1
- Modelo ARIMA(2,1,1). Los valores de la FAC como los de la FACP

presentan un decrecimiento exponencial para los primeros valores seguidos
de un comportamiento sinusoidal con valores próximos a cero para los
se ajusta la serie ' presenta la forma:

siguientes, presentando dos retardos significativos al resto. El modelo al que
1 1 '
1
PASO 2 y 3: Estimación de los parámetros y validación del modelo.
A continuación para cada uno de los modelos propuestos anteriormente vamos a

realizar la estimación y validación. Y determinaremos de los 4 modelos cual es el que
mejor se adapta a nuestra serie. Utilizaremos SPSS versión 15 para obtener la
estimación de los parámetros del modelo.
y y la constante c:
Para el modelo ARIMA(1,1,1), obtendremos los valores estimados para los parámetros

22
Estimaciones de los parámetros
Estimaciones Error típico t Sig. aprox.

Retardos no estacionales AR1 ,837 ,097 8,633 ,000
MA1 ,606 ,142 4,261 ,000
Constante ,391 ,262 1,492 ,138
Se ha utilizado el algoritmo de Melard para la estimación.
Obtenemos por tanto que el valor estimado para es 0.837,, el valor estimado para
es 0.606 y el valor estimado
imado para la constante c es 0.391.
0.391 Si nos fijamos en la
significación, parece ser que la constante no es necesaria para explicar el modelo. Por lo
tanto, estimamos el modelo sin constante, obteniendo:

MA1 ,636 ,118 5,366 ,000
es 0.636. Por tanto el modelo tiene la siguiente forma:
A continuación, se realiza un estudio de los residuos estimados y se observa su

comportamiento. Los residuos estimados deben ser ruido blanco. Para ello, se observa la
FAC y la FACP, que se representan a continuación:
FAC de los residuos estimados para el modelo ARIMA(1,1,1)

23
FACP de los residuos estimados para el modelo ARIMA(1,1,1)

(1,1,1)
Los residuos estimados son ruido blanco, ya que tanto la FAC como la FACP no
presentan ningún valor significativo. Todos los valores se encuentran dentro de las
bandas de confianza. Por lo tanto, se puede
pued concluir que el modelo es adecuado para
predecir.
Diagnóstico residual
Número de residuos 147
Número de parámetros 2
GL residuales 145
Suma de cuadrados
264,795
residual corregida
Suma de cuadrados
275,157
residual
Varianza residual 1,822
Error típico del modelo 1,350
Log-verosimilitud -251,845
Criterio de información
507,690
de Akaike (AIC)
Criterio bayesiano de
513,671
Schwarz (BIC)
Para el modelo ARIMA(2,1,0),

ARIMA(2,1,0) obtendremos los valores estimados para los parámetros
y la constante c:

AR2 ,202 ,082 2,464 ,015
Constante ,403 ,203 1,983 ,049
es 0.202 y el valor estimado
imado para la constante c es 0.403.
0. Si nos fijamos en la

24
significación, parece ser que todos los parámetros son necesarios para explicar el
modelo. Por tanto el modelo tiene la siguiente forma:

FACP de los residuos estimados para el modelo ARIMA(2,1,0))
Los residuos estimados son ruido blanco, ya que tanto la FAC como la FACP no
presentan ningún valor significativo. Todos los valores se encuentran dentro de las
bandas de confianza. Por lo tanto, se puede concluir que el modelo es adecuado para
predecir.

25
GL residuales 144
Suma de cuadrados
267,147
residual corregida
Suma de cuadrados
267,147
residual
511,008
de Akaike (AIC)
519,979
Schwarz (BIC)
, y la constante c:

Retardos no estacionales MA1 -,241 ,082 -2,928 ,004
MA2 -,170 ,082 -2,066 ,041
Constante ,413 ,161 2,570 ,011
Obtenemos por tanto que el valor estimado para es -0.241, el valor estimado para
es -0.170 y el valor estimado para la constante c es 0.413. Si nos fijamos en la
significación, parece ser que todos los parámetros son necesarios para explicar el
modelo. Por tanto el modelo tiene la siguiente forma:
'
0.413 1 0.241 0.170


26
FACP de los residuos estimados para el modelo ARIMA(0,1,2))
Los residuos estimados no son ruido blanco, ya que para los primeros retardos se
observa que se salen de las bandas de confianza. Por lo tanto, no se puede concluir que
el modelo es adecuado para predecir.

27
GL residuales 144
Suma de cuadrados
276,366
residual corregida
Suma de cuadrados
284,989
residual
515,997
de Akaike (AIC)
524,969
Schwarz (BIC)
, , y la constante c:

Retardos no AR1 ,769 ,249 3,090 ,002
estacionales AR2 ,046 ,135 ,336 ,737
MA1 ,558 ,239 2,337 ,021
Constante ,390 ,260 1,497 ,137
Obtenemos por tanto que el valor estimado para es -0.241, el valor estimado para
es 0.046, el valor de es de 0.558 y el valor estimado para la constante c es 0.390. Si
nos fijamos en la significación, parece ser que el parámetro y la constantes no son
necesarios para explicar el modelo. Por lo tanto este modelo no es bueno para explicar
este conjunto de datos.
Para determinar cuál de los tres modelos es mejor, nos vamos a basar en la comparación
del criterio de Akaike. Para el modelo ARIMA(1,1,1) el valor AIC es de 507.609. Para
el modelo ARIMA(2,1,0) el valor AIC es de 511,008. Para el modelo ARIMA(0,1,2) el
valor AIC es de 515,997. Por tanto, el mejor modelo para estimar la serie es el modelo
ARIMA(1,1,1) ya que tiene un valor AIC menor al de los otros modelos.
PASO 4: Predicción.
En los pasos anteriores hemos obtenido el modelo y además hemos comprobado

su idoneidad para poder predecir.
La fórmula de predicción para el modelo obtenido es:
'G> 4
0.313 "'G> 4 1 'G> 4 2# 'G> 4 1 0.296 0.122
̂> 4 1 ̂> 4

28
predecir el valor de la serie ' para t = 149 y para t = 150, es decir, 'G> 1
'G>= y
Se dispone de datos hasta el tiempo T y se quieren realizar dos predicciones. Se quiere
'G> 2
'G>=. Para el cálculo de las predicciones basta con sustituir k = 1 y k = 2 en la
fórmula de predicción.
Para k = 1 la fórmula de predicción queda:
'G> 1
0.313 "'G> 0 'G> 1# 'G> 0 0.296 0.122 ̂> 0 ̂> 1
Donde
'G> 0
'>
261.8 es el valor real de la serie ' en el tiempo T.
'G> 1
'>
262.8 es el valor real de la serie ' en el tiempo T-1.
̂> 0
̂>
1.0358 es el valor de la serie de residuos ̂ en el tiempo T.
̂> 1
̂>=
0 es el valor de la serie de residuos de ̂ en el tiempo T+1.
Sustituyen cada uno de los valores se calcula la predicción para t = 149, 'G> 1. El valor
obtenido para la predicción es 'G> 1
261.66.
Para k = 2 la fórmula de predicción queda:
'G> 2
0.313 "'G> 1 'G> 0# 'G> 1 0.296 0.122 ̂> 1 ̂> 2
Donde
'G> 1
'G>=
261.66 es el valor predicho de la serie ' en el tiempo T+1.
'G> 0
'>
262.8 es el valor real de la serie ' en el tiempo T.
̂> 1
̂>=
0 es el valor de la serie de residuos ̂ en el tiempo T+1.
̂> 2
̂>=
0 es el valor de la serie de residuos de ̂ en el tiempo T+2.
Sustituyen cada uno de los valores se calcula la predicción para t = 150, 'G> 2. El valor
obtenido para la predicción es 'G> 2
261.91.
Calculamos los errores obtenidos al realizar cada una de las predicciones. El error se
calcula a través de la siguiente expresión:

29
|'G>=2 '>=2 |
~>=2
'>=2
predichos de la serie ' :

Vamos a presentar una tabla con estos errores, junto con los valores reales y los
Valor Real Valor Predicho Error (%)

261.2 261.66 0.2
262.7 261.91 0.3
Calculamos el error total mediante la siguiente expresión:
∑2|'G>=2 '>=2 |
~
∑2 '>=2
Se obtiene un error total de 0.25 %.

30
3.MODELOS ARCH Y GARCH
3.1.MODELO ARCH
En la práctica los modelos del tipo lineal de series de tiempo tales como
ARIMA(p,d,q) o los modelos causales de regresión lineal, no siempre resultan los más
adecuados para analizar y predecir adecuadamente un proceso real. Por tal motivo se
han propuestos modelos no lineales con la consecuencia de desarrollar métodos de
estimación apropiados para estos casos así como los test que permitan validar los
resultados.
Muchas series temporales económicas, y especialmente series financieras, muestran

cambios en los momentos condicionados de segundo orden. Estos cambios tienden a
estar correlacionados serialmente, en el sentido de que cambios de gran magnitud en el
valor de la serie son seguidos por grandes cambios (periodos de mucha volatilidad)
mientras que a cambios pequeños en el valor de la serie les siguen cambios pequeños
(periodos de poca volatilidad). Es decir, esto se traduce, en la presencia de correlaciones
positivas en la serie de los cuadrados. Además se produce un exceso de curtosis o la
ausencia de correlación en los niveles. Fue Engle quien proporcionó una serie de
modelos que tratan de representar este comportamiento de la serie.
La formulación básica de estos modelos consiste en modelizar la serie ~ según la

siguiente ecuación:
~

Donde (proceso de ruido blanco formado por variables aleatorias normales

independientes de media cero y varianza unidad) y (factor denominado volatilidad)
son procesos estacionarios independientes entre sí.
La condición de independencia entre H , garantiza que la serie ~ tenga media

marginal igual a cero:
e~
e
e e
0
Y lo mismo ocurre con la media condicional que es nula:
e~ |~
e |~ e
0
La varianza marginal de ~ tiene que ser constante, . Esta varianza se calcula como:
e~
e
e e
1

Sin embargo la varianza condicionada no es constante:
&~ |~
e |~ e


31
siendo
e |~
e
1
Por tanto, , representa la varianza condicionada de la serie en cada instante , que va

variando con cierta estructura estacionaria.
La condición de independencia entre H , además de garantizar que la serie ~ tenga

media marginal igual a cero, nos garantiza que la serie ~ carezca de autocorrelación y
forme un proceso de ruido blanco. Sin embargo, la serie ~ no es de variables
independientes.
A continuación vamos a estudiar el comportamiento de este modelo en los casos más

simples: modelo ARCH(1) (la varianza condicional depende de un retardo de la serie),
errores provenientes de un modelo de regresión dinámico dado por ~

' @ donde
como es lógico, este ruido blanco podría tomarse como el comportamiento de los
' es un vector de variables predeterminadas que incluye los términos de ~ en periodos

anteriores y @ el vector de parámetros que tendría que estimarse, este modelo de
regresión se denomina modelo de regresión ARCH, en el sentido de que ahora es el
término de error de un modelo de regresión el que adopta una estructura ARCH, y
consideraremos r retardos y describiremos el modelo ARCH(r).
3.1.1.MODELO ARCH(1)
Para el modelo ARCH(1), su varianza condicional tiene una estructura
similar a un AR(1), y por tanto solo depende del último valor observado:

e~ |~
R ~

donde R 0 (corresponde a la mínima varianza condicional observada) y 0 ` ` 1

(es una condición necesaria y suficiente para la existencia de la varianza incondicional y
la condicional).
Por tanto, esta ecuación establece que si el valor de ~ es alto, la varianza de la

siguiente observación condicionada a este valor será también alta. Esto va a producir
correlación entre los cuadrados de la serie, provocando rachas de valores de magnitud
relativamente elevada o con mayor varianza. Pero como la media marginal y la
que aparezca un valor pequeño de ~ , que disminuirá la varianza condicionada de la

condicionada vale cero, aunque la varianza condicionada sea alta, siempre es posible
observación siguiente y facilitará que la siguiente observación sea pequeña en valor

absoluto. De manera que la serie puede presentar rachas de valores altos, pero
globalmente será estacionaria.
debe de ser mayor que R y será tanto mayor cuanto mayor sea el coeficiente que
La varianza marginal de la serie es el promedio de las varianzas condicionadas, que

32
transmite el efecto de la última observación. Si llamamos a

e~ a la varianza
marginal, entonces:

ene~ |~ p
R en~
p 5

Siendo e~
e~
y sustituyendo en 5 obtenemos:
R

0 ` q 1
1
Además, el modelo ARCH(1), establece dependencia de tipo AR(1) entre los cuadrados
de las observaciones, por tanto:
~
R ~ E
(Nota: E
~ es un proceso de ruido blanco, formado por variables estacionarias
incorreladas de media cero y varianza marginal constante).
Si llamamos ; 4 a la función de autocorrelación de los cuadrados de la serie, donde el

subíndice c se refiere a los cuadrados, se obtiene:
; 4
; 4 1
de un AR(1) con parámetro .

que indica que las autocorrelaciones de los cuadrados de las series tienen la estructura
Este modelo, una curtosis igual a:
3R 1 6R 1
F
R 1 3
Como 0, este coeficiente de curtosis es siempre mayor que 3, y puede ser mucho
mayor. Por lo tanto, la distribución marginal tendrá colas pesadas.
En resumen:
- Las esperanzas marginal y condicional son iguales a cero.
La varianza condicional depende de los valores que haya tomado ~

- La varianza marginal es constante
- luego no
es constante.
- La distribución marginal del proceso ARCH(1) tiene una forma desconocida.
3.1.2.MODELO ARCH(r)
varianza condicional con r retardos. De manera que el modelo ARCH(r) para ~

,
El modelo anterior puede generalizarse permitiendo una dependencia de la
la varianza condicional

R ~

t ~ t


33
donde R 0 (corresponde a la mínima varianza condicional observada) y 0 ` ` 1

(es una condición necesaria y suficiente para la existencia de la varianza incondicional y
la condicional).
En este proceso las posibilidades de rachas de alta volatilidad depende de los r últimos
valores. La varianza marginal:
&~
e~
ene~ |~ p
R 1 e~

Por tanto:
R
&~
1 t
siendo ∑t q 1.
Si introducimos E
~ , como en el caso del proceso ARCH(1), será un proceso
de ruido blanco, formado por variables estacionarias incorreladas de media cero y
varianza marginal constante, podemos expresar la dependencia de los cuadrados de las
observaciones como un proceso AR(r):
~
R ~

t ~ t

E
de ~ exige que:
Estas variables no son independientes entre sí ni de los regresores, ya que la positividad

E R ~ t ~ t
Así en un modelo ARCH(r) se verifica que:
- Es un proceso de ruido blanco pero no es independiente y no está idénticamente

distribuido.
- Las esperanzas condicional y no condicional son iguales a cero.
La varianza condicional depende de ~ , ~ , … , ~ t luego no es constante.

- La varianza no condicional es constante.
-
3.2.MODELO GARCH
Un rasgo común a muchas de las primeras aplicaciones empíricas de los
modelos ARCH es que requieren un gran número de parámetros autorregresivos y, para
representar adecuadamente el comportamiento dinámico de la varianza, se imponía una
estructura fija de retardos. Con el fin de flexibilizar estas restricciones Bollerslev (1986)
propuso el modelo ARCH generalizado o GARCH.
La generalización del modelo ARCH al modelo GARCH tiene gran similitud con la
extensión de los procesos autorregresivos, AR, a los autorregresivos de medias móviles,
considera que la varianza, , además dependen de las observaciones pasadas de ~ ,

ARMA, permitiendo una representación más parsimoniosa de la volatilidad. Bollerslev

34
número de retardos p de , de forma que la varianza condicional se define entonces

depende también de su propio pasado. Esta dependencia se expresa incluyendo cierto
como:
t

R 1 ~

1 @

6

donde R 0, N 0, i = 1,…,r, @ N 0, j = 1,…,p aunque estas restricciones se

establecen para garantizar que la varianza sea positiva, Nelson y Cao (1992) demuestran
débiles. En concreto demuestran que si el modelo GARCH de la ecuación 6 admite

posteriormente que la positividad de la varianza está asegurada bajo condiciones más
una representación ARCH∞, es suficiente exigir que los coeficientes del polinomio
de retardos en dicha representación sean todos positivos. El nuevo modelo se denomina
las condiciones de estacionariedad, probando que ~ es débilmente estacionario con

GARCH(p,r), y se reduce al ya conocido ARCH(r) cuando p = 0. Bollerslev establece
e~
0, &~
∑¤ ] ∑¡ H ¥PE~ , ~-
0 && . ¦ $, §
]
¢£ ¢£
∑t ∑ @ q 1.
definimos E
~ será un proceso de ruido blanco formado por variables
Es importante la relación que existe entre los modelos GARCH y ARMA ya que, si
estacionarias incorreladas de media cero y varianza marginal constante, podemos

expresar la dependencia de los cuadrados de las observaciones del modelo GARCH
como un proceso ARMA, según la siguiente ecuación:
c7,t
~
R 1 @ ~

E 1 @ E

3.2.1.MODELO GARCH(1,1)
Muchos trabajos con series financieras, muestran que el más sencillo de los
modelos GARCH, el GARCH(1,1), es suficiente para modelizar con éxito los cambios
temporales en la varianza condicional, incluso sobre periodos muestrales largos. El
modelo GARCH(1,1) se obtiene cuando p = r = 1, de forma que la varianza
condicionada queda:

R ~

@

con R 0, N 0, @ N 0. Si @ q 1, la serie ~ tiene varianza finita, y por ser

una martingala en diferencias, es ruido blanco, de media cero y varianza

35
R
&~
1 @
Además, Bollerslev prueba que si @ 2 q 1,el momento de orden 4 de ~

existe y es finito, y la curtosis de ~ es
e~ o 3n1 @ p

F

ne~ p 1 2 @
Cuando @ q 1, este valor es mayor que 3 y, por tanto, el proceso GARCH(1,1)

estacionario es leptocúrtico, propiedad que comparte con el modelo ARCH(1).
Si p = r = 1, la ecuación se escribe como:
~
R @ ~

E @ E
~ , cuya función de autocorrelación será:

el modelo GARCH(1,1) puede interpretarse como un proceso ARMA(1,1) para la serie
1 1 1 @1 @21
; 1
1 21 @1 @1
2
Mientras que
; 4
@ 2 ; 1, 41
3.2.2.MODELO IGARCH
sistemática la obtención de un valor estimado de @ prácticamente igual a uno, en

En las aplicaciones de modelos GARCH(1,1) a series financieras, es casi
especial si la frecuencia de observación es alta. Por ejemplo, los trabajos de Engle y

Bollerslev (1986), Bollerslev (1987), Baillie y DeGennaro (1989) y Hsieh (1989) con
(1992) con índices de bolsa, y otros trabajos encuentran siempre valores de G @C
series de tipos de cambio, Chou (1988), Baillie y DeGEnnaro (1990) y Poon y Taylor
superiores a 0’9. Teniendo en cuenta la forma de la función de autocorrelación de ~ , un

valor de @ próximo a uno significa que dicha función apenas decrece, indicando
que los cambios en la varianza condicional son relativamente lentos y, por tanto, los
shocks (cambios bruscos) en la volatilidad persisten. Esta propiedad es interesante
porque refleja precisamente una de las características típicas de las series financieras:
aunque la serie original está incorrelada, existe correlación en la serie de los cuadrados
y, además, estas correlaciones decrecen lentamente, mostrando valores
significativamente distintos de cero incluso para retardos altos.
modelo GARCH(1,1) en el que se imponga la condición @

1. El modelo
Los resultados de los trabajos mencionados anteriormente justifican el interés de un

36
resultante, denominado GARCH integrado IGARCH, fue propuesto por Engle y

Bollerslev (1986) y en él la ecuación para la varianza condicionada es:

R

~

El modelo ya no es débilmente estacionario, porque su varianza marginal no es finita.

Sin embargo, se prueba fácilmente que la ecuación admite una representación de la
∆~
R E @E
forma:
Donde ∆ es el operador de primeras diferencias, y E

~ es un proceso de ruido
blanco, formado por variables estacionarias incorreladas de media cero y varianza
marginal constante.
MA(1) estacionario para las primeras diferencias de ~ , lo que indica cierta analogía del
La ecuación anterior permite interpretar el modelo IGARCH(1,1) como un proceso
modelo IGARCH(1,1) con el proceso ARIMA(0,1,1). Sin embargo, existen diferencias

significativas entre ellos.
3.2.3.MODELO EGARCH
Nelson (1991) observó ciertas limitaciones en los modelos GARCH:
- Las condiciones impuestas sobre los parámetros para asegurar que no sea
negativo son violadas en algunas aplicaciones empíricas.
- El modelo GARCH es incapaz de modelizar una respuesta asimétrica de la
volatilidad ante las subidas y bajadas de la serie.
Con el fin de solventar estas deficiencias, Nelson propuso un nuevo modelo GARCH
exponencial o EGARCH.
la ecuación de la volatilidad en términos de logaritmo de , mediante una

El modelo EGARCH garantiza la no negatividad de la varianza condicional formulando
representación lineal del tipo:

t
©Y
ª 1 0 ©Y"

# « 1 Ψ « 7

Donde «
| | e| |. A través de esta función g, que depende del
signo y de la magnitud de , el modelo EGARCH puede capturar una respuesta
asimétrica de la volatilidad ante innovaciones de distinto signo, permitiendo así
modelizar un efecto contrastado empíricamente en muchas series financieras: las malas
noticias (rendimientos negativos) provocan mayor aumento de la volatilidad que las
buenas noticias (rendimientos positivos).

37
Por construcción, las perturbaciones « son variables independientes e idénticamente

distribuidas con media cero y varianza constante, y por tanto 7 puede considerarse
como una representación ARMA para la serie ©Y .
3.3.CONSTRUCCIÓN DE LOS MODELOS

Vamos a seguir los siguientes pasos para la construcción de estos modelos:
identificación, estimación de los parámetros y diagnosis y validación.
PASO 1: Identificación de los términos del Modelo
La identificación de los modelos ARCH y GARCH, se efectúan después de

ajustar un modelo ARIMA a la serie. Si existen efectos ARCH, los residuos del modelo
ARIMA estarán incorrelados pero no serán independientes y este efecto será visible en
la función de autocorrelación de los residuos al cuadrado, que mostrarán correlación
serial. Además, si calculamos los coeficientes de autocorrelación parcial de los residuos
al cuadrado y el modelo para los residuos es ARCH puro, el número de términos
distintos de cero nos indicará, aproximadamente, el orden del proceso.
Para detectar estructuras en los cuadrados podemos acudir a los contrastes de

McLeod y Li (1983) y Peña y Rodríguez (2006). Además de estos contrastes generales,
que sirven para detectar una estructura general no lineal, pueden utilizarse contrastes
específicos para detectarla.
PASO 2: Estimación de los parámetros del Modelo
En cuanto a la estimación de los modelos, todas las metodologías giran en torno

a la aplicación de dos: la primera es la de Máxima Verosimilitud y la segunda es el
método de momentos generalizados, ambos superan los inconvenientes que presenta el
método de mínimos cuadrados, en cuanto a su ineficacia para identificar el proceso que
gobierna la evolución de la varianza, además ambos se aplican partiendo del modelo de
regresión ARCH.
- Estimación de los parámetros del modelo ARCH: Vamos a describir la

estimación de los parámetros a través del método de máxima verosimilitud. Para
ello, se construye la función de verosimilitud utilizando la descomposición del
error de predicción. Maximizando esta función se obtienen los estimadores
máximo verosímiles. Como es habitual en modelos de series temporales, la
condicionadas. Asumiendo que las perturbaciones en ~

, son variables
función de verosimilitud se construye como el producto de las densidades
aleatorias independientes e idénticamente distribuidas con distribución N(0,1),
condicionada ~ |~ es N(0, ). Por tanto, la expresión del logaritmo de la

los modelos ARCH son condicionalmente gaussianos y la distribución
¹ ¹ ¹
T 1 1 e´
función de verosimilitud resulta ser:

ln Lθ
1 ln fe´ ; θ|e´
ln 2π 1 ln σ´ 1

2 2 2 σ´
´ ´ ´

38
donde θ es el vector de parámetros desconocidos del modelo y fe´ ; θ|e´

denota la densidad condicionada de e´ dadas las observaciones previas hasta el
instante t-1.
Bajo ciertas condiciones de regularidad se demuestra que, si los

momentos de primer y segundo orden están correctamente especificados, los
estimadores máximo verosímiles son consistentes y asintóticamente normales.
Para facilitar los cálculos vamos a considerar el modelo ARCH(1). Su función

de verosimilitud es:
ºe , … , e¹ |R ,
ºe · ºe |e ºe¹ |e¹
donde las funciones de densidad ºe´ |e´ son normales. Como ~

, si
consideramos ~ , el valor de es una constante y la única variable es que
tiene distribución normal. La media condicionada de la distribución ºe´ |e´
es cero, y la varianza σ´
R e´. La log-función de verosimilitud
condicionada a e será:
Le , … , e¹ |αR , α
¹ ¹
T1 1
1 e´

ln 2½ 1 lnR ~ 1
2 2 2 αR α e´
´ ´
Derivando respecto a los parámetros, llamando σ

¾´
GR G e´ e igualando a
cero se obtienen las ecuaciones:
Â 1 e´
1 1

À ¾σó σ
¾´ Q
Á e´ e´ e´

À1
1
¿ ¾σ´ σ
¾ó
Multiplicamos y dividimos el primer miembro por GR G e´ y obtenemos:
Â 1 e´ e´
À GR 1
G 1
1
¾σó ¾σó ¾σó Q

Á e´ eo´ e´ e´

ÀGR 1 ó G 1 ó
1
¿ ¾σ ¾σ σ
¾ó
Resolviendo este sistema obtenemos la estimación de GR y G .

son las ecuaciones mínimo cuadrados para obtener los parámetros del modelo.
- Estimación de los parámetros del modelo GARCH: Vamos a explicar, al

igual que en el caso anterior, la estimación de los parámetros a través del método
de máxima verosimilitud.

39
Para ello vamos a considerar el modelo GARCH(r,s), donde N ., vamos a

definir la función de verosimilitud de un proceso estacionario ª , llamando a
Ã
ª , … , ª :
ºª , … , ª |
ºªh |Ãh ºªh |Ãh … ºªt= |Ãt ºª , … , ªt |
"ª eª |Ã #
h
1

Ä ~' Æ Ç ºª , … , ªt |
Å2½σ´ 2σ´
t=
ya que la varianza condicional de las variables es σ´ . Condicionando a las

primeras r observaciones, que tienen una distribución más complicada, la
función soporte condicionada es:
"ª eª |Ã #
h h
1 1

Èªt= , … , ªh |, Ãt
1 ln σ´ 1
2 2 σ´
t= t=
Que puede maximizarse con un algoritmo de optimización no lineal para obtener

los estimadores de los parámetros que aparecen en la media condicional y en la
varianza condicional.
Por tanto, la estimación puede realizarse en dos etapas ya que la correlación entre los
parámetros ARMA y la de los GARCH suele ser pequeña.
Primera Etapa: se estiman los parámetros de la media condicional, es decir, el

modelo ARMA, y se construyen las innovaciones
~
ª eª |Ã
Segunda Etapa: se estiman los parámetros de la varianza condicional

maximizando la verosimilitud de los residuos. Alternativamente se pueden
calcular las ecuaciones de la media condicional y la varianza condicional
conjuntamente, con lo que se obtiene una estimación más precisa.
PASO 3: Diagnosis.
Vamos a llamar ~ a los residuos del modelo ARIMA y G a las varianzas

condicionadas estimadas, los residuos estandarizados ~ ⁄ G , deben seguir un proceso
de ruido blanco normal y podemos aplicarles los contrastes para los procesos ARIMA.
Sus cuadrados no deben mostrar dependencia, esto se puede comprobar con los
contrastes sobre autocorrelación de los cuadrados: Durbin Watson, Wallis, h-Durbin,
Breusch-Godfrey y Cochrane-Orcutt.
En la diagnosis de los modelos, hay que tener en cuenta la posible confusión entre
valores atípicos y heterocedasticidad condicional. Los valores atípicos pueden
interpretarse como un aumento de la varianza en ese instante y especialmente si
aparecen en rachas, puede confundirse con efectos de heterocedasticidad condicional.

40
Por otro lado, la serie que sigue un modelo ARCH puede mostrar muchos valores
atípicos si se analiza como si tuviese varianza constante y siguiese un modelo ARMA.
Por lo tanto, es importante
tante diferenciar ambos fenómenos.
En la práctica, se suele limpiar la serie inicialmente de las observaciones que

presentan residuos tan grandes que no pueden ser debidas a heterocedasticidad
condicional y que son muy probablemente valores atípicos. Una regla simple y efectiva
es que es muy poco probable que la heterocedasticidad condicional pueda generar
observaciones con residuos mayores de siete desviaciones típicas, y considerar estos
datos como atípicos. A continuación se estima los efectos AR.
AR
3.4.EJEMPLO MODELO GARCH

Consideramos la serie mensual de rentabilidades del Index S&P
S& 500 a partir de 1926
para 792 observaciones. Presentamos a continuación la representación de la serie:
Vamos a denotar a la serie de rentabilidades por . A continuación presentamos la FAC

y la FAC parcial de la serie:

41

42
Observando estas funciones, nos damos cuenta que para los primeros retardos, más
concretamente para el primero y el tercero se salen fuera de las bandas de confianza.
confianza
Presentamos
entamos a continuación la FACP de :
Podemos observar que existe una fuerte dependencia lineal.
Si consideramos como buen modelo un MA(3) obtendríamos:

Retardos no MA1 -,095 ,035 -2,685 ,007
estacionales MA2 -,010 ,035 -,268 ,789
MA3 ,141 ,035 3,999 ,000
Constante ,006 ,002 3,115 ,002
Y el modelo quedaría:
Siendo .

43
Para simplificar vamos a usar un AR(3) cuya expresión es:

k k &
Realizando los cálculos con SPSS obtenemos:

Estimaciones Error típico T Sig. aprox.

Retardos no AR1 ,089 ,035 2,513 ,012
estacionales AR2 -,024 ,036 -,670 ,503
AR3 -,123 ,035 -3,466 ,001
Constante ,006 ,002 3,168 ,002
El modelo quedaría de la siguiente forma:

0.089 0.024 0.123 k 0.006 &
Siendo G
0.003
Vamos a crear un modelo GARCH(1,1):
&

R @

&

Una estimación conjunta de AR(3)-GARCH(1,1) da:

0.0078 0.032 0.029 0.008 k &

0.000084 0.1213&

0.8523

De la ecuación de la volatilidad, la varianza implícita incondicional de & :

0.000084

0.00317
1 0.8523 0.1213
La cual es similar a G

0.003 del modelo AR(3). Sin embargo la proporción de
parámetros en la ecuación significa que sugieren que los tres coeficientes de AR no son
significativamente con un nivel del 5 %. Por tanto, se perfecciona el modelo dejando
caer todos los parámetros AR. El modelo refinado:

0.0076 & ,
0.000086 0.121&

0.8511

La desviación típica de la media es constante 0.0015, mientras que los parámetros de la
no condicional de & es:

ecuación de volatilidades son 0.000024, 0.0197 y 0.0190, respectivamente. La varianza
É. ÉÉÉÉÊË

É. ÉÉÏÌÐ
Ì É. ÊÍÌÌ É. ÌÎÌË
proceso de volatilidades estimado :

Esto es un modelo estacionario simple GARCH(1,1). La siguiente gráfica muestra el

44
A continuación mostramos la representación de los saltos de la varianza de la

varianza
ianza para el modelo GARCH(1,1):
La serie parece ser un proceso de ruido blanco. Esto lo vemos en la representación

representaci de
las FAC de los residuos de y de :

45
Estas FAC no sugieren ninguna correlación significativa serial o heterocedastica

condicional en la serie de residuos. Más específicamente, tenemos que Q(12)= 11,99
(0.45) y Q(24)=28.52 (0.24) para y Q(12)=13.11 (0.36) y Q(24) = 26.45 (0.33) para
, donde el número entre paréntesis es el p-valor
p valor de la estadística de prueba. Así, el
modelo parece ser adecuado parap describir la dependencia lineal
neal en el retorno y la serie
de volatilidades. Hay que tener en cuenta que el modelo ajustado muestra
, que es cercano a 1. Este fenómeno se observa con frecuencia en la práctica
prác y
lleva a la imposición de la restricción en un GARCH(1,1), resultando en
un sistema integrado de GARCH ( o IGARCH) modelo. Finalmente para predecir la
volatilidad de los rendimientos mensuales superiores a los S & P 500, podemos usar usa la
ecuación
ación de volatilidades en la ecuación
Teníamos que
El paso 1 de predicción es:
Donde es la ecuación residual de la media en un tiempo h y se obtiene de la

ecuación de volatilidades. El valor inicial de se fija en cero o de la varianza
incondicional de . Para el siguiente poso utilizamos la fórmula recursiva. La tabla
siguiente
te muestra algunos pronósticos y la volatilidad de la publicación
ón mensual:
mensual

46
Asumiendo que se distribuye según una t-Student

t Student con 5 grados de libertad,
reestimamos el modelo GARCH(1,1):
Donde el error paramétrico es de 0.0015, , 0.0296 y 0.0371,

respectivamente. Este modelo es un IGARCH(1,1), verificando que el
cual es cercano a 1. El estadístico residual de Ljung-Box
Ljung Box da Q(10)=11.38 con un p-valor
p
de 0.33 y estos de la serie da Q(10) =10.48 con un p-valor
valor de 0.40. Por tanto, el
modelo GARCH(1,1) con una distribución T-Student
T es adecuado.

47
4.MODELOS SV
Una forma alternativa de modelizar los cambios temporales en la volatilidad es a
En estos modelos, σ´ no depende de las observaciones pasadas de la serie, sino de una
través de los modelos de volatilidades estocásticas SV introducidos por Taylor (1986).
variable no observable, que habitualmente es un proceso estocástico autorregresivo.
se define para el logaritmo de σ´ , al igual que en el modelo EGARCH.

Para garantizar la positividad de la varianza, la ecuación de la volatilidad, la volatilidad
Los modelos SV encajan mejor con la teoría financiera y se generalizan bien al

caso multivariante. Sus propiedades dinámicas son fáciles de obtener e interpretar a
partir de las del proceso estocástico subyacente, pero desafortunadamente, la estimación
es más difícil que en los modelos ARCH, al no poderse construir fácilmente la función
de verosimilitud de forma exacta. Esto conlleva la utilización de métodos de estimación
como pseudo-máxima verosimilitud, máxima verosimilitud simulada o el método
generalizado de los momentos, entre otros.
A continuación vamos a describir el modelo SV autorregresivo de orden 1.
4.1.MODELO SV(1)
GARCH, ~
, donde los errores (proceso de ruido blanco formado por
La ecuación estructural de estos modelos es idéntica a la de los modelos
variables aleatorias normales independientes de media cero y varianza unidad). A

diferencia de los GARCH donde la varianza depende de factores observables, en este
modelo se supone que los logaritmos de las varianzas condicionales siguen un proceso
AR, para nuestro caso un AR(1) tal que:
©Y σ´
R ©Y σ´ Ñ
Donde | | q 1. Llamando Ò

©Y σ´ este proceso es un AR(1) con ruidos normales,
por lo que la distribución de la variable Ò será también normal. Los parámetros de la
distribución marginal son los de un AR(1), es decir, la media es ÓÔ
] y la varianza
]
£
ÖØ×
σÕ
] . Entonces la σ´ será lognormal y puede demostrarse que:
£
ÖØÛ
e~
~ ÙÚ
~
El coeficiente de curtosis es:
4
3~ ÖÛ
Ø
que será siempre mayor que 3, que al igual que en los modelos ARCH, tienen un
comportamiento leptocúrtico. Este modelo tiene también la capacidad de generar
en la volatilidad, medida por el parámetro .

distribuciones con colas pesadas, pero no está ligado necesariamente con la persistencia

48
La estructura de correlación de los cuadrados de este modelo es:
~' "σÕ 2 # 1

4
4N1
3~'σÕ 1
Si la varianza σÕ es pequeña, puede demostrarse que esta expresión implica un

decaimiento similar a un AR(1) con parámetro .
Por tanto, al ser el modelo SV una martingala en diferencias, trae como consecuencia
que:
e~
0 H ¥PE~t , ~-
0 && ¦ .
Las condiciones para que ~ sea estacionario es que || q 1.

49
5.CONTRASTES DE AUTOCORRELACIÓN.
Para detectar la presencia de autocorrelación se pueden utilizar métodos gráficos

(ya estudiados anteriormente) y contrastes de hipótesis. A través de los contrastes
gráficos se intuirá si existe autocorrelación cuando existan comportamientos
sistemáticos para los residuos.
Los contrastes de hipótesis, por su parte, permiten, a través de una regla de decisión,
considerar si con los datos de la muestra y con un nivel de significación (α) concreto se
debe o no rechazar la hipótesis nula.
Todos los contrastes numéricos de autocorrelación se plantean con idénticas hipótesis;

así, podemos señalar que la forma general del contraste es:
HR : No existe autocorrelaciónQ
Ü
H : Existe autocorrelación
En la hipótesis nula se considera que el término de perturbación correspondiente a una

observación es independiente del correspondiente a cualquier otra observación. En la
hipótesis alternativa se señala que el término de error de un modelo econométrico está
autocorrelacionado a través del tiempo. Esta hipótesis alternativa, al considerar la
existencia de un patrón de comportamiento para los residuos, se puede especificar con
procesos autorregresivos AR(p), de medias móviles MA(q) o mixtos ARMA(p,q)
dependiendo del contraste que se vaya a utilizar.
Se presentan a continuación distintos contrastes que permiten detectar si las

perturbaciones están o no autocorrelacionadas y, en caso de estarlo, bajo qué esquema.
5.1.CONTRASTE DE DURBIN-WATSON (1951)

El contraste desarrollado por Durbin y Watson es la prueba más frecuentemente
empleada para detectar la presencia de autocorrelación en los modelos de regresión.
Este contraste permite verificar la hipótesis de no autocorrelación frente a la alternativa
de autocorrelación de primer orden bajo un esquema autorregresivo AR(1), es decir,
'
'
Analíticamente el contraste se especifica del siguiente modo:
HR :
0 Q
Ü
H : 0 q | | q 1
La forma concreta de la hipótesis alternativa establece unas cotas para el coeficiente de

correlación; éstas son necesarias para garantizar algunas características del modelo, en
concreto que la varianza sea finita.

50
El estadístico de contraste viene dado por
∑h ~ ~
d
∑h ~
A partir de este estadístico se puede interpretar que:
• Si hay autocorrelación positiva las diferencias entre residuos que distan un

periodo es muy pequeña por lo que el valor del estadístico d será próximo a
cero.
• Si hay autocorrelación negativa los residuos serán prácticamente iguales pero de

signo contrario, su diferencia será por tanto grande y el estadístico será más
próximo al límite superior que, como se verá, se establece en cuatro.
• Si no hay autocorrelación, la relación entre los residuos será intermedia y por

tanto, el valor del estadístico experimental también alcanzará un valor
intermedio.
Para establecer los límites de variación del estadístico d la fórmula anterior se puede
muestral de primer orden para los residuos ;G:

desarrollar obteniéndose una expresión en función del coeficiente de autocorrelación
∑h ~ ~ ∑h ~ ~

2~ ~
d

∑h ~ ∑h ~
∑ ~ ∑ ~ 2 ∑h ~ ~
h h

∑h ~
cuando el tamaño de la muestra es grande, se puede considerar que ∑h ~ ì

∑h ~

ì ∑h ~ entonces el estadístico d se puede expresar como:
∑h ~ 2 ∑h ~ ~
dì ,
∑h ~
y dado que el coeficiente de correlación empírico de primer orden se calcula como
∑h ~ ~
;G
,
∑h ~
entonces el estadístico experimental se puede expresar por
d ì 21 ;G,
empírico,1 ` ;G ` 1, se puede deducir el rango de variación del estadístico de Durbin-

Teniendo en cuenta los límites de variación del coeficiente de correlación
Watson y el signo de la autocorrelación:

51
Por tanto,, se aprecia que el estadístico experimental tomará valores entre 0 y 4 de tal
modo que cuánto más próximo a cero (a cuatro) sea el valor del estadístico d mayor es
la evidencia de autocorrelación positiva (negativa). Si el valor del estadístico
experimental d es dos, entonces la correlación muestral será nula y por tanto no se
detectará un problema de autocorrelación entre las perturbaciones.
No obstante, estos valores (0, 2 y 4) son límites extremos que deben matizarse
estableciendo regiones más amplias en las que pueda considerarse si existe o no
autocorrelación y, en caso de detectarse, si ésta es positiva o negativa.
negativa. En este sentido es
necesario precisar que la distribución teórica de este estadístico no es sencilla y depende
de los valores concretos de la matriz de regresores; por tanto, no existe un valor crítico
único que permita establecer una regla de decisión.
decisión. Para solucionar esta dificultad
Durbin y Watson hallaron unos límites superior (du) e inferior (dL) que permiten tomar
decisiones acerca de la presencia o ausencia de autocorrelación.
Estos valores señalan el límite superior (du) para considerar autocorrelación

relación positiva, es
decir, para valores del estadístico experimental superiores a este límite no se rechaza la
hipótesis de ausencia de autocorrelación, y el límite inferior (dL) para no rechazar la
hipótesis nula y suponer que las covarianzas de las perturbaciones
perturbaciones del modelo son nulas
y, por tanto, no están autocorrelacionadas.
Si el valor del estadístico d es superior a dos se puede contrastar la hipótesis nula de no

autocorrelación frente a la alternativa de autocorrelación negativa. El análisis es similar
si
pero considerando el valor máximo de 4 como límite para la autocorrelación negativa
por tanto los límites anteriores se establecen en los puntos 4-d
4 u y 4-dL.
Gráficamente se pueden señalar las regiones del contraste en el siguiente segmento:
Por lo tanto:
0 < d < dL se rechaza H0, existe entonces autocorrelación positiva con un esquema AR(1)
4- dL < d < 4 se rechaza H0, existe autocorrelación negativa con un esquema AR(1)

52
du < d < 4-du no se rechaza H0, no existe autocorrelación

dL < d < du el contraste no es concluyente
4-du < d < 4-dL el contraste no es concluyente
Estos límites dependen del tamaño de la muestra (n) y del número de regresores del
modelo (k). Las tablas originales sirven para muestras entre 15 y 100 observaciones y
un máximo de 5 regresores. Años más tarde, Savin y White (1977) publicaron unas
tablas más completas que incluyen tamaños de muestra superiores, 5 < n < 200, y hasta
20 regresores.
El tratamiento empírico de este contraste requiere de las siguientes fases:
1) Estimación por mínimos cuadrados ordinarios (MCO) del modelo de

regresión
2) Cálculo de los residuos MCO
3) Obtención del estadístico d (experimental) de Durbin-Watson
4) Búsqueda de los niveles críticos del contraste
5) Aplicación de la regla de decisión
Un inconveniente que presenta este contraste es que a veces puede no ser concluyente,
por lo que hay que considerar, utilizando otros criterios, si existe o no autocorrelación.
En este sentido una solución clásica consiste en ampliar las regiones de rechazo
considerando así que existe autocorrelación positiva para valores de d inferiores a du y
autocorrelación negativa si los valores del estadístico experimental son superiores a 4-
du.
Este estadístico de uso frecuente, y también generalmente implementado en los

programas y aplicaciones informáticas de Econometría, se basa en un conjunto de
supuestos acerca de los cuales es necesario reflexionar.
- En primer lugar hay que señalar que el diseño original del contraste se basó en el
análisis de un modelo de regresión que incluía término independiente. No
obstante, este requisito exigible al modelo fue posteriormente resuelto. En 1980,
Farebrother calculó los valores críticos del contraste para los modelos en los que
no existe término independiente.
- Junto con la necesidad de término independiente en el modelo, es también un

requisito que la matriz de variables explicativas sea no aleatoria, esto es
determinista y fija en un muestreo repetido. Por tanto, este contraste no es válido
en modelos dinámicos que consideren como regresor retardos de la variable
dependiente.
- La hipótesis alternativa considera que, si las perturbaciones están

autocorrelacionadas, el proceso que las genera es autorregresivo de orden 1. Sin

53
embargo, se ha comprobado que este estadístico es robusto frente a otras

especificaciones de la hipótesis alternativa y, además permite detectar errores de
especificación derivados de falta de especificación dinámica y/o de la omisión
de variables que estén correlacionadas.
5.2.CONTRASTE DE WALLIS (1972)

Este contraste presenta una modificación del estadístico de Durbin-Watson para
los modelos que utilizan datos trimestrales en los que, dado el carácter estacional de
estas series, se espera que la perturbación de una observación concreta no esté
relacionada con la perturbación del periodo inmediatamente anterior sino que dependa
de autocorrelación sea '

' o .
de la perturbación del mismo trimestre pero del año anterior, es decir, que la estructura
El contraste plantea en la hipótesis nula la ausencia de autocorrelación:
HR :
0 No existe autocorrelación Q
Ü
H : 0 q || q 1 e'.$~ &?$PP~©&óY
Para verificar si esta estructura de autocorrelación es o no cierta Wallis propone una

modificación del estadístico de Durbin-Watson que denomina d4:
∑h í~ ~ o
do
∑h ~
Este estadístico también fue tabulado por Wallis bajo el supuesto de modelo de
regresión con un único término independiente y también para el caso de regresiones que
incluyan término independiente y variables ficticias estacionales (trimestrales). Al igual
que el contraste de Durbin-Watson, el estadístico d4 se ha tabulado suponiendo que la
matriz de regresores es no aleatoria y suponiendo también que el modelo tiene término
independiente.
Además de este contraste, King (1983) desarrolló otra modificación del estadístico de
Durbin-Watson. En este caso se obtuvieron los valores de los límites superiores (du) e
inferiores (dL) de autocorrelación para definir las regiones de rechazo, indecisión y no
rechazo cuando se trabaja con datos mensuales.
5.3.CONTRASTE DE DURBIN (1970)

El contraste de Durbin-Watson, como ya se ha especificado anteriormente,
impone como condición para su correcta interpretación que los modelos contengan
regresores exclusivamente no aleatorios; con lo cual no se puede aplicar en modelos
dinámicos en los que se considere como regresor algún retardo de la variable
dependiente. Para corregir esta deficiencia, Durbin desarrolló un estadístico que sí

54
puede aplicarse en estos modelos que incluyan retardos de la variable dependiente. En

este caso se ha obtenido un test asintótico para muestras grandes.
La formulación de las hipótesis nula continúa siendo la misma ya que sigue siendo un
contraste para la autocorrelación de orden uno bajo un esquema autorregresivo AR(1),
'
'
Analíticamente el contraste se especifica del siguiente modo:
La hipótesis nula en este caso se puede formular de la siguiente forma como:
HR :
0
Y la hipótesis alternativa, por su parte, se especifica ahora de modo que el contraste se

configure como un contrate unilateral; esto es, se van a establecer dos posibles hipótesis
alternativas según se considere que la autocorrelación puede ser positiva o negativa.
Así, el contraste quedaría especificado queda:
H :
0Q H :
0 Q
Ü R Ü R
H : q 1 H : 1
Y
El estadístico de contraste es:
Ò
;G_
1 Y&"A #
que se distribuye asintóticamente según una distribución N(0 ,1) lo que, con un nivel de
significación del 5%, supone no rechazar la hipótesis nula para los valores de h
pertenecientes al intervalo (-1.645; 1.645) ya que se trabaja con un contraste de una sola
cola.
Para el cálculo de este estadístico se necesitan conocer los siguientes datos:
1) Tamaño de la muestra (n)
2) Varianza muestral estimada del coeficiente del regresor aleatorio (Yt-1) en la
MRLNC [Var(A )].

regresión MCO del modelo a estimar; es decir, obtenida bajo el supuesto de
3) Coeficiente de correlación estimado (;G )

Este coeficiente de correlación estimado se puede calcular a partir de la
regresión MCO de los residuos frente a un retardo de los mismos (~

;~
estimación de una estructura autorregresiva de orden 1 para los residuos (una
)), es decir:

55
∑h ~ ~
;G
∑h ~

Otra posibilidad consiste en calcular esta correlación muestral a partir del valor
*
del estadístico de prueba del contraste de Durbin-Watson:
;G ì 1
2
El procedimiento de contraste requiere de la realización de las siguientes fases:
estimada del coeficiente del regresor aleatorio, Var(A ).

1) Estimación MCO del modelo de regresión y obtención de la varianza
2) Cálculo del coeficiente de correlación estimado.
3) Cálculo del valor del estadístico experimental h.
4) Aplicación de la regla de decisión. Si h > 1,645 se rechaza la hipótesis nula al

nivel de significación del 5% considerando entonces que existe autocorrelación
positiva de primer orden. Para el caso de autocorrelación negativa de primer
orden, el valor del estadístico experimental h debe ser inferior a -1,645.
esto es [n· Var(A ) > 1], entonces el test falla. Para estos casos Durbin propuso un
El principal inconveniente que tiene este contraste es que si el radicando es negativo,
procedimiento asintótico equivalente y que consiste en lo siguiente:
1) Estimar por MCO el modelo de regresión y obtener la serie de residuos MCO.
2) Estimar una regresión auxiliar en la que los residuos MCO se especifiquen

como función de todos los regresores del modelo y también se incluya como
regresor adicional un retardo de los residuos.
3) Analizar, utilizando el estadístico t habitual, la significación individual del

retardo de los residuos de la regresión auxiliar. Si el coeficiente del retardo del
residuo es significativamente distinto de cero entonces se considera que existe
autocorrelación de primer orden.
Este procedimiento sirvió de base para el contraste, más general, de Breusch-Godfrey

(1978) que como se verá a continuación permite contrastar la existencia de otras
estructuras de autocorrelación distintas a las autorregresivas de primer orden.
5.4.CONTRASTE DE BREUSCH-GODFREY (1978)

Los contrastes anteriores, a pesar de su validez y robustez para detectar
autocorrelaciones de órdenes superiores, se diseñaron inicialmente para contrastar la

56
presencia de procesos autorregresivos de primer orden por lo que el procedimiento

adecuado, una vez detectado un problema de autocorrelación, consistirá en el análisis de
otros procesos de autocorrelación, ya sean autorregresivos de orden superior, procesos
de medias móviles o procesos mixtos.
En este sentido, el contraste de Breusch-Godfrey se especifica con la finalidad de

analizar si existe o no autocorrelación de orden superior a uno; para ello, en la hipótesis
alternativa se incluyen especificaciones más generales que la del modelo autorregresivo
de primer orden y que se pueden generalizar a cualquier especificación ARMA(p,q).
En la hipótesis nula se considera ahora que no existe autocorrelación; la hipótesis

alternativa especificará un esquema concreto de autocorrelación.
Por ejemplo, en un modelo autorregresivo de orden p:
'
' ' '
la hipótesis nula se formularía con el supuesto de ausencia de autocorrelación, es decir,

nulidad de todos los coeficientes autorregresivos:
HR :

0
Este contraste, al igual que los estudiados hasta el momento, se basa en los residuos
MCO y se define como una prueba de significación conjunta de las primeras p
autocorrelaciones de los residuos. Para su aplicación empírica es necesario desarrollar
las siguientes etapas:
1) Estimación por MCO del modelo de regresión y obtención de los residuos

MCO (~ ).
2) Estimación de una regresión auxiliar de los residuos ~ sobre p retardos de los

mismos, ~ , ~ , ..., ~ , así como sobre las variables explicativas del
modelo original.
3) Obtención del coeficiente de determinación (R2) de la regresión auxiliar.
4) C del estadístico experimental, bÔ7

Yî que se distribuye, bajo la
hipótesis nula de no autocorrelación como b , donde p es el número de retardos
de los residuos incluidos en la regresión auxiliar; esto es, el orden de
autocorrelación que se está contrastando; n es el número de observaciones del
modelo.
5) Regla de decisión: si el valor del estadístico experimental excede del

estadístico teórico entonces hay evidencia suficiente para rechazar la hipótesis

57
nula y admitir que existe autocorrelación; en caso contrario no sería correcto

rechazar la ausencia de autocorrelación.
Este contraste presenta algunas ventajas frente al estadístico de Durbin-Watson; se

puede considerar que el contraste de Breusch-Godfrey puede utilizarse en modelos que
incluyan como regresores algunos retardos de la variable endógena, sin que por ello
cambien las propiedades del contraste.
En segundo lugar se puede señalar que este contraste permite especificar en la hipótesis
alternativa cualquier esquema de autocorrelación ya sea a través de un proceso
autorregresivo, de medias móviles o mixto.
A pesar de estas ventajas que lo pueden hacer preferible al contraste de Durbin Watson,
no hay que olvidar que para la aplicación de este contraste es necesario especificar una
longitud del retardo y que ésta se determinará por un procedimiento de experimentación
basado en el análisis de significación individual de los retardos de los residuos, lo que
en principio podría dificultar la tarea de selección del orden de autocorrelación.
5.5.CONTRASTE DE BOX-PIERCE-LJUNG
Box y Pierce desarrollaron un estadístico que, basado en los cuadrados de los
primeros coeficientes de autocorrelación de los residuos, permite analizar si existe o no
autocorrelación.
El estadístico se define como una suma acumulada de estos cuadrados de los

coeficientes de correlación empíricos, es decir:
6
Y 1 ;G

Siendo
∑h = ~ ~
;G
∑h ~

asintóticamente según una b con grados de libertad igual a la diferencia entre el

Bajo la hipótesis nula de no autocorrelación el estadístico Q se distribuye
número de coeficientes acumulados (p) y el número de parámetros estimados al ajustar

el proceso ARMA que se considere.
Posteriormente este estadístico fue revisado por Ljung-Box obteniéndose mejores

resultados para muestras pequeñas si se utiliza esta otra expresión alternativa.

58

;G
6S
YY 2 1
Y

Estos estadísticos se definieron inicialmente para el análisis de Series Temporales pero a

veces también se utilizan para verificar la hipótesis de autocorrelación en los modelos
de regresión. No obstante, esta aplicación en modelos estructurales debe realizarse con
cautela ya que la inclusión de variables exógenas en el modelo tiene un efecto
desconocido sobre el estadístico experimental.
5.6.SOLUCIONES PARA LA AUTOCORRELACIÓN

La presencia de autocorrelación en un modelo se puede solventar mediante el
método de Cochrane-Orcutt o mediante la introducción de variables dummy adecuadas
en el modelo. Existen otros métodos menos utilizados como el método de estimación de
Durbin y el procedimiento de Prais-Winsten.
5.6.1.MÉTODO DE MÍNIMOS CUADRADOS GENERALIZADOS

Este método se basa en la realizar la estimación del modelo con autocorrelación
mediante mínimos cuadrados generalizados (MCG), es decir, supongamos que en el
modelo de regresión múltiple para datos de series temporales:
ï
@ @ @2 2 ? , $
1, … +
el término de error ? sigue un proceso AR(1):
?
?
en donde el error es un proceso de ruido blanco: e

0, e
y
e 2
0 ð4 ¦ 0. Sabemos que la función de autocovarianzas de un proceso
AR(1) es F2
2 FR con FR
"
ñØ
ò
Ø #, de modo que la matriz de varianzas y covarianzas
£
de u puede escribirse como:
1 >

z 1 > }
ó
e??

1 y ô
1 >k |
Ω

õ
ô ô ô
…
x
> >
>k
1 {

59
inversa de esta matriz Ω que es

Para la estimación del modelo de regresión aplicando MCG se necesitaría conocer la
1 0 0 ... 0 0 0
1 0 0 0
z 0 …
1 0 0 0 }
Ω
y …
y … … … … … … ||
0 0 0 1
x 0 … 0 1 {
0 0
Si el parámetro fuera conocido, entonces podríamos calcular el estimador de

mínimos cuadrados generalizados usando la fórmula:
@C÷øù
SΩ SΩ H
O alternativamente, si el modelo generalizado se quisiera transformar a un modelo

clásico utilizando la transformación de Aitken se necesitaría expresar la matriz de paso
P que para el supuesto concreto de un modelo autorregresivo de primer orden se
formula:
1 0 0 0 0
ú

z 1 0 0 0 }
5
y 1 0 0
0 |

0 1
x 0 0
{
excepto el primero que es igual a Å1 , y elementos en la primera subdiagonal por

es una matriz bidiagonal inferior con elementos en la diagonal principal iguales a 1,
debajo de la diagonal principal iguales a .
Expresando el estimador MCG en términos de P, tenemos:
@C÷øù
SPSP SPSPH

60
en donde
Å1 ï Å1 Å1 … Å1 2

z 2 2 }
5H
z ï ï } y 5
y 1 …
|
ô ô ô ô ô
xï> ï> {
x 1 > > … 2> 2> {
De aquí, podemos escribir el modelo de regresión transformado:
5H
5@ 5?
Y como:
M1 ï
@ M1 @ M1 @2 M1 2
ï ï
@ 1 @ @2 2 2
El procedimiento descrito tiene dos limitaciones:
En primer lugar, no podemos extenderlo a otras formas de autocorrelación. Por ejemplo,

no tenemos una fórmula cerrada para crear la inversa de un proceso AR(p) general.
En segundo lugar, el cálculo del estimador MCG requiere conocer el parámetro . Si

disponemos de una estimación A , entonces podemos estimar el estimador MCG como:
@C÷øù
"SΩ
T # SΩ
T H
propiedades estadísticas de @C÷øù son desconocidas en muestras finitas son

que es el estimador de mínimos cuadrados generalizados factibles (MCGF). Las
desconocidas, y dependen de las propiedades asintóticas de A en muestras grandes. Si

A es un estimador consistente de A , entonces @C÷øù también es consistente.
Por tanto cuando no conozcamos A , es decir, cuando Ω es desconocido, existen

algunos procedimientos para estimar el coeficiente. Hay otros procedimientos como el
de máxima verosimilitud que no lo explicaremos. Los que aquí se muestran son
procedimientos que se desarrollan en dos etapas. En la primera etapa se obtiene la

61
estimación de , que se utiliza en la segunda etapa para transformar las variables con
las que estimar una ecuación en diferencias generalizada (método que coincide
básicamente con la aplicación de los mínimos cuadrados generalizados). Estos métodos
se conocen con el nombre de mínimos cuadrados generalizados factibles (MCGF).
MÉTODO ITERATIVO DE COCHRANE-ORCUTT
parámetros β de un modelo de regresión y los parámetros de un proceso AR(p), que

Cochrane y Orcutt propusieron un método simple para estimar iterativamente los
evita la inversión de la matriz Ω y que vamos explicar a continuación considerando un

modelo de regresión con dos variables explicativas:
ï
@ @ @k k ? 8
y autocorrelación de tipo AR(1)
?
? 9
ruido blanco
? ? . Dada la relación entre ï y ? , podemos definir
La idea es transformar el modelo de regresión en un modelo cuyo término de error sea
directamente las variables:
ï ü
ï ï H ü

y especificar la relación
ï ü
@
ü
@
ü
@k k
ü
10
en donde
ü

1 .
Nota: Si el proceso AR(1) en términos del operador B, 1 ?

, vemos que
multiplicando la ecuación ï
@ @ @k k ? por 1 obtenemos la
ecuación :
ï ü
@
ü
@
ü
@k k
ü

Nuestro objetivo es estimar los coeficientes βi (i = 1, 2, 3) de la ecuación 10 y el

parámetro de la ecuación 9. El problema consiste en que para estimar βi (i =1, 2,
3) necesitamos una estimación de , y para estimar necesitamos estimaciones de βi
(i = 1, 2, 3). La solución a este círculo vicioso propuesta por Cochrane y Orcutt es el
siguiente procedimiento iterativo:
1. Usar una estimación preliminar de , por ejemplo

0, transformar los
datos y estimar por MCO los coeficientes βi (i = 1, 2, 3) en la ecuación 10.
2. Usando estas estimaciones, podemos obtener los residuos ?G en la ecuación

8.
3. Los residuos ?G nos permiten encontrar una nueva estimación de en 9.

62
4. Los pasos 1, 2 y 3 se repiten sucesivamente hasta alcanzar la convergencia, es

decir, hasta que las estimaciones en dos repeticiones o iteraciones consecutivas
prácticamente no cambien.
Los criterios de convergencia usuales son:
1. La estimación del parámetro en dos iteraciones consecutivas no cambia,
ý ý q 10í , donde j indica la iteración.

ý@ @ ý q 10í .
2. La estimación de cada parámetro β en dos iteraciones consecutivas no cambia,

3. La estimación de la suma de cuadrados de los residuos ∑> ?G en dos

iteraciones consecutivas no cambia, ∑> ?G ∑> ?G q 10í.
4. Se alcanza un número máximo de iteraciones.
Nota: En general, si el término de error sigue un proceso AR(p), ?

, el
.
modelo transformado se obtiene multiplicando el modelo de interés por el polinomio
MÉTODO DE PRAIS-WINSTEN
Una modificación del procedimiento de Cochrane-Orcutt fue propuesta por Prais

y Wisten (1954); estos autores sugieren ampliar el tamaño de muestra incluyendo una
transformación para la primera observación que, como consecuencia de la utilización de
primeras diferencias, desaparece. En lugar de utilizar el modelo que surge directamente
factor de corrección Å1 ; , con lo que la primera observación para la variable

de la transformación se incorpora, para las primeras observaciones de las variables el
dependiente será Å1 ; ï y análogamente para la matriz de regresores. Esta

modificación permite mejorar la eficiencia en la estimación de muestras pequeñas.
MÉTODO DE DURBIN
Durbin (1960) propone una primera estimación del modelo en cuasi diferencias
expresado a partir de la igualdad,
ï
1 @ @ ï
Como primera estimación del coeficiente de autocorrelación se va a considerar el
estimación consistente de .
coeficiente de la variable endógena desplazada, ya que, aunque sesgada, se trata de una

63
Esta primera estimación del coeficiente de autocorrelación puede servir de base para la
aplicación de cualquiera de los otros dos métodos presentados con anterioridad. En
concreto, Griliches y Rao muestran, a partir de un estudio de Monte Carlo que el
estimador obtenido a partir de una primera estimación con el método de Durbin y
seguido del procedimiento de Prais-Wisten para las variables transformadas es mejor
otras alternativas. En este sentido Greene (1998) (citando a Harvey y McAvinchey
(1981)) afirma que “es bastante peor omitir la primera observación que mantenerla”.

64
6.HETEROCEDASTICIDAD CONDICIONAL.CONTRASTES.
En el modelo lineal ï
@ ?, suponíamos una serie de hipótesis entre las que
esperanza nula e?

0 y la matriz de covarianzas constante y diagonal &?
se encontraban que la variable u (término de error) es una variable aleatoria con
þ . Es decir, que para todo t, la variable ut, tiene media cero y varianza no
dependiente de t, y además ¥PE"? , ? #
0 para todo i y para todo j distintos entre sí,
pudiendo escribir &?
þ .
El hecho de que la varianza de ut sea constante para todo t (que no dependa de t),
se denomina hipótesis de homocedasticidad. Por tanto el caso contrario, en el que la
varianza ut no es constante estamos ante la presencia de heterocedasticidad. La
importancia del incumplimiento de la hipótesis de homocedasticidad radica, entre otras
cosas, en que los estimadores obtenidos por mínimos cuadrados no son de varianza
mínima aunque sigan siendo insesgados. Además, para cada variable del modelo se
estimará una varianza del error.
Para analizar la heterocedasticidad condicional de un modelo se suele comenzar

por el análisis gráfico de los residuos, siendo esenciales las gráficas de los residuos (a
poder ser estandarizados) respecto de la variable endógena predicha y respecto de las
exógenas, que deben de presentar una estructura aleatoria libre de tendencia. El gráfico
de los residuos contra cada variable exógena permite detectar como variable más
culpable de heterocedasticidad aquella cuyo gráfico se separa más de la aleatoriedad.
También es un instrumento gráfico útil la gráfica de valores observados frente a valores
predichos, cuyos puntos han de ser lo más ajustados posible a la diagonal del primer
cuadrante.
A parte del análisis gráfico es necesario realizar contrastes formales de

heterocedasticidad, entre los que destacan Goldfeld-Quandt, Glesjer, Breush-Pagan,
White, y Reset de Ramsey.
6.1.CONTRASTES DE WHITE
Para simplificar la exposición, vamos a describir el contraste en una ecuación de
regresión con término constante y dos variables explicativas. La extensión del contraste
al modelo lineal general es trivial.
Consideremos por tanto el siguiente modelo:
H
@ @ @k k ? ,
1, … , Y
Y deseamos contrastar las hipótesis:
R : e?
J P%P~*&.$*&* Q

: e?
~$~P~*&.$*&*

65
Los pasos para realizar el contraste son los siguientes:
1. Estimar por mínimos cuadrados ordinarios la ecuación de regresión de interés
H
@ @ @k k ? ,
1, … , Y
y obtener los residuos ?G .
2. Estimar por mínimos cuadrados ordinarios la ecuación de regresión auxiliar
?G
k k o

í k

k ~
y calcular el coeficiente de determinación î .
3. Calcular el estadístico de contraste Yî , que sigue asintóticamente una distribución

Chi-cuadrado con p − 1 grados de libertad, donde p es el número de parámetros de la
regresión auxiliar.
4. La hipótesis nula se rechaza al nivel de significación α, si Yî , donde c es el

valor crítico para el cual 5P"b

#
.
Suele decirse que el test de White es general porque no necesitamos conocer las
variables que causan la heterocedasticidad. Sin embargo, de la ecuación de regresión
auxiliar vemos que la forma de heterocedasticidad implícita es:

1 2 2 3 3 4 22 5 23 6 2 3
y las hipótesis a contrastar son:
R : 2
3

0 Q
Ü
: ¦ 0 && &©«úY
2, … ,
Bajo R , la varianza del error es constante

; bajo , hay heterocedasticidad del
tipo:
G
G 1 G 2 2 G 3 3 G 4 22 G 5 23 G 6 2 3
La regresión auxiliar incluye como variables explicativas todas las variables

explicativas del modelo de interés, sus cuadrados y los productos cruzados, siempre que
regresión. Por ejemplo, si es una variable ficticia tomando los valores 0 y 1,
tales variables no sean redundantes, es decir, no aparezcan ya en la ecuación de
entonces

y se dice que

es redundante.

66
En resumen, algunas ventajas del test de White son:
1. Es un test general,
2. Es un test constructivo, nos sugiere una forma de heterocedasticidad si se
rechaza H0,
3. Es muy simple de aplicar.
y como inconvenientes
1. La ecuación de regresión auxiliar puede incluir muchas variables explicativas,

k(k + 1)/2.
2. La ecuación de regresión auxiliar no está exenta de los errores de
especificación de cualquier regresión,
3. Es un contraste asintótico, válido para muestras muy grandes.
6.2.CONTRASTES DE BREUSH-PAGAN/GODFREY
Godfrey (1978) considera el modelo de regresión múltiple:
H
@ @ @k k @2 2 ? ,
1, … , Y

~"1 2 2…#
con heterocedasticidad del tipo:
Esta ecuación indica que la varianza es función exponencial de una combinación
lineal de variables conocidas. En la práctica, las variables Zj (j = 2, . . . , p) coinciden
con las variables explicativas Xj (j = 1, . . . , k).
Breusch y Pagan (1979) consideran una forma más general de heterocedasticidad

Ò"1 2 2 #
donde h es una función no especificada.
Las hipótesis a contrastar son:
R : 2
3

0 ÒP%P~*&.$*&* Q
Ü
: ¦ 0 && &©«úY
2, … , Ò~$~P~*&.$*&*
Los pasos para realizar el contraste son los siguientes:
1. Estimar por mínimos cuadrados la ecuación de regresión de interés obtener los

residuos ?G , y calcular GJ
∑h
¾Ø
J
h
.

67
?G
2. Estimar por mínimos cuadrados la ecuación de regresión auxiliar

~
GJ
y calcular la suma de cuadros explicada, SCE.
3. Calcular el estadístico de contraste SCE/2, que sigue bajo R (y suponiendo

normalidad) una distribución Chi-cuadrado con p − 1 grados de libertad.
4. La hipótesis R se rechaza al nivel de significación α, si SCE/2 > c, donde c es

el valor crítico para el cual 5P"b

#
.
Un procedimiento equivalente es el siguiente:
residuos ?G .
1. Estimar por mínimos cuadrados la ecuación de regresión de interés obtener los
2. Estimar por mínimos cuadrados la ecuación de regresión auxiliar
?G
~
y calcular el coeficiente de determinación, î .
3. Calcular el estadístico de contraste Yî , que sigue bajo R (y suponiendo

normalidad) una distribución Chi-cuadrado con p − 1 grados de libertad.
4. La hipótesis R se rechaza al nivel de significación α, si Yî c, donde c

es el valor crítico para el cual 5P"b

#
.
Si R es cierta, entonces la varianza no depende de las variables Zj (j = 2, . . . , p) y

el î en la regresión auxiliar será bajo. Por el contrario, si es cierta, entonces la
varianza depende de las variables Zj (j = 2, . . . , p) y el î será alto. El problema
está en decidir cuando el î se considera bajo y alto. Pues bien, será bajo cuando
Yî q y alto cuando Yî .
Podemos observar que cuando las variables que causan la heterocedasticidad, Zj (j = 2, .

. . , p) coinciden con las variables explicativas Xj (j = 1, . . . , k), la ecuación de
regresión auxiliar de este contraste está contenida en la regresión auxiliar del test de
White.
En resumen, algunas ventajas del test de BPG son:
1. Es muy simple de aplicar,

2. No requiere conocer la forma funcional de la heterocedasticidad,

68
rechaza R ,
3. Es un test constructivo, nos sugiere una forma de heterocedasticidad si se
y como inconvenientes
1. Descansa en el supuesto de normalidad de los errores,

2. La ecuación de regresión auxiliar no está exenta de los errores de
especificación de cualquier regresión,
Godfrey. Recordemos que en el primer caso nos interesa la dependencia del residuo ?G
Nota: no se debe de confundir el tests de autocorrelación y heterocedasticidad de
de su pasado ?G 2 .
6.3.CONTRASTES DE GOLDFELD-QUANDT
El contraste de Goldfeld-Quandt (1965) se aplica cuando sospechamos que la
varianza del error aumenta con los valores de una variable conocida Z:

J
El problema a contrastar:
R :
J P%P~*&.$*&* Q

:
J && &©«úY
2, … , ~$~P~*&.$*&*
Los pasos del contraste de Goldfeld-Quandt son los siguientes:
1. Identificar la variable que causa la heterocedasticidad, digamos Z.
2. Ordenar la tabla de datos según los valores crecientes de Z.

3. Dividir la tabla de datos en tres submuestras. La submuestra central con m
observaciones, y las otras dos submuestras con (n − m)/2 observaciones.
4. Omitir las observaciones centrales, y estimar por mínimos cuadrados

ordinarios la ecuación de regresión en cada submuestra.
SCR2. Si es cierta, entonces SCR2 > SCR1.

5. Calcular la suma de cuadrados de los residuos en cada submuestra: SCR1 y
6. Calcular el estadístico de contraste

ø
Ø que sigue una distribución F con
ø
£
(n−m)/2 grados de libertad en el numerador y denominador.
7. La hipótesis R se rechaza al nivel de significación α, si F > c, donde c es el

valor crítico para el cual 5P"hc⁄,hc⁄ #
.

69
La elección del número de observaciones a omitir, m, juega un papel clave en el
cuadrados de los residuos SCR1 y SCR2 y más probable será rechazar R si es falsa. El
contraste. Cuanto mayor sea m, tanto mayor será la diferencia entre las sumas de
cual el valor crítico c aumenta y menos probable es rechazar R si es falsa. Por ejemplo,
problema es que disminuyen los grados de libertad de cada regresión estimada, con lo
el valor crítico para Prob(F4,4 > c) = 0,95 es c = 6,388 y Prob(F8,8 > c) = 0,95 es c =
3,438. En la práctica, m suele elegirse igual a n/3.
Nota: Si depende negativamente de los valores de Zi, entonces el cociente

SCR1/SCR2 debería ser mayor que uno, y deberíamos basar el contraste en esta
cociente.
6.4.CONTRASTES DE GLESJER
Los estadísticos anteriores son capaces de darnos información sobre el grado de
igualdad de las varianzas de una serie de submuestras. Sin embargo, no hacen ningún
intento de modelizar el patrón heterocedástico que sigue la varianza de la perturbación.
En ese sentido, los estadísticos anteriores son no constructivos. Debemos tener en
cuenta que para aplicar mínimos cuadrados generalizados resulta indispensable conocer
qué tipo de heterocedasticidad sigue la varianza de la perturbación. Desde este punto de
vista, parece conveniente utilizar métodos que nos den alguna ayuda en este sentido.
Un primer intento es el contraste propuesto en Glejser (1969). El contraste que se

plantea es el siguiente:
R : P%P~*&.$*&* Q

Ü
: ~$~P~*&.$*&*
perturbación del modelo ï

@ ? depende de una variable z. Entonces, este autor
La motivación de este estadístico es que bajo la hipótesis alternativa, la varianza de la
propone estimar la relación que existe que vincula a estas dos variables.
de la desviación típica de la perturbación a |?G|, donde ?G son los residuos mco

Para ello, dado que desconocemos el valor de la varianza, utiliza como variable proxy
procedentes de la estimación del modelo ï

@ ?. Es posible también utilizar ?G
como variable proxy de la varianza de la perturbación. Una vez determinada la variable
a explicar, el siguiente paso es realizar una regresión entre ésta y la variable que
creemos causa los problemas de heteroscedasticidad, en nuestro caso z. Como la forma
funcional no tiene que ser lineal, se pueden utilizar formas funcionales alternativas. Por
tanto, el estadístico de Glejser está basado en la estimación de la siguiente relación:
|?G |
R \ ~
donde h puede tomar valores (1,0,1,2). El siguiente paso es determinar qué forma
funcional es la que mejor se adecúa a nuestro caso. Esto se puede realizar comparando,
70
de las relaciones debemos contrastar la hipótesis nula R :

0, mediante el uso del
por ejemplo, los coeficientes de determinación del modelo. Una vez estimada la mejor
estadístico $]£ . Si aceptamos esta hipótesis nula, es tanto como decir que no existe
relación entre la desviación típica del modelo ï
@ ? y la variable z, lo que
que es significativamente distinto de cero, entonces concluimos que no es

equivale a aceptar la hipótesis de homodedasticidad. Si, por el contrario, encontramos
constante, por lo que debemos rechazar la hipótesis nula de homocedasticidad.
6.5.CONTRASTES DE RESET RAMSEY

Primera etapa: se estiman los residuos ? del modelo inicial y los
correspondientes valores ajustados de H . Para cada t se calculan las m primeras
potencias de las estimaciones de H .
Segunda etapa: se realiza la regresión auxiliar de las estimaciones de ? contra
de H . Si no hay significatividad de los coeficientes hay heterocedasticidad.

todos los regresores del modelo inicial y las m primeras potencias de las estimaciones
6.6.CONTRASTE ARCH
R : P%P~*&.$*&* la varianza es constante en toda la muestra, frente a la

El contraste que se plantea es el siguiente: para la hipótesis nula
hipótesis alternativa, : ~$~P~*&.$*&* la varianza condicional es

autorregresiva. Es decir, en el caso de un ARCH(1):
&? |?
R ?

.
Por tanto, vamos a seguir los siguientes pasos:
1. Ajustar el modelo por MCO. Obtener los residuos MCO e.

2. Estimar por MCO la regresión entre los residuos al cuadrado del modelo
anterior y los residuos al cuadrado de dicho modelo retardados. En el caso de un
ARCH(1) la regresión sería:
~
R ~

.
3. Forma del contraste: contrastar la significatividad de los parámetros del
modelo anterior. El contraste de multiplicadores de Lagrange, TR2, se distribuye
como una Chi-2 con un grado de libertad y es equivalente asintóticamente al F
habitual.
El problema para este contraste, es determinar bien el orden p, para el modelo

ARCH(p), para lo cual se suele utilizar el correlograma estimado de los residuos al
cuadrado, tomando p como el retado a partir del cual los coeficientes son no
significativos.

71
6.7.SOLUCIONES PARA LA HETEROCEDASTICIDAD

CONDICIONAL
Los remedios que vamos a ver para este problema dependen de si la
heterocedasticidad es conocida o desconocida. En el primer caso, el método de
estimación preferido será el de mínimos cuadrados generalizados; en el segundo,
podemos optar por mínimos cuadrados generalizados factibles o mínimos cuadrados
ordinarios.
6.7.1.HETEROCEDASTICIDAD CONOCIDA
El modelo lineal general con heterocedasticidad:
H
@ @ @k k @2 2 ? ,
1, … , Y 11
en donde e?
0, e?
J ª y e"? ? #
0 ð ¦ , es un caso especial del
modelo con perturbaciones no esféricas. En este marco, el estimador lineal, insesgado,
consistente y óptimo es el estimador de mínimos cuadrados generalizados:
@C÷øù
SΩ SΩ H
cuya matriz de varianzas y covarianzas es:
&"@C÷øù #
J SΩ
en donde Ω
*&«ª , … , ªh es una matriz diagonal, cuya inversa es simplemente
Ω
*&« , , . El cálculo directo de @C÷øù y &"@C÷øù # requiere crear la

£
matriz Ω de orden Y Y. En la práctica, podemos evitar la creación de esta matriz

usando el método de mínimos cuadrados ponderados.
- MÍNIMOS CUADRADOS PONDERADOS
En el modelo ü los errores cuasitipificados son:
?
?ü
Åª
Cumplen las hipótesis básicas:
1. Media cero:
? 1
e?ü
e
e?
0
Åª Åª
2. Varianza constante

72
? e? J ª

e"?ü #
e

J

ª ª ª
3. Covarianza cero
? ? e"? ? #
e"?ü ?ü #
e U V

0 ð ¦
Åª Åª ª ª
De aquí, si transformamos el modelo de interés 11 dividiendo por la cuasidesviación

típica de los errores Åª obtenemos:
H 1 k 2 ?

@ @ @k @2 ,
1, … , Y
Åª Åª Åª Åª Åª Åª
O bien:
Hü
@
ü
@
ü
@2 2
ü
?ü ,
1, … , Y 12
El modelo transformado 12 contiene los mismos parámetros @ , … , @2 que el modelo

de interés 11, pero su error cumple las hipótesis básicas. Por tanto, el estimador de
mínimos cuadrados ordinarios en 12 será lineal, insesgado y eficiente, que se
denomina estimador de mínimos cuadrados ponderados. Podemos interpretar este
método de estimación como un método en dos etapas:
Primera etapa, se transforman las variables dividiendo los datos por la cuasi-
desviación típica de los errores.
En una segunda etapa, se estiman los parámetros por mínimos cuadrados
ordinarios.
El método de mínimos cuadrados ponderados es una forma conveniente de obtener el

estimador de mínimos cuadrados generalizados bajo heterocedasticidad. No debemos
equivalencia entre los dos métodos usando la descomposición Ω

5S5 y expresando
considerarlo como un método de estimación alternativo. Podemos comprobar la
el estimador MCG como:
@C÷øù
S5S5 S5S5H
en donde

73
1ú 0 0
√ª
z 1ú }
0 0
y √ª |
5
y |
ô
y ô ô õ 1 |
Åª
0 0 h
x {
Ahora es claro que los datos transformados:
2
1ú ª
H ª √
ú ª z √ª √ }
√ y |
z H } 2
y1 ª |
y ú√ª |
5H
y H 5
y ú√ª ª
√
√ |
ô | y |
yHh |
Åª y ô ô ô |
h y1 h õ 2h |
x { Åª
h Åªh Åªh
x {
se corresponden con los datos de las variables divididos por las cuasi-desviaciones
típicas de los errores correspondientes.
6.7.2.HETEROCEDASTICIDAD DESCONOCIDA
En este caso, usamos el método de mínimos cuadrados generalizados factibles.
En la práctica cuando deseamos estimar una ecuación de regresión múltiple:
H
@ @ @k k @2 2 ? ,
1, … , Y 13
Desconocemos la forma de heterocedasticidad. Si sospechamos que:

podríamos aplicar el test de Breusch-Pagan-Godfrey. Si rechazamos la hipótesis nula de

homocedasticidad, entonces debemos estimar por mínimos cuadrados generalizados.
Ahora bien, como no conocemos las varianzas , tendremos que estimarlas utilizando
los valores ajustados obtenidos en la estimación de la regresión auxiliar:
?G
~
esto es:
G
G G G

74
Tipificando los datos, obtenemos el modelo transformado:
H 1 k 2 ?

@ @ @k @2 ,
1, … , Y
G G G G G G
en donde el estimador de mínimos cuadrados ordinarios se denomina mínimos
estimación se ha realizado reemplazando por una estimación G .

cuadrados generalizados factibles (MCGF). El término factible enfatiza que la
mientras que en muestras grandes, dependen de las propiedades de G : si G es un

Las propiedades estadísticas de este estimador en muestras finitas son desconocidas;
estimador consistente de , entonces el estimador MCGF también lo será.
En el caso de que la estimación se realice por mínimos cuadrados ordinarios:
Cuando la heterocedasticidad es desconocida, el estimador MCO cumple algunas

propiedades deseables: es lineal, insesgado y consistente. El problema surge porque el
estimador es ineficiente y, en consecuencia, los estadísticos t y F estarán sesgados.
White demostró que la matriz de varianzas y covarianzas
"@C÷øù #
J S SΩS
matriz diagonal que contiene los residuos al cuadrado de la estimación MCO, Ω

puede estimarse consistentemente reemplazando la matriz desconocida Ω por una
.
*&«?G , … , ?Gh

Algunos autores prefieren el estimador MCO al MCGF, y calculan los estadísticos t y F

usando la matriz de varianzas y covarianzas consistente en presencia de
heterocedasticidad desconocida.

75
7.MULTICOLINEALIDAD CON SERIES DE TIEMPO.

Dado el modelo ï
@ ?, suponíamos unas series de hipótesis. Una de ellas
es que las variables , , … , 2 son linealmente independientes, es decir que no existe
relación lineal entre las variables. Esta hipótesis se denomina de independencia, si no se
cumple, entonces se dice que el modelo presenta problemas de multicolinealidad.
Podemos distinguir dos tipos de multicolinealidad:
- Multicolinealidad exacta: se produce cuando |S|

0. En este caso existe
infinitas soluciones para el sistema:
ó @C÷ø
Sï
Todas las variables independientes están relacionadas.
- Multicolinealidad de grado: en este caso |S| 0. La solución no es

exacta analíticamente hablando.
La principal consecuencia de un modelo que presenta multicolinealidad es que se

obtienen estimaciones de los parámetros con altos errores estándares, haciéndolos poco
precisos y muy inestables.
7.1.DETECCIÓN DE LA MULTICOLINEALIDAD
Es necesario tener en cuenta que la multicolinealidad es un problema de grado,
es decir, lo importante no es distinguir sobre la presencia o ausencia de
multicolinealidad, sino del grado de la misma. Además la multicolinealidad es un
problema muestral, por lo que no existen métodos únicos y definitivos para detectarla,
sino de reglas generales que deben ser interpretadas conjuntamente para decidir el grado
de la misma. Entre estas reglas se distinguen las siguientes:
î
Q ¥P~º~Y$~. ~«~.óY .«Yº&$EP. Indicios
¥P~º~Y$~. *~ ~«~.. Y*E*?&©~. YP .«Yº&$EP.
- de
multicolinealidad.
Es no quiere decir que sea un problema, sobre todo si estamos en el caso de que
haya algunos coeficientes de regresión significativos. Se considera un problema
cuando se dan las tres condiciones a la vez.
claro indicio de multicolinealidad. Cuando N 0,8. No obstante, no es

- Valores grandes de los coeficientes de Pearson muestrales, entre Xi y Xj, es un
problema. Existen casos en donde q 0,5 y en los cuales hay problemas de
necesario que dichos coeficientes sean altos para que la multicolinealidad sea un
multicolinealidad.

76
- Puesto que la multicolinealidad surge debido a que uno o mas regresores son
combinaciones lineales del resto, entonces la realización de una regresión por
cada variable explicativa de la siguiente forma:

, … , , , … ,
1, … , 4
= 2
puede ser muy informativo para detectar este problema. A estas se les llama
determinación múltiple î y a partir del mismo hacer el contraste de regresión.

regresiones auxiliares. En cada una de ellas se debe calcular el coeficiente de
Factores de tolerancia: se define el factor de tolerancia de la variable como

+È
1 î
. Por tanto, si +È 1 § î 0 § þ 1 y por
-

tanto no estará relacionado linealmente con el resto de las variables

explicativas.
&"@C # depende de ∑ , þ y de . Por tanto, aun teniendo un þ muy
No obstante este criterio también tiene crítica, ya que según sabemos, la varianza
grande puede darse el efecto de compensación y ser el valor de la &"@C #

reducido, no siendo por tanto un problema la multicolinealidad.
- Estructuras de autovalores de R. Los autovalores de la matriz de correlaciones R
multicolinealidad. Consideremos la descomposición espectral de î

ΛS
de las variables explicativas proporcionan una información precisa sobre la
donde Λ
diag , … , 2 N N 2 N 0, y U matriz ortogonal con
columnas de autovectores de R. Además se sabe que î
Λ S. La
ordenación de los autovalores de mayor a menor nos indica si existen problemas
de multicolinealidad. Dado que el rango de R es igual al número de autovalores
no nulos de R, claramente si un autovalor o más son nulos entonces el rango de
R no será completo, indicando dependencia lineal. Sin llegar a este extremo,
autovalores muy pequeños pueden proporcionarnos información sobre
problemas de multicolinealidad.
- Índice de condición. Se define el índice de condición de la matriz R de la

siguiente forma:

þ¥î
_
2
Interpretación de este índice:
Si 0 ` þ¥ ` 10 presencia de multicolinealidad débil.
Si 10 ` þ¥ ` 30 presencia de multicolinealidad moderada.

77
Si þ¥ 30 presencia de multicolinealidad severa.
Los criterios de detección de multicolinealidad expuestos anteriormente están

basados en la matriz R, matriz que se calcula a partir de los datos en desviaciones, no
apareciendo la influencia que tiene el término constante. Dado que los datos en
desviaciones están centrados por su media existen ocasiones en que este centrado es
poco natural, ya que este obliga a que el modelo pase por el origen. Cuando esto no sea
justificable no debe de utilizarse la matriz R, sino que debe de ser sustituida por la
siguiente expresión:
+
e Se ú
ú
donde E es matriz diagonal cuyos elementos son los elementos de la diagonal de S.
Esto hace que dispongamos de un autovalor más que con la matriz R
7.2.SOLUCIONES AL PROBLEMA DE MULTICOLINEALIDAD

Dado que la multicolinealidad es un problema muestral, las soluciones al mismo
no son simples, fundamentalmente porque se está pidiendo más información de la que
realmente tiene la muestra. Presentamos las siguientes opciones:
- Eliminación de regresores. Dado que el problema de multicolinealidad se

presenta cuando dos o más regresores son colineales y por tanto solapan
información. Una posible solución es eliminar alguna de las variables. Esta
solución puede presentar problemas muy graves, ya que puede dar lugar a lo que
se denomina error de especificación del modelo y hacer que los estimadores de
los coeficientes de regresión sean sesgados. Por tanto, la eliminación de
variables en el modelo solo debe de hacerse cuando se tenga constancia de que
dicha variable no es necesaria en el mismo.
- Aumento del tamaño muestral. Dado que la multicolinealidad tiene como

consecuencia fundamental el aumento de los errores estándares de los
parámetros estimados, una alternativa es buscar soluciones para reducir tales
errores. Una vía para este objetivo es el aumento del tamaño muestral.
Usualmente al aumentar el tamaño muestra se produce un incremento en la
variabilidad de los regresores y por tanto disminuye por tanto el error estándar.
El problema es que no siempre es sencillo, posible o económico aumentar el
tamaño muestral. En el caso en que el estudio esté basado en un diseño de
experimentos controlado por el investigador, en este caso podemos aumentar
artificialmente la variabilidad de los regresores sin necesidad de aumentar el
tamaño muestral.
- Utilizar el modelo en diferencias vigilando la autocorrelación.
- Aplicación de otras técnicas estadísticas como:

78
o Regresión Ridge.
o Regresión basada en Componentes Principales.

79
8.HIPÓTESIS DE NORMALIDAD.
La hipótesis de normalidad de las perturbaciones (residuos) aleatorias es

necesaria para realizar inferencias sobre los parámetros. Así mismo afecta a las
propiedades de los estimadores mínimo cuadráticos, ya que si esta no es aceptable, la
máxima verosimilitud, y por tanto los estimadores "@C # se hacen ineficientes. De esta
estimación por mínimos cuadrados es diferente de a la estimación de los parámetros por
forma no se obtendría el máximo partido de la información muestral, agravándose este

hecho si existen observaciones atípicas en la muestra (pueden ser la causa real de la no
normalidad).
Los contrastes de normalidad que se suelen utilizar son:
b -Pearson
- Kolmogorov-Smirnov (Lilliefors)
-
- Shapiro-Wilks
- D’Agostino
- Asimetría y kurtosis (Bera-Jarke)
Los contrastes de normalidad presentan algunos inconvenientes a la hora de

aplicarlos, ya que estos asumen siempre que los datos proceden de variables aleatorias
independientes.
Otro inconveniente que presentan estos contrastes es su dependencia respecto al
potencia, tendiendo a rechazar la normalidad R . Por el contrario un tamaño muestral

tamaño muestral, en concreto, un tamaño muestral muy grande hace que tengan una alta
reducido tiene poca potencia, tendiendo a no rechazar la normalidad.
Las causas más frecuentes de que unos datos no sean normales es por problemas
de asimetría y curtosis (por excesiva concentración de observaciones cerca de la media
o presencia de observaciones atípicas).
Si la causa de la no normalidad es por problemas de asimetría, el tratamiento que

se debe seguir es transformar la variable respuesta. Generalmente una transformación
adecuada de ésta suele resolver también problemas de no linealidad.
Uno de los procedimientos más usados para transforma la serie es la utilización

de la familia de transformaciones BOX-COX véase en el Anexo.

80
ANEXO
Conceptos y definiciones.
Serie Estacionaria.
Dada una serie , $

1, … , +, se dice que es estacionaria si:
- Su media es constante.
- Su varianza es constante.
- La autocovarianza entre y la serie =2 solo depende de k y no del instante de

tiempo t, es decir, su valor es independiente del periodo de tiempo que se
considere. El índice k toma los valores k = 0,1,2,…,h, donde h < T. Esta
autocovarianza se define como:
>2
1
2
1' 'L ' =2 'L
+

donde 'L es la media de la serie y T es el núero de componentes de la serie

.
Ruido blanco.
Dada una serie , $

1, … , +, estacionaria , se dice que esta serie es un ruido blanco si:
- Su media es cero
- Su varianza es constante
- La autocovarianza entre y la serie =2 (k = 0,1,2,…,h ; h < T) es cero.
Transformaciones de Box-Cox.
Uno de los procedimientos más usados para resolver los problemas de falta de
normalidad y de heterocedasticidad es el transforma la serie es la utilización la familia
de transformaciones BOX-COX:
Se desea transformar la variable y, cuyos valores se suponen positivos, e caso contrario
de un parámetro por determinar y viene dada por:

se suma una cantidad fija M tal que Y + M > 0. La transformación de Box-Cox depende

81
H 1

O ¦ 0 H 0Q
©YH
0
estimar el parámetro es el de máxima verosimilitud y se calcula como sigue: para

Si se quieren transformar los datos para conseguir normalidad, el mejor método para
diferentes valores de se realiza la transformación
H 1
¦0

O H H 0Q
H ©YH
0
donde H es la media geométrica. Para cada , se obtiene el conjunto de valores

( )
1h . La función de verosimilitud es:
h
Y
È
©Y U1" L# V

2

Se elige el parámetro C que maximiza È. En la práctica, se calcula È en un

enrejado (grid) de valores de que permite dibujar aproximadamente la función È y
se obtiene el máximo de la misma:
C÷
R ⁄ÈR N È ð
Como casos particulares más usuales son:
Si
1 los datos no se transforman.
Si
2 se realiza una transformación cuadrática.
Si
1 se realiza una transformación inversa.
Si
0 se realiza una transformación logarítmica.
Un método gráfico sencillo para estimar es el siguiente:
respuesta H<. y la desviación típica de los residuos .̂ ~.

1. Para cada grupo de residuos, según el tratamiento, se calcula la media de la
2. Se dibuja el gráfico de los pares de puntos media y desviación típica H<. , .̂ y
se ajusta una curva del tipo:
.̂
4 · H
.
©« .̂
©«4 ©«H<.
Un ajuste lineal respecto a los logaritmos de ambas componentes.
3. Conclusión:
-Si
0 los residuos son homocedásticos.

82
-Si
1 hay heterocedasticidad y la transformación a realizar es tomar
logaritmos.
según la transformación de Box-Cox con

1
-En otro caso, hay heterocedasticidad y se deben transformar los datos

83
La tabla siguiente muestra los datos correspondientes a la serie de datos ' , para
ANEXO A
el modelo ARIMA. Hemos utilizado estos datos para realizar el ejemplo del modelo
ARIMA.
t ' t '
1 200,1 36 220,6
2 199,5 37 218,9
3 199,4 38 217,8
4 198,9 39 217,7
5 199 40 215
6 200,2 41 215,3
7 198,6 42 215,9
8 200 43 216,7
9 200,3 44 216,7
10 201,2 45 217,7
11 201,6 46 218,7
12 201,5 47 222,9
13 201,5 48 224,9
14 203,5 49 222,2
15 204,9 50 220,7
16 207,1 51 220
17 210,5 52 218,7
18 210,5 53 217
19 209,8 54 215,9
20 208,8 55 215,8
21 209,5 56 214,1
22 213,2 57 212,3
23 213,7 58 213,9
24 215,1 59 214,6
25 218,7 60 213,6
26 219,8 61 212,1
27 220,5 62 211,4
28 223,8 63 213,1
29 222,8 64 212,9
30 223,8 65 213,3
31 221,7 66 211,5
32 222,3 67 212,3
33 220,8 68 213
34 219,4 69 211
35 220,1 70 210,7

84
t ' t '
71 210,1 110 250,7
72 211,4 111 253
73 210 112 253,7
74 209,7 113 255
75 208,8 114 256,2
76 208,8 115 256
77 208,8 116 257,4
78 210,6 117 260,4
79 211,9 118 260
80 212,8 119 261,3
81 212,5 120 260,4
82 214,8 121 261,6
83 215,3 122 260,8
84 217,5 123 259,8
85 218,8 124 259
86 220,7 125 258,9
87 222,2 126 257,4
88 226,7 127 257,7
89 228,4 128 257,9
90 233,2 129 257,4
91 235,7 130 257,3
92 237,1 131 257,6
93 240,6 132 258,9
94 243,8 133 257,8
95 245,3 134 257,7
96 246 135 257,2
97 246,3 136 257,5
98 247,7 137 256,8
99 247,6 138 257,5
100 247,8 139 257
101 249,4 140 257,6
102 249 141 257,3
103 249,9 142 257,5
104 250,5 143 259,6
105 251,5 144 261,1
106 249 145 262,9
107 247,6 146 263,3
108 248,8 147 262,8
109 250,4 148 261,8

85
BIBLIOGRAFÍA
Tsay, R.S. (1987): Conditional Heteroskedastic Time Series Models. Journal of

American Statistical Assotiation, 82. 590-604.
ENGLE, R.F. (1982): Autorregresive Conditional Heterocedasticity with Estimates of

the Variance of the U.K. Inflation Econométrica, 50. Pgs: 987-1008
Nelson, D.B. (1990). ARCH models as diffusion approximations. J. Econometrics. 45,

7-39.
G. E. P Box, G. M. Jenkins y G. C. Reinsel, Time series analysis forecasting and

control, 3rd ed., Prentice-Hall, Englewood Cliffs, Nueva Jersey, 1994.
W. W. S. Wei, Time series analysis, Addison-Wesley, EE.UU, 1990.
Robret F. Engle (1942) desarrolló con Granger el concept de cointegración e inventó los
procesos ARCH.
Introducción a los modelos de series temporales no lineales. Juan Gabriel Rodríguez

Hernández. Mayo 2001.
Introducción a los modelos autorregresivos con heterocedasticidad condicional

(ARCH). Rafael de Arce. I.L.Klein, diciembre de 1998.
Andersen, T.G. y Bollerslev, T. (1998): Answering the skeptics:Yes, standar volatility

models do provide accurate forecasts. International Economic Review.
Bollerslev, T. (1986): Generalized autoregressive conditional heteroskedasticity. Journal

of Econometrics.
Nelson, D. B. (1991). Conditional Heteroskedasticity in Asset Returns: A New

Approach” Econometria.
Página Web:
http://www.stat.ucl.ac.be/ISdidactique/Rhelp/library/tseries/html/garch.html)

86

Análisis de Series. Modelos Heterocedásticos PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis de Series. Modelos Heterocedásticos PDF

Cargado por

Copyright:

Formatos disponibles

TRABAJO FIN DE MASTER.

Análisis de Series. Modelos

Alumno: Manuel Quesada Pegalajar

Alumno: Manuel Quesada Pegalajar

Alumno: Manuel Quesada Pegalajar

Una serie temporal o cronológica se define como la evolución de una variable a

Hay casos en los que la variable observada tiene un patrón de comportamiento

Obtener una descripción concisa del fenómeno generador de la serie de

Una característica fundamental de una serie temporal es que sus observaciones

Podemos distinguir diferentes enfoques en el análisis de Series Temporales:

Métodos tradicionales. Se basan en la descomponen la serie en

Métodos basados en modelos de procesos estocásticos (Metodología de

Alumno: Manuel Quesada Pegalajar

Métodos univariantes y métodos multivariantes. Estos atienden a la

Análisis en el dominio del tiempo y análisis en el dominio de las

Nos vamos a basar en la metodología de Box-Jenkins, en el cual el desarrollo

Cuando se produce la ausencia de la tendencia (determinista o aleatoria), hay un

Sin embargo, el estudio de la componente de varianza constante es un fenómeno menos

Por tanto, para determinar un patrón de comportamiento estadístico para la varianza, se

1. La experiencia empírica nos lleva a contrastar períodos de amplia varianza de

Alumno: Manuel Quesada Pegalajar

3. El modelo de regresión ARCH puede ser una aproximación a un sistema más

El modelo ARCH (AutoRegressive Conditional Heteroscedastic), supone que la

Alumno: Manuel Quesada Pegalajar

volatilidad es una componente no observable cuyo logaritmo suele modelizarse

En resumen, al considerar la volatilidad como un proceso estocástico se busca

Alumno: Manuel Quesada Pegalajar

Para evaluar la calidad del ajuste teniendo en cuenta el número de parámetros

2.1.FORMULACIÓN GENERAL MODELOS ARIMA

donde  es la variable de estudio, c una constante y  es el término de error o residuo,

Alumno: Manuel Quesada Pegalajar

El operador de retardo B está definido por:

El polinomio se define como:

El polinomio se define como

Por tanto, si sustituimos (2) y (3) en la expresión (1) se obtiene:

"1        #1   

parte AR y MA respectivamente, así como el orden de la parte I del modelo ARIMA se

Alumno: Manuel Quesada Pegalajar

2.2.PASOS EN LA CONSTRUCCIÓN DE LOS MODELOS ARIMA

En este paso vamos a identificar el número de términos de los polinomios

Análisis inicial de la serie. Vamos a identificar las principales características de

Cuanto menor es el tiempo transcurrido entre dos datos de la serie, mayor es la

Para la corrección de la no estacionariedad se pueden realizar dos tipos de

• Para estabilizar la varianza normalmente se toman transformaciones de Box-

Si los datos presentan estacionalidad, la formulación del modelo ARIMA resulta:

/ - 1   1  - 

donde s representa el tipo de estacionalidad que presentan los datos, s = 24 en el caso de

Alumno: Manuel Quesada Pegalajar

El polinomio / - se define como:

orden correspondiente a la parte AR del modelo ARIMA estacional.

El polinomio 0 - se define como:

orden correspondiente a la parte MA del modelo ARIMA estacional.

Estos modelos ARIMA con una estacionalidad se denota como SARIMA(p,d,q)x(P,D,Q)s.

Estudio de la función de autocorrelación (FAC) y la función de autocorrelación

La representación gráfica del coeficiente de autocorrelación 9: es lo que se

Donde < es la media de  .

Las series ? H E se obtienen mediante técnicas de regresión.

Alumno: Manuel Quesada Pegalajar

correlación entre ? H E , ya que ? H E se han calculado con separación k.

El coeficiente de autocorrelación parcial de orden k se define como:

Donde ?< y EL son las medias de las series ? H E ,respectivamente y T es el número de

Una vez definidos los coeficientes anteriores se estabiliza la varianza, aplicando

Para identificar los órdenes d y D del modelo, se representa la FAC de la serie. Si se

donde es la variable de estudio, c una constante y es el término de error o residuo,

"1 #1

/ - 1 1 -

Donde < es la media de .

de con 2 4 N 1 con lo que obtenemos la ecuación en diferencias:

incógnitas. Al resolverlas obtenemos la estimación de los parámetros , sustituyendo

El valor de la varianza de se obtiene de la ecuación:

A W X", Y Γ #,

Así un intervalo de confianza para un valor vendrá dado por:

donde es el elemento ii de Γ, y una región para el vector completo:

coeficientes del mejor predictor lineal = en función de las p observaciones

siendo W X0, EGc mediante el algoritmo siguiente:

Nos vamos a apoyar en el siguiente teorema: Si W lm! con en o p q ∞ y si

Además EGc es un estimador consistente de .

es decir, " Ac , … , Ac #S.

En primer lugar, de las últimas p ecuaciones, calculamos (los son nulos).

Ac,= A Ac, … Ac,=

Y por último determinamos los de las ecuaciones

depende de cantidades no observadas . Sin embargo, se puede aplicar este

procedimiento (mínimos cuadrados) si reemplazamos por estimaciones suyas. Así el

ejemplo Yule-Walker. Así obtenemos "Ac , … , Acc #S.

Paso 3: Estimamos los parámetros " , … , , , … , #S mediante una regresión

Donde son las raíces del polinomio (

El vector de parámetros a estimar es ", , … , , , … , #. Al resolver este problema

"1 A A #1

Donde ; es el coeficiente de autocorrelación de los residuos estimados según

La predicción óptima de >=2 , A>=2 , es el valor esperado de >=2 condicionado

a que se conoce , , … , > , es decir, la esperanza condicionada de >=2 conocido

electricidad de un mercado de energía eléctrica , t = 1,…,T donde T = 148 (véase el

Presentamos a continuación, la representación gráfica de la serie :