Está en la página 1de 28

VOLATILIDAD

Eduardo Acosta González

Universidad de Las Palmas de Gran Canaria


Departamento de Métodos Cuantitativos en Economía y Gestión

Curso de Doctorado Bienio 2003/2005


1.- LA VOLATILIDAD EN LOS MERCADOS DE VALORES

La volatilidad es una de las variables más importantes para los agentes que intervienen
en los mercados de valores. La volatilidad determina el riesgo de las posiciones de estos
agentes, y por tanto, es un elemento clave a la hora de determinar la rentabilidad de los
activos. Además, la volatilidad de los mercados tiene una repercusión elevada sobre la
economía general. La eficiencia en la asignación de los recursos financieros que los
agentes realizan entre los diferentes valores, depende de la capacidad de predecir
volatilidad como medida del riesgo. Sin embargo, a pesar de lo anterior, los trabajos
científicos sobre esta materia se concentran fundamentalmente en las dos últimas
décadas, y posiblemente, si tuviéramos que fijar una fecha en el inicio de este
incremento destacaríamos el trabajo de Engle publicado en la revista Econometrica en
1982.

La capacidad de predicción de los rendimientos en los mercados de valores ha sido muy


discutida. Si entendemos la posesión de un valor, como un activo que genera el derecho
de percibir en el futuro un flujo monetario como, por ejemplo, dividendos, la predicción
del precio del valor dependerá de nuestra capacidad de anticipar la cuantía de los
dividendos. Además, teniendo en cuenta que la política de reparto de dividendo suele
ser anticipada al mercado por las propias empresas, la posibilidad de predecir el precio
de un valor no debería tener mayores dificultades. Sin embargo, la realidad es bien
distinta, sabemos que la capacidad de predecir el movimiento de los precios de los
valores es una tarea muy difícil o incluso imposible. De esta manera, el precio de un
valor en el momento t ( Pt ) , puede quedar explicado a partir de la siguiente expresión

Pt = E  Pt *  (1.1)
∞ k
Pt * = ∑ E [ Dt + k ] ∏ γ t + j (1.2)
k =0 j =0

donde Pt * es el valor racional ex-post de un determinado activo, y γ t + j es un factor de

descuento igual a 1 (1 + rt + j ) , donde rt + j es el tipo de descuento en el momento t+j. Tal

y como se puede ver en (1.2), el precio racional que debería tener un determinado valor

1
no es más que el obtenido a partir del descuento de los dividendos futuros que se espera
proporcione dicho valor. Sin embargo, el valor de Pt * no es observable, depende de la
predicción que se realice de los dividendos y según (1.2) se obtiene a partir de una suma
de infinitos términos. Shiller en 1981 propone un procedimiento para obtener una
aproximación de Pt * . Su propuesta consiste en realizar una especie de predicción hacia
atrás, de tal manera que si nos encontramos en el momento T, se realiza la predicción
del precio en el momento T-S, aplicando (1.2) para los dividendos reales pagados en el
subperiodo [T-S,T]. De esta manera se sustituye la predicción de los dividendos por su
valor real. En el caso de que los errores de predicción de los dividendos no sean
sistemáticamente positivos o negativos, esta sustitución estaría plenamente justificada.
En caso contrario, existiría un sesgo en las estimaciones de Pt * . Además, el
inconveniente del sumatorio infinito en (1.2) se solventa teniendo en cuenta que sus
elementos se hacen cada vez más pequeños a medida que se incrementa k como
consecuencia de la intervención del factor de descuento, con lo que para un valor
suficientemente grande de S produce que los elementos que se pierden de (1.2) sean
insignificantes o nulos.

Shiller (1981) demuestra que el precio de los valores y sus fluctuaciones no parecen
reflejar el precio racional. Utilizando los datos1 de Shiller, actualizados a diciembre de
2000, hemos obtenido los precios racionales recogidos en la figura 1 mediante la línea
discontinua. El tipo de descuento utilizado para todo el periodo ha sido del 8.32%,
mientras que el índice y los dividendos han sido deflactados (1982=100). Tal y como se
puede observar en la figura 1, el precio racional tiene menos volatilidad que el precio
real. Esto hecho ha sido un tema de discusión en trabajos posteriores, existiendo una
amplia bibliografía al respecto. Uno de los aspectos más interesante que se derivan de
estos resultados, es que el fenómeno observado en las figuras 1 viola claramente lo
estadísticamente esperado. La ecuación (1.1) puede ser interpretada como una regresión
lineal simple donde la constate del modelo es cero y el coeficiente de la variable
explicativa ( Pt* ) es uno. En ese caso tendríamos que:

1
La base de datos corresponden al Standard & Poor Composite Index para datos mensuales desde enero
de 1871 hasta diciembre de 2000.

2
Cov ( Pt , Pt * ) Cov ( Pt , Pt* ) Var ( Pt ) Dt ( Pt )
=1⇒ *
= *
⇒ ρ ( Pt , Pt * ) = ⇒
Var ( Pt ) Dt ( P ) Dt ( Pt ) Dt ( P) Dt ( Pt ) Dt ( Pt* )

Dt ( Pt ) = ρ ( Pt , Pt * ) Dt ( Pt* ) (1.3)

donde Var(·), Dt(·) y ρ (·), representan la varianza, desviación típica y coeficiente de


correlación respectivamente. Alternativamente de (3) podemos concluir que

Dt ( Pt ) ≤ Dt ( Pt * ) (1.4)

60 40

35
50
30
40
25
Índice

Índice

30 20

15
20
10
10
5

0 0
10 20 30 40 50 60 70 80 90 00 10 20 30 40 50 60 70 80 90
Meses Meses
7
Figura 1(a) Figura 1(b)
La línea continua corresponde al S&P deflactado (1982=100) y sin tendencia. La línea discontinua
corresponde al precio racional obtenido a partir de (1.1). La figura 1(b) termina en diciembre de 1997
para evitar el efecto que tiene el precio de diciembre de 2000 en el cálculo del precio racional. Se ha
eliminado la tendencia dividiendo cada serie por la media móvil del earnings real (media móvil para 30
años [360 meses]).

El resultado en (1.3) o (1.4) se incumple claramente para el caso del S&P, tal y como
reflejan la figura 1. Se ha comprobado que este mismo resultado se obtiene cuando se
trabaja con otros índices o series temporales de activos financieros.

Algunos inconvenientes y consideraciones de la expresión (1.4):

1.- La ecuación (1.4) se mantiene para el caso en que Pt sea estacionario. Además, hace
referencia a la desviación típica poblacional y no la muestral. Puede ocurrir que los
datos maestrales con los que se cuenten no sean lo suficientemente amplios como para
reflejar una estimación correcta.

3
2.- Si la serie Pt es no-estacionaria, le estimación de la desviación típica no está

definida. Se tendría que transformar de alguna manera las series Pt y Pt * para convertirlas
en estacionarias.

3.- Le ecuación (1.4) se cumpliría en sus extremos de variabilidad de los siguientes


casos: (1) Considerar que Pt es el mejor predictor de Pt * no significa que sea un buen
predictor. Simplemente implica que no hay mejor predictor. De hecho, si consideramos
que la esperanza de los dividendos es igual a una constate tal que E [ Dt ] = α ,

donde Dt = α + wt , entonces Pt se convierte en una constante con lo que la correlación

entre Pt y Pt * sería cero. Además, la Var( Pt ) = 0, con lo que se cumpliría (1.4) en uno de

sus extremo tal que: Dt ( Pt ) = 0 ≤ Dt ( Pt * ) . (2) Si se conociera con exactitud un valor

constante para los dividendos futuros, de tal manera que wt = 0 , tendremos en este caso

que Pt = Pt * , con lo que su coeficiente de correlación será igual que la unidad, y por

tanto, tendremos que (4) Dt ( Pt ) = Dt ( Pt* ) . Evidentemente, el caso más habitual será

aquel donde el coeficiente de correlación entre Pt y Pt * este comprendido entre los


valores (1,0).

De los aspectos considerados anteriormente, es posiblemente el de la no-estacionariedad


de las series el que mayor trascendencia tenga a la hora de tratar el tema del por qué se
viola de forma tan flagrante la expresión (1.4) en la realidad. Por esta razón en la figura
1 se ha eliminado la tendencia de las series, para de esta menara conseguir series
estacionarias. Aún así, tal y como hemos visto en la figura 1, en (1.4) se sigue
incumpliendo la relación esperada.

2.- VOLATILIDAD, DESVIACIÓN TÍPICA Y RIESGO

En finanzas, la volatilidad normalmente se refiere a la desviación típica, obtenida a


partir del conjunto de observaciones

4
T

∑(R − R)
2
t
σ= t =1
(2.1)
T −1

donde Rt y R son el rendimiento en el momento t y la media de los rendimientos


respectivamente, siendo T el número de observaciones2.

La desviación típica es una medida de dispersión correcta para distribuciones como la


normal o la t-student y otras, pero no en todos los casos. Otras medidas de dispersión
igualmente consideradas en algunos casos puede ser la media de los rendimientos
absolutos o el rango intercuartílico.

La relación entre la voaltilidad y el riesgo es tenue. Normalmente el riesgo se asocia a


rendimientos pequeños o negativos. Mientras que la mayoría de las medidas de
dispersión no hacen este tipo de diferencias. Por ejemplo, el “Ratio de Sharpe”,
obtenido como el cociente del exceso de rendimiento sobre el tipo libre de riesgo entre
la desviación típica, penaliza inadecuadamente rendimientos ocasionalmente grandes. El
uso de la semi-varianza evitaría este inconveniente, debido a que sólo tiene en cuenta la
variabilidad de los rendimientos que se encuentran por debajo de la media.

Mientras que el cuadrado de la expresión (2.1) es un estimador insesgado de la varianza,


(2.1) es un estimador sesgado de la desviación típica debido a la desigualdad de Jensen3.

En la literatura especializada hay aún varias cuestiones pendientes de profundización en


relación con las series temporales financieras y la volatilidad de los mercados
financieros. Entre ellas podemos destacar: La cola de las distribuciones de los
rendimientos, el agrupamiento y asimetría de la volatilidad, reversión de la media y los

2
En estos apuntes se considera que el riesgo se mide directamente sobre la variabilidad de los
rendimientos y que éstos son estacionarios y de media nula. Esta consideración es correcta, siempre y
cuando la mejor predicción que se pueda realizar de ellos sea su media incondicional. Si este no fuera el
caso, y la mejor predicción de los rendimientos se pudiera realizar mediante la utilización de un
determinado modelo más complicado. El riesgo no se mediría directamente sobre los rendimientos, sino
sobre los residuos del modelo, que es la parte del rendimiento realmente impredecible. Por simplificación,
y sin perdida de generalidad, hemos considerado el supuesto más simple. En el momento en que a lo largo
de estos apuntes sea conveniente cambiar este supuesto, se indicará en la exposición.
3
Para más detalles ver página 105 de Greene, W.H. (1999). Análisis Econométrico. Editorial Prentice
Hall.

5
co-movimientos de la volatilidad entre los activos financieros y los mercados
financieros. Se ha comprobado que la correlación entre la volatilidad del rendimiento de
los valores es mayor que entre el rendimiento mismo, sobre todo en épocas de mercados
bajistas y crisis financieras.

Si los rendimientos fueran independientes e idénticamente distribuidos su varianza a


largo plazo se podría obtener a partir de un período concreto de tamaño T. Sin embargo,
teniendo en cuenta los aspectos que hemos señalado en el punto anterior, éste no es el
caso de las series temporales financieras. Por esta razón varios autores han considerado
la posibilidad de que la desviación típica tenga un comportamiento variable en el tiempo
acorde con algún proceso determinado. Así se ha considerado la posibilidad de que
siguiera un camino aleatorio.

Uno de los mayores problemas que se encuentran a la hora de modelizar la varianza es


el efecto de la reversión de la media. Sin embargo, este efecto queda diluido cuando se
trabaja con datos agregados a nivel semanal o mensual, en estos casos la capacidad de
predecir la varianza se incrementa.

3.- COMPORTAMIENTO LINEAL VERSUS NO-LINEAL DE LA


VOLATILIDAD

En modelo básico de regresión es linear en los parámetros. Esto quiere decir que hay un
parámetro que multiplica a cada una de las variables.

Yi = β 1 X 1i + β 2 X 2i + ... + β k X ki + u i para i = 1,...N (3.1)

En ocasiones el modelo no es linear en sus parámetros pero, sin embargo, mediante las
apropiadas transformaciones de las variables se puede linealizar.

También podemos hablar de un modelo no-lineal en las variables. En este caso hay una
única variable por cada uno de los parámetros. El modelo descrito anteriormente puede

6
ser utilizado como ejemplo de un modelo lineal en las variables. Y como ejemplo de no-
linealidad en las variables podemos especificar el siguiente:

Rt = α 0 + α1 Rt −1 Rt − 2 + ut (3.2)

En el ámbito de las series temporales financieras existen muchos comportamientos que


son estrictamente no-lineales. En estos casos, la necesidad de trabajar con modelos no-
lineales se hace necesaria si se quiere recoger correctamente el comportamiento de estas
series. Síntomas de la no-linealidad incluye:

- Distribuciones leptokurticas: La distribución de los rendimientos suelen tener


colas más gruesas que las que corresponderían a la distribución normal.
- Agrupamiento de volatilidades: Existe una tendencia en los mercados de
agrupamiento de la volatilidad. De esta manera, bajas volatilidades tienden a
generar bajas volatilidades, mientras que altas volatilidades tienden a generar
altas volatilidades.
- Efecto leverage: Existe un tendencia en la volatilidad de incrementarse en mayor
cuantía cuando la variación de los rendimientos es negativa que cuando es
positiva.

Campbell, Lo y MacKinlay definen que un proceso generador de datos es no lineal


cuando el valor actual depende no linealmente de los valores actuales y pasados de la
perturbación aleatoria. De esta manera si

Rt = f ( ut , ut −1 , ut − 2 ,...) (3.3)

Se dice que el proceso generador de Rt es no-lineal si f es una función no-lineal. Otro


ejemplo de un proceso generador de datos no-lineal lo daría la siguiente expresión

Rt = g ( ut , ut −1 , ut − 2 ,...) + utσ 2 (ut −1 , ut − 2 ,...) (3.4)

donde g es una función del valor actual y pasado de la perturbación aleatoria, mientras
que σ 2 se puede interpretar como un término que recoge la varianza al estar multiplicada

7
por la perturbación aleatoria. En este caso, si g y σ 2 son funciones no-lineales, podemos
hablar de modelos no-lineales en media, representados por g(·), y no-lineales en
varianza representados por σ 2 (·). De esta misma manera, podemos tener modelos que
son lineales en media y varianza, como por ejemplo, los modelos ARMA. Que son
lineales en media pero no en varianza, como por ejemplo los modelos GARCH. O no-
lineales en media y si en varianza como el de (3.2) en el caso de que ut sea i.i.d. Incluso
podemos encontrarnos con ejemplos donde no exista linealidad ni media ni en varianza.

La cantidad de modelos no-lineales propuestos en la literatura especializada es inmensa,


sin embargo, tan solo un pequeño número se han considerado útiles en el campo de las
finanzas. Los modelos no-lineales más populares son el ARCH y el GARCH, los cuales
se usan para predecir la volatilidad.

Contraste de no-linealidad

¿Cómo se puede determinar si es apropiado el uso de un modelo no-lineal para un


determinado proceso generador de datos?. En principio nos puede servir de ayuda la
teoría económica que esté detrás de nuestro estudio. Esta teoría puede considerar
modelos donde la relación entre las variables sea no-lineal. En otras ocasiones, la falta
de teoría, o el comportamiento de los datos nos pueden sugerir modelos no-lineales. En
estos casos es imprescindible el uso de las herramientas estadísticas para confirmar esta
elección.

Las herramientas clásicas utilizadas en Econometría para la detección de dependencia


no suelen ser muy fructíferas, entre ellas se destaca el coeficiente de autocorrelación
simple y parcial. Estas medidas detectan la existencia de dependencia lineal, pero esto
último no implica necesariamente que las observaciones sean independientes.

Los contrastes para la detección de la no-linealidad los podemos clasificar en generales


y específicos. Los generales también se les suele denominar contrastes portmanteau.
Normalmente estos contrastes están diseñados para detectar cualquier comportamiento
no aleatorio en los datos. Por la tanto, detectan una gran variedad de estructuras no-

8
lineales. Un ejemplo de este tipo de contrastes es el RESET de Ramsey (1969). Uno de
los contrates más utilizados dentro de este tipo es el BDS [Brock et al.(1996)]. Este
contraste tiene como hipótesis nula el que los datos son completamente aleatorios. O
sea, un ruido estrictamente independiente. Detecta, por tanto, cualquier tipo de
estructura, tanto procesos estocásticos lineales como no-lineales, caos determinista, etc.
De esta manera, este contraste se aplicaría a los residuos del modelo propuesto para
determinar si existe alguna estructura no-aleatoria que no recoja el modelo. Sin
embargo, la cuestión no es tan fácil. Si por ejemplo, se propone un modelo no-lineal (tal
como un GARCH), la distribución asintótica del estadístico de contraste no sigue una
distribución normal. Esto implicaría la necesidad de obtener valores críticos mediante el
uso de simulación.

A partir de la aplicación empírica de este tipo de contrastes, se llega a la conclusión de


que en la mayoría de los casos las series temporales de rendimientos de valores
presentan relaciones de dependencia no-lineales.

Los contrastes específicos están diseñados para contrastar determinadas estructuras no-
lineales. Un ejemplo de este tipo de contrastes es el de multiplicadores de Lagrange
para la detección de proceso ARCH. En el apartado 5 se verá su utilización. Cuando
estos contrastes dan como resultados la inexistencia de la estructura lineal, no implica
necesariamente independencia.

4.- PROCEDIMIENTOS Y MODELOS USADOS EN LA PREDICCIÓN DE LA


VOLATILIDAD

4.1.- Volatilidad Histórica y Medias Móviles

La estimación de la volatilidad histórica se obtiene a partir del cálculo de la varianza o


desviación típica para un determinado periodo muestral, convirtiéndose esta medida en
la predicción de las futuras volatilidades. La diferencia con el caso de las medias
móviles es que éste último procedimiento elimina las volatilidades más antiguas del
cálculo de la varianza o desviación típica.

9
4.2.- Medias Móviles con Ponderaciones Exponenciales (EWMA)4

Sigue tratándose de una extensión del procedimiento de volatilidad histórica. En este


caso hay un sistema de ponderaciones de manera tal, que las observaciones más
recientes tengan un peso en el cálculo de la volatilidad futura mayor que las más
alejadas. Este procedimiento tiene dos ventajas sobre el de la volatilidad histórica y el
de medias móviles. En primer lugar, es lógico considerar que las observaciones más
reciente tengan un peso mayor en la explicación de la volatilidad futura. En segundo
lugar, el efecto sobre la volatilidad de una observación se reduce exponencialmente. El
modelo EWMA se puede expresar de la siguiente manera:

∞ 2

σ = (1 − λ ) ∑ λ
t
2 j −1
(R
t− j − R) (4.1)
j =0

donde λ es el elemento que determina la ponderación del procedimiento, y por tanto,


fija el peso para las observaciones próximas y alejadas. El valor de λ puede ser
estimado, normalmente mediante la minimización de la suma del cuadrado de los
errores del modelo. En muchas aplicaciones se le suele dar una valor de 0.94 y a R un
valor de cero. Además, es evidente que en la práctica sería imposible aplicar (4.1)
teniendo en cuenta que el sumatorio que interviene en la expresión presenta infinitos
sumandos, siendo necesario el truncamiento la serie para hacerla factible.

4.3.- Modelos ARMA

Consiste en aplicar la metodología de este tipo de modelos a la estimación de la


volatilidad. Para este menester se necesitaría una variable proxy para la volatilidad, ya
que esta variable es inobservable. Entre las posibles soluciones, las más utilizadas ha
consistido tomar el cuadrado del rendimiento diario, o también, el rango diario de
variación de los rendimientos. Para evitar valores negativos, esta última aproximación
se obtiene como el logaritmo del ratio entre el precio mayor y menor de un determinado
día de negociación.

4
Corresponde a las iniciales en inglés de Exponentially Weighted Moving Average model

10
5.- MODELOS DE LA FAMILIA ARCH (AutoRegressive Conditinal
Heterocedasticity)

Se trata de modelos más sofisticados que los anteriores. Estos modelos no calculan la
desviación típica muestral, sino que se realiza una formulación de la varianza
condicional (σ t ) a través de procedimientos de máxima verosimilitud. La predicción

one-step-ahead es posible realizarla a partir de la información de la varianza


condicional en el momento t-1. Es posible realizar la predicción para un horizonte
temporal mayor a partir de procedimientos iterativos.

Estos modelos se basan en la existencia de heterocedeasticadad condicionada en el


proceso. La no consideración de este hecho en las aplicaciones empíricas puede tener
como consecuencia la existencia de estimaciones no eficientes.

El primer modelo ARCH fue propuesto por Engle en 1982, donde la varianza
condicional σ t2 es función del cuadrado de “q” rendimientos pasados [ARCH(q)]. Una
generalización de este modelo es el GARCH de Bollerslev (1986). En este caso, la
varianza condicional, no sólo depende del pasado de los rendimientos, sino igualmente
de “p” varianzas condicionadas retardada [GARCH(p,q)]. El modelo GARCH permite
una especificación más parsimoniosa que el modelo ARCH, siendo el modelo más
utilizado a la hora de modelizar la varianza condicional.

Otros modelos de heterocedasticidad condicionada son el GARCH exponencial


(EGARCH). En este caso las varianzas condicionales vienen especificadas en
logaritmos. Esto implica la no necesidad de imponer restricciones para asegurar la no-
negatividad de la varianza. Este modelo permite recoger el hecho de que un cambio
negativo en el rendimiento suponga una mayor varianza condicional que para el caso
del mismo cambio en sentido positivo. En los modelos ARCH y GARCH, el
comportamiento de la varianza condicionada es simétrico respecto al signo de la
variación de los rendimientos.

11
Otros modelos que permiten movimientos asimétricos de la varianza condicional
dependiendo del signo de la variación de los rendimientos son el GJR-GARCH
[Glosten, Jagannathan y Runkle (1993)], y el QGARCH (Quadratic GARCH).

Uno de los aspectos que se destaca en el comportamiento de la volatilidad es su “larga


memoria” en el tiempo. De esta manera, la repercusión de un impacto en la volatilidad
actual se mantiene en el tiempo durante una larga temporada. El modelo IGARCH
(Integrated GARCH) recoge estos efectos [Engle y Bollerslev (1986)]. En estos
modelos la varianza incondicional no existe.

5.1.- El Modelo ARCH

Como ya se ha comentado, fue propuesto por Engle en 1982. Un proceso ARCH(q) se


genera mediante la siguiente expresión

Rt = σ t zt donde zt ~ N (0,1) y σ t2 = α 0 + α1 Rt2−1 + ... + α q Rt2− q (5.1)

Tradicionalmente la Econometría se ha centrado en la estimación de la media


condiciona de los modelos. De esta manera, mientras esta medida dependía del pasado,
no ocurría lo mismo con la varianza condicional. Sin embargo, el modelo ARCH se
centra en la estimación de esta última medida, de manera tal que se describe una
dependencia temporal entre su valor actual y pasado, tal y como queda refleja en (5.1).

Teniendo en cuenta (5.1), Rt sigue una distribución normal condicionada al conjunto de


información en el momento t-1, de media5

E [ Rt Ψ t −1 ] = σ t E [ zt ] = 0 (5.2)

5
Una de las leyes estadísticas más utilizadas a la hora de trabajar con modelos de varianza condicionada
es la ley de expectativas iterativas que podemos definir mediante la siguiente expresión

E [ Rt ] = E  E [ Rt Ψ t −1 ]

12
donde Ψ t −1 es el conjunto de información en el momento t-1. Y la varianza del proceso
será

E  Rt2 Ψ t −1  = σ t2 E  zt2  = σ t2 (5.3)

dado que zt2 se distribuye como una chi-cuadrado de 1 grado de libertad. En resumen,
podemos expresar el proceso mediante la siguiente notación

Rt Ψ t −1 ~ N ( 0, σ t2 ) (5.4)

Tal y como se ha comentado, en estos apuntes trabajamos bajo el supuesto de que los
rendimientos son estacionarios, de media nula, y que su mejor predicción es su media
incondicional. En el caso de que los rendimientos sigan un proceso dependiente,
estaremos ante el modelo ARCH de regresión. En este caso,

Rt Ψ t −1 ~ N ( X tW , σ t2 ) (5.5)

donde X t es una matriz que contiene las variables explicativas en cada una de sus

columnas de tamaño T y W es un vector columna de los parámetros o coeficientes. El


modelo se expresaría tal que

Rt = X tW + ε t con σ t2 = α 0 + α1ε t2−1 + ... + α qε t2− q . (5.6)

Momentos incondicionales del modelo ARCH(1)

Momento de orden 2

Teniendo en cuenta (5.1) y la ley de expectativas iterativas

E  Rt2  = E σ t2  = α 0 + α1 E  Rt2−1  (5.7)

13
además dado que Rt es un proceso estacionario tendremos que E  Rt2  = E  Rt2−1  y por

tanto de (5.7)

α0
E  Rt2  = (5.8)
1 − α1

De esta manera,

α1 < 1 → Proceso de varianza finita

α1 > 1 → Proceso no estacionario en varianza

α1 = 1 → Proceso integrado en varianza

α1 = 0 → Proceso N ( 0, α 0 )

Si generalizamos para q>1 tendremos que

α0
E  Rt2  = q
(5.9)
1 − ∑αi
i =1

Momentos de orden impar

Debido a la simetría del proceso los momentos de orden impar son cero
Momento de orden 4

Para cualquier q tendremos que

E  Rt4  = E  zt4  E σ t4  = 3E σ t4  (5.10)

Este tipo de modelos han sido ampliamente utilizados en las aplicaciones empíricas
debido a que recogen gran parte de los comportamientos a los que nos tiene
acostumbrados los rendimientos de los mercados de valores, entre los que destacamos:

14
1. Evidencia empírica de que en muchos modelos econométricos la capacidad de
predicción varía considerablemente de un periodo a otro.

2. Agrupación a intervalos de errores de magnitud similar.

Al estar modelizando la varianza condicional, sus valores estimados deben ser siempre
positivos, al no tener sentido varianzas negativas. Esto supone la necesidad de realizar
restricciones al modelo. La variable Rt interviene en la ecuación de la varianza elevada
al cuadrado, por tanto, la única restricción de no-negatividad que se debe plantear afecta
a los coeficientes.

Contraste de multiplicadores de Lagrange para detectar los efectos ARCH

Para determinar la existencia de efectos ARCH en una determinada serie podemos


actuar de la siguiente manera:

1. Realizar una regresión entre el cuadrado de la serie contra el cuadrado de sus


retardos:

Rt2 = λ0 + λ1 Rt2−1 + λ2 Rt2− 2 + ... + λq Rt2− q + vt (5.11)

a partir de la cual se obtiene el coeficiente de determinación ( R 2 ) .

2. Obtener el estadístico de contraste multiplicando el tamaño de la serie por el


coeficiente de determinación (T R ) ,
2
el cual se distribuye como una chi-

cuadrado de “q” grados de libertad.

3. La hipótesis nula de este contraste es la siguiente: H 0 : λ1 = λ2 = ... = λq = 0 .

Rechazarla implica la existencia de efectos ARCH, en caso contrario no se


rechaza su existencia.

15
Limitaciones del modelo ARCH(q)

El modelo ARCH(q) marcó el inicio de una metodología que ha supuesto un cambio


muy importante en el tratamiento de la volatilidad dentro de la Econometría, y que ha
tenido como momento de máximo reconocimiento la concesión del Premio Nóbel de
Economía al profesor Robert F. Engle en 2003. Sin embargo, en la última década ha
decaído el uso de este modelo debido a las innovaciones que sobre la misma base
metodológica se han ido aportando. Algunas de sus limitaciones son las siguientes:

1. No hay una forma generalmente aceptada para determinar el valor de q.


2. El valor de q necesario para recoger correctamente el comportamiento de la
varianza suele ser excesivamente largo.
3. La restricción de no-negativa para todos los coeficientes del modelo es más
difícil de sostener cuando el número de éstos es elevado.

5.2.- El Modelo GARCH

El modelo GARCH es una generalización del modelo ARCH. Fue propuesto por
Bollerslev en 1986. En este caso, la varianza condicional viene explicada, no solo por el
cuadrado de la propia serie como en el modelo ARCH, sino igualmente por el retardo de
la varianza. De esta manera la varianza condicional de un proceso GARCH(q,p) adopta
la siguiente forma

σ t2 = α 0 + α1 Rt2−1 + ... + α q Rt2− q + β1σ t2−1 + ... + β pσ t2− p (5.12)

La expresión más sencilla de este modelo es el GARCH(1,1) donde

σ t2 = α 0 + α1 Rt2−1 + β1σ t2−1 (5.13)

Esta ha sido la especificación más utilizada en la modelización de la volatilidad.


Siguiendo los mismos argumentos que para el modelo ARCH(1), tendremos que la
varianza incondicional de una proceso GARCH(1,1) queda expresada como sigue

16
α0
E  Rt2  = (5.14)
1 − (α1 + β1 )

En este caso la varianza existe siempre y cuando α1 + β1 < 1 . En el caso de que

α1 + β1 ≥ 1 la varianza no estará definida lo que implica no-estacionariedad en varianza.


En el caso concreto en que α1 + β1 = 1 , estaremos hablando de la existencia de varianza
con raíz unitaria. En cualquier caso, la no-estacionariedad en varianza no tiene
implicaciones tan extremas como en el caso de la no-estacionariedad en media. Sin
embargo, su existencia implica comportamientos que no ha podido ser explicados por la
teoría financiera. Tengamos en cuenta que la existencia de varianza no-estacionaria
implica que un shock en la varianza actual tiene repercusiones permanentes en el futuro.

5.3.- Estimación de los modelos ARCH y GARCH

Por diversas razones la estimación MCO de estos modelos no es posible. Entre estas
razones podemos destacar el hecho de que el método MCO estima los coeficientes de la
media condicional del modelo, pero no los de la varianza. La técnica de estimación
habitualmente utilizada en este tipo de modelos es la de máxima verosimilitud. En este
caso, la función de verosimilitud (concretamente el logaritmo de esta función) incorpora
los coeficientes que definen la varianza condicional, además de los correspondientes
para la media.

Concretamente, para un modelo ARCH, la estimación por máxima verosimilitud


implica la obtención de forma recursiva de la siguiente expresión6

∂L
α i +1 = α i + ∂α (5.15)
 ∂2 L 
E 
 ∂α ∂α ' 

donde α = α 0 α1 . . α q  , y L es el logaritmo de la función de verosimilitud,

concretamente7

6
Esta expresión se deriva de la aplicación del algoritmo denominado scoring utilizado en el trabajo de
Engle (1982).

17
Rt2
Lt = ln f ( Rt Ψ t −1 ) = − ln σ t −
1 2 1 (5.16)
2 2σ2
t

siendo f ( Rt Ψ t −1 ) la función de verosimilitud, que para el caso de una distribución

normal condicionada como en (5.4) será igual a

1  R2 
f ( Rt Ψ t −1 ) = exp  − 1 t2  (5.17)
σ t2 2π 2σ
 t 

La primera derivada de (5.16) es

∂Lt 1 ∂σ t2  Rt2 
=  − 1 (5.18)
∂α 2σ t2 ∂α  σ t2 

y la esperanza de la segunda derivada

 ∂ 2 Lt  1 ∂σ t2 ∂σ t2
E  = − (5.19)
 ∂α∂α '  2σ t4 ∂α ∂α '

de esta manera sustituyendo (5.18) y (5.19) en (5.15) tendremos que

Wt
 
T
1 ∂σ t  Rt
2 2

2∑σ
1  2 − 1
t =1
2
∂α  σ t 
α i +1 = α i + t
(5.20)
T
1 ∂σ t 1 ∂σ t
2 2

2∑
1
i =1 σ t ∂α σ t2 ∂α '
2
 
Zt' Zt

Por tanto el algoritmo fijado en (5.15), finalmente queda representado como una
regresión MCO iterativa

7
En esta expresión se han eliminado los elementos constantes y que, por tanto, no afectan a la
maximización de la función.

18
α i +1 = α i + ( Z ' Z ) Z 'W
−1
(5.21)

teniendo en cuenta que

∂σ t2
= 1 Rt2−1 . . Rt2− q  (5.22)
∂α
1
Z t' = 1 Rt2−1 . . Rt2− q  ⇒ Z ' = [ Z1 Z 2 . . ZT ]
σ t
2

W ' = [W1 W2 . . WT ]

En la estimación de los modelos GARCH no se puede utilizar con la misma facilidad el


algoritmo scoring como en el caso de los ARCH. Esto se debe al elemento recursivo
que aparece en la primera derivada del logaritmo de la función de verosimilitud respecto
a la varianza. En un modelo ARCH esta expresión corresponde con la ecuación (5.22).
Sin embargo en un modelo GARCH tendríamos que

∂σ t2 q
∂σ t2−i
= 1 Rt −1 . . Rt − q  + ∑ β i
 2 2
 (5.23)
∂α  i =1 ∂ (α , β )

Elemento recursivo

lo que complica sobremanera la obtención de la segunda derivada del logaritmo de la


función de verosimlitud8. Este inconveniente, ha llevado a la utilización de otros
algoritmos. Uno de los más utilizados es el algoritmo BHHH, propuesto por Berndt et
al. en 1974.

Repercusión de la existencia de no-normalidad en el proceso

Tal y como se ha visto en la estimación de estos modelos, se ha usado la función de


verosimilitud de una distribución normal condicionada como en (5.16). Esta hipótesis
puede ser contrastada. Teniendo en cuenta (5.1), tendremos que

8
Un ejemplo de la utilización del algoritmo scoring para un modelo GARCH(q,1) se puede ver en
Acosta-González (1996). En este caso el orden de retardo de la varianza condicionada es p=1, lo que
simplifica en cierta medida el elemento recursivo en ( ). La dificultad que entraña la utilización de este
algoritmo para órdenes de retardo para p > 1 aconsejan la utilización de algoritmos alternativos.

19
Rt
zt = ~ N ( 0,1) (5.24)
σt

A partir de la estimación del modelo podremos obtener

Rt
zˆt = (5.25)
σˆ t

Bajo la hipótesis nula, esta expresión debe seguir una distribución normal. En la
práctica, raramente, (5.25) sigue una distribución normal, presentando en la mayoría de
los casos una curtosis mayor a la esperada9. Sin embargo, este hecho no implica un
problema para la estimación por máxima verosimilitud, dado que los parámetros, aún
cuando (5.24) no sigua una distribución normal son consistentes siempre y cuando la
media y la varianza estén correctamente especificados. Solamente existirán problemas
en la estimación de la matriz de varianzas-covarianzas de los estimadores. En este caso,
se tendrá que usar procedimientos de estimación robustos a la no-normalidad como el
propuesto por Bollerslev y Wooldridge en 1992. A todo este procedimiento se le
denomina estimación de quasi-máxima verosimilitud.

Tanto el modelo ARCH como el modelo GARCH consideran que la variación de la


volatilidad no viene determinada por el signo de la variación de los rendimientos, sino
por su magnitud. Este supuesto puede ser muy restrictivo en los mercados de capitales.
En estos mercados es habitual que ante una misma variación, el incremento de la
volatilidad sea mayor si ésta es negativa que si es positiva. A este efecto se le conoce
con el nombre de leverage. Los dos modelos siguientes tienen la ventaja de recoger esta
asimetría producida por shocks en los rendimientos. Estos modelos son el GJR-GARCH
y el EGARCH.

9
Recordemos que el coeficiente de curtosis de una distribución normal es igual a 3.

20
5.4.- El Modelo GJR-GARCH

Fue propuesto por Glosten, Jagannathan y Runkle en 1993. Se trata de una extensión del
modelo GARCH para recoger las posibles asimetrías que pudieran existir en los datos.
De esta manera la especificación de la varianza condicional es

σ t2 = α 0 + α1 Rt2−1 + ... + α q Rt2− q + β1σ t2−1 + ... + β pσ t2− p + γ Rt2−1 I t −1 (5.26)

1 si Rt −1 < 0
donde I t −1 = 
0 en caso contrario

El efecto leverage se producirá cuando γ > 0 . En este caso, a las restricciones


habituales de no-negatividad se le añade la siguiente: α1 + γ ≥ 0 .

5.5.- El Modelo EGARCH

Fue propuesto por Nelson en 1991. Existen varias alternativas a la hora de especificar la
varianza condicional en este modelo, una de ellas es la siguiente:

Rt −1 Rt −1
ln (σ t2 ) = w + β ln (σ t2−1 ) + γ +α (5.27)
σ t −1 σ t −1

Este modelo presenta diversas ventajas sobre el GARCH. Dado que se modeliza el
logaritmo de σ t2 no hace falta imponer restricciones de no-negatividad, dado que σ t2 será
siempre positivo. La presencia del efecto leverage se puede contrastar mediante la
hipótesis nula: H 0 : γ > 0 . La asimetría se producirá en cualquier caso cuando γ ≠ 0 .

5.6.- El Modelo GARCH-M

Según la teoría financiera, la rentabilidad y el riesgo son dos variables claves a la hora
de que los agentes tomoen posiciones en el mercado de valores. De esta manera, la
asunción de un mayor riesgo siempre debe venir acompañada de una mayor

21
rentabilidad. La especificación del modelo GARCH-M recoge esta relación,
introduciendo como variable explicativa de la rentabilidad la volatilidad condicionada.
Este modelo fue propuesto inicialmente por Engle, Lilien y Robins en 1987. Su
especificación queda recogida de la siguiente manera

Rt = δσ t + ut donde ut ~ N (0, σ t2 ) (5.28)

y σ t2 sigue un proceso como en (5.12) para un determinado valor de “q” y “p”. De esta

manera, en el caso de que δ > 0 , un incremento en la volatilidad producirá un


incremento en la rentabilidad.

6.- EVALUACIÓN DE LA CAPACIDAD PREDICTIVA DE LA VOLATILIDAD

La comparación entre las predicciones de diferentes modelos es una de las cuestiones


más importantes a la hora de la selección de los mismos.

Una evaluación inmediata supone determinar la utilidad que la predicción de la


volatilidad proporciona al inversor. Para reliazar esta tarea es necesario conocer el
proceso de decisión a la hora de realizar inversiones y saber el lugar donde la volatilidad
interviene dentro de ese proceso. Normalmente, la determinación de esta utilidad es
difícil debido a que es desconocida en la práctica. Por tanto, al final se determina
utilizando medidas estadísticas.

Entre las medidas más utilizadas tenemos el error cuadrático medio:

N N

∑ ei2 ∑e 2
i
ECM = i =1
, la raíz del error cuadrático medio: RECM = i =1
, el error absoluto
N N
N N

∑ ei ∑eY i
i
medio: EAM = i =1
, error absoluto medio en porcentaje; EAMP = i =1
, la U de
N N
Theil:

22
∑( X )
N 2
i − Xˆ í
U − Theil = i =1
(6.1)
∑( X )
N 2
i − Xˆ i
RE

i =1

donde Xˆ iRE es la predicción del modelo de referencia con el que se compara el modelo
que se avalúa. En muchas ocasiones esta predicción es la propia de un camino aleatorio.
Excepto en la U de Theil, el resto de medidas que se presentan no toman como
referencia ningún tipo de predicción. Para finalizar tenemos la medida LINEX que se
obtiene tal que

∑ exp {a ( X )} − a ( X )
N
1
LINEX = − Xˆ i − Xˆ i − 1 (6.2)
N i =1
i i

En este caso la función de perdida diferencia entre la existencia de errores positivos


frente a errores negativos. La elección del valor de “a” es subjetiva. En el caso de que
“a” sea menor que cero, la función es aproximadamente linear para las sobre-
predicciones y exponencial en el caso de infra-predicciones.

El uso del cuadrado de los rendimientos como proxy de la volatilidad

La volatilidad es una variable latente ya que desconocemos su valor concreto. Muchos


autores han utilizado el cuadrado de los rendimientos como variable proxy. Sin
embargo, a pesar de que Rt2 es una estimación insesgada de σ t2 , esta medida es muy

imprecisa debido a la asimetría de su distribución. Supongamos que Rt = σ t zt donde

zt ~ (0,1) . En este caso E  Rt2 Ψ t −1  = σ t2 E  zt2 Ψ t −1  = σ t2 teniendo en cuenta que

zt2 ~ χ12 . Sin embargo, dado que la mediana de una χ12 es 0.455, tendremos que

1
Rt2 < σ t2 en más del 50% de las veces.
2

23
La utilización del cuadrado del rendimiento como variable proxy de la volatilidad
induce a utilizar la siguiente regresión para evaluar la capacidad predictiva de un
determinado modelo

Rt2 = δ 0 + δ1σˆ t2 + vt (6.3)

Si las predicciones son insesgadas, entonces δ0 = 0 and δ1 = 1. Sin embargo, la


obtención de valores distintos significaría que las predicciones de la volatilidad son
sesgadas. En definitiva, este contraste consiste en determinar si las predicciones de la
volatilidad son predicciones sesgadas del cuadrado del proceso. Sin embargo, la
estimación por Mínimos Cuadrado Ordinarios (MCO) de la regresión (6.3) para el caso
en que las volatilidades condicionadas ( σ t ) sean obtenidas a partir de un modelo de la
familia ARCH, implica estimaciones sesgadas como consecuencia del comportamiento
autorregresivo de la varianza condicionada. Así, por ejemplo, para el caso del modelo
GARCH(1,1) donde la varianza condicional sigue un proceso según (5.13).
Sustituyendo la estimación de este proceso en (6.3) tendremos que

Rt2 = δ 0 + δ1 (αˆ 0 + αˆ1 Rt2−1 + βˆ1σˆ t2−1 ) + ut (6.4)

En este caso, debido a la presencia de la variable endógena retardada Rt2−1 como


regresor, es bien conocido que en (6.3)

[
E ( X ' X ) −1 X 'U ] ≠0 (6.5)

donde X es una matriz de dimensión (Tx2) con una primera columna de unos y en la
segunda los valores de σˆ t2 , y U un vector (Tx1) de las perturbaciones vt . Lo que

implica que las estimaciones de δ 0 y δ 1 son sesgadas. Sin embargo, las propiedades
asintóticas de los estimadores MCO de la regresión (6.3) sustentadas en el teorema de
Mann y Wald (1943) implica que

[
p lim ( X ' X ) −1 X 'U ] =0 (6.6)

24
donde p lim es la abreviatura de límite en probabilidad, lo que conlleva a que los
estimadores MCO de (6.3) sean consistentes en tanto en cuanto convergen en
probabilidad al verdadero valor del parámetro a medida que aumenta el tamaño
muestral.

Tal y como se puede ver en Davidson y MacKinnon (1993), cuando la perturbación de


(6.3) sigue una distribución normal de media nula y varianza constante, la convergencia
suele alcanzarse para valores de T aproximadamente de 500. Sin embargo, en este caso
vt no sigue una distribución normal debido a que trabajamos con el cuadrado de Rt .
Este hecho hace que la convergencia en probabilidad de los estimadores de (6.3) sea
muy lenta, de tal manera que ésta se alcanza para valores de T muy grandes, que no son
habituales en trabajos empíricos donde se utiliza la metodología de los modelos
GARCH. Mediante simulación se puede comprobar que la convergencia depende
fuertemente del valor de los parámetros del proceso de la varianza condicionada, pero
para los casos en el que la convergencia es más rápida, estamos hablando de tamaños
muestrales del orden de millones.

Como alternativa a la realización del contraste, teniendo en cuenta las dificultades de


obtener estimaciones insesgadas de los coeficientes de (6.3) para el caso de modelos de
la familia ARCH, se podría utilizar el coeficiente de determinación como elemento que
determinará la capacidad predictiva del la volatilidad. Sin embargo, Andersen y
Bollerslev (1998) demuestran que el coeficiente de determinación de la regresión (6.3)
es igual a k −1 donde k es el coeficiente de curtosis de los residuos estandarizados.
Concretamente, en el caso de un GARCH(1,1) normal condicionado el coeficiente de
determinación tiene un cota de 1
3
. Estos hechos limitan enormemente el uso del

coeficiente como medida para determinar la capacidad predictiva de la volatilidad


obtenida a partir de cualquier modelo.

Otras consideraciones sobre la evaluación de la predicción

Uno de los aspectos más importantes a tener en cuenta en la predicción es la distinción


entre predicción muestral y extra-muestral. En la muestral se predice el valor de la
variable para momentos del tiempo que se han utilizado en la estimación de los

25
parámetros del modelo. Por tanto, en la práctica, el verdadero valor de la variable que se
pretende predecir es conocido y el objetivo de la predicción normalmente consiste en
determinar la bondad del ajuste. Por el contrario, en la extra-muestral, se predice
momentos del tiempo que no han sido utilizados en la estimación. Esta predicción
asume que los parámetros del proceso se mantienen constantes en el tiempo. Este es el
sentido que generalmente se le da al concepto de predicción.

26
REFERENCIAS

Acosta González, E. (1996). Formación de Carteras con Riesgo Condicionado: Una


Aplicación Empírica al Mercado de Valores Español. Tesis doctoral. Universidad de
Las Palmas de Gran Canaria. (http://bdigital.ulpgc.es/digital/visualizar/previo.php?accion=tesis).

Andersen, T. y Bollerslev, T. (1998). Answering the Skeptics: Yes, Standard Volatility


Models Do Provide Achúrate Forecasts. International Economic Review, 39, pp 885-
905.

Berndt, E.K., Hall, B.H., Hall, R.E. y Hausman, J.A. (1974). Estimation and Inference
in Nolinear Structural Models. Annals of Economic and Social Measurement, 4pp 653-
665

Bollerslev, T. (1986). Generalized Autoregressive Condicional Heteroscedasticity.


Journal of Econometrics, 31, pp 307-327.

Bollerslev, T. y Woolddridge, J.M. (1992). Quasi-Maximim Likelihood Estimation and


Inference in Dynamic Models with Time-Varying Covariances, Econometric Reviews,
11, pp 143-172.

Brock, W.A., Dechert, D. y Scheinkman, H. y LeBaron, B. (1996). A Test for


Independence Based on the Correlation Dimension. Econometric Reviews, 15, pp 197-
235.

Engle, R.F. (1982). Autoregressive Condicional Heteroscedasticity with Estimates of


the Variante of United Kingdom Inflation. Econometrica, 50, pp 987-1008.

Engle, R.F. y Bollerslev, T. (1986). Modelling the Persistence of Conditional Variances.


Econometric Reviews, 5, pp 1-87.

Engle, R.F., Lilien, D.M. y Robins, R.P. (1987). Estimating Time Varying Risk Premia
in Term Structure: The ARCH-M Model. Econometrica, 55, pp 391-407.

Glosten, L.R., Jagannathan, R. y RunkleD.E. (1993). On the Relation Between the


Expected Value and the Volatility of the Nominal Excess Return on Stocks.m The
Journal of Finance, 48, pp 1779-1801.

Mann, H.B. y Wald, A. (1943): «On the statistical treatment of linear stochastic
difference equations», Econometrica, 11, 173-220.

Nelson, D.B. (1991). Conditional Heterocedasticity in Asset Returns: A New Approach.


Econometrica, 59, pp 347-370.

Ramsey, J.B. (1969). Test for Specification Errors in Classical Linear Least-Squares
Regression Analysis. Journal of the Royal Statistical Society B, 31, pp 350-371.

Shiller, R.J. (1981). Do Stock Prices Move too Much to be Justified by Subsequent
Changes in Dividends?. American Economic Review, 71, pp 421-436.

27

También podría gustarte