Documentos de Académico
Documentos de Profesional
Documentos de Cultura
La volatilidad es una de las variables más importantes para los agentes que intervienen
en los mercados de valores. La volatilidad determina el riesgo de las posiciones de estos
agentes, y por tanto, es un elemento clave a la hora de determinar la rentabilidad de los
activos. Además, la volatilidad de los mercados tiene una repercusión elevada sobre la
economía general. La eficiencia en la asignación de los recursos financieros que los
agentes realizan entre los diferentes valores, depende de la capacidad de predecir
volatilidad como medida del riesgo. Sin embargo, a pesar de lo anterior, los trabajos
científicos sobre esta materia se concentran fundamentalmente en las dos últimas
décadas, y posiblemente, si tuviéramos que fijar una fecha en el inicio de este
incremento destacaríamos el trabajo de Engle publicado en la revista Econometrica en
1982.
Pt = E Pt * (1.1)
∞ k
Pt * = ∑ E [ Dt + k ] ∏ γ t + j (1.2)
k =0 j =0
y como se puede ver en (1.2), el precio racional que debería tener un determinado valor
1
no es más que el obtenido a partir del descuento de los dividendos futuros que se espera
proporcione dicho valor. Sin embargo, el valor de Pt * no es observable, depende de la
predicción que se realice de los dividendos y según (1.2) se obtiene a partir de una suma
de infinitos términos. Shiller en 1981 propone un procedimiento para obtener una
aproximación de Pt * . Su propuesta consiste en realizar una especie de predicción hacia
atrás, de tal manera que si nos encontramos en el momento T, se realiza la predicción
del precio en el momento T-S, aplicando (1.2) para los dividendos reales pagados en el
subperiodo [T-S,T]. De esta manera se sustituye la predicción de los dividendos por su
valor real. En el caso de que los errores de predicción de los dividendos no sean
sistemáticamente positivos o negativos, esta sustitución estaría plenamente justificada.
En caso contrario, existiría un sesgo en las estimaciones de Pt * . Además, el
inconveniente del sumatorio infinito en (1.2) se solventa teniendo en cuenta que sus
elementos se hacen cada vez más pequeños a medida que se incrementa k como
consecuencia de la intervención del factor de descuento, con lo que para un valor
suficientemente grande de S produce que los elementos que se pierden de (1.2) sean
insignificantes o nulos.
Shiller (1981) demuestra que el precio de los valores y sus fluctuaciones no parecen
reflejar el precio racional. Utilizando los datos1 de Shiller, actualizados a diciembre de
2000, hemos obtenido los precios racionales recogidos en la figura 1 mediante la línea
discontinua. El tipo de descuento utilizado para todo el periodo ha sido del 8.32%,
mientras que el índice y los dividendos han sido deflactados (1982=100). Tal y como se
puede observar en la figura 1, el precio racional tiene menos volatilidad que el precio
real. Esto hecho ha sido un tema de discusión en trabajos posteriores, existiendo una
amplia bibliografía al respecto. Uno de los aspectos más interesante que se derivan de
estos resultados, es que el fenómeno observado en las figuras 1 viola claramente lo
estadísticamente esperado. La ecuación (1.1) puede ser interpretada como una regresión
lineal simple donde la constate del modelo es cero y el coeficiente de la variable
explicativa ( Pt* ) es uno. En ese caso tendríamos que:
1
La base de datos corresponden al Standard & Poor Composite Index para datos mensuales desde enero
de 1871 hasta diciembre de 2000.
2
Cov ( Pt , Pt * ) Cov ( Pt , Pt* ) Var ( Pt ) Dt ( Pt )
=1⇒ *
= *
⇒ ρ ( Pt , Pt * ) = ⇒
Var ( Pt ) Dt ( P ) Dt ( Pt ) Dt ( P) Dt ( Pt ) Dt ( Pt* )
Dt ( Pt ) = ρ ( Pt , Pt * ) Dt ( Pt* ) (1.3)
Dt ( Pt ) ≤ Dt ( Pt * ) (1.4)
60 40
35
50
30
40
25
Índice
Índice
30 20
15
20
10
10
5
0 0
10 20 30 40 50 60 70 80 90 00 10 20 30 40 50 60 70 80 90
Meses Meses
7
Figura 1(a) Figura 1(b)
La línea continua corresponde al S&P deflactado (1982=100) y sin tendencia. La línea discontinua
corresponde al precio racional obtenido a partir de (1.1). La figura 1(b) termina en diciembre de 1997
para evitar el efecto que tiene el precio de diciembre de 2000 en el cálculo del precio racional. Se ha
eliminado la tendencia dividiendo cada serie por la media móvil del earnings real (media móvil para 30
años [360 meses]).
El resultado en (1.3) o (1.4) se incumple claramente para el caso del S&P, tal y como
reflejan la figura 1. Se ha comprobado que este mismo resultado se obtiene cuando se
trabaja con otros índices o series temporales de activos financieros.
1.- La ecuación (1.4) se mantiene para el caso en que Pt sea estacionario. Además, hace
referencia a la desviación típica poblacional y no la muestral. Puede ocurrir que los
datos maestrales con los que se cuenten no sean lo suficientemente amplios como para
reflejar una estimación correcta.
3
2.- Si la serie Pt es no-estacionaria, le estimación de la desviación típica no está
definida. Se tendría que transformar de alguna manera las series Pt y Pt * para convertirlas
en estacionarias.
entre Pt y Pt * sería cero. Además, la Var( Pt ) = 0, con lo que se cumpliría (1.4) en uno de
constante para los dividendos futuros, de tal manera que wt = 0 , tendremos en este caso
que Pt = Pt * , con lo que su coeficiente de correlación será igual que la unidad, y por
tanto, tendremos que (4) Dt ( Pt ) = Dt ( Pt* ) . Evidentemente, el caso más habitual será
4
T
∑(R − R)
2
t
σ= t =1
(2.1)
T −1
2
En estos apuntes se considera que el riesgo se mide directamente sobre la variabilidad de los
rendimientos y que éstos son estacionarios y de media nula. Esta consideración es correcta, siempre y
cuando la mejor predicción que se pueda realizar de ellos sea su media incondicional. Si este no fuera el
caso, y la mejor predicción de los rendimientos se pudiera realizar mediante la utilización de un
determinado modelo más complicado. El riesgo no se mediría directamente sobre los rendimientos, sino
sobre los residuos del modelo, que es la parte del rendimiento realmente impredecible. Por simplificación,
y sin perdida de generalidad, hemos considerado el supuesto más simple. En el momento en que a lo largo
de estos apuntes sea conveniente cambiar este supuesto, se indicará en la exposición.
3
Para más detalles ver página 105 de Greene, W.H. (1999). Análisis Econométrico. Editorial Prentice
Hall.
5
co-movimientos de la volatilidad entre los activos financieros y los mercados
financieros. Se ha comprobado que la correlación entre la volatilidad del rendimiento de
los valores es mayor que entre el rendimiento mismo, sobre todo en épocas de mercados
bajistas y crisis financieras.
En modelo básico de regresión es linear en los parámetros. Esto quiere decir que hay un
parámetro que multiplica a cada una de las variables.
En ocasiones el modelo no es linear en sus parámetros pero, sin embargo, mediante las
apropiadas transformaciones de las variables se puede linealizar.
También podemos hablar de un modelo no-lineal en las variables. En este caso hay una
única variable por cada uno de los parámetros. El modelo descrito anteriormente puede
6
ser utilizado como ejemplo de un modelo lineal en las variables. Y como ejemplo de no-
linealidad en las variables podemos especificar el siguiente:
Rt = α 0 + α1 Rt −1 Rt − 2 + ut (3.2)
Rt = f ( ut , ut −1 , ut − 2 ,...) (3.3)
donde g es una función del valor actual y pasado de la perturbación aleatoria, mientras
que σ 2 se puede interpretar como un término que recoge la varianza al estar multiplicada
7
por la perturbación aleatoria. En este caso, si g y σ 2 son funciones no-lineales, podemos
hablar de modelos no-lineales en media, representados por g(·), y no-lineales en
varianza representados por σ 2 (·). De esta misma manera, podemos tener modelos que
son lineales en media y varianza, como por ejemplo, los modelos ARMA. Que son
lineales en media pero no en varianza, como por ejemplo los modelos GARCH. O no-
lineales en media y si en varianza como el de (3.2) en el caso de que ut sea i.i.d. Incluso
podemos encontrarnos con ejemplos donde no exista linealidad ni media ni en varianza.
Contraste de no-linealidad
8
lineales. Un ejemplo de este tipo de contrastes es el RESET de Ramsey (1969). Uno de
los contrates más utilizados dentro de este tipo es el BDS [Brock et al.(1996)]. Este
contraste tiene como hipótesis nula el que los datos son completamente aleatorios. O
sea, un ruido estrictamente independiente. Detecta, por tanto, cualquier tipo de
estructura, tanto procesos estocásticos lineales como no-lineales, caos determinista, etc.
De esta manera, este contraste se aplicaría a los residuos del modelo propuesto para
determinar si existe alguna estructura no-aleatoria que no recoja el modelo. Sin
embargo, la cuestión no es tan fácil. Si por ejemplo, se propone un modelo no-lineal (tal
como un GARCH), la distribución asintótica del estadístico de contraste no sigue una
distribución normal. Esto implicaría la necesidad de obtener valores críticos mediante el
uso de simulación.
Los contrastes específicos están diseñados para contrastar determinadas estructuras no-
lineales. Un ejemplo de este tipo de contrastes es el de multiplicadores de Lagrange
para la detección de proceso ARCH. En el apartado 5 se verá su utilización. Cuando
estos contrastes dan como resultados la inexistencia de la estructura lineal, no implica
necesariamente independencia.
9
4.2.- Medias Móviles con Ponderaciones Exponenciales (EWMA)4
∞ 2
σ = (1 − λ ) ∑ λ
t
2 j −1
(R
t− j − R) (4.1)
j =0
4
Corresponde a las iniciales en inglés de Exponentially Weighted Moving Average model
10
5.- MODELOS DE LA FAMILIA ARCH (AutoRegressive Conditinal
Heterocedasticity)
Se trata de modelos más sofisticados que los anteriores. Estos modelos no calculan la
desviación típica muestral, sino que se realiza una formulación de la varianza
condicional (σ t ) a través de procedimientos de máxima verosimilitud. La predicción
El primer modelo ARCH fue propuesto por Engle en 1982, donde la varianza
condicional σ t2 es función del cuadrado de “q” rendimientos pasados [ARCH(q)]. Una
generalización de este modelo es el GARCH de Bollerslev (1986). En este caso, la
varianza condicional, no sólo depende del pasado de los rendimientos, sino igualmente
de “p” varianzas condicionadas retardada [GARCH(p,q)]. El modelo GARCH permite
una especificación más parsimoniosa que el modelo ARCH, siendo el modelo más
utilizado a la hora de modelizar la varianza condicional.
11
Otros modelos que permiten movimientos asimétricos de la varianza condicional
dependiendo del signo de la variación de los rendimientos son el GJR-GARCH
[Glosten, Jagannathan y Runkle (1993)], y el QGARCH (Quadratic GARCH).
E [ Rt Ψ t −1 ] = σ t E [ zt ] = 0 (5.2)
5
Una de las leyes estadísticas más utilizadas a la hora de trabajar con modelos de varianza condicionada
es la ley de expectativas iterativas que podemos definir mediante la siguiente expresión
E [ Rt ] = E E [ Rt Ψ t −1 ]
12
donde Ψ t −1 es el conjunto de información en el momento t-1. Y la varianza del proceso
será
dado que zt2 se distribuye como una chi-cuadrado de 1 grado de libertad. En resumen,
podemos expresar el proceso mediante la siguiente notación
Rt Ψ t −1 ~ N ( 0, σ t2 ) (5.4)
Tal y como se ha comentado, en estos apuntes trabajamos bajo el supuesto de que los
rendimientos son estacionarios, de media nula, y que su mejor predicción es su media
incondicional. En el caso de que los rendimientos sigan un proceso dependiente,
estaremos ante el modelo ARCH de regresión. En este caso,
Rt Ψ t −1 ~ N ( X tW , σ t2 ) (5.5)
donde X t es una matriz que contiene las variables explicativas en cada una de sus
Momento de orden 2
13
además dado que Rt es un proceso estacionario tendremos que E Rt2 = E Rt2−1 y por
tanto de (5.7)
α0
E Rt2 = (5.8)
1 − α1
De esta manera,
α1 = 0 → Proceso N ( 0, α 0 )
α0
E Rt2 = q
(5.9)
1 − ∑αi
i =1
Debido a la simetría del proceso los momentos de orden impar son cero
Momento de orden 4
Este tipo de modelos han sido ampliamente utilizados en las aplicaciones empíricas
debido a que recogen gran parte de los comportamientos a los que nos tiene
acostumbrados los rendimientos de los mercados de valores, entre los que destacamos:
14
1. Evidencia empírica de que en muchos modelos econométricos la capacidad de
predicción varía considerablemente de un periodo a otro.
Al estar modelizando la varianza condicional, sus valores estimados deben ser siempre
positivos, al no tener sentido varianzas negativas. Esto supone la necesidad de realizar
restricciones al modelo. La variable Rt interviene en la ecuación de la varianza elevada
al cuadrado, por tanto, la única restricción de no-negatividad que se debe plantear afecta
a los coeficientes.
15
Limitaciones del modelo ARCH(q)
El modelo GARCH es una generalización del modelo ARCH. Fue propuesto por
Bollerslev en 1986. En este caso, la varianza condicional viene explicada, no solo por el
cuadrado de la propia serie como en el modelo ARCH, sino igualmente por el retardo de
la varianza. De esta manera la varianza condicional de un proceso GARCH(q,p) adopta
la siguiente forma
16
α0
E Rt2 = (5.14)
1 − (α1 + β1 )
Por diversas razones la estimación MCO de estos modelos no es posible. Entre estas
razones podemos destacar el hecho de que el método MCO estima los coeficientes de la
media condicional del modelo, pero no los de la varianza. La técnica de estimación
habitualmente utilizada en este tipo de modelos es la de máxima verosimilitud. En este
caso, la función de verosimilitud (concretamente el logaritmo de esta función) incorpora
los coeficientes que definen la varianza condicional, además de los correspondientes
para la media.
∂L
α i +1 = α i + ∂α (5.15)
∂2 L
E
∂α ∂α '
concretamente7
6
Esta expresión se deriva de la aplicación del algoritmo denominado scoring utilizado en el trabajo de
Engle (1982).
17
Rt2
Lt = ln f ( Rt Ψ t −1 ) = − ln σ t −
1 2 1 (5.16)
2 2σ2
t
1 R2
f ( Rt Ψ t −1 ) = exp − 1 t2 (5.17)
σ t2 2π 2σ
t
∂Lt 1 ∂σ t2 Rt2
= − 1 (5.18)
∂α 2σ t2 ∂α σ t2
∂ 2 Lt 1 ∂σ t2 ∂σ t2
E = − (5.19)
∂α∂α ' 2σ t4 ∂α ∂α '
Wt
T
1 ∂σ t Rt
2 2
2∑σ
1 2 − 1
t =1
2
∂α σ t
α i +1 = α i + t
(5.20)
T
1 ∂σ t 1 ∂σ t
2 2
2∑
1
i =1 σ t ∂α σ t2 ∂α '
2
Zt' Zt
Por tanto el algoritmo fijado en (5.15), finalmente queda representado como una
regresión MCO iterativa
7
En esta expresión se han eliminado los elementos constantes y que, por tanto, no afectan a la
maximización de la función.
18
α i +1 = α i + ( Z ' Z ) Z 'W
−1
(5.21)
∂σ t2
= 1 Rt2−1 . . Rt2− q (5.22)
∂α
1
Z t' = 1 Rt2−1 . . Rt2− q ⇒ Z ' = [ Z1 Z 2 . . ZT ]
σ t
2
W ' = [W1 W2 . . WT ]
∂σ t2 q
∂σ t2−i
= 1 Rt −1 . . Rt − q + ∑ β i
2 2
(5.23)
∂α i =1 ∂ (α , β )
Elemento recursivo
8
Un ejemplo de la utilización del algoritmo scoring para un modelo GARCH(q,1) se puede ver en
Acosta-González (1996). En este caso el orden de retardo de la varianza condicionada es p=1, lo que
simplifica en cierta medida el elemento recursivo en ( ). La dificultad que entraña la utilización de este
algoritmo para órdenes de retardo para p > 1 aconsejan la utilización de algoritmos alternativos.
19
Rt
zt = ~ N ( 0,1) (5.24)
σt
Rt
zˆt = (5.25)
σˆ t
Bajo la hipótesis nula, esta expresión debe seguir una distribución normal. En la
práctica, raramente, (5.25) sigue una distribución normal, presentando en la mayoría de
los casos una curtosis mayor a la esperada9. Sin embargo, este hecho no implica un
problema para la estimación por máxima verosimilitud, dado que los parámetros, aún
cuando (5.24) no sigua una distribución normal son consistentes siempre y cuando la
media y la varianza estén correctamente especificados. Solamente existirán problemas
en la estimación de la matriz de varianzas-covarianzas de los estimadores. En este caso,
se tendrá que usar procedimientos de estimación robustos a la no-normalidad como el
propuesto por Bollerslev y Wooldridge en 1992. A todo este procedimiento se le
denomina estimación de quasi-máxima verosimilitud.
9
Recordemos que el coeficiente de curtosis de una distribución normal es igual a 3.
20
5.4.- El Modelo GJR-GARCH
Fue propuesto por Glosten, Jagannathan y Runkle en 1993. Se trata de una extensión del
modelo GARCH para recoger las posibles asimetrías que pudieran existir en los datos.
De esta manera la especificación de la varianza condicional es
1 si Rt −1 < 0
donde I t −1 =
0 en caso contrario
Fue propuesto por Nelson en 1991. Existen varias alternativas a la hora de especificar la
varianza condicional en este modelo, una de ellas es la siguiente:
Rt −1 Rt −1
ln (σ t2 ) = w + β ln (σ t2−1 ) + γ +α (5.27)
σ t −1 σ t −1
Este modelo presenta diversas ventajas sobre el GARCH. Dado que se modeliza el
logaritmo de σ t2 no hace falta imponer restricciones de no-negatividad, dado que σ t2 será
siempre positivo. La presencia del efecto leverage se puede contrastar mediante la
hipótesis nula: H 0 : γ > 0 . La asimetría se producirá en cualquier caso cuando γ ≠ 0 .
Según la teoría financiera, la rentabilidad y el riesgo son dos variables claves a la hora
de que los agentes tomoen posiciones en el mercado de valores. De esta manera, la
asunción de un mayor riesgo siempre debe venir acompañada de una mayor
21
rentabilidad. La especificación del modelo GARCH-M recoge esta relación,
introduciendo como variable explicativa de la rentabilidad la volatilidad condicionada.
Este modelo fue propuesto inicialmente por Engle, Lilien y Robins en 1987. Su
especificación queda recogida de la siguiente manera
y σ t2 sigue un proceso como en (5.12) para un determinado valor de “q” y “p”. De esta
N N
∑ ei2 ∑e 2
i
ECM = i =1
, la raíz del error cuadrático medio: RECM = i =1
, el error absoluto
N N
N N
∑ ei ∑eY i
i
medio: EAM = i =1
, error absoluto medio en porcentaje; EAMP = i =1
, la U de
N N
Theil:
22
∑( X )
N 2
i − Xˆ í
U − Theil = i =1
(6.1)
∑( X )
N 2
i − Xˆ i
RE
i =1
donde Xˆ iRE es la predicción del modelo de referencia con el que se compara el modelo
que se avalúa. En muchas ocasiones esta predicción es la propia de un camino aleatorio.
Excepto en la U de Theil, el resto de medidas que se presentan no toman como
referencia ningún tipo de predicción. Para finalizar tenemos la medida LINEX que se
obtiene tal que
∑ exp {a ( X )} − a ( X )
N
1
LINEX = − Xˆ i − Xˆ i − 1 (6.2)
N i =1
i i
zt2 ~ χ12 . Sin embargo, dado que la mediana de una χ12 es 0.455, tendremos que
1
Rt2 < σ t2 en más del 50% de las veces.
2
23
La utilización del cuadrado del rendimiento como variable proxy de la volatilidad
induce a utilizar la siguiente regresión para evaluar la capacidad predictiva de un
determinado modelo
[
E ( X ' X ) −1 X 'U ] ≠0 (6.5)
donde X es una matriz de dimensión (Tx2) con una primera columna de unos y en la
segunda los valores de σˆ t2 , y U un vector (Tx1) de las perturbaciones vt . Lo que
implica que las estimaciones de δ 0 y δ 1 son sesgadas. Sin embargo, las propiedades
asintóticas de los estimadores MCO de la regresión (6.3) sustentadas en el teorema de
Mann y Wald (1943) implica que
[
p lim ( X ' X ) −1 X 'U ] =0 (6.6)
24
donde p lim es la abreviatura de límite en probabilidad, lo que conlleva a que los
estimadores MCO de (6.3) sean consistentes en tanto en cuanto convergen en
probabilidad al verdadero valor del parámetro a medida que aumenta el tamaño
muestral.
25
parámetros del modelo. Por tanto, en la práctica, el verdadero valor de la variable que se
pretende predecir es conocido y el objetivo de la predicción normalmente consiste en
determinar la bondad del ajuste. Por el contrario, en la extra-muestral, se predice
momentos del tiempo que no han sido utilizados en la estimación. Esta predicción
asume que los parámetros del proceso se mantienen constantes en el tiempo. Este es el
sentido que generalmente se le da al concepto de predicción.
26
REFERENCIAS
Berndt, E.K., Hall, B.H., Hall, R.E. y Hausman, J.A. (1974). Estimation and Inference
in Nolinear Structural Models. Annals of Economic and Social Measurement, 4pp 653-
665
Engle, R.F., Lilien, D.M. y Robins, R.P. (1987). Estimating Time Varying Risk Premia
in Term Structure: The ARCH-M Model. Econometrica, 55, pp 391-407.
Mann, H.B. y Wald, A. (1943): «On the statistical treatment of linear stochastic
difference equations», Econometrica, 11, 173-220.
Ramsey, J.B. (1969). Test for Specification Errors in Classical Linear Least-Squares
Regression Analysis. Journal of the Royal Statistical Society B, 31, pp 350-371.
Shiller, R.J. (1981). Do Stock Prices Move too Much to be Justified by Subsequent
Changes in Dividends?. American Economic Review, 71, pp 421-436.
27