Está en la página 1de 82

Part III

Series de Tiempo

115
Chapter 7

Modelos Univariados

7.1 Martingalas y Caminos Aleatorios


Para comenzar esta sección hay que definir dos conceptos: Martingala y
Camino Aleatorio.
Una martingala es un proceso estocástico, supongamos {Pt } que satisface
una propiedad fundamental:

E [Pt+1 | Pt , Pt−1,... ] = Pt

o puesto de otro modo:

E [Pt+1 − Pt | Pt , Pt−1,... ] = 0

Es decir la mejor predicción del precio de un activo mañana es el precio


que este tiene hoy día, y no impone ningún condicionamiento al proceso que
representa el riesgo del activo.
Tampoco quiere decir que aquel activo que obedezca a esta condición
refleja cierta racionalidad de parte del mercado. Ha sido demostrado que la
propiedad de la martingala no es una condición necesaria ni suficiente para
que los precios de activos sean determinados racionalmente (Lucas, Robert
(1978), "Asset Prices in an Exchange Economy", ECONOMETRICA).
Para demostrar este punto repliquemos el argumento de Lucas. Si asum-
imos un activo y un agente representativo que optimiza sus decisiones de
consumo de manera de maximizar su nivel de bienestar, podemos represen-

117
118 CHAPTER 7 MODELOS UNIVARIADOS

tar este problema por:


P

MaxE0 β t u (ct )
t=0
sujeto a :
at+1 = Rt (yt + at − ct )

donde a es la riqueza del individuo, c representa el nivel de consumo, y la


dotación de producción, R la tasa de retorno bruta de su ahorro, y β el factor
de descuento subjetivo.
Si asumimos una economía simple donde la riqueza financiera se define
con la dotación y retornos de acciones que se posee de una única firma,
es decir a = (p + d) s donde d es el dividendo y s es el número de ac-
ciones que se poseen, y además por simplicidad asumimos que y = 0, en-
tonces la restricción presupuestaria del agente se debiera reescribir como:
ct + pt st+1 = (pt + dt ) st . Asumiendo además que el precio depende del
estado de dividendos dt y que este vector de dividendos sigue un proceso
markoviano de primer orden cuya función de transición se define por:

Rd0
F (d0 , d) = f (s, d) ds = Pr [dt+1 ≤ d0 | dt = d]
0

entonces podemos escribir la ecuación de Bellman como:


© R 0 0 0 0
ª
v (s (p (d) + d)) = Max
0
u (c) + β v (s (p (d ) + d )) ∂F (d , d)
c,s
s.a.
0
c + ps = (p + d) s

Sabemos que de la condición necesaria de primer orden y de la condición


(teorema) de Benveniste-Scheinkman se llega a que el proceso que deter-
mina la evolución de los precios corresponde a (imponiendo la condición de
equilibrio competitivo que c = d):
R
u0 (d) p (d) = β u0 (d0 ) [p (d0 ) + d0 ] ∂F (d0 , d)

lo cual indica que los precios están en equilibrio y reflejan toda la información
disponible. De esta última expresión es fácil verificar que la condición de
martingala no se presenta en los precios del activo bajo análisis. De existir
esta sería sobre la serie u0 (d) p (d), pues al calcular el valor esperado de
7.1 MARTINGALAS Y CAMINOS ALEATORIOS 119

βu0 (d0 ) (p (d0 ) + d0 )−u0 (d) p (d), esta sería cero, tal como predice la condición
de la martingala.
Cabe destacar que para que se dé la condición de martingala para el nivel
de precios (corregidos por dividendos), es decir que se verifique:
R
p (d) = β [p (d0 ) + d0 ] ∂F (d0 , d)
se requeriría que u0 (d) no cambie mucho con el nivel de dividendos (i.e. neu-
tralidad al riesgo, lo cual implica u0 (d) = u0 (d0 )), pero igualmente habría
que corregir por el factor de descuento β.
Una hipótesis más testeable empíricamente es la de camino aleatorio.
Esta característica impondrá cierta estructura sobre los residuos poblacionales
ε de la siguiente expresión, donde δ es lo que se conoce como drift:
Pt = δ + Pt−1 + εt
¡ ¢
εt ∼ IID 0, σ 2
Si analizamos recursivamente esta expresión entonces podemos encontrar
cuál es la relación intertemporal del precio del activo en relación al precio
inicial P0 de este:
Pt = δ + Pt−1 + εt
Pt = δ + (δ + Pt−2 + εt−1 ) + εt = 2δ + Pt−2 + εt−1 + εt
Pt = δ + δ + (δ + Pt−3 + εt−2 ) + εt−1 + εt = 3δ + Pt−3 + εt−2 + εt−1 + εt
...
P
j=t
Pt = P0 + δt + εj
j=1

Si a esta última expresión calculamos su valor esperado y su varianza llegamos


a dos expresiones lineales al tiempo t:
E [Pt | P0 ] = P0 + δt
V [Pt | P0 ] = σ 2 t
Con esta representación podemos decir que si el residuo ε se distribuye idén-
IID
tica e independientemente como una normal, es decir εt ∼ N (0, σ 2 ), en-
tonces el proceso generador de datos para el precio del activo se denominará
Movimiento Browniano Aritmético:
Pt = δ + Pt−1 + εt
120 CHAPTER 7 MODELOS UNIVARIADOS

El problema que surge al asumir una función de distribución normal, es


que los precios pueden tomar valores negativos con probabilidad mayor que
cero, es decir Pr [P < 0] > 0, lo cual ciertamente es no es factible u observable
empíricamente.
La corrección que se utiliza es asumir que este residuo posee una distribu-
ción lognormal, o lo que es lo mismo, asumir que este movimiento Browniano
se dá para el logaritmo del precio del activo en lugar del nivel absoluto de
este. Este solo hecho hace que ahora los retornos, calculados como por la
diferencia del logaritmo (aproximación), se distribuyan como una distribu-
ción normal, lo cual si puede ser factible empíriamente. Este proceso se
denominará Movimiento Browniano Geométrico:
ln Pt = δ + ln Pt−1 + εt
rt ≡ ln Pt − ln Pt−1
µ ¶
Pt
rt = ln
Pt−1

⇒ rt = δ + εt
IID ¡ ¢
εt ∼ N 0, σ 2
Este capítulo evalúa las alternativas metodológicas para testear distintos
grados de eficiencia de mercado, es decir presenta tests de independencia y
aleatoriedad desde distintos puntos de vista econométrico.

7.2 Independencia y Caminos Aleatorios


7.2.1 Test de Independencia: BDS
El test de Brock, Dechert y Scheinkman (BDS) permite evaluar la depen-
dencia temporal de una serie, y sirve para testear hipótesis alternativas de
dependencia lineal, no-lineal, o dependencia caótica. Este test puede ser apli-
cado a series de residuos estimados para evaluar si estos son independientes
e idénticamente distribuidos (iid). Por ejemplo los residuos de un modelo de
series de tiempo ARIMA(p,d,q) pueden ser utilizados para evaluar si existe
alguna dependencia no lineal en la serie después de que el modelo ha sido
estimado.
Para generar el test se debe escoger una distancia > 0. Posteriormente
se consideran un par de puntos. Si las observaciones de la series son ver-
7.2 INDEPENDENCIA Y CAMINOS ALEATORIOS 121

daderamente iid, entonces, para cualquier par de puntos la probabilidad de


que la distancia entre estos sea menor o igual a será constante. Definamos
a esta probabilidad c1 ( ).
Empíricamente se consideran múltiples pares de puntos, moviéndonos
consecutivamente a lo largo de las observaciones, de manera que dada una
observación s, y una observación t de una serie y, podamos construir un
conjunto de pares de la forma:
{{ys , yt } , {ys+1 , yt+1 } , {ys+2 , yt+2 } , {ys+3 , yt+3 } , ..., {ys+m−1 , yt+m−1 }}
donde m es el número de puntos consecutivos a ser utilizados en el conjunto
(embedding dimension). Denotamos la probabilidad conjunta de todos los
pares de puntos en el set satisfaciendo la condición de por la probabilidad
cm ( ).
El test BDS procede considerando que bajo el supuesto de independencia,
esta probabilidad será la simple multiplicación de las probabilidades individ-
uales (marginales) de cada par de puntos, es decir que si las observaciones
son independientes se observará:
cm ( ) = c1 ( )m
Empíricamente calculamos estimadores para estas probabilidades, verificán-
dose la existencia de un error de estimación, de manera que esta relación no
se observaría exactamente incluso de ser las series iid. Mientras más grande
es el error, menos probable es que el error sea causado por una variación
muestral aleatoria.
Para estimar la probabilidad de una dimensión particular, generamos
todos los posibles sets de este largo que puedan ser generados de la muestra
y se cuenta el número de conjuntos que satisfacen la condición de . La razón
entre el número de conjuntos que satisfacen la condición versus el total de
conjuntos considerados provee de una estimación de esta probabilidad.
Dada una muestra de T observaciones para una serie y, esta probabilidad
se puede calcular por (llamada también integrales de correlación):
2 X T −m+1
T −m+1 X
cm,T ( )= Πm−1 I (ys+j , yt+j )
(T − m + 1) (T − m) s=1 t=s+1 j=0
donde I es una función indicadora:
 
1 , |ys+j − yt+j | ≤
I (ys+j , yt+j ) =  
0 , en otro caso
122 CHAPTER 7 MODELOS UNIVARIADOS

Luego podemos utilizar estos estimadores muestrales para construir un test


de independencia:

bm,T ( ) = cm,T ( ) − c1,T −m+1 ( )m

Bajo el supuesto de independencia, se esperaría que este indicador sea cercano


a cero, de hecho BDS demuestran que:

³√ ´b
m,T ( )
T −m+1 ∼ N (0, 1)
σ m,T ( )

donde:
à !
X
m−1
(2m−2)
σ 2m,T ( ) = 4 km + 2 km−j c2j
1 + (m − 1)2 c2m
1 − m2 kc1
j=1

donde c1 puede ser estimado a partir de c1,T , y k es la probabilidad de que


cualquier tripleta de puntos pertenezca a la vecindad delimitada por , y
es estimada contando el número de conjuntos que satisfacen la condición
muestral:

2 XT XT XT
kT ( ) = (I (yt , ys ) I (ys , yr ) +
(T (T − 1) (T − 2)) t=1 s=t+1 r=s+1
+I (yt , yr ) I (yr , ys ) + I (ys , yt ) I (yt , yr ))

Cabe mencionar que este estadístico es relativamente eficiente para muestras


superiores a 200 observaciones (ver Granger, C. W. J. y T. Terasvirta (1993),
Modelling Nonlinear Economic Relationships, sección 6.3.5, páginas 90 y 91).
En otro caso es mejor hacer un muestreo por bootstrapping y aumentar la
muestra artificialmente de manera de no perder poder del test al aplicar el
estadístico en muestras pequeñas.
Ejercicio. Una aplicación del test BDS a la serie de inflación para Chile
(1933:02-2001:06) entrega el siguiente resultado, denotando el rechazo de la
7.2 INDEPENDENCIA Y CAMINOS ALEATORIOS 123

hipótesis nula de independencia de la serie:

Dimensión BDS Std.Error z − stat P − V alor


2 0.111196 0.004338 25.63572 0.0000
3 0.187459 0.006916 27.10598 0.0000
4 0.232728 0.008267 28.14973 0.0000
5 0.255301 0.008653 29.50290 0.0000
6 0.261486 0.008382 31.19535 0.0000

Ejercicio. Aplicando este test BDS a los retornos del índice de precios
selectivo de acciones de Chile IPSA los datos del test nos indican la presencia
de dependencia de la serie:

Dimensión BDS Std.Error z − stat P − V alor


2 0.192041 0.002680 71.66640 0.0000
3 0.325164 0.004257 76.38699 0.0000
4 0.416266 0.005068 82.14049 0.0000
5 0.477852 0.005281 90.48426 0.0000
6 0.518700 0.005092 101.8606 0.0000

Ejercicio. Generamos una variable aleatoria de una función de distribu-


ción estandarizada y al aplicar el test BDS se encuentra que la serie es abso-
lutamente independiente:

Dimensión BDS Std.Error z − stat P − V alor


2 0.001034 0.001730 0.597777 0.5500
3 0.001546 0.002740 0.564317 0.5725
4 0.001094 0.003250 0.336538 0.7365
5 0.000254 0.003373 0.075320 0.9400
6 −0.000116 0.003239 −0.035931 0.9713
124 CHAPTER 7 MODELOS UNIVARIADOS

7.2.2 Estadístico Cowles-Jones (1937)


Este estadístico compara la frecuencia de secuencias versus oposiciones de
signos de retornos consecutivos. Para esto se define una función indicadora
que toma valor 1 cuando los retornos son positivos y 0 cuando los retornos
son negativos o cero, es decir:
 
1 si rt > 0 
It =
0 si r ≤ 0 t

A partir de definior una función acumuladora At como:

At = It It+1 + (1 − It ) (1 − It+1 )

podemos definir como Ns al número de pares de retornos consecutivos con el


mismo signo y No al número de pares de signos opuestos:
TP
−1
Ns = At
t=1
No = (T − 1) − Ns

Con estos parámetros se construye en estadístico de Cowles-Jones (CJ)


el que se define como la razón entre la suma de secuencias de signos iguales
versus la suma de secuencias de signos contrarios:
Ns
∧ Ns T −1 π̂s
CJ = = No
=
No T −1
1 − π̂ s

donde πs define a la probabilidad de que ocurra una secuencia de signos


positivos.
Se demuestra que bajo absoluta aleatoriedad la distribución de este es-
tadístico converge asintóticamente a 1. Si se observa que CJ > 1 entonces
hay evidencia de que los precios tienen una estructura que difiere de la que
se desprende de un camino aleatorio.
De existir DRIFT, es decir una tendencia en la serie de precios, entonces
la probabilidad de que se de una secuencia es mayor a la probabilidad de que
no se dé. Esto nos indica que ahora con DRIFT la razón debiera converger
a un valor distinto (mayor) de 1.
7.2 INDEPENDENCIA Y CAMINOS ALEATORIOS 125

IID
Si a partir del proceso para el residuo εt ∼ N (0, σ 2 ) definimos la función
indicadora como:
 
 1 con probabilidad π 
It =
0 con probabilidad 1 − π 

P r
£δ¤ P 2
r (rt −δ̂)
donde π = Pr [r > 0] = Pr σ , con δ̂ = T t y σ̂ = T −1
entonces se
demuestra que:

πs π2 + (1 − π)2
CJ | drif t6=0= = ≥1
1 − πs 2π (1 − π)
à ¡ 3 3 ¢!
2
a π s π s (1 − π s ) + 2 π + (1 − π) − π s
CJ ∼ N , 4
1 − πs T (1 − π s )

Para un juego justo donde H0 : CJ = 1 (es decir π = 12 ) vemos que los


límites inferiores del estadístico CJ serán CJ = 1 con una varianza de cero,
es decir:

π2 + (1 − π)2
1 =
2π (1 − π)
¡ ¢
πs (1 − π s ) + 2 π 3 + (1 − π)3 − π 2s
0 =
T (1 − π s )4

Ejercicio. Supongamos que generamos una secuencia de números aleato-


rios ε de dimensión T = 1000 que obedecen a la siguiente ley de movimiento
(sin drift):
rt = εt
A esta vector aplicamos las definiciones para la función indicadora I y la
función acumuladora de signos A. Una vez encontrados los valores para
estas funciones generamos Ns y No . El cálculo del test se efectúa sobre la
hipótesis nula H0 : CJ = 1 lo cual nos entrega:
π̂ 2 +(1−π̂)2
∧ 2π̂(1−π̂)
CJ = r = 0.038895
π̂s (1−π̂ s )+2(π̂3 +(1−π̂)3 −π̂ 2s )
T (1−π̂s )4
126 CHAPTER 7 MODELOS UNIVARIADOS

con lo cual no rechazamos la hipótesis nula H0 : CJ = 1 pues el estadístico es


menor a 1.96 (5% de significancia). El siguiente recuadro muestra un código
GAUSS que permite replicar estos resultados.
Código
rndseed 1234;
r=rndn(1000,1);
i=zeros(rows(r),1);
j=1;
do while j le rows(r);
if r[j] gt 0;i[j]=1;endif;
j=j+1;
endo;
a=i[1:rows(i)-1].*i[2:rows(i)]+(1-i[1:rows(i)-1]).*(1-i[2:rows(i)]);
ns=sumc(a);
no=rows(a)-ns;
p=cdfn(meanc(r)/stdc(r));
ps=ns/rows(a);
cj_est=(p^2+(1-p)^2)/(2*p*(1-p));
cj_var=((ps*(1-ps)+2*(p^3+(1-p)^3-ps^2))/(rows(a)*(1-ps)^4));
cjtest=(cj_est-1)/sqrt(cj_var);cjtest;

7.2.3 Test de Fuller


Fuller testea la hipótesis nula de que los coeficientes de autocorrelación para
varios rezagos de una serie (por ejemplo los retornos de un activo) son cero.
Si definimos al coeficiente de covarianza como θ (s) = cov (rt , rs ) entonces el
coeficiente de correlación se representa por:

Cov (rs , rt ) θ (s)


γ (s) = =
V ar (rt ) θ (0)

La contraparte muestral de estos estadísticos será (la covarianza θ̂ se


7.2 INDEPENDENCIA Y CAMINOS ALEATORIOS 127

puede calcular dividiendo por T − 1 o por T − s):

1 TP
−s
θ̂ (s) = (rt − r̄) (rt+s − r̄)
T t=1
θ̂ (s)
γ̂ (s) =
θ̂ (0)
PT
t=1 rt
r̄ =
T
El test propuesto tiene la siguiente distribución asintótica:

T
√ ρ̃ (s) ∼ N (0, 1)
T −s
T −s ¡ 2
¢
ρ̃ (s) = ρ̂ (s) + 1 − ρ̂ (s)
(T − 1)2

Como es usual la hipótesis nula corresponde a no existencia de autocor-


relación de la serie y se contrasta con una distribución normal estandarizada.
Si el estadístico es superior a 1.96 (considerando un 5% de significancia) en-
tonces rechazamos la hipótesis nula existiendo evidencia de autocorrelación
de la serie en el tiempo.

7.2.4 Tests Q y Q’
Esta clase de tests permite analizar la dependencia temporal (autocorrelación)
existente entre las observaciones en el tiempo (por ejemplo los retornos).
Box-Pierce (1970) o test Q. Este test se basa en el análisis conjunto
de los coeficientes estimados de una ecuación de residuos intertemporales
para verificar si son o no estadísticamente ceros. Estos coeficientes son las
correlaciones de los residuos, de manera que se analizan los γ rs rt definidos
por:
Cov (rs , rt ) E (rs , rt )
γ rs rt = =
V ar (rt ) E (rt2 )
Tal como sabemos este coeficiente γ rs rt es equivalente al parámetro de la
ecuación auxiliar inversa γ s :

rt−s = γ s rt + ν t−s ∀s = 1, 2, ..., q


128 CHAPTER 7 MODELOS UNIVARIADOS

donde el γ̂ se calcula como la razón entre las covarianzas y la varianza de la


variable dependiente. Estimando la expresión anterior utilizando los retornos
efectivos estimamos un vector γ̂ de dimensión qx1. Los autores demuestran
que el estadístico relevante para evaluar la hipótesis nula de que no existe
autocorrelación de retornos se define por (expresiones equivalentes):
P
q
Q = T γ 2s ∼ χ2 (q)
s=1
0
Q = T γ̂ γ̂ ∼ χ2 (q)

de manera que si este estadístico supera a su equivalente χ2α (q) entonces


rechazamos la nula presentándose evidencia de autocorrelación de orden q de
los retornos.
Ljung-Box (1978) o test Q’. Una perfección de este test lo presentan Ljung
y Box. Utilizando una expresión similar a la presentada por Box-Pierce, los
autores definen el estadístico Q0 como:
· ¸
0 Pq γ 2s
Q = T (T + 2) ∼ χ2 (q)
s=1 (T − s)

Si el estadístico Q0 es mayor a su equivalente de tabla χ2α (q), entonces rec-


hazamos la hipótesis nula H0 : γ 1 = γ 2 = ... = γ q = 0. Típicamente q es un
número alto como 24 ó 36, dependiendo de la frecuencia de la serie.

7.2.5 Test de Razón de Varianzas


Este test surge del análisis de la representación geométrica de movimiento
Browniano definido en una sección anterior, y evalúa si la variable o serie
bajo análisis presenta evidencia de autocorrelación serial. Por ejemplo, si
sabemos que los retornos ³de un´activo se pueden representar por la expresión
rt ≡ ln Pt − ln Pt−1 = ln PPt−1
t
= δ + εt , entonces sabemos que la varianza
de los retornos será V (rt ) = σ 2ε . de aquí podemos decir que si:

V (rt ) = σ 2ε
V (rt−1 ) = σ 2ε

entonces la agregación de ambas varianzas será:

V (rt ) + V (rt−1 ) = 2σ 2ε = 2V (rt )


7.2 INDEPENDENCIA Y CAMINOS ALEATORIOS 129

El test se contruye a partir de la siguiente razón, considerando que bajo


la hipótesis nula se esperaría que se aproximara a 1:

V (rt ) + V (rt−1 )
κ= −→ 1
2V (rt )

Al operacionalizar este test con la contraparte muestral del estadístico


κ, podemos representar la relación entre κ̂ y el coeficiente de correlación de
primer orden ρ̂ (1):

V̂ (rt + rt−1 )
κ̂ (1) =
2V̂ (rt )
V̂ (rt ) + V̂ (rt−1 ) + 2Cov̂ (rt , rt−1 )
κ̂ (1) =
2V̂ (rt )
2Cov̂ (rt , rt−1 )
κ̂ (1) = 1 +
2V̂ (rt )
κ̂ (1) = 1 + ρ̂ (1)

Esta expresión nos recuerda que cualquier serie estacionaria posee una razón
κ que se define como 1 más el coeficiente de correlación de primer orden. Si
encontramos que ρ̂ (1) = 0 entonces podemos decir que κ̂ = 1.
Existe la generalización de esta última expresión para lo cual la hipótesis
nula a considerar será:

H0 : ρ (j) = 0 ∀j = 1, ..., s

y el estadístico estará representado por:


³P ´
V̂ j=s
r µ ¶
j=0 t−j P
j=s j
κ̂ (s) = =1+2 1− ρ̂ (j)
(s + 1) V̂ (rt ) j=1 s+1

por ejemplo para un s = 1, o s = 2 el estadístico sería:


µ ¶ µ ¶
P
j=1 j 1
κ̂ (1) = 1 + 2 1− ρ̂ (j) = 1 + 2 1 − ρ̂ (1) = 1 + ρ̂ (1)
j=1 2 2
µ ¶ µ ¶ µ ¶
P
j=2 j 1 2
κ̂ (2) = 1 + 2 1− ρ̂ (j) = 1 + 2 1 − ρ̂ (1) + 2 1 − ρ̂ (2)
j=1 3 3 3
130 CHAPTER 7 MODELOS UNIVARIADOS

Si la serie posee un largo de T observaciones (asumamos que T es par)


entonces el test para una razón de varianzas de dos períodos se formará de:
Pj=T /2
σ 2II
1
T /2 j=1 (r2j − 2r̄)2
κ (1) = 2 = 1
Pj=T 2
σI T j=1 (rj − r̄)
donde rj = ln pj − ln pj−1 y r2j = ln p2j − ln p2j−2 . Dado que la distribución
asintótica de este estadístico está definido por:
r
T a
ξ̂ = (κ̂ (2) − 1) ∼ N (0, 1)
2
entonces si ξ̂ pertenece al intervalo [−1.96, 1.96] entonces no rechazamos la
hipótesis nula de que el coeficiente de correlación es nulo, no existiendo evi-
dencia de correlación de los retornos en el tiempo.
Ejercicio. Supongamos la serie del Indice de Precios de Acciones del IPSA
desde abril 1995 hasta abril del año 2000 (T = 1247). Calculamos los estadís-
ticos para verificar con el test anterior si κ (2) = 1, es decir si el coeficiente
de autocorrelación de primer orden es cero. Los valores conseguidos son:
r̄ = 0.011%
σ 2I = 2.724016031
σ 2II = 6.290088658
lo cual implica que el estadístico a contrastar es:
r r µ ¶
T 1247 6.290088658
ξ̂ = (κ̂ (2) − 1) = − 1 = 32. 689
2 2 2.724016031
siendo este muy superior al valor de referencia de una tabla normal es-
tandarizada de 1.96, rechazando la hipótesis de no autocorrelación de los
retornos.
Ejercicio.
√ Generamos una serie aleatoria a partir de yt = 100 + εt donde
εt ∼ N(0, 10) considerando una muestra de T = 1247 observaciones sim-
uladas. Calculamos los estadísticos para verificar si κ (2) = 1, es decir si el
coeficiente de autocorrelación de primer orden es cero. Los valores consegui-
dos son:
ȳ = 0.0015%
σ2I = 1.751081639
σ 2II = 1.649981214
7.3 TESTS DE RAíCES UNITARIAS 131

lo cual implica que el estadístico a contrastar es:


r r µ ¶
T 1247 1.649981214
ξ̂ = (κ̂ (2) − 1) = − 1 = −1. 441 7
2 2 1.751081639
Podemos verificar que el estadístico es mayor a −1.96 (es decir es menor en
valor absoluto), de manera que no rechazamos la hipótesis nula de autocor-
relación cero de la serie.

7.3 Tests de Raíces Unitarias


7.3.1 Test t y F de Dickey-Fuller (RW-RWD-RWDT)

yt = γyt−1 + εt
yt = µ + γyt−1 + εt
yt = µ + βt + γyt−1 + εt

Reordenando (restando yt−1 a ambos lados):

∆yt = γ ∗ yt−1 + εt
∆yt = µ + γ ∗ yt−1 + εt
∆yt = µ + βt + γ ∗ yt−1 + εt

7.3.2 Tests t y F de DFA (Dickey-Fuller Ampliado)


p
X

∆yt = γ yt−1 + θj ∆yt−j + εt
j=1
p
X

∆yt = µ + γ yt−1 + θj ∆yt−j + εt
j=1
p
X
∆yt = µ + βt + γ ∗ yt−1 + θj ∆yt−j + εt
j=1

donde en orden p se define minimizando los criterios de Akaike (AIC),


Schwarz (BIC) o el critero de Hannan—Quinn (HQ), es decir se basan en
132 CHAPTER 7 MODELOS UNIVARIADOS

−2 veces el valor de la función de log-likekihood promedio ajustado por una


función de castigo asociada a cada criterio:

lk k
AIC = −2 + 2
T T
lk k
BIC = −2 + ln (T )
T T
lk k
HQ = −2 + 2 ln (ln (T ))
T T

donde lk representa al log-likelihood, T el número de observaciones y k


el número de parámetros a estimar.
Los tests se presentan a continuación:

γ̂ ∗
tc = q ˜ df

V̂ (γ̂ )

Hipótesis T ests
 
 P 
∆yt = pj=1 θj ∆yt−j + εt
Φ1 : (µ, γ ∗ ) = (0, 0)
 ∆y = µ + γ ∗ y + Pp θ ∆y + ε 
t t−1 j=1 j t−j t
 
 P p 
∆yt = j=1 θj ∆yt−j + εt
Φ : (µ, β, γ ∗ ) = (0, 0, 0)
 ∆y = µ + βt + γ ∗ y + Pp θ ∆y + ε  2
t t−1 j=1 j t−j t
 
 P 
∆yt = µ + pj=1 θj ∆yt−j + εt
Φ : (µ, β, γ ∗ ) = (µ, 0, 0)
 ∆y = µ + βt + γ ∗ y + Pp θ ∆y + ε  3
t t−1 j=1 j t−j t

donde se contrasta con una tabla F de Fisher con sus respectivos grados
de libertad (típicamente J = 2, 3):

(SRCR − SRCNR ) /J
Φi = ˜F (J, T − k)
SRCNR / (T − k)
7.3 TESTS DE RAíCES UNITARIAS 133

7.3.3 Test Said-Dickey


Said-Dickey (Biometrica, 1984), permite testear raíces unitarias cuando los
errores siguen un proceso ARMA(p,q). Recordemos que un MA(1) se puede
representar por un AR(∞), de aquí que ahora la sumatoria se aplique hasta
K → ∞. En este caso el modelo es:
X
K→∞
∆yt = (ρ − 1) yt−1 + θj ∆yt−j + εt
j=1

De esta manera un proceso generador de datos para y del tipo AR(k)


donde k → ∞ permite especificar un proceso ARMA(p,q) para el residuo.

7.3.4 Tests de Phillips-Perron


En una serie de artículos, Phillips (Econometrica, 1987) y Phillips-Perron
(Biometrica, 1988) generan un test a partir del DF y DFA de manera de
controlar por correlación serial y heteroscedasticidad de los residuos al mismo
tiempo.
Consideremos el modelo a estimar:

yt = θ + ρyt−1 + εt

sin embargo asumamos que el verdadero proceso generador de datos para


la serie es:
yt − yt−1 = εt = ψ (L) et
donde ψ (L) sigue un polinomio estacionario y e sigue un proceso Gaus-
siano. El método Phillips-Perron consiste en:
Paso 1. Estimar por OLS los parámetros θ, ρ, el error P 2
estándar de ρ
2 ε̂t
definido por σ̂ ρ̂ , y el error estándar de la regresión s = T −k .
¡ ¢
Paso 2. Estimadores
¡ ¢ consistentes de la varianza de la media λ2 y la
autocovarianzas γ j poblacionales se obtienen del término de error ε̂t .

X
T
−1
γ̂ j = T ε̂t ε̂t−j
t=j+1

2 X· q
j
¸
λ̂ = γ̂ 0 + 2 1− γ̂
j=1
(q + 1) j
134 CHAPTER 7 MODELOS UNIVARIADOS

para las autocovarianzas y para la media (Newey-West) respectivamente.


Paso 3. Estas correcciones se utilizan para ajustar el test t de Dickey-
Fuller asociado al parámetro ρ:
 ³ 2 ´³ ´
µ ¶ 12 1
λ̂ − γ̂ T
σ̂ρ̂
γ̂ 0 2 0 s
zt = 2 t− 
λ̂ λ̂

Ejercicio. A partir de la siguiente información generada de la estimación


por OLS del modelo para la inflación en Chile (1933:02-2001:06):
π t = α̂ + ρ̂π t−1 + ε̂t
= 0.825274 + 0.651348π t−1 + ε̂t
(0.119979) (0.026534)
El test de DF para el estadístico (ρ − 1) es (0.651348 − 1)/0.026534 =
−13.14. Este es el test estadístico que debe ser corregido según PP. La
suma de los residuos al cuadrado es de 7001.243 con una muestra de 819
observaciones. Es decir que s2 = 7001.243/(819 − 2) = 8.569453, es decir
una desviación estándar de 2.927363. Las autocovarianzas se estiman con:
P 2
ε̂t
γ̂ 0 = = 8.54853
PT
ε̂t ε̂t−1
γ̂ 1 = = −1.68145
PT
ε̂t ε̂t−2
γ̂ 2 = = 0.381113
PT
ε̂t ε̂t−3
γ̂ 3 = = 0.989295
PT
ε̂t ε̂t−4
γ̂ 4 = = 1.810678
T
2
Con estos estimadores calculamos λ̂ :

µ ¶ µ ¶
2 4 3
λ̂ = 8.548 + 2 (−1.68) + 2 (0.381) +
5 5
µ ¶ µ ¶
2 1
2 (0.9893) + 2 (1.8107)
5 5
2
λ̂ = 7.83292
7.3 TESTS DE RAíCES UNITARIAS 135

Con esto calculamos el estadístico de Phillips-Perron:

 ³ 2 ´³ ´
µ ¶ 12 1
λ̂ − γ̂ 0 T s
σ̂ ρ̂
γ̂ 0 2 
zt = 2 t −
λ̂ λ̂
 ³ ´
µ ¶ 12 1
(7.83292 − 8.54853) 819 (0.026534)

8.5485 2 8.569453
= (−13.14) −  √ 
7.83292 7.83292
= −12.78

De igual manera se rechaza la hipótesis nula de raíz unitaria ya sea uti-


lizando el DF o el PP test.

7.3.5 Test de Kwiatkowski et al.


Este es un test cuya nula es estacionariedad con raíz unitaria como alternativa
(a la inversa de los tests anteriores). Este test se conoce como KPSS en
honor a sus autores (Kwiatkowski, Phillips, Schmidt y Shin, 1992, Journal
of Econometrics).
Se formula a partir de la suma parcial de la serie:

X
t
Γ̂t = ε̂i
i=1

donde ε̂t se obtienen de una ecuación auxiliar como:

yt = τ̂ + δ̂t + ε̂t
El test estadístico de interés es:

1 X n
η= 2 2 Γ̂2
n s (l) t=1 t

donde s2 (l) se denomina varianza de largo plazo de ε̂t la cual es estimada


por:
1X 2 2X X
n l n
s̃2 (l) = ε̂t + w (j, l) ε̂t ε̂t−j
n t=1 n j=1 t=j+1
136 CHAPTER 7 MODELOS UNIVARIADOS

donde los pesos w(j, l) se determinan por (Newey-West, 1987):


j
w (j, l) = 1 −
(l + 1)
1
El valor de l se define gerenalmente por l = n 2 (Newey-West, 1994,
Review of Economic Studies). Finalmente el test KPSS para la nula de
estacionariedad es:
1 Xn
η̂ = 2 2 Γ̂2
n s̃ (l) t=1 t
La distribución asintótica es derivada en Kwiatkowski et al.

7.4 Teorema de Descomposición de Wold


Este teorema se debe a H. O. A. Wold (1938, A Study in the Analysis of
Stationary Time Series) y es fundamental en la teoría de series de tiempo.
Teorema. Todo proceso estocástico estacionario puede ser aproximado
tan cerca como se desee ya sea a través de un AR(p), un MA(q), o una
combinación de ambos, es decir un proceso ARMA(p,q).
Este teorema fundamental de representación es el que nos permite estimar
modelos de series de tiempo de cualquier tipo para representar series que son
estacionarias.

7.5 Estacionariedad
Sea la variable {yt }Tt=1 un proceso estocástico. Existen dos formas de esta-
cionariedad: débil y fuerte (o estricta).

1. Estacionariedad Débil. Se dice que el proceso {yt }Tt=1 es débilmente


estacionario si este cumple con tres condiciones:

E [yt ] = µ, |µ| < ∞


£ 2¤ 2
E (yt − µ) = σ y < ∞
E [(yt − µ) (yt−s − µ)] = γ (s) < ∞, ∀s

Que los dos primeros momentos sean finitos e independientes de t es


una condición necesaria para estacionariedad débil.
7.6 OPERADORES DE REZAGOS: LK 137

2. Estacionariedad Fuerte o Estricta. Si el proceso {yt }Tt=1 posee una


distribución de densidad fy que no es dependiente de s, k entonces se
dice que {yt }Tt=1 posee estacionariedad fuerte:

fy (yt1 , yt2 , ..., ytk ) = fy (yt1 +s , yt2 +s , ..., ytk +s )

es decir que la función de densidad no cambia con le tamaño ni el


perídodo considerado en la muestra.

7.6 Operadores de Rezagos: Lk


Para simplificar la notación es necesario introducir el concepto de operador de
rezagos L (del inglés "lag") que se define como aquel operador que rezaga k
veces la variable a la cual se le aplica. Por ejemplo consideremos las siguientes
equivalencias notacionales:

Lxt = xt−1
L2 xt = xt−2
¡ ¢
1 − 2L + 3L2 xt = xt − 2xt−1 + 3xt−2
L−1 xt = xt+1
¡ ¢
1 + 3L−1 − 0.5L2 xt = xt + 3xt+1 − 0.5xt−2

Esta notación nos permite representar de una manera más simplificada


los modelos de series de tiempo que se revisan a continuación.

7.7 AR(p)
Un proceso autoregresivo de series de tiempo de orden p, AR(p), tiene la
siguiente estructura analítica:

yt = ρ1 yt−1 + ρ2 yt−2 + ... + ρp yt−p + εt


εt = yt − ρ1 yt−1 − ρ2 yt−2 − ... − ρp yt−p
¡ ¢
εt = 1 − ρ1 L − ρ2 L2 − ... − ρp Lp yt

donde típicamente la variable endógena se presenta en desviación de su media


(yt − ȳ), el residuo ε es un "ruido blanco", es decir cumple con las condiciones
138 CHAPTER 7 MODELOS UNIVARIADOS

E (εt ) = 0, y V (εt ) = σ 2ε < ∞. Aquí la variable yt es una combinación lineal


de sus propios rezagos o valores pasados.
Considerando la última expresion que representó al modelo AR, se puede
demostrar que todo proceso AR se puede representar como un MA y vicev-
ersa.
Supongamos que tenemos un proceso AR(1):

εt = (1 − ρL) yt

Podemos despejar yt dividiendo la expresión por (1 − ρL), es decir:


εt
= yt
(1 − ρL)

Dado que la serie es estacionaria el coeficiente ρ es menor que 1 de manera


que podemos extender la serie de residuos sabiendo que si b < 1 entonces
1
1−b
= 1 + b + b2 + ....:

εt
yt =
(1 − ρL)
¡ ¢
yt = εt 1 + ρL + (ρL)2 + (ρL)3 + ...
yt = εt + εt ρL + εt (ρL)2 + εt (ρL)3 + ...
yt = εt + θ1 εt−1 + θ2 εt−2 + θ3 εt−3 + ...
¡ ¢
yt = 1 + θ1 L + θ2 L2 + θ3 L3 + ... εt
P∞ i
yt = i=1 θ i L εt + εt

donde θi = ρi , ∀i = 1, 2, 3, .... Esta relación permite representar modelos


AR(p) en forma equivalentes a MA(∞), y como veremos en la siguiente
sección, también se dá la relación inversa (MA (q) = AR (∞)).
Algunos ejemplos de procesos autoregresivos son:
 
 y = ρy + ε 
t t−1 t
AR(1) :
 (1 − ρL) y = ε 
t t
 
y =ρ y +ρ y +ε 
t 1 t−1 2 t−2 t
AR(2) :
 (1 − ρ L − ρ L2 ) y = ε 
1 2 t t
7.8 MA(Q) 139

7.8 MA(q)

Un proceso de media móvil (moving average, MA) de orden q, MA(q), tiene


la siguiente representación analítica:

yt = εt + θ1 εt−1 + θ2 εt−2 + ... + θq εt−q


¡ ¢
yt = εt 1 + θ1 L + θ2 L2 + ... + θq Lq

donde ε sigue siendo una variable aleatoria ruido blanco.Aquí la variable yt


es una combinación lineal de residuos pasados.
Algunos ejemplos de procesos de medias móviles son:

 
 y = θε + ε 
t t−1 t
MA(1) :
 y = (1 + θL) ε 
t t
 
y =ε +θ ε +θ ε 
t t 1 t−1 2 t−2
MA(2) :
 y = (1 + θ L + θ L2 ) ε 
t 1 2 t

7.9 Proceso Integrado I(d)

Un proceso estocástico {yt }∞ t=1 se dice integrado de orden ”d”, es decir es yt ∼


I (d), si es que yt requiere ser diferenciado d-veces para que sea estacionaria.
Ejercicio. Sea una variable aleatoria yt = µ+yt−1 +εt , donde por ejemplo
asumamos µ = 2, y0 = 1, y εt ∼ N (0, 10), entonces la dinámica para una
140 CHAPTER 7 MODELOS UNIVARIADOS

realización de 200 observaciones será:

Serie Intergrada y ∼ I(1)

Al calcular su primera diferencia la podemos representar como:

Primera Diferencia: ∆y ∼ I(0)

De aquí es posible determinar que casi cualquier serie no estacionaria se


puede transformar a estacionaria a través de diferenciar la serie ya sea una
vez, lo que es usual, o diferenciándola dos o más veces, lo cual es poco usual
en series económicas.
7.10 ARMA(P,Q) 141

7.10 ARMA(p,q)
Un proceso autoregresivo de media móvil de orden (p, q) para una serie esta-
cionaria y se puede representar por:
yt = ρ1 yt−1 + ρ2 yt−2 + ... + ρp yt−p + θ1 εt−1 + θ2 εt−2 + ... + θq εt−q + εt
donde ε es u ruido blanco. Aquí la serie y es una combinación lineal de
residuos y valores rezagados de y.
La expresión analítica resumida de este modelo es:
¡ ¢ ¡ ¢
1 − ρ1 L − ρ2 L2 − ... − ρp Lp yt = 1 + θ1 L + θ2 L2 + ... + θq Lq εt
Algunos ejemplos de modelos ARMA(p, q) son:
 
 y = ρy + θε + ε 
t t−1 t−1 t
ARMA(1, 1) :
 (1 − ρL) y = (1 + θL) ε 
t t
 
 y = ρ y + ρ y + θε + ε 
t 1 t−1 2 t−2 t−1 t
ARMA(2, 1) :
 (1 − ρ L − ρ L2 ) y = (1 + θL) ε 
1 2 t t
 
 y = ρy + θ ε + θ ε + ε 
t t−1 1 t−1 2 t−2 t
ARMA(1, 2) :
 (1 − ρL) y = (1 + θ L + θ L2 ) ε 
t 1 2 t

7.11 ARIMA(p,d,q)
Tal como señala el teorema de Wold, todo proceso estacionario puede ser
representado a través de un modelo del tipo AR, MA, o ARMA. Si la serie
bajo análisis no es estacionaria (no es I(0)) entonces debe ser diferenciada
"d" veces para que lo sea. Esto hace que uno pueda representar un modelo de
series de tiempo utilizando la extensión de los modelos ARMA, agregándose
el componente "integrado" al medio de la expresión. De esta forma el modelo
extendido es una representación autoregresiva, integrada, de media móvil y
se denota por ARIMA.
Podemos representar modelos cuya serie original y es no estacionaria, de
la siguiente forma:
∆d yt = ρ1 ∆d yt−1 + ρ2 ∆d yt−2 + ... + ρp ∆d yt−p + θ1 εt−1 + θ2 εt−2 + ... + θq εt−q + εt
Pp Pq
∆d yt = d
i=1 ρi ∆ yt−i + i=1 θ i εt−i + εt
142 CHAPTER 7 MODELOS UNIVARIADOS

cuya representación analítica resumida es:


¡ ¢ ¡ ¢
1 − ρ1 L − ρ2 L2 − ... − ρp Lp ∆d yt = 1 + θ1 L + θ2 L2 + ... + θq Lq εt

Algunos ejemplos de modelos ARIMA son:


 
 ∆y = ρ∆y + θε + ε 
t t−1 t−1 t
ARIMA(1, 1, 1) :
 (1 − ρL) ∆y = (1 + θL) ε 
t t
 
 ∆y = ρ ∆y + ρ y + θε + ε 
t 1 t−1 2∆ t−2 t−1 t
ARIMA(2, 1, 1) :
 (1 − ρ L − ρ L2 ) ∆y = (1 + θL) ε 
1 2 t t
 
 ∆2 y = ρ∆2 y + θ ε + ε 
t t−1 1 t−1 t
ARIMA(1, 2, 1) :
 (1 − ρL) ∆2 y = (1 + θ L) ε 
t 1 t

7.12 Estacionalidad y Modelos SAR y SMA


Cuando una serie tiene una frecuencia que presenta estacionalidad (por ejem-
plo datos mensuales o trimestrales, o efectos día de la semana) se sugiere sacar
la estacionalidad ajustando la serie sacando la diferencia de ella considerando
la frecuencia que se quiere sacar. Es decir, la serie se ve transformada por el
factor (1 − Ls ) donde s indica la frecuencia estacional, por ejemplo: trimes-
tral (s = 4), mensual (s = 12), datos diarios con efecto semana (s = 5). Este
ajuste se denomina corrección de estacionalidad al factor autoregresivo y se
denota por SAR, es decir SAR(4), SAR(12), y SAR(5) , respectivamente
para el ejemplo anterior.
Si una serie yt , tiene frecuencia mensual y presenta estacionalidad, en-
tonces se debe transformar como SAR(12):

yt → yt − φyt−12
¡ ¢
= 1 − φL12 yt

y si la frecuencia es trimestral el ajuste será SAR(4):

yt → yt − φyt−4
¡ ¢
= 1 − φL4 yt
7.13 ESTIMACIÓN DE MODELOS ARIMA(P, D, Q) 143

Este ajuste modifica la dinámica de cualquier proceso autoregresivo incor-


porándose nuevos rezagos. Por ejemplo si tenemos inicialmente un proceso
AR(2), y le agregamos un SAR(4) el modelo se transformará a:

AR(2) : yt = ρ1 yt−1 + ρ2 yt−2 + εt


¡ ¢¡ ¢
AR(2), SAR(4) : 1 − ρ1 L − ρ2 L2 1 − φL4 yt = εt
¡ ¢ ¡ ¢ ¡ ¢
⇒ 1 − φL4 yt = ρ1 1 − φL4 yt−1 + ρ2 1 − φL4 yt−2 + εt
⇒ yt = ρ1 yt−1 + ρ2 yt−2 + φyt−4 − ρ1 φyt−5 − ρ2 φyt−6 + εt

También (aunque más exótico) puede agregarse un componente estacional


al proceso de media móvil: SMA(s). Expresiones de este tipo son por ejem-
plo:
¡ ¢
AR(1), SMA(4) : (1 − ρL) yt = 1 − φL4 εt
⇒ yt = ρyt−1 + εt − φεt−4
¡ ¢
MA(1), SMA(4) : yt = (1 + θL) 1 − φL4 εt
⇒ yt = εt + θεt−1 − φεt−4 − φθεt−5

Un modelo general ARMA con ajustes estacionales a las medias móviles


y al proceso autoregresivo tiene una dinámica más compleja. Por ejemplo, la
siguiente ecuación representa a un proceso ARMA(1, 1), SAR(4), SMA(4):
¡ ¢ ¡ ¢
(1 − ρL) 1 − φL4 yt = (1 + θL) 1 − φL4 εt
yt = ρyt−1 + φyt−4 − ρφyt−5 + εt + θεt−1 − φεt−4 − θφεt−5

7.13 Estimación de Modelos ARIMA(p, d, q)


Box y Jenkins desarrollaron una metodología para estimar modelos de series
de tiempo. Este procedimiento consistía en tres etapas:

1. Indentificación. Aquí el investigador determina estadísticamente el or-


den autoregresivo (p), el orden de media móvil (q), y el grado de inte-
gración (d) de la serie bajo estudio. Para identificar estos parámetros
usualmente se visualizan conjuntamente la función de autocorrelación
y la función de correlación parcial de la serie.
2. Estimación de Parámetros. Se puede utilizar mínimos cuadrados no
lineales o métodos de máximo verosimilitud.
144 CHAPTER 7 MODELOS UNIVARIADOS

3. Diagnóstico de los Residuos. Una vez se ha estimado el modelo hay que


verificar que los residuos del proceso ARIMA no presenten ningún tipo
de autocorrelación que el modelo no haya considerado. Para este diag-
nóstico podemos ver las autocorrelaciones y la función de correlación
parcial, o más formalmente podemos aplicar los siguientes tests (ver
secciones anteriores para una descripción en detalle de estos tests):

• Brock, Dechert y Scheinkman (BDS)

• Cowles y Jones (CJ)

• Fuller

• Box-Jenkins (Q)

• Ljung-Box (Q0)

• Razón de Varianzas (κ)

Esta etapa es crucial en todo proceso de estimación de un modelo de


series de tiempo.
Chapter 8

Modelos Heteroscedásticos

8.1 GARCH
El modelo que se utilizará como punto de partida en esta sección es el tradi-
cional modelo de autorregresivo generalizado de heteroscedasticidad condi-
cionada (GARCH), desarrollado por Bollerslev (1987), el cual se representa
analíticamente por el siguiente sistema aplicado yt y su volatilidad σ 2t :

X
yt = µ + ρj yt−j + εt
j∈J
¡ ¢
εt ˜N 0, σ 2t
i=q i=p
X X
σ 2t = β0 + γ i ε2t−i + β i σ 2t−i
i=1 i=1

donde J, p, q se identifican utilizando procedimientos estándares de series de


tiempo.
Existe una extención que permite considerar la volatilidad de la variable
yt como variable explicativa de su propio nivel o media. En este caso la
ecuación GARCH debe incluir rezagos de σ 20 t s como variables explicativas,
dando origen a los modelos GARCH-M, es decir con volatilidad en la media.
A su vez se puede requerir de evaluar si el nivel de la variable yt o alguno
de sus rezagos afecta a su propia volatilidad. Para considerar esta posibilidad
es necesario incorporar a yt−j directamente en la expresión de volatilidad, tal

145
146 CHAPTER 8 MODELOS HETEROSCEDÁSTICOS

como se representa en el siguiente sistema:


X X
yt = µ + ρj yt−j + θk σ 2t−k + εt
j∈J k∈K
¡ ¢
εt ˜N 0, σ 2t
i=q i=p
X X X
σ 2t = β0 + γ i ε2t−i + β i σ 2t−i + ψs yt−s
i=1 i=1 s∈S

donde al igual que en caso del GARCH J, K y S deben ser determinadas


empíricamente.
Estos modelos tienen la característica de que shocks inducen a compor-
tamientos simpétricos de la volatilidad, independientemente de si estos son
positivos o negativos. Para evaluar un eventual comportamiento asimétrico
existe una variedad de modelos conocidos como GARCH-Cuadrático (QGARCH),
Umbral-GARCH (TGARCH), Glosten-Jagannathan-Runkle GARCH (GJR-
GARCH) model, y finalmente el modelo asimétrico Box-Cox GARCH (Box-
Cox-AGARCH), el cual es capaz de incluir como casos especiales a la mayoría
de los modelos de volatilidad existentes.

8.2 QGARCH
El modelo QGARCH(1,1)1 puede representarse por:
X X
yt = µ + ρj yt−j + θk σ 2t−k + εt
j∈J k∈K
¡ ¢
εt ˜N 0, σ 2t
X
σ 2t = β 0 + γ 1 ε2t−1 + β 1 σ 2t−1 + ϕεt−1 + ψs yt−s
s∈S

donde ϕ es el parámetro asimétrico que ayuda a diferenciar del efecto positivo


o negativo del impacto del shock sobre la volatilidad. Un shock positivo
de tamaño 1 tendrá un impacto equivakente a γ 1 + ϕ sobre la volatilidad,
mientras que un shock de igual magnitud pero de orden negativo impactará
γ 1 −ϕ sobre la volatilidad de yt , en lugar de γ 1 y −γ 1 como predice el modelo
simétrico.
1
Por simplicidad se reportan la familia de modelos de orden p = 1 y q = 1, con yt como
variable dependiente.
8.3 T-GARCH 147

8.3 T-GARCH
La ecuación para la volatilidad del modelo de umbral o TGARCH(1,1) se
representa por:
X
σ 2t = β 0 + γ 1 ε2t−1 + β 1 σ 2t−1 + ϕτ t−1 ε2t−1 + ψs yt−s
s∈S

donde el parámetro τ opera como una función indicadora a partir de la


definición del umbral, tal como lo define la siguiente expresión:
½ ¾
1 si εt−1 ≤ 0
τ t−1 =
0 si εt−1 > 0
Luego si existe un shock negativo sobre yt , el impacto sobre la volatilidad
será igual a γ 1 + ϕ mientras que si el shock es positivo el impacto será
solamente γ 1 , dado que en este caso τ = 0.

8.4 GJR-GARCH
El modelo introducido por Glosten, Jagannathan and Runkle (1993) resuelve
el problema de la asimetría con un enfoque alternativo. La ecuación para la
volatilidad se representa por:
X
σ 2t = β 0 + (1 − αt−1 ) γ 1 ε2t−1 + β 1 σ 2t−1 + ϕαt−1 ε2t−1 + ψs yt−s
s∈S

donde la función indicadora es ahora:


½ ¾
0 si εt−1 ≤ 0
αt−1 =
1 si εt−1 > 0
Esto significa que si el shock sobre yt es positivo, el impacto sobre la volatil-
idad será ϕ, mientras que si es negativo el impacto es γ 1 . El modelo GJR-
GARCH entrega similares resultados al modelo TGARCH.

8.5 Modelo Asimétrico GARCH


Hentschel(1995) presenta un modelo generalizado que incluye como caso espe-
cial a la mayoría de los modelos GARCH2 . Dependiendo del valor que toman
2
Excluye al QGARCH.
148 CHAPTER 8 MODELOS HETEROSCEDÁSTICOS

determinados parámetros del modelo, es posible representar a una amplia


variedad de representaciones de volatilidad, ya sea un GARCH, TGARCH,
o un GARCH exponencial, por ejemplo.
La representación asimétrica del modelo Box-Cox-AGARCH(1,1), está
dada por:
µ ¶
σ λt − 1 εt−1 σλ − 1 X
λ
= β 0 + γ 1 σ t−1 f ν
+ β 1 t−1 + ψs yt−s
λ σ t−1 λ s∈S
µ ¶ ¯ ¯ µ ¶
εt−1 ¯ εt−1 ¯ ε
= ¯¯ − δ 0 ¯¯ − δ1
t−1
f − δ0
σ t−1 σ t−1 σ t−1

donde
³ su ´ comportamiento asimétrico se deriva de la existencian de la función
εt−1
f σt−1 que posee dos parámetros (δ 0 y δ 1 ) que representan la evolución no
simétrica de la volatilidad de yt dependiendo de si el shock es positivo o
negativo.

8.6 Curvas de Impacto de Noticias (News Im-


pact Curves)
8.6 CURVAS DE IMPACTO DE NOTICIAS (NEWS IMPACT CURVES)149

Figure 8.1: Curvas de Impacto para Modelos de Volatilidad

Figure 8.2: Curvas de Impacto para Modelos de Volatilidad Extendidos


150 CHAPTER 8 MODELOS HETEROSCEDÁSTICOS

Figure 8.3: Curva de Impacto de Noticias para Modelo Box-Cox-AGARCH


Chapter 9

Modelos de Volatilidad
Alternativos

9.1 Volatilidad con Distribución t-Student


Una altenativa muy utilizada teóricamente es la de trabajar con residuos que
tienen una distribución de densidad leptokúrtica del tipo t-Student o del tipo
Cauchy. La distribución Cauchy tiene la siguiente representación analítica
para una variable aleatoria ε:

1 α
f (εt , α, β) =
π α2 + (εt − β)2

y
0.3

0.25

0.2

0.15

0.1

0.05

-5 -2.5 0 2.5 5

Función Cauchy con α = 1 y β = −1, 0, 1

151
152CHAPTER 9 MODELOS DE VOLATILIDAD ALTERNATIVOS

Para la función de distribución t-Student, consideremos una función con


λ grados de libertad:
h i
Γ (λ+1) · ¸− λ+1
2 ε2t ( 2 )
f (εt , λ) = 1 £ ¤ 1+
[πλ] 2 Γ λ2 λ

y 0.5

0.375

0.25

0.125

0
-4 -2 0 2 4

Función de Distribución N(0, 1) y t-Student con λ = 5 (azul)

donde la función Gamma se representaba por Γ (x) = (x − 1)!.


Se sabe que asintóticamente (grados de libertad λ → ∞) esta distribución
converge a una normal, incluso su cuarto momento (kurtosis) se aproxima
a lo que una distribución normal predice (3) reflejándose la leptokurtosis
requerida en muestras finitas, según lo que se observa en la data. Para una
variable aleatoria y estos dos momentos son:

λ λ→∞
E (ε2t ) = λ−2
→ 1
3λ2 λ→∞
E (ε4t ) = (λ−2)(λ−4)
→ 3

A continuación se presenta un código escrito en GAUSS que efectúa la op-


timización por máximo verosimilitud a partir de una distribución t-Student,
que supone tener en memoria la base de datos de la serie y. Para que el cuarto
momento esté definido se le restribge durante el proceso de optimización a
que el parámetro λ (representado por c[1] en el código) sean superior a 4.
Código GAUSS
@ Estimacion del Modelo t-Student por ML @
nobs=rows(y);
y=y[1:nobs];
9.2 MODELOS DE VOLATILIDAD ESTOCÁSTICA 153

proc (1) = lnlk(c,y);


local lnl, llk, nobs, t;
nobs=rows(y);
lnl=zeros(nobs,1);
t=1;
do while t le nobs;
lnl[t]=ln(gamma((c[1]+1)/2))-ln(gamma(c[1]/2))-0.5*ln(c[1]*pi)
-((c[1]+1)/2)*ln(1+y[t]^2/c[1]);
t=t+1;
endo;
llk=sumc(lnl);
retp(llk);
endp;
c1=70;
startv=c1;
__title="Modelo PDF t-Student";
_cml_MaxIters = 5000;
_cml_Algorithm = 1;
_max_LineSearch =2;
_cml_GradMethod=1;
_cml_covpar=1;
_cml_c=1;
_cml_d=4;
{b,f0,g,cov,retcode} = maxprt(cml(y,0,&lnlk,startv));

9.2 Modelos de Volatilidad Estocástica


Chapter 10

Modelos Multivariados

Una extensión natural a los modelos de series de tiempo univariados es aque-


lla que considera que existe una covariación entre un conjunto de variables
que se relacionan tanto contemporáneamente como intertemporalmente. Es
el caso por ejemplo de la tasa de interés de política de un banco central, la
inflación, y el nivel de actividad, o en el ámbito financiero la relación exis-
tente entre los índices accionarios en el mundo (FTSE, Dow Jones, Nikkey,
DAX, etc.) y los tipos de cambio (Yen, Euro, Libra, etc.), o en general los
precios de activos financieros.
Este grado de correlación es capturado por modelo sde series de tiempo
multivariados, es decir aquellos en los cuales el análisis se efectua por sobre
un conjunto de variables de interés como los arriba mencionados, en lugar de
una sola variable como era el caso de los modelos univariados.
Este capítulo extiende el análisis hacia aquellos modelos multivariados,
siempre preservando la característica de lineal, lo cual permite denominarlos
modelos de vectores autoregresivos (VAR). Se revisarán modelos VAR simples
y sus versiones estructurales, y se presenta un modelo VAR heteroscedástico
simétrico del tipo VAR-GARCH que analiza el impacto de contagio de volatil-
idades de retornos accionarios para un conjunto de activos internacionales.

10.1 Vectores Autoregresivos: VAR


La extensión más directa de los modelos univariados autorregresivos es la
de considerar un vector de variables que se correlacionan entre sí autorre-
gresivamente. Estos modelos VAR se pueden representar por un sistema de

155
156 CHAPTER 10 MODELOS MULTIVARIADOS

ecuaciones. Consideremos un modelo Bi-VAR(p), es decir un modelo de dos


variables (y1 , y2 ) con un rezago (p = 1):

y1t = θ11 + θ12 y1t−1 + θ13 y2t−1 + ε1t


y2t = θ21 + θ22 y1t−1 + θ23 y2t−1 + ε2t

donde la estructura de residuos ε1 , ε2 tienen valor esperado cero y matriz de


varianzas y covarianzas contemporanea no singular y constante para todo t,
y además en donde estos residuos no covarían intertemporalmente.
La forma matricial del sistema anterior en conjunto con los supuestos se
pueden representar por:

yt = Θ0 + Θ1 yt−1 + εt
E (εt ) = 0
E (εt ε0t ) = Σε
Cov (εt ,t+k ) = 0, ∀k 6= 0

donde podemos definir:


 
y1t
yt =  
y2t
 
θ11
Θ0 =  
θ21
 
θ12 θ13
Θ1 =  
θ22 θ23

10.1.1 Estacionariedad del VAR


Al igual que en para el caso univariado se requiere que este sistema sea
estacionario. Estacionariedad estricta o fuerte impone la condición que la
función de distribución multivariada sea estable en el tiempo, mientras que
estacionariedad en su versión débil implica necesariamente que la media, la
varianza y las covarianzas intertemporales entre variables dependientes no
cambien en el tiempo y adicionalmente encontrar una dinámica convergente
10.1 VECTORES AUTOREGRESIVOS: VAR 157

del sistema a través de analizar las raíces del siguiente polinomio:


¯   ¯
¯ ¯
¯ 1 0 θ12 θ13 ¯
p (λ) = det ¯¯  − λ ¯
¯
¯ 0 1 θ22 θ23 ¯

La última condición de estacionariedad consiste en que las raíces de este


polinomio deben estar fuera del círculo unitario, es decir deben ser mayores a
uno. Para nuestro vector autorregresivo de un rezago (VAR(1)) el polinomio
de segundo grado se representa por la resolución del siguiente determinante:
¯ ¯
¯ ¯
¯ 1 − λθ12 −λθ13 ¯
det ¯¯ ¯
¯
¯ −λθ22 1 − λθ23 ¯
= 1 − (θ12 + θ23 ) λ + (θ12 θ23 − θ22 θ23 ) λ2
donde se requiere que λ1 > 1 y λ2 > 1.
Una definición alternativa consiste en analizar la estacionariedad del VAR
calculando las raíces que definan que el siguiente polinomio característico:
¯   ¯
¯ ¯
¯ θ12 θ13 1 0 ¯
¯
p (φ) = det ¯   −φ   ¯
¯
¯ θ22 θ23 0 1 ¯

donde si se resuelve la ecuación característica p (φ) = 0, entonces φ define al


vector propio (eigenvalue) de la matriz Θ1 . Específicamente:
¯   ¯
¯ ¯
¯ θ12 θ13 1 0 ¯
det ¯¯  − φ ¯ = 0
¯
¯ θ22 θ23 0 1 ¯

este determinante es un polinomio de grado n, equivalente al número de filas


(o columnas) de la matriz analizada Θ. Este polinomio permite obtener las
raíces de Θ1 denominados valores propios o eigenvalues. Para que un sistema
sea estacionario estas raíces deben ser menores que 1 en valor absoluto.
Generalizando a un sistema o vector autorregresivo con k variables y
con p rezagos, la representación matricial con su respectiva condición de
estacionariedad será:
yt = Θ0 + Θ1 yt−1 + Θ2 yt−2 + ... + Θp yt−p + εt
¡ ¢
0 = det I − λΘ1 − λ2 Θ2 − ... − λp Θp
158 CHAPTER 10 MODELOS MULTIVARIADOS

Ejercicio. La estimación de un sistema de dos variables con un rezago


entregó el siguiente vector de parámetros estimados, representados en forma
matricial por:  
0.08 0.61
 
0.32 0.27
El polinomio característico se representa por el determinante de
¯   ¯
¯ ¯
¯ 0.08 0.61 1 0 ¯
det ¯¯ − φ ¯ = φ2 − 0.35φ − 0.173 6
¯
¯ 0.32 0.27 0 1 ¯

cuyas raíces o valores propios al solucionar φ2 − 0.35φ − 0.173 6 = 0 son:


φ1 = −0.276 91
φ2 = 0.626 91
ambos menores que 1 en valor absoluto de manera que el sistema es esta-
cionario.
Para determinar la condición de estacionariedad debemos calcular el sigu-
iente determinante:
¯   ¯
¯ ¯
¯ 1 0 0.08 0.61 ¯
¯
det ¯  −λ   ¯ = 0
¯
¯ 0 1 0.32 0.27 ¯
1.0 − 0.35λ − 0.173 6λ2 = 0
donde ahora la solución es:
λ1 = −3. 611 2
λ2 = 1. 595 1
que equivale al inverso de los valores encontrados para φ1 y φ2 .
1 1
φ1 = −0.276 91 = =
−3. 611 2 λ1
1 1
φ2 = 0.626 91 = =
1. 595 1 λ2
De quí se entiende por qué a veces cuando se habla de estacionariedad se
dice que las raíces deben estar fuera del círculo unitario, lo que se refiere a
10.1 VECTORES AUTOREGRESIVOS: VAR 159

que los valores de las raíces λ0 s deben ser mayores que 1 en valor absoluto,
o lo que es lo mismo, que los valores de los φ0 s sean menores que 1 en valor
absoluto.
Ejercicio. La estimación de un sistema de dos variables con dos rezagos
entregó el siguiente vector de parámetros estimados, representados en forma
matricial por:
   
−0.561594 −0.023580 0.0000734 −0.007503
 , 
0.071865 0.657941 0.396690 0.216838

El polinomio característico se representa por el determinante de


¯     ¯
¯ ¯
¯ 1 0 −0.561594 −0.023580 0.0000734 −0.007503 ¯
det ¯¯  − λ −λ 
2 ¯
¯
¯ 0 1 0.071865 0.657941 0.396690 0.216838 ¯
= 2. 992 3 × 10−3 λ4 − 0.111 83λ3 − 0.584 71λ2 − 0.09 634 7λ + 1

La solución de este polinomio entrega los siguientes valores propios, todos


los cuales son mayores que 1 de manera que el sistema es estacionario:

λ1 = 42. 035
λ2 = 1. 123 4
λ3 = −1. 756 2
λ4 = −4. 029 6

10.1.2 Rezagos Optimos: VAR(p)


Al igual que en modelos univariados existen diversos criterios o funciones
a minimizar, y que permiten definir exactamente el número de rezagos (o
orden) que deben presentar los modelos de VAR. Entre los más utilizados
empíricamente se encuentran los criterio de información de Akaike (AIC),
criterio de información Bayesiana de Schwarz (BIC), y el criterio de Hannan
y Quinn (HQ).
Los tres criterios imponen una función de pérdida considerando el número
de parámetros a estimar en el modelo, lo cual determina un factor comun
160 CHAPTER 10 MODELOS MULTIVARIADOS

entre los tres criterios (AIC < HQ < BIC):

pd2
AIC = ln |Σ̂e | + [2]
T
pd2
BIC = ln |Σ̂e | + [ln (T )]
T
pd2
HQ = ln |Σ̂e | + [2 ln (ln (T ))]
T
donde p define el número de rezagos del VAR, T el número de observaciones,
d el número de ecuaciones (o variables) del VAR, y ln |Σ̂e | define el logaritmo
del determinante de la matriz de varianzas y covarianzas estimada de los
residuos muestrales de cada ecuación del sistema VAR. Los elementos de Σ̂e
son calculados considerando la estimación por máximo verosimilitud de las
varianzas de los residuos (es decir dividiendo por T en lugar de dividir por
T − (pd2 + 1)) llegando a definirse por:
 
0 0 0
e e e e ... e1 ed
 1 1 1 2 
 0 0 0 
1 e2 e1 e2 e2 ... e2 ed 
Σ̂e =  
T ... ... ... ... 

 
0 0 0
ed e1 ed e2 ... ed ed
dxd

10.2 Funciones de Impulso-Respuesta


10.3 Test de Causalidad de Granger
10.4 Vector Autoregresivo Estructural: SVAR
Esta metodología consiste en relacionar los residuos estructurales (εt ) con los
muestrales del vector autoregresivo (et ). El modelo estructural se represen-
taría por una media móvil MA(∞) de la forma:
P
∆yt = A0 εt + A1 εt−1 + A2 εt−2 + .... = ∞i=0 Ai εt−i = A (L) εt

donde A(L) representa a la matriz de polinomios de rezagos y ∆y representa


el vector de variables integradas de orden cero I(0) o estacionarias. Por
10.4 VECTOR AUTOREGRESIVO ESTRUCTURAL: SVAR 161

construcción se asume que la matriz de varianzas y covarianzas de los shocks


estructurales se representa por la matriz identidad, es decir:
E (εε0 ) = I
Para identificar los parámetros de este modelo estructural se estima su
forma autoregresiva reducida con p rezagos V AR(p):
∆yt = Θ̂1 ∆yt−1 + Θ̂2 ∆yt−2 + ... + Θ̂p ∆yt−p + et

donde Θ̂i representa la matriz de rezagos polinomiales estimada. La matriz


de varianzas y covarianzas estimada se denota por:
E (ee0 ) = Ψ
Dado que el proceso estocástico estimado anterior es estacionario, en-
tonces podemos representar al V AR(p) como un proceso de media móvil con
infinitos rezagos (Teorema de Descomposición de Wold), es decir un MA(∞):
P
∆yt = et + C1 et−1 + C2 et−2 + .... = ∞
i=0 Ci et−i = C (L) et

donde C0 = 1, lo cual finalmente nos permite relacionar los residuos estruc-


turales con los muestrales o estimados a través de la siguiente expresión:
et = A0 εt
lo cual implica que:
E (ee0 ) = A0 E (εε0 ) A00 = A0 A00 = Ψ
Luego finalmente para identificar los shocks estructurales (ε) a partir de
la información contenida en la estimación del V AR(p), es decir a partir de
los residuos muestrales (e) y la matriz de varianzas y covarianzas estimada
Ψ, necesitamos identificar suficientes parámetros o restricciones de la matriz
A0 . Para esto tomamos la matriz simétrica Ψ que nos entrega estimadores
n (n + 1) /2 de A0 (n es el número de variables en el V AR), restando sola-
mente n (n − 1) /2 restricciones que imponer para completar la matriz A0 .
Una vez definida A0 se procede a identificar la matriz de efectos de largo
plazo de los shocks del modelo reducido1 , C(1), para relacionarla con su ma-
triz equivalente del modelo estructural A(1), a través de A(1) = C(1)A0 . El
1
C(1) se obtiene de la estimación del V AR(p) y correspopnde al valor del polinomio
C(L) cuando L = 1.
162 CHAPTER 10 MODELOS MULTIVARIADOS

proceso final consiste en identificar e imponer restricciones de largo plazo,


es decir sobre A(1), considerando, la matriz de polinomios C(1) estimada a
partir del VAR, la parte conocida de A0 , y finalmente restricciones de coin-
tegración y teoría macroeconómica sobre relaciones de largo plazo entre las
variables2 .

10.5 Modelo VAR-GARCH(1,1)


El modelo a estimar se representa por:

yt = θ11 + θ12 yt−1 + θ13 π t−1 + εyt


πt = θ21 + θ22 yt−1 + θ23 π t−1 + επt
     
2
εyt 0 σyt ρσ yt σ πt
ε =   ˜N   ,  
2
επt 0 ρσ yt σ πt σ πt
σ 2yt = φ1 + φ2 ε2yt−1 + φ3 σ 2yt−1
σ 2πt = ω 1 + ω 2 ε2πt−1 + ω3 σ 2πt−1 + ω 4 σ 2πt−2

Código GAUSS
proc lnlk(c,data);
local nobs,ey,ep,cova,sigma,dsigma,t,hy,hp,m,lnl,stt,in;
nobs=rows(data);
hy=zeros(nobs,1);hp=hy;dsigma=hy;cova=hy;m=hy;
hy[1]=sqrt(abs(c[7]/(1-c[8]-c[9])));
hp[1]=sqrt(abs(c[10]/(1-c[11]-c[12]-c[13])));
ey=zeros(nobs,1);ep=ey;
t=3;
do while t le nobs;
hy[t]=sqrt(abs(c[7]+c[8]*ey[t-1]^2+c[9]*hy[t-1]^2));
hp[t]=sqrt(abs(c[10]+c[11]*ep[t-1]^2+c[12]*
hp[t-1]^2+c[13]*hp[t-2]^2));
ey[t]=y[t]-x[t,.]*(c[1]|c[2]|c[3]);
ep[t]=p[t]-x[t,.]*(c[4]|c[5]|c[6]);
2
La restricción usual de largo plazo en modelos macroeconométricos es que shocks de
demanda no causan efectos permanentes sobre el producto, o que los shocks de oferta
producen efectos permanentes sobre el producto.
10.5 MODELO VAR-GARCH(1,1) 163

cova[t]=c[14]*hy[t]*hp[t];
sigma=(hy[t]^2~cova[t])|(cova[t]~hp[t]^2);
dsigma[t]=det(sigma);
in=inv(sigma);
m[t]=(ey[t]~ep[t])*in*(ey[t]|ep[t]);
t=t+1;
endo;
stt=3;
lnl=-.5*ln(2*pi)-.5*ln(dsigma[stt:rows(data)])
-.5*m[stt:rows(data)];
retp(lnl);
endp;
proc inevgarch(c);
retp((c[7]/(1-c[8]-c[9]))|(c[10]/(1-c[11]-c[12]-c[13])));
endp;
_cml_MaxIters = 200;
_cml_Algorithm = 3;
_cml_LineSearch = 2;
_cml_GradMethod=1;
_cml_covpar=2;

c7=0.4;
c8=0.2;
c9=0.7;
c10=0.4;
c11=0.2;
c12=0.7;
c13=0;
c14=0;

startv=inv(x’x)*x’y|inv(x’x)*x’p|c7|c8|c9|c10|c11|c12|c13|c14;
_cml_ineqproc = &inevgarch;

{b,f0,g,cov,retcode} = maxprt(cml(data,0,&lnlk,startv));
164 CHAPTER 10 MODELOS MULTIVARIADOS

10.6 Cointegración y MCE


10.6.1 Cointegración Uniecuacional
Supongamos que yt , xt son RW (i.e. no estacionarios). Dado lo anterior es de
esperar que una combinación lineal de x, y tambien sea RW. Sin embargo, las
dos series pueden tener la propiedad de que una combinación lineal particular
de ellas (yt − θxt ) sea estacionaria. Si tal propiedad es válida, entonces se
dice que y, x cointegran.

Procedimiento de Dos Etapas de Engle y Granger (EG2)

La ideas de cointegración surge del artículo de Engle y Granger (EMA, 1987),


en el cual proponen un procedimiento de dos etapas para modelar variables
cointegradas. Sin embargo no está libre de problemas. Las etapas son dos:
Paso 1. Estimar la relación de cointegración por OLS:

yt = α + βxt + εt (10.1)

y testear la existencia de cointegración analizando las propiedades de las


series ε̂t .
Para esto se utiliza el test de CRDW (cointegrating regression Durbin-
Watson), el cual evalua si εt es I (1), es decir si el DW → 0 (no cointegración).
Si DW es significativamente mayor a cero, entonces x, y cointegran. H0 :
DW = 0 (No Cointegración), si DWc > DWT abla rechazamos H0. Para esto
ver tabla de EG1987 para DW.
Otra alternativa es testear raíz unitaria para los residuos ε̂t con DFA u
otro test (Phillips-Perron, Said-Dickey, Kwiatkowski et al., etc...).
Si la hipótesis de no cointegración en rechazada, entonces la ecuación (1)
representa ³la relación
´ de largo plazo entre y y x, y el vector de parámetros
estimados α̂, β̂ se denomina vector de cointegración.
Paso 2. Definir el modelo de corrección de errores que incluye como
variable explicativa al rezago del error de la ecuación de cointegración ε̂t−1 :

A (L) ∆yt = B (L) ∆xt + γε̂t−1 + ν t


10.6 COINTEGRACIÓN Y MCE 165

Modelo de Correción de Errores Uniecuacional


Consideremos un ecuación de demanda por dinero tradicional con una vari-
able de ajuste de stocks de corto plazo:

mt = α + βyt + γit + δmt−1 + εt

Asumiendo equilibrio de largo plazo mt = mt−1 de manera que la relación


de largo plazo se representa por:
α β γ
m= + y+ i
1−δ 1−δ 1−δ
Restando mt−1 a ambos lados y sumando cero:

∆mt = α + βyt + γit + (δ − 1) mt−1 + βyt−1 − βyt−1 + γit−1 − γit−1 + εt


∆mt = α + β∆yt + γ∆it + (δ − 1) mt−1 + βyt−1 + γit−1 + εt
· ¸
α + βyt−1 + γit−1
∆mt = β∆yt + γ∆it − (1 − δ) mt−1 − + εt
1−δ

Método de Tres Etapas de Engle-Yoo


Existen dos problemas con el método de EG2: (i) si los errores de la ecuación
estática están correlacionados, entonces los estimadores están sesgados y son
ineficientes, y, (ii) la distribución de los estimadores es generalmente no-
normal y por lo tanto no es posible efectuar inferencias a partir de los usuales
test-t en la regresión de cointegración.
La solución porpuesta por Engle-Yoo a este problema es:
Paso 1. Estimar la ecuación¡ de largo
¢ plazo yt = α+βxt +εt . Esto entrega
un vector de conintegración α1 , β 1 .
Paso 2. Estimar el modelo de correción de errores:

A (L) ∆yt = B (L) ∆xt + γε̂t−1 + ν t

Se guardan los residuos estimados de esta ecuación ν̂ t , y el término de cor-


reción de errores γ̂.
Paso 3. Regresionar los residuos del modelo anterior (ECM) ν̂ t con los
regresores de largo plazo del modelo (xt ) ponderados por el inverso aditivo
del parámetro de correción de errores γ̂:

ν̂ t = δ 0 + δ 1 (−γ̂xt ) + t
166 CHAPTER 10 MODELOS MULTIVARIADOS
¡ ¢
El vector original de parámetros estimados α1 , β 1 se ajustan por estos
nuevos estimadores:

α3 = α1 + δ 0
β 3 = β 1 + δ1

Los errores estandar de los coeficientes de la regresión de largo plazo son sim-
plemente los errores estandar de los coeficientes δ i estimados en la regresión
del paso 3. Los estadísticos t computados utilizando estos errores estandar
tienen una distribución t que puede ser utilizada para hacer inferencia per-
fectamente.

Phillips-Hansen Fully Modified Estimator (PH)


Sea el DGP:

y1t = βx1t + u1t


x1t = x1t−1 + u2t

donde se asume que y1t , x1t son I (1). Cuando los términos de errores uit están
auto e intercorrelacionados, y cuando la regresión estática y1t = βx1t + u1t
no utiliza ninguna de la información que permite generar x1t , los sesgos en
el estimador pueden ser grandes. HP propone la siguiente solución.
Asumamos que la estructura exacta de la estructura de var-covarianza
ut = [u1t , u2t ]0 es desconocido. Sin embargo sabemos que es débilmente esta-
cionario (i.e. covarianza estacionario), lo cual se describe por:

ut ˜ [0, Ω]

donde Ω = {ωij } , i, j = 1, 2.
Es conveniente descomponer la matriz de var-covarianza en:

Ω = V + Γ + Γ0

donde V = E [u0 , u00 ] es la matriz de covarianza contemporanea, y donde


Γ = Σk E [u0 , u0k ] captura el componente de correlación serial del vector de
error. Entonces si el proceso de error es no correlacionario y estacionario,
entonces la matriz de covarianza Ω = V . En presencia de correlación serial
entonces los términos de Γ no son cero.
10.7 SISTEMAS DE COINTEGRACIÓN 167

El ”fully modified least squares estimator” de β toma la forma:


¡ ¢−1 h¡ T + ¢ +
i
β + = ΣTt=1 x21t Σt=1 y1t x1t − T δ̂

donde:
+
y1t = y1t − ω̂ 12 (ω̂ 22 )−1 ∆x1t
 
+ 1
δ̂ = Λ̂  
−1
− (ω̂ 22 ) ω̂ 12
Λ̂ = Σ∞ 0
k=0 E [u20 uk ]

+
El estimador modificado envuelve dos correciones. Primero el término δ̂
corrige el sesgo en el estimador utilizando estimaciones de largo plazo de la
matriz de var-covarianza. Segundo, se utiliza una variable instrumental de
+
manera que el estimador está condicionado en y1t en lugar de y1t .
Finalmente, el error estándar modificado por PH se define por s+ como:
¡ + ¢2 ¡ ¢−1
s = ω̂ 11.2 ΣTt=1 x21t

donde:
ω̂11.2 = ω̂11 − ω̂ 221 ω̂ −1
22

10.7 Sistemas de Cointegración


Dado un vector X˜I(1) de n elementos, puede haber a lo más n − 1 combi-
naciones de cointegración. Sea el número de combinaciones de cointegración
r. Luego 0 ≤ r ≤ n − 1, y los r vectores de cointegración se representan en
una matriz n × r definida por β = [β 1 , β 2 , ..., β r ]. El número de vectores de
cointegración se conoce como el rango de cointegración de Xt .

10.7.1 Identificación del Rango de Cointegración


Note que en el caso en que r = 0 entonces no habría ninguna relación de
cointegración, y por lo tanto el modelo puede estimarse en sus primeras
diferencias.
168 CHAPTER 10 MODELOS MULTIVARIADOS

El modelo de corrección de errores vectorial VECM se deriba de un VAR


general de la forma:

Xt = Π1 Xt−1 + Π2 Xt−2 + ...Πk Xt−k + t

donde los elementos de Xt son I(1).


Puesto que queremos revisar relaciones de cointegración dentro de un
sistema estacionario, podemos reparametrizar el modelo de forma analoga
al proceso uniecuacional del caso bi-variado. Luego rezagando la ecuación
anterior y agregando y restando Πi Xt−i para i = 1, 2, ..., k en el lado derecho,
permite representar el VECM como:

∆Xt = ΠXt−k + Σk−1


i=1 Γi ∆Xt−i + t

donde:

Γi = − (I − Π1 − ... − Πi ) , ∀i = 1, ..., k
Π = (I − Π1 − ... − Πk )

Los Γi son los parámetros dinámicos del vector del modelo, y la matriz Π
contiene los parámetros de largo plazo del modelo.
El método de Maximum Likelihood de Johansen consiste en examinar el
rango de la matriz Π la cual contiene información sobre las relaciones de
largo plazo. Aquí tenemos tres casos:
(i) Π posee rango cero. En este caso no hay vectores de cointegración y
significa que las variables on individualmente I(1) y que no existe relaciones
de largo plazo de la data. La manera en que debe ser estimado el sistema es
a través de un VAR estándar con variables en primeras diferencias, i.e. ∆Xt .
(ii) La matriz tiene rango completo, lo cual significa que las variables
no diferenciadas son de hecho I(0), y entonces el modelo es estacionario en
niveles.
(iii) La matriz tienen rango r, donde 0 < r < n, lo cual significa que
existen r vectores de cointegración entre las n variables.
Part IV
Modelos No Lineales
Univariados

169
Chapter 11
Estimación por Máxima
Verosimilitud

Ejercicio. Suponga que la distribución de densidad conjunta dos variables


aleatorias x, y está dada por:

θe−(β+θ)y (βy)x
f (x, y) =
x!
β, θ > 0
y = 0
x = 0, 1, 2, ....

Obtenga los estimadores de máxima verosimilitud de los parámetros β y θ.


Para obtener los estimadores MV debemos generar la función log-verosimilitud
y derivarla con respecto a los parámetros de interés:
X µ θe−(β+θ)y (βy)x ¶
$ (β, θ) = ln
x!
Xµ θ x

= ln (yβ) − yβ − yθ
x!
X X X X X
= T ln θ − ln x! + x ln (y) + x ln (β) − β y−θ y
entonces
P
∂$ x X
= − y=0
∂β β
∂$ T X
= − y=0
∂θ θ
171
172CHAPTER 11 ESTIMACIÓN POR MÁXIMA VEROSIMILITUD

De donde se obtiene finalmente que:


P
x x̄
β̂ MV = P =
y ȳ
1
θ̄MV =

Ejercicio. Para el modelo Y = Xβ + ε se dispone de la siguiente infor-
mación:
 
20 11
x0 x =  
11 25
 
25
x0 y =  
10

Calcule los estimadores mínimos cuadrados. Genere un intervalo de confi-


anza del 95% para el coeficiente de sensibilidad. Suponiendo que el error
se distribuye con media 0 y matriz de varianzas y covarianzas identidad (I)
testee la hipótesis nula H0 : β 0 = β 1 = 0 utilizando el test de razón de
verosimilitud.
A partir de la información entregada en la prueba podemos calcular los
estimadores OLS:
 −1    
−1 20 11 25 1. 358 8
β̂ = (x0 x) x0 y =    =  (11.1)
11 25 10 −0.197 89

Asumiendo que e0 e = 36 la varianza estimada para el estimador β̂ 1 será:


 −1
³ ´ 0
ee 36  20 11 
−1
V̂ β̂ = (x0 x) =
T −k 20 − 2 11 25
 
³ ´ 0.131 93 −5. 804 7 × 10−2
V̂ β̂ =  
−2
−5. 804 7 × 10 0.105 54

lo cual indica que √ la desviación estándar estimada del parámetro estimado


2
β̂ 1 será σ̂ β̂ 1 = 0.105 54 = 0.324 87. Un intervalo de confianza para β 1 se
173

genera a partir del estadístico:

β̂ 1 − β 1
tc = ∼ t (T − k)
σ̂ β̂ 1

en nuestro caso al reemplazar y considerando un intervalo de confianza 95%,


para t0.975 (18) = 2.101 el intervalo para el parámetro β 1 será:

β̂ 1 − t0.975 (T − k) · σ̂ β̂ 1 < β 1 < β̂ 1 + t0.975 (T − k) · σ̂ β̂ 1

reemplazando con los resultados obtenidos anteriormente:

−0.197 89 − 2.101 · 0.324 87 < β 1 < −0.197 89 + 2.101 · 0.324 87


−0.880 44 < β 1 < 0.484 66

Suponiendo que el error se distribuye normal con valor esperado cero y matriz
de varianzas y covarianzas identidad, entonces efectuemos el test de razón de
verosimilitud para testear la hipótesis nula H0 : β 0 = β 1 = 0.
La función de log-verosimilitud para el modelo propuesto será:
T T 1 e0 e
$NR = − ln (2π) − ln σ 2 −
2 2 2 σ2
Recordando que e0 e = y 0 y − y 0 xβ̂ podemos reescribir la expresión anterior
como:
T T 1 y 0 y − y 0 xβ̂
$NR = − ln (2π) − ln σ 2 −
2 2 2 σ2
Si ahora escribimos la misma expresión anterior pero para el modelo re-
stringido tenemos que dado una hipótesis nula de que β 0 = β 1 = 0, entonces:
T T 1 y0 y
$R = − ln (2π) − ln σ 2 −
2 2 2 σ2
Considerando que σ 2 = 1 podemos resescribir esta expresión de la siguiente
forma, tanto para el modelo no restringido como para el modelo restringido
(ln(1) = 0):
T 1³ 0 ´
$NR = − ln (2π) − y y − y 0 xβ̂
2 2
T 1
$R = − ln (2π) − y 0 y
2 2
174CHAPTER 11 ESTIMACIÓN POR MÁXIMA VEROSIMILITUD

El test de LR se forma del doble de la diferencia entre estas dos expresiones,


es decir:
¡ ¢
LR = 2 $NR − $R
·µ ´¶ µ T ¶¸
T 1³ 0 0 1 0
LR = 2 − ln (2π) − y y − y xβ̂ − − ln (2π) − y y
2 2 2 2
· ³ ´ ¸
1 1
LR = 2 − y 0 y − y 0 xβ̂ + y 0 y = −y 0 y + y 0 xβ̂ + y 0 y = y 0 xβ̂
2 2
 
³ ´ 1. 358 8
LR = 25 10   = 31. 991
−0.197 89

Para un test χ295% (2) = 5.99. Como LR > 5.99 entonces rechazamos la hipóte-
sis nula H0 : β 0 = β 1 = 0.
Ejercicio. De la siguiente muestra de tamaño 10 para una variable aleato-
ria x generada de una distribución normal con media µ y varianza σ 2 , es decir
x ∼ N (µ, σ 2 ):
{1.1, 2.4, 0.5, 2.2, 0.8, 0.1, 2.9, 3.3, 2.5, 1.9}
Testee la hipótesis de que la varianza es uno, es decir H0 : σ 2 = 1. Genere
un intervalo de confianza del 95% para σ 2 , y utilizando
 un
 test de razón de
µ=2
verosimilitud testee la hipótesis conjunta H0 :  .
σ 2 = 1.5
Lo primero es calcular la varianza muestral:
P
2 (xi − x̄)2 10.541
s = = = 1. 171 2
N −1 9
N −1 9
σ̂ 2 = s2 = 1.1712 · = 1. 054 1
N 10
Para testear H0 : σ 2 = 1 debemos recordar la expresión:
s2
(N − 1) ∼ χ2 (N − 1)
σ2
Luego el test consisrte en:
s2 1. 171 2
χ2c = (N − 1) 2
= (9) = 10. 541
σ H0 1
175

Al comparar con un valor de tabla de χ20.975 (9) = 19.02 vemos que no rec-
hazamos la hipótesis nula H0 : σ 2 = 1
Para el cálculo del intervalo de confianza aplicamos una expresión similar:
s2 2 s2
(N − 1) < σ < (N − 1)
χ20.975 (N − 1) χ20.025 (N − 1)
1.1712 1.1712
(9) < σ 2 < (9)
19.02 2.7
2
0.554 20 < σ < 3. 904
 
µ=2
Los valores para el cálculo del test LR para H0 :   se obtienen
2
σ = 1.5
una vez evaluada la función de log-verosimilitud en los parámetros estimados
versus los restringidos:
P
NR n n 2 1 (xi − µ)2
$ = − ln (2π) − ln σ −
2 2 2 σ2
Al reemplazar por los valores ya encontrados:
P
NR n n 2 1 (xi − µ)2
$ = − ln (2π) − ln σ −
2 2 2 σ2
10 10 1 10.541
$N R = − ln (2π) − ln 1. 054 1 − = −14. 453
2 2 2 1. 054 1
P
R 10 10 1 (xi − 2)2
$ = − ln (2π) − ln 1.5 −
2 2 2 1.5
R 10 10 1 11.07
$ = − ln (2π) − ln 1.5 − = −14. 907
2 2 2 1.5
Con este resultado aplicamos el test LR:
¡ ¢
LR = 2 $NR − $R
LR = 2 (−14. 453 − (−14. 907))
LR = 0.908
2
Comparando con un estadístico de tabla  χ0.95 (2) = 5.99 vemos que no es
µ=2
posible rechazar la hipótesis nula H0 :  .
2
σ = 1.5
176CHAPTER 11 ESTIMACIÓN POR MÁXIMA VEROSIMILITUD

Ejercicio. La variable aleatoria x posee la siguiente distribución:

e−λ λx
f (x) = , x = 0, 1, 2, 3, ....
x!
Suponga que se obtiene la siguiente muestra aleatoria para x:

3, 5, 1, 2, 1, 0, 0, 1, 1, 4, 2, 0, 0, 3, 2
Utilice el test de Wald para evaluar la hipótesis H0 : λ = 2.
Si la variable aleatoria tiene la distribución:
e−λ λx
f (x) =
x!
entonces la función de log-verosimilitud (log-likelihood) se representará por:
X µ e−λ λx ¶ X µ 1 ¶ X
1 X
x
$ (λ) = ln = ln λ − λ = ln + ln λ x − Tλ
x! x! x!

Derivando con respecto a λ se obtiene:

∂$ 1X
= x−T =0
∂λ λ P
x
⇒ λ̂MV = = x̄
T

Dada la muestra este estimador equivale a λ̂MV = 25 15


= 1. 666 7.El test de
Wald a aplicar es equivalente a testear la hipótesis H0 : g (λ) = 0 donde en
nuestro caso g (λ) = λ − 2:
³ ³ ´´2 ³ ´2
g λ̂MV λ̂MV − λH0
W = ³ ³ ´´ = ³ ´
V̂ g λ̂MV V̂ λ̂MV

dado que la varianza de g (λ) es equivalente en esta restricción lineal a la


varianza de λ. Es decir:
(1.6667 − 2)2
W = ³ ´
V̂ λ̂MV
177

La varianza del estimador maximo-verosimil se obtiene de derivar dos veces


la función de lok.likelihood pues sabemos que:
³ ´ µ ∂ 2 $ ¶−1 µ 1 X ¶−1
V̂ λ̂MV = − 2 = x
∂λ λ2

Al valorar en el estimador λ̂MV esta expresión tenemos:


à !−1 µ ¶−1
³ ´ 1 X 1
V̂ λ̂MV = 2 x = 25 = 0.11111111
λ̂MV 1.666666662

luego el test de Wald es:

(1.666666 − 2)2
W = = 1.0
0.1111111
Al 95% de una Chi-cuadrado con un grado de libertad se tiene un valor crítico
de tabla de 3.84 lo cual nos indica que no rechazamos la hipótesis nula de
que λ = 2.
Chapter 12
GMM

Para comenzar a explicar en qué consiste en Método Generalizado de Mo-


mentos hay que introducir el concepto a través de la estimación por el clásico
Método de los Momentos.

12.1 Método de Momentos


Sean una variable aleatoria y generada a partir de una función de distribución
t-student con λ grados de libertad:
h i
Γ (λ+1) · ¸− λ+1
2 y2 ( 2 )
f (y, λ) = 1 £ ¤ 1+
[πλ] 2 Γ λ λ
2
donde la función gamma se representaba por Γ (x) = (x − 1)!.
Dado que la función de distribución posee solamente un parámetro rep-
resentativo (su grado de libertad λ), supongamos que tenemos una muestra
de observaciones de tamaño T .
Una forma de estimar este parámetro es a través del método de máxima
verosimilitud, calculando primero la función de logaritmo de verosimilitud
y segundo maximizando el valor de esta función de manera de encontrar el
estadístico λ̂MV .
El Método de los Momentos entrega una alternativa de estimación para
este parámetro. Sabemos que la media poblacional de una distribución t es
λ
cero y que su varianza es igual a λ−2 . Si sabemos que:
¡ ¢ ¡ ¢ λ
σ 2y = E y 2 − [E (y)]2 = E y 2 =
λ−2

179
180 CHAPTER 12 GMM

entonces podemos encontrar la expresión muestral de σ 2y a partir de:

¡ ¢ 1 PT 2
σ̂ 2y = Ê y 2 = y
T t=1 t
λ
Dado que σ 2y = λ−2
entonces parece natural que el estimador de λ se obtenga
a partir de:
1 PT 2 λ̂
σ̂ 2y =t=1 yt =
T λ̂ − 2
con lo cual llegamos a que el estimador de método de los momentos para λ
será:
2σ̂ 2y
λ̂MM = 2
σ̂ y − 1

Es decir el estimador λ̂MM del método de los momentos es el valor para el


cual los momentos poblacionales son igualados a los momentos observacios
muestrales.
Supongamos que además del segundo momento se requiere calcular el
parámetro λ utilizando otros momentos como por ejemplo el cuarto momento
de la distribución t que denotamos por (kurtosis):

¡ ¢ 3λ2
E y4 =
(λ − 2) (λ − 4)
P 4
con su contraparte muestral igual a T1 yt .
Dado que ahora son más de una función a minimizar se requiere de alguna
forma de ponderación entre ellas de manera de evitar conflictos entre cada
ecuación a minimizar. El Método de los Momentos Generalizados (GMM)
permite escoger λ de manera de minimizar la siguiente función:

QT (λ) = g0 W g

donde W es una matriz simétrica definida positiva de ponderación entre los


momentos y g (vector de orden 2x1) se denota por:
 P 2 
1 λ
yt − λ−2
g= P T 
1 4 3λ2
T
yt − (λ−2)(λ−4)
12.2 MÉTODO GMM DE HANSEN 181

12.2 Método GMM de Hansen


Definamos a ωt un vector de hx1 variables aleatorias observadas en t, ϑ un
vector de dimensión kx1. Sea h (ϑ, ω t ) un vector de función real de dimensión
rx1, y sea ϑ0 el verdadero valor de ϑ, que supongamos obedece a la propiedad:

E [h (ϑ0 , ω t )] = 0rx1

Si denotamos por g (ϑ) a la contraparte muestral de h (ϑ, ω t ):

1 PT
g (ϑ) = h (ϑ, ω t )
T t=1

La idea detrás de la metodología GMM es escoger ϑ de manera de hacer que


el momento muestral g (ϑ) sea lo más cercano posible al momento poblacional
de cero E [h (ϑ0 , ω t )] = 0.
Definición. El estimador GMM λ̂GMM es el valor de ϑ que minimiza el
escalar:
QT (ϑ) = g (ϑ)0 WT g (ϑ)
donde {WT }∞ T =1 es una secuencia de matrices de ponderación definidas posi-
tivas de orden rxr que pueden ser función de las series observadas.
Así lo que podemos observar es que el estimador del método de momentos
2σ̂2y
clásico para λ̂MM = σ̂2 −1 es un caso especial de GMM:
y

ω t = yt
ϑ = λ
WT = 1
λ
h (ϑ, ω t ) = yt2 −
λ−2
1P 2 λ
g (ϑ) = yt −
T λ−2
r = k=1
µ ¶2
1P 2 λ
QT (ϑ) = yt −
T λ−2
2σ̂2y
La solución de este problema claramente se logra cuando λ̂GMM = σ̂ 2y −1
donde
P
σ̂2y = T1 Tt=1 yt2 , que corresponde al estimador λ̂MM .
182 CHAPTER 12 GMM

12.3 WT Optima
Es necesario determinar cual es el valor óptimo de WT al momento de cal-
cular los estimadores GMM. Supongamos que cuando se evalúa en el vector
verdadero ϑ0 , el proceso {h (ϑ0 , ω t )}t=∞
t=−∞ es estrictamente estacionario com
media cero y matriz de autocovarianza de orden ν dada por:
£ ¤
Γν = E h (ϑ0 , ωt ) h (ϑ0 , ω t )0
Asumiendo que estas autocovarianzas son sumables se define:
P

S= Γν
ν=−∞

Sabemos que S es la varianza asintótica de la media muestral de h (ϑ0 , ω t ):


£ ¤
S = lim T · E g (ϑ0 ) g (ϑ0 )0
T →∞

entonces el valor óptimo de la matriz de ponderación de g (ϑ) para g (ϑ)0 WT g (ϑ)


será S −1 . De esta manera la mínima varianza asintótica del estimador GMM
ϑ̂T se obtiene cuando ϑ̂T se escoge de manera de minimizar la función:
QT (ϑ) = g (ϑ)0 S −1 g (ϑ)
Existen dos alternativas de presentación del vector que representa al pro-
ceso {h (ϑ0 , ωt )}t=∞
t=−∞ ya sea que esten serialmente no correlacionados o se-
rialmente correlacionado. £ ¤
Si no existe correlación entonces la matriz S = limT →∞ T ·E g (ϑ0 ) g (ϑ0 )0
puede ser estimada consistemente a través de su contraparte muestral:
1 PT
ST = h (ϑ0 , ω t ) h (ϑ0 , ω t )0
T t=1
Calcular ST requiere de un estimador para ϑ0 aunque puede demostrarse
que para cualquier estimador consistente de ϑ0 , si h (ϑ0 , ω t ) no se correlaciona
serialmente, entonces:
1 PT ³ ´ ³ ´0
P
ŜT = h ϑ̂T , ωt h ϑ̂T , ωt → S
T t=1
Dado el carácter recursivo del método, pues para estimar ϑ requerimos
de un estimador de S, y para estimar S requerimos de un estimador de ϑ,
entonces se plantea un esquema iterativo con criterio de convergencia con el
siguiente algoritmo:
12.3 WT OPTIMA 183

(0)
1. Obtener un estimador inicial de ϑ̂T minimizando la expresión:

Q (ϑ) = g (ϑ)0 WT g (ϑ)

utilizando la matriz WT = Ir .
(0)
2. Con este estimador de ϑ (ϑ̂T ) se procede a calcular la primera esti-
mación de S:
1 P
T ³ (0) ´ ³ (0) ´0
(0)
ŜT = h ϑ̂T , ω t h ϑ̂T , ωt
T t=1
h i−1
(0)
3. Utilizamos WT = ŜT en la expresión de Q (ϑ) para estimar un
(1)
nuevo vector de parámetros GMM ϑ̂T :
h i−1
0 (0)
Q (ϑ) = g (ϑ) ŜT g (ϑ)

(1) (1)
4. Con este nuevo vector ϑ̂T se calcula una nueva matriz S, ŜT movién-
donos al paso 2.

Este proceso itera hasta que la regla de detensión (stopping rule) es válida,
es decir hasta que el vector de parámetros entre cada iteración sea equivalente
considerando algún criterio de distancia (euclidiana por ejemplo):
(j) (j+1)
ϑ̂T ∼ = ϑ̂T

Si alternativamente se presume que el proceso vectorial de {h (ϑ0 , ω t )}t=∞


t=−∞
está serialmente correlacionado, entonces se puede utilizar el estimador de
Newey-West (1987) para S:
· µ ¶³ ´¸
Pq ν 0
ŜT = Γ̂0,T + κ Γ̂ν,T + Γ̂ν,T
ν=1 q+1
·µ ¶³ ´¸
Pq ν 0
ŜT = Γ̂0,T + 1− Γ̂ν,T + Γ̂ν,T
ν=1 q+1
donde: ³ ´ ³ ´0
1 P T
Γ̂ν,T = h ϑ̂, ωt h ϑ̂, ωt
T t=ν+1
184 CHAPTER 12 GMM

Hay que mencionar que existen variadas funciones kernels candidatos a


ponderar las matrices de autocovarianzas. A continuación se presentan los
kernels más conocidos entre los cuales se encuentra el propuesto por Newey-
West, que fue utilizado anteriormente:

1. Kernel Truncado (White):

 
1 para |x| ≤ 1 
kT R (x) =
0 en otro caso 

y 1.25

0.75

0.5

0.25

0
-2 -1 0 1 2

Kernel Truncado

2. Kernel Bartlett (Newey-West):

 
 1 − |x| , para |x| ≤ 1 
kB (x) =
 0, en otro caso 
12.3 WT OPTIMA 185

y 1.25

0.75

0.5

0.25

0
-2 -1 0 1 2

Kernel Bartlett (Newey-West)

3. Kernel Parzen (Gallant):


 

 2 3 1 
1 − 6x + 6 |x| , para 0 ≤ |x| ≤ 2 

 

3 1
kP R (x) = 2 (1 − |x|) , para 2 ≤ |x| ≤ 1

 


 
0 en otro caso 

y 1.25

0.75

0.5

0.25

0
-2 -1 0 1 2

Kernel Parzen

4. Tukey-Hanning:
 
 (1+cos(πx))
, para |x| ≤ 1 
2
kT H (x) =
 0, en otro caso 
186 CHAPTER 12 GMM

y 1.25

0.75

0.5

0.25

0
-2 -1 0 1 2

Kernel Tukey-Hanning

5. Quadratic-Spectral (Andrews):
à ¡ 6πx ¢ µ ¶!
25 sin 5 6πx
kQS (x) = 6πx − cos
12π 2 x2 5
5

y 1.25

0.75

0.5

0.25

0
-2.5 -1.25 0 1.25 2.5

Kernel Quadratic Spectral (Andrews)

Otro punto de relevancia consiste en determinar el q óptimo, parámetro


conocido como bandwidth parameter. La literatura menciona criterios au-
tomáticos de selección para este parámetro (Andrews, 1991, "Heteroskedas-
ticity and Autocorrelation Consistent Covariance Matrix Estimation", ECONO-
METRICA 59(3), y Newey and West, 1994, "Automatic Lag Selection in
Covariance Matrix Estimation", Review of Economic Studies 61(4)).
12.4 DISTRIBUCIÓN DE LOS ESTIMADORES GMM 187

Newey-West y Andrews determinan este parámetro según las siguiente


ecuaciones para los kernel tipo Barttlet (Newey-West) y Quadratic-Spectral
(Andrews):
1
qB = 1.1447 [ϕ̂ (1) T ] 3
1
qQS = 1.3221 [ϕ̂ (2) T ] 5
donde:
Pk 4ρ̂2a σ̂4a
a=1 (1−ρ̂a )6 (1+ρ̂a )2
ϕ̂ (1) = Pk σ̂4a
a=1 (1−ρ̂a )4
Pk 4ρ̂2a σ̂ 4a
a=1 (1−ρ̂a )8
ϕ̂ (2) = Pk σ̂ 4a
a=1 (1−ρ̂a )4
¡ ¢
Para determinar el par ρ̂a , σ̂ 2a Andrews y Monahan ("An Improved Het-
eroskedasticity and Autocorrelation Consistent Covariance Matrix Estima-
tor", ECONOMETRICA 60) proponen estimar un proceso AR(1) para el
componente aésimo de {h (ϑ0 , ω t )} previamente "blanqueado" a través de un
V AR(1) o un V AR(2).

12.4 Distribución de los Estimadores GMM


Sea ϑ̂T el vector que minimiza la expresión:
h i−1
Q (ϑ) = g (ϑ)0 ŜT g (ϑ)
P
donde ŜT → S. Asumiendo un óptimo interior, esta minimización se consigue
haciendo que la derivada de la expresión anterior con respecto al vector de
GMM
parametros ϑ sea cero. Luego el vector ϑ̂T se obtiene de la solución del
siguiente sistema de ecuaciones no lineales:
 µ h i−1 ¶
0
∂Q (ϑ)  ∂ g (ϑ) ŜT g (ϑ) 
=  
∂ϑ ∂ϑ 

µ ¶0 h i−1
∂g (ϑ)
= ŜT g (ϑ) = 0
∂ϑ ϑ=ϑ̂T
188 CHAPTER 12 GMM
³ ´0 h i−1
∂g(ϑ)
donde ∂ϑ
es una matriz de orden kxr, ŜT es de orden rxr, g (ϑ)
ϑ=ϑ̂T
de orden rx1, y finalmente 0 es de orden kx1.
Utilizando la teoría central del límite se puede demostrar que la distribu-
ción asintótica del estimador ϑ̂T está dada por:
√ ³ ´
T ϑ̂T − ϑ0 → N (0, V )
−1
donde V = (DS −1 D0 ) , de manera que podemos decir que la distribución
aproximada del estimador GMM será:
à !
V̂T
ϑ̂T → N ϑ0 ,
T
donde:
³ ´−1
V̂T = D̂T ŜT−1 D̂T0
 ³ ´ ³ ´0 

 PT

 1
T
h ϑ̂T , ω t h ϑ̂T , ω t h no correlacionado 

ŜT = t=1
P q h³ ´³ ´i

 
 Γ̂0,T + ν
1 − q+1 Γ̂ν,T + Γ̂0ν,T h correlacionado  
ν=1
µ ¶0
∂g (ϑ)
D̂T =
∂ϑ ϑ=ϑ̂T

con D̂T es de orden kxr.

Más formalmente las siguientes tres condiciones son las que permiten
llegar a la distribución asintótica del estimador para ϑ̂T :
√ CLT
1. T g (ϑ0 ) → N (0, S)
P
2. ϑ̂T → ϑ0
·³ ´ ¸ ·³ ´ ¸
3. p lim ∂g(ϑ)
∂ϑ0 = p lim ∂g(ϑ)
∂ϑ0
= D0
ϑ=ϑ̂T ϑ=ϑ0

Estas condiciones permiten decir entonces que:


√ ³ ´
CLT
T ϑ̂T − ϑ0 → N (0, V )
³ ´
−1 0 −1 V̂T
donde V = (DS D ) , de manera que entonces ϑ̂T → N ϑ0 , T .
12.4 DISTRIBUCIÓN DE LOS ESTIMADORES GMM 189

12.4.1 S Cuasi-Singular
Empiricamente es común encontar que la matriz S es casi singular, lo cual di-
ficulta el trabajar con su inversa S −1 . Ete hecho se da especialmente cuando
se estima modelos con retornos de activos pues estos tienden a estar fuerte-
mente correlacionados unos a otros, fenómeno que se refuerza cuando además
se incluyen muchos activos en relación al número de observaciones (un nivel
de saturación parámetros/data muy alto).
Por ejemplo supongamos que:
 
1 ρ
S= 
ρ 1

de manera que su inversa es:


 
ρ
− ρ21−1 ρ2 −1
S −1 =  
ρ
ρ2 −1
− ρ21−1

La descomposición matricial de Cholesky permite descomponer cualquier


matriz real cuadrada simétrica y definida positiva (como debiera ser S −1 ) en
dos matrices que cumplen con la condición que C 0 C = S −1 . Para nuestro
ejemplo la descomposición de Cholesky se denota por la matriz C definida
por: q 
ρ
− ρ21−1 q
 (ρ2 −1) − 1
ρ2 −1

C= q 
ρ2
0 − ρ21−1 − (ρ2 −1)2
(−ρ2 + 1)
Lo interesante de esta descomposición es que nos permite visualizar el
peso que se le está dando a cada momento dentro de la función objetivo.
Recordemos que la función a minimizar la definimos por:

Q (ϑ) = g (ϑ)0 ŜT−1 g (ϑ)

Si reemplazamos ŜT−1 por su descomposición de Cholesky respectiva se ob-


tiene: £ ¤
Q (ϑ) = g (ϑ)0 C 0 [Cg (ϑ)]
de manera que la expresión Cg (ϑ) nos señala la ponderación que cada mo-
mento tendrá en el proceso de minimización.
190 CHAPTER 12 GMM

Por ejemplo para el caso en que ρ = 0.9 la matriz C es:


 
2. 294 2 −2. 064 7
C= 
0 1.0

indicando que el peso en la función objetivo del primer momento es más del
doble de lo que se pondera el segundo momento, y que además la diferen-
cia entre los dos momentos tienen una ponderación doble a la del segundo
momento.
El consejo práctico es evaluar la matriz S −1 con su descomposición de
Cholesky de manera de visualizar cuál es la ponderación de los momentos
que está siendo utilizada en la función objetivo.

12.4.2 Inferencia
³ ´
esimo
En relación a inferencia sobre el i elemento del vector ϑ̂T ϑ̂i,T podemos
³ ´
utilizar la distribución asintótica anterior ϑ̂T → N ϑ0 , V̂TT de manera que:

ϑ̂i,T − ϑi,0
ξ̂ = q → N (0, 1)
V̂ii,T
T
¯ ¯
¯ ¯
de manera que si el estadístico ¯ξ̂ ¯ es mayor a 1.96 entonces rechazamos la
hipótesis nula H0 : ϑH i,0 = ϑi,0 , donde ϑ̂i,T es el elemento i del vector ϑ̂T y
0

V̂ii,T es el elemento i de la diagonal de la matriz V̂T .


Para el caso de hipótesis conjuntas o multivariadas consideremos una
función F : <k → 0J , es decir de los reales-dimension k a un vector de ceros de
dimensión J donde J indica el numero de hipótesis conjuntas (restricciones).
Entonces F (ϑ0 ) = 0J representa las J hipótesis que potencialmente puede
incorporar a todo o parte del vector de parámetros ϑ0 .
Para testear la hipótesis nula F (ϑ0 ) = 0J , se debe hacer uso del hecho
que si efectivamente´ F (ϑ0 ) = 0J , entonces asintóticamente como sabemos
√ ³
que T ϑ̂T − ϑ0 → N (0, V ), entonces se cumple que:

√ ³ ´
a
T F ϑ̂T ∼ N (0J , VF )
12.5 APLICACIONES 191

donde:

VF = f (ϑ0 ) V f (ϑ0 )0
· ¸
∂F
f (ϑ0 )JxJ =
∂ϑ0 ϑ=ϑ0

La contraparte muestral de este test debe considerar estimadores para V


de manera que:
³ ´ ³ ´0
V̂F,T = f ϑ̂T V̂T f ϑ̂T

Finalmente el test se efectúa con la expresión cuadrática de la distribu-


ción asintótica normal, es decir una chi-cuadrado con J grados de libertad,
equivalente al número de restricciones o subhipótesis consideradas:

³ ´0 ³ ´
T F ϑ̂T V̂T−1 F ϑ̂T ∼ χ2 (J)

Test de Hansen

Usualmente denominado test de Hansen, este desarrolla una manera de testear


lo que se conoce como restricciones de sobreidentificación (JT − test) que
evalúa el ajuste completo del modelo estimado. Establece que el estadístico
formado por T veces el valor de la función objetivo minimizada en la segunda
etapa iterativa posee una distribución chi-cuadrado con grados de libertad
equivalentes a la diferencia entre momentos considerados (r) y parámetros
estimados (k):
µ h i−1 ¶
0
T JT = T min g (ϑ) ŜT g (ϑ) ∼ χ2 (r − k)
ϑ

12.5 Aplicaciones
Esta sección revisa las aplicaciones más conocidas de la metodología GMM.
192 CHAPTER 12 GMM

12.5.1 Mínimos Cuadrados


12.5.2 Modelos de Expectativas Racionales
Sea la función de bienestar del tipo de aversión relativa al riesgo contante
(CCRA), definida por:
 1−γ 
 ct para γ > 0 y γ 6= 1 
1−γ
u (ct ) =
 ln (c ) para γ = 1 
t

donde ct es el consumo del agente en el momento t, γ representa al coeficiente


de aversión relativa al riesgo, y la función de utilidad es creciente al tasas
decrecientes: u0 > 0 , u00 < 0.
En esta economía el agente representativo maximiza su nivel de bienestar
1
descontado a una tasa β < 1 que es equivalente a 1+δ donde δ > 0 representa
la tasa de descuento subjetivo del agente representativo.
El probela analíticamente a resolver es:
P

MaxE0 β t u (ct |=t )
t=0

sujeto a la restricción de flujo que indica ct + pit sit+1 = (pit + dit ) sit , y al set
de información disponible por el agente y el econometrista en el período t,
el cual denotamos por =t . En cada momento del tiempo t el agente decide
cuánto comprar de cualquiera de los m activos disponibles a invertir, cada
uno de los cuales retorna una tasa bruta de retorno (1 + ri,t+1 ) en t + 1.
Si asumimos una solución interior, es decir que el inversionista toma una
posición en cada activo disponible, el portafolio óptimo del accionista deberá
satisfacer las condiciones de Euler (condiciones necesarias de primer orden
del problema de optimización dinámica) siguientes:
u0 (ct ) = βE [(1 + ri,t+1 ) u0 (ct+1 ) |=t ] ∀i = 1, 2, ..., m
Al incorporar el supuesto de una función de utilidad del tipo CRRA,
descrita anteriormente, la expresión de optimalidad de Euler se traducirá a:
£ ¤
c−γ
t = βE (1 + ri,t+1 ) c−γ
t+1 |=t ∀i = 1, 2, ..., m
Al simplificar esta expresión a:
" µ ¶−γ #
ct+1
1 = βE (1 + ri,t+1 ) |=t
ct
12.5 APLICACIONES 193
· ³ ´−γ ¸
ct+1
queda claro que la variable aleatoria 1 − β (1 + ri,t+1 ) ct no estará
correlacionado con el set de información =t disponible en el período t. Esta
última expresión se puede representar
· como una condición de ortogonalidad,
³ ´−γ ¸
ct+1
donde la variable aleatoria β (1 + ri,t+1 ) ct − 1 es ortogonal al set de
variables contenidas en =t , es decir:
" µ ¶−γ #
ct+1
E β (1 + ri,t+1 ) − 1|=t = 0
ct

Utilizando la notación del modelo GMM definamos el vector de parámet-


ros θ y al vector de variables observadas por el econometrista ω t por:

θ = (β, γ)0
µ ¶0
ct+1 0
ωt = r1,t+1 , r2,t+1 , ..., rm,t+1 , , =t
ct
Concatenando las condiciones de ortogonalidad para los m activos disponibles
llegamos a representar la función h (θ, ω t ) por (r = m):
µ ³ ´−γ ¶ 
ct+1
 β (1 + r1,t+1 ) ct − 1 |=t 
µ ³ ´ ¶ 
 −γ 
 β (1 + r2,t+1 ) t+1
c
− 1 |= 
 ct t 
µ ³ ´−γ ¶ 
 
h (θ, ωt ) =  β (1 + r3,t+1 ) ct+1 − 1 |= 
 ct t 
 
 
 .... 
µ ³ ´ ¶ 
 ct+1
−γ 
β (1 + rm,t+1 ) ct − 1 |=t
mx1

donde la representación muestral de h (θ, ω t ) estará definida por:

1 PT
g (ϑ) = h (ϑ, ω t )
T t=1
y la función objetivo es:
h i−1
0
Q (ϑ) = g (ϑ) ŜT g (ϑ)
194 CHAPTER 12 GMM

Esta expresión debe ser minimizada numéricamente con respecto ³ ´a−γϑ.


De acuerdo a la teoría, la expresión 1 − β (1 + ri,t+1 ) ct+1 ct
no de-
biera estra correlacionada con ninguna variable del set de información =t
disponible en t, set que puede incluir incluso sus propios rezagos. Dada
esta caracerística, el vector h (θ, ω t ) no debiera estar correlacionado con sus
propios rezagos, lo cual sugiere que la matriz S pueda ser consistentemente
estimada por1 :
· ³ ´ ³ ´0 ¸
1 PT
ŜT = h ϑ̂T , ωt h ϑ̂T , ωt
T t=1 rx1 1xr

donde ϑ̂T es un estimador inicial consistente que puede derivarse minimizando


Q (ϑ) con ŜT = I.

12.5.3 Modelos de Descuento Estocástico


Tradicionalmente modelos de CAPM (Capital Asset Pricing Models) y APT
(Arbitrage Price Theory) consideran ciertos parámetros como exógenos en la
determinación de retornos, ya sea la tasa libre de riesgo o los factores que
se consideran en los modelos de multifactores como el APT. En su repre-
sentación estándar, en estos modelos las decisiones de portafolio no toman
en consideración períodos futuros siendo más bien modelos estáticos, que
además ignoran decisiones intertemporales de consumo.
Modelos de equilibrio intertemporal permiten establecer que existe un
factor de descuento estocástico tal, que la esperanza del producto de cualquier
retorno bruto de un activo con este factor es igual a uno.
En modelos de equilibrio general de precios de activos, que consideran
decisiones intertemporales de consumo del agente representativo, el factor
de descuento estocástico es la tasa marginal de sustitución intertemporal del
agente representativo.
Formalicemos el resultado del modelo presentado en secciones anteriores.
Si consideramos un agente representativo que maximiza el valor descontado a
1
Es usual suponer que los instrumentos o variables consideradas en el set de información
de este pronlemas sean:
µ ¶0
ct ct ct
=t = 1, , , ..., , r1t , r1t−1 , ..., r2t , r2t−1 , ...
ct−1 ct−1 ct−1
12.5 APLICACIONES 195

una tasa β del flujo de utilidades futuras u (ct ) podemos decir que el plan de
consumo y portfolio óptimo de este agente estará representado en las ecua-
ciones de Euler (condiciones de primer orden del problema de optimización)
definidas por:

u0 (ct ) = βE [(1 + ri,t+1 ) u0 (ct+1 ) |=t ] ∀i = 1, 2, ..., m

Dividiendo ambos lados de la ecuación por u0 (ct ), llegamos a definir el factor


de descuento estocastico a partir de:

· 0 ¸
u (ct+1 )
E β 0 (1 + ri,t+1 ) |=t = 1
u (ct )
E [mt+1 (1 + ri,t+1 ) |=t ] = 1

donde el factor de descuento estocástico, o precio-kernel, se define por mt+1 =


0
β uu(c0 (ct+1
t)
)
.
A partir de esta definición es posible verificar que el factor de descuento
estocástico es siempre positivo (o en rigor no negativo), pues las utilidades
marginales son positivas (la excepción es cuando teóricamente u0 (∞) → 0).
1−γ
Si consideramos una función del tipo u (c) = c1−γ , entonces u0 (c) = c−γ
de manera que el factor de descuento estocástico será:

µ ¶−γ
u0 (ct+1 ) ct+1
mt+1 =β 0 =β
u (ct ) ct

Modelos más completos, que involucran hábitos de consumo y dinero


en forma de Cash In Advance (CIA) o Money in Utility Function (MUF ),
generan descuentos estocásticos modificados, los cuales se presentan a con-
196 CHAPTER 12 GMM

tinuación:

Modelo Factor de Descuento


³ ´−γ
ct+1
C-CAPM β ct
³ ´η(γ−1) ³ ´−γ
ct ct+1
Hábito Consumo β ct−1 c
³ ´ϕ(1−γ)−1 ³t ´(1−ϕ)(1−γ)
ct+1 Mt+1 Pt
Dinero MUF β ct Mt Pt+1
³ ´−γ
Mt+1 Pt+1 Pt+1 Pt+1
Dinero CIA β Mt Pt+2 Pt Pt+2
γ : CRRA
β : Factor Subjetivo de Descuento
η : Grado de Separabilidad en Hábitos de Consumo
ϕ : Ponderación de Consumo en Función de Utilidad

Ejercicio. Utilizando información de consumo privado para Chile y los


retornos de precios de acciones (IPSA) estimamos por GMM los coeficientes
β y γ para generar el factor de descuento estocástico mt+1 .