Está en la página 1de 13

Aplicacion de MCMC para procesos AR polinomiales con regimen de Markov

LUIS RODRIGUEZ

RAFAEL ROSALES

RICARDO RIOS

Departamento de Matem
aticas
Universidad de Carabobo
FACYT
Valencia, Estado Carabobo, Venezuela
email: larodri@uc.edu.ve

Departamento de Fsica e Matem


atica
Universidade de Sao Paulo
Faculdade de Filosofia, Ci
encias e Letras
Ribeirao Preto, SP-Brasil
email: rrosales@ffclrp.usp.br

Escuela de Matem
aticas
Universidad Central de Venezuela
Facultad de Ciencias
Caracas 1040, Venezuela
email: rrios@euler.ciens.ucv.ve

ABSTRACT
In this work we estimate the a posteriori distribution of an autoregressive process with Markov
regime. We suppose polynomial regression functions in each regime. We use an MCMC sampler
that is an hybrid of Gibbs and Metropolis algorithm to make a Bayesian approach for estimating the polynomial order and coefficients and the
noise variance in each regime.
KEYWORDS
Autoregressive, MCMC, Markov regime.
RESUMEN
En este trabajo estimamos la distribucion posterior de un proceso autorregresivo con regimen
de Markov (AR-RM) en el caso cuando las funciones de regresion en cada regimen son polinomios, utilizando un algoritmo MCMC mezcla
de los algoritmos de Gibbs y Metropolis para
obtener aproximados Monte Carlo de los estimadores de Bayes para los parametros de los
polinomios, su grado y la varianza asociada al
ruido en cada regimen.
PALABRAS CLAVES
Autorregresion, MCMC, regimen de Markov.
1.

Introduccion

En este trabajo consideramos el problema


de estimacion para procesos autorregresivos con
regimen de Markov (AR-RM) con funciones de
regresion polinomiales suponiendo un contexto
Bayesiano. En este caso el problema de inferencia consiste en estimar la distribucion posterior
de los parametros de los polinomios, su grado
y la varianza asociada al ruido en cada regimen.
Un metodo Monte Carlo por cadenas de Markov

(MCMC siglas en ingles) es utilizado para estimar la distribucion posterior. El metodo MCMC
que presentamos es una mezcla de los algoritmos
de Gibbs y Metropolis-Hastings.
Los AR-RM pueden ser vistos como una
combinacion de los modelos switching (ver [3]
1.2 y sus referencias) y los modelos de cadenas de Markov ocultas (ver [13] y sus referencias). Los procesos AR-RM son usados en
muchas a reas porque representan modelos heterogeneos no independientes. En econometra
Hamilton [12], los utiliza en el analisis de la serie temporal del producto interno bruto (GNP)
de los Estados Unidos, considerando dos estados (regmenes) de la economa: uno de contraccion y otro de expansion. Los procesos ARRM tambien han sido usados en varios problemas de la ingeniera electrica: deteccion de fallas, control automatico, manipulacion de objetivos, ver [7, 15]. Mientras que las cadenas de
Markov oculta son aplicadas en distintas a reas
por ejemplo en: finanzas, econometra, genetica,
reconocimiento de patrones, biofsica. Referimos
al lector a [4, 13, 19].
La estimacion Bayesiana de modelos CMO
con un numero conocido de estados es estudiada
por Robert et al. [17] mientras que la regresion
switching es considerada por Ferreira [8] y la suposicion de funciones de regresion polinomicas
por Gallant y Fuller [10]. Si el numero de estados
de la cadena oculta es desconocido podemos citar
el trabajo de Robert et al. [18].
Este artculo esta estructurado de la manera siguiente. El modelo y sus hipotesis generales
son presentados en la seccion 2. En la seccion
3 detallamos lo relacionado con los pasos del
muestreador de Gibbs cuando el grado de las fun-

ciones de regresion es conocido y para garantizar la estabilidad del modelo se introduce un algoritmo hbrido mezcla de los pasos de Gibbs
y Metropolis. En la seccion 4 suponemos que
el grado de las funciones polinomicas es desconocido y realizamos la inferencia a traves del
muestreador de saltos reversibles. Las demostraciones de consistencia son postergadas al captulo
5.
2.

Modelo e hipotesis

en la siguiente seccion introducimos este concepto para los procesos AR-RM.


2.1. Estabilidad del proceso AR-RM
Un modelo AR-RM es estable si para el proceso {yn } definido por (1) existe una solucion
estacionaria y ergodica. Esto significa que existe
una u nica medida tal que c.s.,
lm 1/N

Un proceso autorregresivo con regimen de


Markov (AR-RM) se define por
yn = f (xn , yn1 ) + xn n ,

(1)

donde {xn } es una cadena de Markov no observada homogenea y ergodica con valores en
el conjunto finito {1, . . . , m} con probabilidades
de transicion aij = P(xn = j|xn1 = i). Las
probabilidades aij forman la matriz de transicion
A = [aij ]. Denotamos por = (1 , . . . , m ) la
distribucion invariante de la cadena de Markov
{xn }.
La funcion f : {1, . . . , m} R R tiene
la forma
k

f (i, y) = (ik y + . . . + i1 y + i0 )1I[1,1] (y),


el parametro i = (i0 , . . . , ik ) pertenece al subconjunto compacto Rk+1 y
T

= (10 , . . . , 1k , . . . , m0 , . . . , mk ) ,
El smbolo T denota la operacion transpuesta de
un vector o matriz.
La sucesion {n } es una sucesion de variables aleatorias gaussianas N (0, 1), independientes e identicamente distribuidas. Denotamos
por = (1 , . . . , m ) y por y = y0 , . . . , yN las
observaciones del proceso AR-RM. Usaremos p
como un smbolo generico para distribuciones y
densidades.
El problema de inferencia que estudiamos
se centra en el parametro = (A, , ) el cual
pertenece al espacio de parametros definido por
2
= [0, 1]m m (R+ ).
Cuando se modelan series temporales utilizando procesos autorregresivos es necesario imponer condiciones de estabilidad por esta razon

N
X

Z
h(yn ) =

h(y)(dy).

n=1

En Yao y Attali [21] se garantiza la estabilidad del proceso {yn } bajo las siguientes condiciones,
i. La funcion de regresion f satisface para cada i = 1, . . . , m la condicion de sublinealidad
|f (i, y)|
i |y| + bi .
donde
i , bi son constantes positivas.
ii. Condicion tipo radio espectral:
E (log(
)) =

m
X

log(
i )i < 0.

i=1

iii. La variable 1 tiene una densidad positiva


con respecto a la medida de Lebesgue.
iv. E|1 | < para algun > 0.
En nuestro caso de la hipotesis de gaussianidad de 1 las condiciones (ii) y (iv) son validas.
Para el modelo polinomial (1) observemos que
|(ik y k + +i1 y+i0 )1I[1,1] (y)|
i |y|+|i0 |
donde
i = max{|il | : l = 1, . . . , k}. Entonces
la region de estabilidad se define por
S = {
: E (log(
)) < 0}.
En la proxima seccion introducimos alguna
terminologa Bayesiana que requerimos para realizar la inferencia.

2.2.

Inferencia Bayesiana

La inferencia Bayesiana comienza con la


consideracion del vector de parametros como
una variables aleatoria y con el estudio de la distribucion condicional (y|) la cual se conoce
como distribucion posterior. Esta requiere para
su determinacion la definicion de la distribucion
p(), la cual es llamada distribucion previa. El
teorema de Bayes permite escribir la distribucion
posterior como,
(|y) = R

L()p()
.
L()p()d

(2)

donde L() = p(y|) es la funcion de verosimilitud.


Si suponemos que y0 , {xn } y {n } son
mutuamente independientes entonces se satisface
que,
p(yn |xN , . . . , x0 , yN , . . . , yn+1 , yn1 , . . . , y0 )
= p(yn |xn , yn1 ), (3)
esta propiedad y la propiedad de Markov sobre {xn } nos permite escribir la funcion de
verosimilitud L() = p(y|) como
L() =

p(y, x|)

x{1,...,m}N

=
=

p(y|, x)p(x|)

x{1,...,m}N
m
m
X
X

...

i1 =1

i1 pi1 (y1 , y0 ) . . .

im =1

aiN 1 iN pi1 (yN , yN 1 )

(4)

Sea Ai denotando la i-esima fila de A.


Suponemos independencia entre las componentes de ,
p() =

p(Ai )p(i2 )

iE

k
Y

p(il ).

l=0

En el caso de una verosimilitud con {n }


normal y una multinomial para x, las familias
conjugadas para estan dadas por las siguientes
densidades.
1. Para i {1, . . . , m}, l = 0, . . . , k,

1
il2
2
il N (0, ) =
exp 2 .
2
2
2. Para i2 se escoge una densidad gamma inversa,

1
viui
vi
2
i IG(ui , vi ) =
exp 2
,
(ui )
i i2
R
i {1, . . . , m}, (u) = 0 su es ds.
3. Ai D(ei ) donde D es una densidad
Dirichlet con parametro ei , es decir,
P
m
Y
( m
e 1
j=1 eij )
D(ei ) = Qm
aijij .
(e
)
ij j=1
j=1
La evaluacion de estimadores h() para alguna funcion de riesgo L(g, ) donde g es un estimador de , conduce a minimizar en g el riesgo
posterior,
Z
L(g, )(|y)d.

con

(yn+1 f (i, yn ))2


pi (yn+1 , yn ) exp
2i2

Se consideran previas conjugadas que sean


debilmente informativos sobre . Una previa que
pertenece a una familia parametrica es conjugada
a una funcion de verosimilitud dada si la distribucion posterior resultante tambien pertenece a la
familia (ver Bernardo y Smith [2]).

En particular consideramos el riesgo


cuadratico L(g, ) = kh() gk2 , para el cual
el estimador de Bayes de h() es
Z
I (h) = E (h()|y) =
h()(|y)d.

La mayor dificultad de la inferencia


Bayesiana es que muchas veces no se conoce
(|y) en forma explcita, o la integracion de

h() conociendo (|y) no se puede efectuar


en forma analtica. En particular ese es nuestro
caso debido a la complejidad inherente a la estructura de L() en (4), por esta razon resulta mas apropiado considerar el posterior conjunto (, x|y), lo cual evita la integracion sobre
{1, . . . , m}N en (4). De ahora en adelante escribimos = (, x), y nos concentraremos en (|y).
2.3.

Metodos MCMC

Una alternativa al tratamiento de la integracion E (h()|y) es utilizar metodos de aproximacion de Monte Carlo con muestreo por cadenas de Markov (MCMC) los cuales proveen
una solucion. Las tecnicas MCMC consisten en
la construccion de una cadena de Markov ergodica {(t) } con valores en E = {1, . . . , m}N ,
E = B() ({1, . . . , m}N ) e invariante , tal
que la distribucion emprica

b(d|y) = 1/T

T
X
t=1

converge casi seguramente por ley de los grandes


numeros a T = p((T ) |y) cuando T , y
por lo tanto,
IbT (h) =

h()b
(d|y) = 1/T
E

T
X

h((t) )

t=1

converge c.s a ET (h()|y), por ergodicidad


lm ET (h()|y) = E (h()|y)

entonces IbT (h) es un estimador consistente de


E (h()|y).
Dos algoritmos que permiten construir cadenas de Markov que tengan como invariante a
(|y) son el muestreador Gibbs y el algoritmo
de Metropolis-Hastings.
A continuacion mencionamos brevemente
las propiedades basicas de estas tecnicas y su
implementacion al modelo (1) cuando k es fijo,
3, y cuando k es desconocido, 4.
3.

3.1. El muestreador de Gibbs


El muestreador de Gibbs es un metodo para
construir una cadena de Markov con distribucion
estacionaria (|y) cuando E puede ser
descompuesto en componentes (1 , . . . , d )
E1 Ed = E y no se puede muestrear directamente de (|y) pero se puede muestrear de las
distribuciones condicionales (condicionales completos),
p(1 |y, 2 , . . . , d ), . . . , p(d |y, 1 , . . . , d1 ).
(t)

(t)

(t)

(t)

1 p(1 |y, 2 , . . . , d )
(t+1)
(t)
(t)
(t)
2
p(2 |y, 1 , 3 . . . , d )
..
.
(t)

(t)

(t)

d p(d |1 , . . . , d1 ).
El algoritmo de Gibbs define una cadena de Markov con distribucion estacionaria
(1 , . . . , d |y), la cual es irreducible si el condicional completo de j tiene probabilidad positiva
para cualquier subconjunto de Ej , j = 1, . . . , d
esto como una consecuencia del Teorema de
Hammersly Clifford, (ver Robert y Casella [16],
Teorema 7.1.20, p. 298) el cual garantiza la unicidad de la descomposicion en condicionales completos.
En la siguiente seccion implementamos
este esquema al modelo de AR-RM y estudiamos
las propiedades de ergodicidad de la cadena
resultante.
A continuacion escribimos la implementacion del algoritmo de Gibbs para muestrear
del posterior conjunto (|y) = (, x|y)

AR-RM polinomial con k conocido

Introducimos el muestreador de Gibbs en un


principio sin considerar las restricciones impues-

(t)

Dado el estado d = (1 , . . . , d ), simulamos (t+1) mediante el siguiente esquema:


(t)

(t) (d)

tas por la condicion de estabilidad 2.1. Posteriormente presentamos una generalizacion de estos metodos con el proposito de incorporar estas
restricciones.

p(y|, x)p(x|)p()

(, x|y) = Z

p(y|, x)p(x|)p()d
E

lo cual implica que muestrearemos de los condicionales (|x, y) y (x|, y). En los dos siguientes apartados explicamos el muestreo para
cada uno de los condicionales completos.
3.2.

Muestreo de (|x, y)

Observemos que se descompone naturalmente como:


(A1 , . . . , Am , 1 , . . . , m , 1 , . . . , m )
en este caso, hechas las elecciones de las previas,
todos las densidades completas tienen una expresion analtica cerrada porque solo involucran una
realizacion de x (Robert et al [17]). Las condicionales en este caso son
p(Ai | ) = D(Ni1 + ei1 , . . . , Ni1 + eim ), (5)
(6)
p(i2 | ) = IG(C1 , C2 ),
p(il | ) = N (C3 ; C4 ),
(7)
donde definimos
C1 = Ni /2 + ui
( N
)
X
1
C2 =
(yn f (i, yn1 ))2 + vi
2 n=1
2
C3 =
2

N
X

definido para todo (i1 , . . . , iN ) {1, . . . , m}N ,


Carter y Kohn [5] proponen una metodologa de
muestreo que es una version estocastica del algoritmo forward-backward propuesto por Baum
et al. [1]. Notemos que p(x|, y) admite la descomposicion,
(x|, y) = p(xN |y, )

N
1
Y

p(xn |xn+1 , y, ),

n=1

y por lo tanto es suficiente muestrear de las distribuciones discretas p(xN |y, ) y p(xn | xn+1 , y,
) para n = 1, . . . , N 1. Para ello, sea y1:n =
y1 , . . . , yn , entonces dada xn+1 , se define el filtro
p(xn |y1:n , ) recursivamente por
p(xn = i|y1:n , )
m
X

aij p(xn1 |y1:n1 ),

con
2l

(yn1 ) 1Ii (xn ) +

i2

i2 2
2

(x|, y)
i1 pi1 (y1 , y0 ) . . . aiN 1 iN pi1 (yN , yN 1 )
=
,
p(y|)

i=1

n=1

C4 =

Para muestrear del condicional completo

p(yn |xn = i, yn1 , )

Uni (yn1 )l 1Ii (xn )

n=1
N
X

3.3. Muestreo de (x|, y)

N
X
(yn1 )2l 1Ii (xn ) + i2

p(yn |xn = i, yn1 , )

exp((yn f (i, yn1 ))2 )


.
2i2

Entonces muestreamos xN p(xN |y, ) y para


n = N 1, . . . , n

n=1

xn p(xn |xn+1 , y1:n , )


aij p(xn = i|y1:n , )
.
= Pm
l=1 ail p(xn = l|y1:n , )

y definimos
Ni =
Nij =

N
X
n=1
N
1
X

1Ii (xn )

3.4. Ejemplo numerico


1Ii,j (xn , xn+1 )

n=1

Uni

= yn

k
X

il0 (yn1 )l .

l0 =0
l6=l0

Para muestrear de las densidades (5),(6) y


(7) seguimos los metodos descritos en Fishman
[9].

En esta subseccion presentamos el desempeno del muestreador de Gibbs para observaciones simuladas de un AR-RM las cuales
mostramos en la figura 1. Para una muestra de
talla N = 500 los parametros que se usaron para
generar la simulacion son: k = 2,

0.99 0.01
A=
0.01 0.99

Observaciones

Coeficientes del polinomilio estado 1

1.5

0.5

1
1.5

2
3
4

Coeficientes polinomio estado 2


1.5
1
0.5
0
1
2

100

200
300
400
Varianza estado 1

500

1.5

50

100

150

200

250
iteraciones

300

350

400

450

500

Frecuencia empirica de visitas al estado 1


1

0.5

0.5

0.8

100
200
300
400
Transiciones estado 1

500

0.99

0.6

100

200
300
400
Varianza estado 2

500

100
200
300
400
Transiciones estado 2

500

100

500

1.5

0.2
0

0.99

0.4
0.2
0

0.01

50

100

150

200

250
iteraciones

300

350

400

450

500

0.01
0

200
400
iteraciones

600

200
300
iteraciones

400

Figura 1. Observaciones simuladas y frecuencia


emprica de las visitas de {x(t) } al estado i = 1.

Figura 2. Comportamiento de los iterados de los


parametros.

T = (1, 0, 0.5, 2, 0, 0.5) y 2 = (0.5, 0.2).


En la figura 2 se observa el comportamiento
(t)
de los iterados de los parametros A(t) , (t) y 2 .
En la seccion 5 mostramos que el algoritmo de Gibbs satisface propiedades de consistencia y que los estimados de los parametros satisfacen un Teorema del lmite central (TCL, siglas
en ingles) lo que justifica su uso, pero es difcil
incorporar las restricciones de estabilidad 2.1 en
este caso. Por lo tanto implementaremos un algoritmo hbrido donde se sustituye el paso de Gibbs
para con un paso de Metropolis-Hastings. Esto se describe con mayor detalle en la proxima
seccion.

1. Para cada, i = 1, . . . , m, generamos i


q(|i ).

3.5.

El algoritmo Metropolis-Hastings

La idea de esta subseccion es estimar la densidad posterior del proceso AR-RM imponiendo
condiciones de estabilidad al modelo para esto
reemplazamos el muestreo de los condicionales
completos p(i | ) por un paso de MetropolisHastins tal que la condicion tipo radio espectral
se preserve.
El algoritmo Metropolis-Hastings (Robert
y Casella [16]) asociado a la densidad objetivo p(i | . . .) (ver (7)) y la densidad condicional
q(|i ), consiste en la construccion de la cade(t)
na {i } siguiendo el siguiente algoritmo. Dado
(t)
i i ,

2. Aceptamos con probabilidad

p(i | )q(i |i )

(i , i ) = mn 1,
,
p(i | )q(i |i )
(t+1)

Si (i , i ) > 1, entonces i
= i . Si no,
generamos u U [0, 1] y
(
i si u < (i , i ),
(t+1)
i
=
i en otro caso.
Sea K , el nucleo de la cadena {(t) }, dado
por
K (, ) = (, )q( |) + (1 r()) ( )
R
donde r() = (, )q( |)d . El primer
termino representa la probabilidad de cambiar de
valor y el otro la probabilidad de permanecer en
el mismo . Para este nucleo es sencillo observar
(t)
que efectivamente {i } tiene como invariante
el condicional deseado si la cadena de Markov
(t)
{i } con nucleo de transicion K satisface la
condicion de detalle balanceado, esto es, si existe
una probabilidad tal que:
e
e ) = ()K(, )
e , ,
e
()K(
,

Robert y Casella [16], Teorema 6.2.3, p. 235..


El algoritmo hbrido que se propone
a continuacion mezcla el procedimiento de Gibbs
3.1 con el paso de Metropolis descrito anteriormente,

Coeficientes del polinomilio estado 1

Coeficientes polinomio estado 2


1
0.5
0

1
0

2
0

100

200
300
400
Varianza estado 1

500

1.5

2 p( 2 | ).

0.5

0.5

A p(A| ).

100

200
300
400
Varianza estado 2

500

100
200
300
400
Transiciones estado 2

500

100

500

1.5

100
200
300
400
Transiciones estado 1

500

0.99

0.2
0

0.99

x, p(x| ).
Para i = 1, . . . , m

0.01

i0 p(i0 | ).
Para i = 1, . . . , m, l = 1, . . . , k, se muestrea
il con el procedimiento de M-H. Se detalla
el procedimiento en la siguiente seccion.
3.6.

Muestreando desde la region S

Para muestrear valores que esten en la region de estabilidad S Rm , debemos definir una
densidad q que tenga como soporte este conjunto. Si observamos que la condicion de tipo radio
espectral puede ser escrita en la forma

m <

1
/

1 1 m

0.01
0

m1

m1

/m

(8)

entonces para i = 1, . . . , m 1 nos basta muestrear los i de manera independiente,


de una distribucion con soporte en R. Luego
muestreamos
m de una distribucion con soporte
en el intervalo

!
1
Sm = 0 , 1 /m
.
m1 /m

m1
En el apartado 2.1 definimos
i = k|ili |
para i = 1, . . . , m, donde li {1, . . . , k} denota la posicion en la cual se alcanza el coeficiente il con modulo maximo. Para determinar el coeficiente ili nos resta: muestrear la
posicion li de una distribucion discreta uniforme
en {1, . . . , k} y su signo de una distribucion
Bernoulli de parametro p = 1/2. Los parametros
restantes il los muestreamos de distribuciones
con soporte en los intervalos (
i , i ).

100

200
300
iteraciones

400

500

200
300
iteraciones

400

Figura 3. Comportamiento de los iterados de los


parametros al muestrear desde N (0, v 2 )1ISm .

En la implementacion, utilizamos la densidad normal truncada en cada uno de los intervalos


soporte. Para generar los valores desde la densidad Normal truncada, empleamos un metodo descrito por Demian y Walker [6] el cual consiste
en la introduccion de una variable latente que reduce el problema a muestrear desde una dupla de
variables uniformes.
Para el ejemplo descrito en la seccion 3.4
vemos los resultados de las salidas del algoritmo
en las figuras 3 y 4.
4.

AR-RM con k desconocido

Consideramos el caso donde el grado k de


las funciones de regresion en el modelo (1) es desconocido. Desde el punto de vista Bayesiano k
es una v.a. y la inferencia es basada en la distribucion posterior conjunta de y k,
(k, |y) p(y|, k)p(|k)p(k),
para cada k = 1, . . . , kmax denotaremos por
k = S
|k, Ek = {k }, Mk = Ek {k} y por
m
ax
Mk a la coleccion finita de todos los
M = kk=1
modelos. Construiremos una cadena de Markov
(t)
{k } que tenga valores en M con invariante
(k, |y) haciendo uso de un metodo MCMC llamado muestreador de saltos reversibles, el cual
describimos a continuacion.

Coeficientes del polinomilio estado 1

Coeficientes polinomio estado 2


1
0.5
0

1
0

2
0

100

200
300
400
Varianza estado 1

500

1.5
1

0.5

0.5

100

200
300
400
Varianza estado 2

500

100
200
300
400
Transiciones estado 2

500

1.5

100
200
300
400
Transiciones estado 1

500

0.99

0.2
0

(t)

0.99

0.01
100

200
300
iteraciones

400

500

100

200
300
iteraciones

400

500

Figura 4. Comportamiento de los iterados de los


(t1)
parametros al muestrear desde N (1,m , v 2 )1ISm .

4.1.

Muestreador de saltos reversibles

El muestreador de saltos reversibles introducido por Green [11] es un algoritmo que construye una cadena de Markov que puede saltar entre los modelos Mk garantizando que se satisfagan las ecuaciones de detalle balanceado 3.5. El
algoritmo es el siguiente: si la cadena se encuentra en el estado (k, k ),
1. Proponemos un nuevo modelo Mk con
probabilidad s(k|k ).
2. Generamos u
q(u|k , k, k ).

de

y la muestra {k , t = 1, . . . , T } permite estimar la E(k |y, k) bajo perdida cuadratica por


b k |y, k) =
E(

0.01
0

La muestra {kt , t = 1, . . . , T } generada


por este algoritmo permite estimar el ndice de la
densidad posterior p(k|y) bajo perdida cuadratica
por
T
1X
pb(k|y) =
1Ik (kt ),
T t=1

una

distribucion

3. Sea (k , u ) = gk,k (k , u), donde gk,k es


una biyeccion entre (k , u), (k , u ), y las
dimensiones de los vectores u, u satisfacen
dk + dim(u) = dk + dim(u ).
4. Aceptamos el movimiento propuesto
(k , u ) con probabilidad

(k , k |y)s(k|k )
= min 1,
(k, k |y)s(k |k)
q(u |k , k , k)

q(u|k , k, k )
"
#!
gk,k (k , u)
det
(9)
((k) , u)

PT

(t)

t=1
P
T

k 1Ik (kt )

t=1 1Ik (kt )

Para la implementacion particular para el


modelo (1) proponemos los cambios directamente en el nuevo espacio de parametros, es decir, gk,k (k , u) = u as el termino jacobiano
que aparece en (9) es 1 y en la formulacion general del algoritmo de Green la probabilidad de
aceptacion es,

(k , k |y)s(k|k )
= min 1,
(k, k |y)s(k |k)


q(u |k , k , k)

.
(10)
q(u|k , k, k )
Elegimos para k una previa uniforme sobre el conjunto {1, . . . , kmax }. Si estamos en un
modelo que tiene ndice k proponemos un nuevo
modelo con ndice k de la distribucion condicional s(k|k ). Proponemos un nuevo modelo
cuya dimension este muy cerca del modelo anterior pero que eventualmente nos permita saltos
grandes de dimension, es decir, queremos una
distribucion condicional s que a los saltos de dimension pequenos les de alta probabilidad y los
grandes baja probabilidad, para este fin seguimos
a Troughton y Godsill [20] que utilizan la distribucion Laplaciana,
s(k |k) exp( |k k |), k {1, . . . , kmax },
donde es un parametro de escala.
La implementacion del procedimiento
MCMC es la siguiente,
a) (|x, y).
b) x (x|, y).

c) (k, ) (k , ).

pero

los pasos a) y b) son basicamente los pasos de


Gibbs descritos en 3.2,3.3. El paso c) involucra un paso de Metropolis con probabilidad de
aceptacion (10) el cual se simplifica al solo considerar en este el parametro directamente involucrado con k, en este caso,

p(k , k |A, 2 , x, y)s(k|k )


= min 1,
p(k, k |A, 2 , x, y)s(k |k)
q(u |k , k , k)

q(u|k , k, k )
si elegimos q(u|k , k, k) = p(k |A, 2 , x, y) y de
acuerdo a la identidad de Besag,
p(k, k |A, 2 , x, y)
= p(k|A, 2 , x, y),
p(k |A, 2 , x, y)
entonces la probabilidad de aceptacion para el paso c) es:

p(k |A, 2 , x, y) s(k |k)


= min 1,
,
p(k|A, 2 , x, y) s(k |k)
este es el punto de vista considerado en
Troughton y Godsill [20]. A continuacion obtenemos la distribucion p(k|A, 2 , x, y) para realizar la evaluacion de .
4.2.

Calculo de p(k|A, , x, y)

Comenzaremos escribiendo el modelo (1)


en la forma vectorial

p(y|k, , A, 2 , x)p(|k, )
= N (|0, x2 IN )N (|0, Id )
m
Y
N/2
= (2)
iNi (2)d /2
i=1

1 T
1 2 T
exp D
2
2

con D = (x I)1 .
Tenemos que
t D + 2 T
= (y 1 Z)T D(y 1 Z) + 2 T
= y T1 Dy 1 + ( m )T C 1 ( m )
mT C 1 m
con C 1 = Z T DZ + 2 I, m = CZ T Dy 1 .
Luego
p(y|k, , A, 2 , x)p(|k, )
m
Y
N/2
= (2)
iNi N (|m , C) det(C 1/2 )
i=1

1
exp( y T1 Dy 1 mT C 1 m )
2
al integrar con respecto a se tiene,
p(k|A, 2 , x, y)
N/2

p(k)(2)

m
Y

iNi det(C 1/2 )

i=1

y 1 = Z + ,
con y 1
=
(y1 , . . . , yN )T ,
=
(x1 1 , . . . , x1 N ). Donde Z es una matriz
de dimension (N 1) m(k + 1) y el elemento

1
exp( y T1 Dy 1 mT C 1 m ),
2

Denotaremos por x = (x1 , . . . , xN ). Por


el teorema de Bayes,

y finalmente la probabilidad de aceptacion se


escribe como:
(
1/2
det(Ck ) exp( 21 mk T Ck 1 mk )
min 1,
1/2
det(Ck ) exp( 21 m T Ck1 m )

s(k |k)

.
s(k|k )

p(k|A, 2 x, y) p(k)p(y|k, A, 2 , x)
Z
= p(k) p(y|, k, A, 2 , x)p(|k, )d

Para el ejemplo descrito en la seccion 3.4 vemos


el comportamiento de las salidas del algoritmo en
las figuras 5 y 6.

Zn(ik) = 1I[1,1] (yn )1Ii (xn )(yn )k1 .

si cada nucleo actua sobre el respectivo condicional de la iteracion previa,

Valores muestrales del grado


6

(t)

100

200

300

400

500
iteraciones

600

700

800

900

1000

(t)

x (x |y) =

Kx (x(t) |x(t1) ))
{1,...,m}N
(t1)

Figura 5. Comportamiento de los iterados de k.

x (x(t1) |y)dx
Z
(t)
(t)
( |y) =
K ( (t) | (t1) ))

(t1)

Densidad posterior p(k|y)


700

( (t1) |y)d

600

500

400

300

200

(t)

(t)

100

0
0.5

1.5

2.5

3.5

Figura 6. Distribucion posterior p(k|y) estimada.

donde x (x(t) |y), ( (t) |y) corresponden


a los marginales de la distribucion conjunta
( (t) , x(t) ) condicionado a y en la t-esima iteracion.
Para demostrar la ergodicidad de
{ , x(t) }, procedemos mostrando que cada sucesion { (t) } y {x(t) } es ergodica y por lo
tanto tiene como invariante la correspondiente
densidad marginal posterior (x|y) y (|y).
A continuacion demostramos que los marginales
posteriores de { (t) } y {x(t) } son densidades
invariantes para los nucleos K y Kx , esto es,
(t)

5.

Convergencia del muestreador de Gibbs

En esta seccion demostramos la convergencia de la cadena { (t) , x(t) }. Siguiendo a Rosales [19] se demuestra que la cadena es ergodica
y que converge uniformemente sobre E al posterior conjunto (, x|y). El muestreador descrito
en la seccion 3.1 genera la sucesion { (t) , x(t) },
t = 1, . . . , T , por composicion de dos nucleos:
Kx (x(t) |x(t1) )
Z
=
x (x(t) |, y) (|x(t1) , y)d

R
{1,...,m}N

Kx (x(t) |x(t1) )(x(t1) |y)dx(t1)

= x (x(t) |y)
K ( (t) | (t1) ))
Z
=
( (t1) |, x, y)x (x| (t1) , y)dx
{1,...,m}N

y
R

K ( (t) | (t1) )( (t1) |y)d (t1)


= ( (t) |y).

En efecto,
Z
{1,...,m}N

Kx (x(t) |x(t1) )x (x(t1) |, y)dx(t1)


Z
x (x(t) |, y) (|x(t1) , y)

{1,...,m}N
dx (x(t1) |, y)dx(t1)

Z Z

x (x(t) |, y) (|x(t1) , y)

{1,...,m}N
x( x(t1) |, y)dx(t1) d

x (x |, y)

{1,...,m}N

(t1)

dx
d
Z
=
x (x(t) |, y)(|y)d
Z
=
x (x(t) , |y)d

= x (x(t) |y)
para ( (t) |y) la demostracion es analoga.
(t)

(t)

Teorema 5.1 Sea { , x } generada por el


procedimiento de Gibbs para el AR-RM entonces
i. Existe , 0 < 1 y c > 0 tal que t N,
kx(t) k Ct1 .
ii. Existe r, 0 r < 1 y R > 0 tal que t N,
(t)

k k Rrt1 .
Demostracion de i. Como la cadena {x(t) } esta definida en un espacio de estado discreto
{1, . . . , m}N , solo hay que demostrar que es irreducible y aperiodica, para esto nos basta con ver
que el nucleo de transicion es positivo, en efecto,
por el procedimiento de Carter y Kohn descrito
en 3.3 el nucleo de transicion satisface que:

(t)

K ( 0 , ) h ( 0 ),
para todo .
Demostracion: por la definicion de K ( 0 , )
se tiene,
K ( 0 , )
Z
=
( 0 |x, y)x (x|, y)dx
{1,...,m}N
Z

nf ( 0 |x, y)x (x|, y)dx


{1,...,m}N x
0

( ),

donde ( 0 ) = nf ( 0 |x, y). Para cada x vex


mos que,
Z
Z
0
0
( )d
( 0 |x, y)d 0 = 1.

Ademas existe tal que para cada x


> 0, en efecto,
{1, . . . , m}N , p(y|x, )
=
p(y|x, )
=

N
Y
n=1
N
Y

pin (yn , yn1 )


N (yn f (in , yn1 ), i2n ) > 0

n=1

> 0,para
y por la eleccion de los previos, p()

, de aqu
nf p(y|x, )p(
)
> 0.
()

Kx (x(t) |x(t1) )
p(xN |, y)

Lema 5.1 Existe una constante 0 < h 1 y una


densidad sobre , tal que

(, x(t1) |y)

(t)

card({1, . . . , m}N ), = (1 2Kx ) y Kx =


nf Kx (x0 |x), para cualesquieras realizaciones x0
y x.
Para demostrar la segunda parte del teorema es necesario demostrar que K satisface una
condicion de minorizacion, porque los valores de
la sucesion { (t) } estan en el conjunto no discreto .

N
1
Y

(t)

p(x(t)
n |xn+1 , y) > 0

n=1

y por teoremas clasicos de cadenas de Markov


finitas se satisface el resultado con, C =

De la forma de la verosimilitud y los previos se


ve que es diferenciable y por lo tanto continua
de aqu
Z
( 0 )d 0 > 0,

c=

si ( 0 ) = ( 0 )/c se obtiene el resultado.


Demostracion de ii. La condicion de minorizacion sobre K implica que la cadena
{ (t) } es -irreducible y por la invarianza de
(|y) tambien (|y)-irreducible, por otra
parte { (t) } es recurrente y positiva por tanto
(|y) es u nica. La condicion de minorizacion
de K implica que la cadena es aperiodica, Meyn
y Tweedie [14], p. 118. Por u ltimo la condicion
de minorizacion nos dice que todo el espacio
es un conjunto pequeno y en concordancia con el
teorema 16.2.4 de Meyn y Tweedie [14], p. 392
se obtiene el resultado.
Explcitamente tenemos una cota de la velocidad de convergencia de { (t) } a (|y) como
una consecuencia de la relacion de dualidad,
Z
(t)
(|y) =
(|x, y) (t) (x|y)dx,
{1,...,m}N

lo cual como observa Robert et al. [17] (teorema


1, (i)) implica
(t)

k k kx(t) k C(t1) .
Lo que nos dice que la velocidad de convergencia de { (t) } al invariante esta mayorada por
la velocidad de convergencia de {x(t) }. Ademas
tenemos una cota del numero de iteraciones necesario para garantizar un umbral de tolerancia tol
(t)
para la diferencia k k,
m=

log(tol) log(C)
+ 1,
log(1 2Kx )
2Kx )

2Kx

y como log(1

y C m finalmente la cota para el numero de iteraciones es,


m

log(tol) N log(m)
+ 1.
2Kx

En la practica (0) , x(0) son conocidos y fijos, Kx depende del estado inicial x(0) y por lo
tanto el nfimo en la definicion de Kx depende
solo de x0 . En este caso la minimizacion puede
ser realizada directamente utilizando por ejemplo
el algoritmo de programacion dinamica de Viterbi (ver MacDonald y Zucchini [13]).

Un TCL para los parametros estimados de


la muestra { (t) } se obtiene a partir de la cadena
{x(t) } observando que esta es -mixing, es decir,
que existe una funcion monotona decreciente t ,
tal que t 0 cuando t , y
Z
|x(t) (x|y) (x|y)|dx t ,
{1,...,m}N

en nuestro caso esta condicion es satisfecha


con t = Ct1 , y se traslada por la dualidad a
{ (t) } de donde el TCL aplica para esta sucesion.
Agradecimiento L. R. agradece al Departamento
de Matematicas del IVIC por su hospitalidad durante la realizacion de este trabajo y al CDCH de
la UC por su apoyo financiero a traves del proyecto de ayuda menor 0504-06.
Referencias
[1] L. E. Baum, T. Petrie, G. Soules, and
N. Weiss. A maximization tecnique occuring in the statistical analysis of a probabilistic functions of Markov chains. Ann. Math.
Stat., 41:164171, 1970.
[2] J. Bernardo and A. Smith. Bayesian Theory.
Wiley, New York, 1994.
[3] H. Bunke and O. Bunke. Nonlinear Regression, Functional Relations and Robust
Methods. Wiley, New York, 1989.
[4] O. Cappe. Ten years of HHMs. Available:
http://www-sig.enst.fr/cappe, 2001.
[5] C. K Carter and R. Kohn. On Gibbs sampling for state space model. Biometrika,
81:541553, 1994.
[6] P. Demian and S. G. Walker. Sampling
Truncated Normal, Beta, and Gamma Densities.
Journal of Computational and
Graphical Statistics, 10(2):206215, 2001.
[7] R. Douc, E. Moulines, and T. Ryden.
Asymptotic properties of the maximum
likelihood estimator in autoregressive models with Markov regime. Ann. Statist. 32 no.
5, 22542304, 2004.

[8] Ferreira P. E. A Bayesian analysis of de


switching regresion model: know number of
regimes. J. Amer. Statist. Assoc., 70:370
374, 1975.
[9] G. S. Fishman. Monte Carlo, Concepts, Algorithms, and Applications. Springer Verlag, New York, 1996.
[10] A. R. Gallant y Fuller W. A. Fitting
segmented polynomial regression models
whose join points have to be estimated. J.
Amer. Statist. Assoc., 68:144147, 1973.
[11] P.J. Green.
Reversible jump Markov
chain Monte Carlo computation and
Bayesian model determination. Biometrika,
82(4):711732, 1995.
[12] J.D. Hamilton. A new approach to the economic analysis of non stationary time series and the business cycle. Econometrica,
pages 357384, 1989.
[13] I.L. MacDonald y W. Zucchini. Hidden
Markov and Other Models for discretevalued Time Series. Chapman and Hall,
1997.
[14] S. P. Meyn y R. L. Tweedie. Markov Chains
and Stochastic Stability. Springer-Verlag,
London, 1993.
[15] R. Ros y L. Rodrguez.
Estimacion
semiparametrica en procesos autorregresivos con regimen de Markov. Aceptado para su publicacion en Divulgaciones
Matematicas.
[16] C. P. Robert y G. Casella. Monte Carlo
statistical methods. Springer-Verlag, New
York, 1999.
[17] C. P. Robert, G. Celeux, y J. Diebolt.
Bayesian estimation of hidden Markov
models: a stochastic implementation.
Statist. Prob. Lett., 83:1677, 1993.
[18] C. P. Robert, T. Ryden, y D. M. Titterington.
Bayesian inference in hidden markov models trough the reversible jump markov chain

monte carlo method. Journal of the Royal


Statistical Society B, 62(1): 5775, 2000.
[19] R. Rosales. MCMC for hidden Markov
models incorporating aggregation of states
and filtering. Bull. Math. Biol. 66: 1173-99,
2004.
[20] P. Troughton y S. Godsill. A Reversible
Jump Sampler for Autoregressive Time Series. Proceedings of the IEEE International
Conference on Acoustics, Speech and Signal Processing, IV:22572260, 1998.
[21] J. Yao y J. G. Attali. On stability of nonlinear AR process with Markov switching.
Adv. Applied Probab, 1999.