Está en la página 1de 31

See

discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/288467114

Algunas propiedades de procesos autorregresivos


lineales y no lineales con régimen de Markov

Article · January 2015

CITATIONS READS

0 8

1 author:

Luis Angel Rodriguez


Universidad de Carabobo, UC
14 PUBLICATIONS 26 CITATIONS

SEE PROFILE

All in-text references underlined in blue are linked to publications on ResearchGate, Available from: Luis Angel Rodriguez
letting you access and read them immediately. Retrieved on: 09 September 2016
Boletı́n de la Asociación Matemática Venezolana, Vol. XXII, No. 1 (2015) 15

Algunas propiedades de procesos autorregresivos


lineales y no lineales con régimen de Markov
Luis-Angel Rodrı́guez

Resumen. En este trabajo se presentan un conjunto de proposicio-


nes referentes a los procesos autorregresivos con régimen de Markov,
mostrando propiedades que abarcan desde aspectos probabilı́sticos
hasta algunas técnicas de su inferencia estadı́stica. Algunos resul-
tados clásicos son demostrados con técnicas de interés general para
extensiones del tema.
2010 Mathematics Subject Classification: Primary: 60G17, Secondary: 62G07.
Keywords and Phrases: Procesos autorregresivos, cadenas de Markov ocultas,
regresión de estructura variable, máxima verosimilitud.

El objetivo central de este trabajo es dar una introducción al estudio de pro-


cesos de autorregresivos con régimen de Markov, estos pueden ser vistos como
una combinación de los modelos de cadenas de Markov ocultas (CMO) y los
modelos de regresión y autorregresión con umbrales. El estudio de las propie-
dades que caracterizan a los procesos autorregresivos con régimen de Markov
en algunos casos es análogo en técnicas de demostración a las utilizadas para
los procesos autorregresivos y en otros casos con técnicas que vienen desde el
estudio de modelos de CMO.
El uso de un régimen de Markov oculto ofrece la posibilidad de modelar series
temporales que cambian su comportamiento en el tiempo de manera marcada.
Hamilton en [17] utiliza un proceso autorregresivo con régimen de Markov en
el contexto económetrico, para el análisis anual de la serie del producto interno
bruto de los Estados Unidos, con dos regı́menes: contracción y expansión. Los
procesos autorregresivos lineales con régimen de Markov son usados en varias
áreas de la ingenierı́a eléctrica, incluidas detección de fallas y control estocástico
adaptativo, ver Cappe et al. [6] y sus referencias.
Un proceso autorregresivo con régimen de Markov (AR-RM) es un proceso
a tiempo discreto definido por:

Yn = rXn (Yn−1 ) + en (1)

donde {Xn }n≥1 es una cadena de Markov homogénea con valores en el conjunto
{1, . . . , m}, matriz de transición A = [aij ] siendo aij = P(Xn = j|Xn−1 = i).
16 L Rodrı́guez

Las funciones de regresión {r1 , . . . , rm } pertenecen a la clase de funciones F.


Una subclase muy importante de estos procesos es cuando las funciones de
regresión tiene la forma ri (y) = ρi y + bi , en este caso escribimos el modelo como

Yn = ρXn Yn−1 + bXn + en , (2)

para cada 1 ≤ i ≤ m denotamos por θi = (bi , ρi )t y


 
b1 b2 · · · bm
θ= .
ρ1 ρ2 · · · ρm

Si en la ecuación (2) los ρi = 0 para todo i = 1, . . . , m obtenemos un


modelo de cadena de Markov oculta. En la sección 4.2 estudiamos una prueba
de hipótesis para contrastar la hipótesis de un AR-RM lineal contra un modelo
de cadena de Markov oculta.
El resto del artı́culo esta estructurado de la manera siguiente. En la sección
2 se muestran las propiedades markovianas del proceso conjunto (Xn , Yn ). Bajo
hipótesis usuales, en la sección 3 se demuestra la existencia de la densidad del
proceso AR-RM. En la sección 5 se prueba la propiedad de dependencia débil
del proceso observado. En la sección 4.2, en el caso lineal con ruido gaussiano
se introducen algunas propiedades del proceso de verosimilitud, se propone un
metodologı́a de estimación basada en el algoritmo SAEM y se presentan simu-
laciones.

1. Propiedad de Markov del proceso conjunto

Se comienza esta sección introduciendo algunas definiciones de la larga taxo-


nomı́a de procesos de Markov que serán necesarias para caracterizar el proceso
conjunto {(Xn , Yn )}n≥1 . Para resultados generales para cadenas de Markov re-
ferimos por ejemplo a los libros de Duflo [14] y Meyn y Tweedie [21].
Sean (G, G), (E, E) espacios medibles, {un }n≥0 una sucesión de v.a. indepen-
dientes con valores en (G, G), F : E×G → E una función medible. Consideremos
un proceso estocástico {%n }n≥0 con valores en E. Supongamos que la v.a %0 y
la sucesión {un }n≥0 son independientes. Decimos que {%n }n≥0 es un modelo
iterativo si satisface la ecuación

%n = F (%n−1 , un ).

El siguiente lema demuestra que todo cadena de Markov con valores en un


espacio de estados finito es un modelo iterativo.

Lema 1. Toda cadena de Markov sobre un conjunto finito de estados E es un


modelo iterativo.
Propiedadades de procesos AR-RM 17

Demostración. Supongamos que tenemos una cadena de Markov {Xn }n≥1 sobre
un conjunto de estados E = {1, 2} y con matriz de transición
 
1−p p
A= .
q 1−q

Sea {Un }n≥1 una sucesión independiente de variables aleatorias uniformes


sobre [0, 1] y definamos la función F : E × [0, 1] → E por
 
 1 si p ≤ u ≤ 1  1 si 0 ≤ u < q
F (1, u) = F (2, u) =
2 si 0 ≤ u < p 2 si q ≤ u ≤ 1
 

por lo tanto la cadena de Markov {ζn }n≥1 definida como sistema iterativo por

ζn = F (ζn−1 , Un )

y {Xn }n≥1 tienen la misma matriz de transición, en efecto



P(F (1, Un = 1) = 1 − p si i = 1
P(ζn = i|ζn−1 = 1) =
P(F (1, un = 2) = p si i = 2
y 
P(F (1, Un = 1) = q si i = 1
P(ζn = i|ζn−1 = 2) =
P(F (1, un = 2) = 1 − q si i = 2
por lo tanto se obtiene el lema.
Un modelo iterativo define una cadena de Markov con núcleo de transición
K(A, %n ) = P(%n−1 ∈ A), ver Duflo [14], pág 18.
Una cadena de Markov es ϕ-irreducible si existe una medida ϕ, tal que si
ϕ(A) > 0 entonces K(x, A) > 0 para todo x en el espacio de estados.
Denotamos por el simbolo 1IB (x) denota la función indicatriz de B, la cual
asigna el valor 1 si x ∈ B y 0 en otro caso. Una cadena de MarkovP∞ {%n }n≥0
es recurrente Harris, si cada vez que si ϕ(A) > 0, se tiene P%0 ( n=1 1IA (%n ) =
∞) = 1 para cualquier valor inicial %0 de la cadena de Markov. En este caso,
existe una única (salvo constante multiplicativa) medida invariante. Si además
esta medida es finita, el proceso se llama recurrente Harris positivo.
Una cadena de Markov con núcleo K es felleriana si, para toda función g
continua y acotada, la función Kg definida por
Z
Kg(x) := g(y)K(x, dy)

es continua. Una cadena de Markov es fuertemente felleriana si para toda función


medible y acotada g la función Kg es continua. En particular el modelo iterativo
18 L Rodrı́guez

es felleriano si F es una función continua y es fuertemente felleriano cuando la


sucesión {un }n≥0 tiene densidad con respecto a la medida de Lebesgue, ver
Duflo [14], pág 19.
Suponemos que un proceso AR-RM verifica las siguientes condiciones:

La cadena de Markov {Xn }n≥1 es recurrente y positiva. Su distribución


invariante se denota por, λ = (λ1 , . . . , λm ).
La sucesión de v.a {en }n≥1 es independiente e identicamente distribuida.
Y0 , la cadena de Markov {Xn }n≥1 y la sucesión {en }n≥1 son v.a. mutua-
mente independientes.

Demostraremos que el proceso conjunto {Zn }n≥1 definido por Zn = (Xn , Yn )


es un proceso de Markov, viendo que puede ser escrito como un modelo iterativo.
Lema 2. El proceso conjunto {Zn }n≥1 definido por Zn = (Xn , Yn ) es una
cadena de Markov con espacio de estados {1, . . . , m} × R. Además,
Esta cadena es felleriana si las funciones de regresión ri son continuas,
para i = 1, . . . , m.
Si la v.a. e1 admite una densidad Φ con respecto a la medida de Lebesgue
la cadena de Markov {Zn }n≥1 es fuertemente felleriana.
Si la densidad Φ de e1 es estrictamente positiva entonces la cadena de
Markov {Zn }n≥1 es ϕ-irreducible.
Demostración. El lema 1 implica que

Xn = F (Xn−1 , un ).

para una sucesión {un }n≥1 de variables aleatorias i.i.d centrada e independientes
de {en }n≥1 y donde F : E × [0, 1] → E es una función medible. Ası́, según el
lema 1, {Zn }n≥1 es un modelo iterativo markoviano de la forma
   
Xn F (Xn−1 , un )
Zn = = .
Yn rF (Xn−1 ,un ) (Yn−1 ) + en

Denotemos por Π el núcleo de transición del proceso conjunto. Demostra-


remos que Π es ϕ-irreducible, donde ϕ es la medida definida por µc m (contar
⊗ Lebesgue) sobre P{1, . . . , m} × B(R), donde P({1, . . . , m}) es la familia de
las partes de {1, . . . , m} y B(R) es la familia de bolerianos de R. Sean A ∈
P({1, . . . , m}) y B ∈ B(R). Supongamos que µc (A)m(B) > 0, entonces

Π(Z, A × B) := P (x ∈ A, rx (y) + e1 ∈ B)
= δx (A)P (e1 ∈ B − rx (y)) .
Propiedadades de procesos AR-RM 19

Supongamos que δx (A)P (e1 ∈ B − rx (y)) = 0 entonces P(e1 ∈ B − rx (y)) =


0, ya que δx (A) > 0. Luego, P(e ∈ B − rx (y)) = 0 y, si suponemos que la
densidad del ruido es estrictamente positiva, podemos afirmar que
Z
1IB (x)Φ(x)dx = 0

y como Φ > 0; entonces, Φ(x)1IB (x) = 0, c.s-x, en consecuencia m(B) = 0 y se


obtiene una contradicción porque m(B) > 0. Por lo tanto Π(Z, A × B) > 0, en
consecuencia la cadena es ϕ-irreducible.

1.1. Estabilidad en el caso lineal

Demostramos la existencia de una solución estacionaria para el proceso AR-


RM.
P∞
Teorema 1. Sea ϑ la distribución de la variable Y∞ = n=0 ρXn · · · ρX1 (bXk+1 +
en+1 ). Para un proceso AR-RM lineal se satisfacen las siguientes proposiciones:

El proceso {Yn } converge en distribución a ϑ.

Propiedad de olvido. Para cualquier distribución de la variable Y0 , el pro-


ceso {Yn } converge en distribución a ϑ.

Demostración. Tenemos que iterando la ecuación (2)


n−1
X
Yn = ρXn · · · ρX1 Y0 + bXn + en + ρXn · · · ρXk+1 (bXk + ek ),
k=1

del teorema ergódico aplicado a la cadena {Xn }n≥1 , se tiene que


n
1X
lı́m log(ρXk ) → Eλ (log(ρX )) c.s.
n→∞ n
k=1

donde X ∼ λ, la ecuación anterior es equivalente a


n1 nm
lı́m ρ1n · · · ρmn → ρλ1 1 · · · ρλmm .
n→∞

n1 nm
Además ρXn · · · ρX1 = (ρ1n · · · ρmn )n y por hipótesis ρλ1 1 · · · ρλmm < 1 enton-
ces del teorema de convergencia dominada se obtiene

lı́m ρXn · · · ρX1 = 0, c.s.


n→∞
20 L Rodrı́guez

Por otra parte, como consecuencia del Teorema Ergódico para {Xk }k≥1 y la
LFGN para las variables aleatorias ek tenemos bXk + ek = O(k) y ası́

X ∞
X
ρXk · · · ρX1 (bXk+1 + ek+1 ) ≤ C (ρλ1 1 · · · ρλmm )k |k + 1| → 0
k=n k=n
P∞
entonces k=n ρXk · · · ρX1 (bXk+1 + ek+1 ) es la cola de una serie sumable y si
para k = 0 definimos ρXk · · · ρX1 = 1 entonces

X
Y∞ = ρXk · · · ρX1 (bXk+1 + ek+1 )
k=0

y esta es una solución para el modelo AR-RM.


Esta solución es estacionaria, en efecto sea

X
Y0 = ρXk · · · ρX1 (bXk+1 + ek+1 )
k=0

y denotemos por ϑ su distribución. Si sustituimos Y0 en el modelo, en distribu-


ción valen las siguientes igualdades

X
Yn = ρ Xn · · · ρ X1 ρXk · · · ρX1 (bXk+1 + ek+1 )
k=0
n−1
X
+bXn + en + ρXn · · · ρXk+1 (bXk + ek )
k=1

X n−1
X
= ρXk+n · · · ρX1 (bXn+k+1 + ek+1 ) + ρXn · · · ρXk+1 (bXk + ek ).
k=0 k=1

Luego, para cada n ∈ N, Yn se distribuye ϑ.


Ahora demostramos que el proceso tiene olvido de la ley inicial. Elejimos Y00
independiente de Y0 y de la cadena de Markov {Xn }n≥1 entonces
|Yn − Yn0 | = |ρXn · · · ρX1 ||Y0 − Y00 |
de donde |Yn − Yn0 | → 0.
Ejemplo. Supongamos que θi = (0, ρi )t para todo i = 1, . . . , m y que la varia-
ble aleatoria e1 se distribuye N (0, 1) entonces la solución estacionaria toma la
forma:
X∞ X∞
Y∞ = ρXn · · · ρX1 en+1 = ρn1 1 · · · ρnmm en+1
n=0 n=0
X∞
≈ (ρλ1 1 · · · ρλmm )n en+1
n=0
Propiedadades de procesos AR-RM 21

1 λ1 λm
en este caso la distribución estacionaria ϑ ∼ N (0, 1−d 2 ) con d = ρ1 · · · ρm .

1.2. Caso sublineal


En esta sección consideramos la estabilidad en el caso no lineal. Yao y Attali
en [26] demuestran que con la hipótesis de sublinealidad

ri (y) ≤ ρi |y| + bi
Pm
para i = 1, . . . , m, la condición de estabilidad Eλ (log ρ) = i=1 log(ρi )λi < 0 y
1
la función de Lyapounov V (x, y) = kyk p + 1 sobre {1, . . . , m} × R, se satisface
la desigualdad
Πp V (x, y) ≤ ρp V (x, y) + βp + 1 − ρp (3)
para constantes positivas, ρp , βp con ρp < 1. Bajo la suposión de que la ca-
dena {Zn }n≥0 es felleriana existe una una medida invariante. Esta medida in-
variante será única si cuando la cadena de Markov {Zn }n≥0 sea por ejemplo
ϕ-irreducible, 1.IV.19 de Duflo [14]. Entonces bajo las hipótesis del lema 1,
queda garantizada la existencia de una única medida invariante.
La desigualdad (3) permite demostrar que la cadena {Zn }n≥0 es V -unifor-
memente ergódica, es decir

kΠn − ϑkV → 0 n → ∞

donde ϑ es la única medida invariante del proceso conjunto {Zn }n≥0 y por mar-
ginalización se obtiene la medida invariante del proceso {Yn }n≥0 .

Teorema 2. Consideremos un proceso AR-RM, supongamos que la funciones


de regresión en cada régimen son sublineales y que se satisface la condición de
estabilidad. Entonces
1. Existe una única solución estacionaria geométricamente ergódica.

2. Si además E(|e1 |s ) < ∞ y la matriz Qs = ρsj aij i,j=1...m tiene radio
espectral estrictamente menor que 1, entonces E(|Yk |s ) < ∞.
La demostración de la parte 1 es la discusión anterior al enunciado del teore-
ma. Para la existencia de momentos referimos a Yao y Attali [26]. Para demos-
trar la irreducibilidad es fundamental suponer que existe una densidad positiva
para la sucesión de innovaciones, que en el caso cuando la distribución es dis-
creta deja de ser cierto. Por ello en Yao y Attali se sustituye la condición de
sublinealidad por una condición de Lipschitz de las funciones ri y se demuestra
directamente, sin pasar por la cadena conjunta {Zn }n≥0 , que el proceso {Yn }n≥0
es estable.
22 L Rodrı́guez

En el caso cuando e1 tiene distribución discreta se puede demostrar que


la cadena de Markov conjunta Z admite una medida invariante. En efecto,
suponiendo que las funciones de regresión ri para i = 1, . . . , m son continuas,
la cadena de Markov {Zn }n≥0 es felleriana y si adicionalmente las funciones de
regresión son sublineales, entonces se satisface una condición de contracción del
tipo (3). Esto es suficiente para garantizar existencia de la medida invariante
pero no la unicidad.
Una técnica que permite demostrar unicidad para cadenas fellerianas que
satisfacen una condición de deriva y que no son irreducibles es verificar que se
satisfacePuna condición de alcanzabilidad, es decir, existe z ∈ {1, . . . , m} × R

tal que k=1 Πk (z, A × B) > 0 para todos los conjuntos abiertos A × B que
contienen a z. En este caso, queda como problema abierto demostrar que bajo
innovaciones con distribución discreta se satisface la condición de alcanzabili-
dad.
También se pueden debilitar la hipótesis de continuidad de las funciones ri .
Attali en [3] introduce la noción de cadenas quasi-fellerianas la cual es más débil
que la fellerianidad y con esta demuestra el siguiente teorema.

Teorema 3. Consideremos un proceso AR-MR. Para el cual:

1. Existe la densidad Φ del proceso de errores {en }n≥1 .

2. Las funciones ri son Riemann integrables.

3. Para cada (i, y) ∈ {1, . . . , m} × R, la sucesión


( n
)
X
k
1/n Π ((i, y), di × dy)
k=1 n≥1

es tensa.

Entonces {Zn }n≥1 es una cadena de Markov Harris positiva.

Para la demostración y la definición de quasi-fellerianidad ver Attali [3].

2. Existencia de la distribución finito dimensional del


proceso conjunto

Comenzamos denotando por V1:n el vector aleatorio (V1 , . . . , Vn )t y v1:n =


(v1 , . . . , vn )t cualquier realización. Ahora veamos la existencia de la densidad
conjunta de las variables Y0:n , X1:n , para el proceso autorregresivo con régimen
de Markov, definido por la ecuación (1).
Propiedadades de procesos AR-RM 23

Lema 3. Para el proceso AR-RM definido en (1), el vector (Y0:n , X1:n ) admite
densidad de probabilidad

p(Y0:n = y0:n , X1:n = x1:n )


= Φ(yn − rxn (yn−1 )) · · · Φ(y1 − rx1 (y0 ))axn−1 xn · · · ax1 x2 µx1 pY0 (y0 )

con respecto a la medida producto m ⊗ µc , donde m y µc denotan las medidas


de Lebesgue y de contar, respectivamente.
Demostración. Definimos el cambio de variables T (Y1 , . . . , Yn ) = (e1 , . . . , en )
donde ek = Yk − rXk (Yk−1 ), para k = 1, . . . , n. Ası́ por el teorema del cambio
de variables como la matriz jacobiana T es triangular su determinante es igual
a 1, por lo tanto para cualquier función medible h,

E(h(Y1:n , X1:n , Y0 ))
= E(h(T −1 (e1:n ), X1:n , Y0 ))
Z X
= h(T −1 (u1:n ), i1:n , y0 ))p(e1:n = u1:n , X1:n = i1:n , Y0 = y0 )du1:n dy0
i1:n

utilizando la independencia conjunta,

p(e1:n = u1:n , X1:n = i1:n , Y0 = y0 ) = p(e1:n = u1:n )p(X1:n = i1:n )pY0 (y0 )

como las densidades de Y0 y e1 existen,

E(h(Y1:n , X1:n , Y0 ))
Z X n
Y n
Y
= h(T −1 (u1:n ), i1:n , y0 ) Φ(uk ) aik−1 ik µi1 pY0 (y0 )du1:n dy0 .
i1:n k=1 k=2

Por lo tanto las v.a (Y1 , . . . , Yn , X1:n , Y0 ) admiten densidad conjunta con res-
pecto a la medida de Lebesgue producto y la medida de contar producto.
La ventaja de este resultado es que cualquier otra distribución marginal de
interés se obtiene por integración de la densidad conjunta obtenida.

3. Propiedades de dependencia
Un proceso Y = {Yk }k∈Z es fuertemente α-mezclante (mixing en inglés), si

αn = sup{|P(A∩B)−P(A)P(B)| : A ∈ M0−∞ , B ∈ M∞
n } → 0, si n → ∞, (4)

donde Mba , con a, b ∈ Z, es la σ-algebra generada por {Yk }k=a:b .


24 L Rodrı́guez

Es absolutamente regular, si
βn = E ess sup{P(B|M0−∞ ) − P(B) : B ∈ M∞

n } → 0, si n → ∞. (5)
Los valores αn son llamados coeficientes fuertemente mezclantes, y los valo-
res βn son los coeficientes absolutamente regulares. Ver Doukhan (1994) para
ejemplos y propiedades bajo condiciones de dependencia, [13]. En general, te-
nemos la desigualdad 2αn ≤ βn ≤ 1.
Los coeficientes α-mezclantes se pueden escribir como:
αn := sup{|cov(φ, ξ)| : 0 ≤ φ, ξ ≤ 1, φ ∈ M0−∞ , ξ ∈ M∞
n }. (6)
En el caso de procesos de Markov estrictamente estacionarios X, con espacio
de estados (E, B), núcleo de transición A y medida de probabilidad invariante
λ; los coeficientes β toman la forma siguiente, see Doukhan ([13], sección 2.4):
 
βn := E sup{|A(n) (X, B) − λ(B)| : B ∈ B} . (7)

Proposición 1. El proceso AR-RM definido en (1) bajo las condiciones del


lema 1, es estrictamente estacionario, α-mezclante y sus coeficientes decrecen
geométricamente.
Demostración. Definamos hφ (x1:n ) = E(φ(Y0 , Y1:n )|X1:n = x1:n ). Como supo-
nemos que Y0 , la cadena de Markov {Xk }k≥1 y la sucesión {ek }k≥1 son inde-
pendientes entonces
E(φ(Y0:n )) = E(E(φ(Y0:n )|X1:n = x1:n )) = E(hφ (X1:n )).
La cadena de Markov {Xk }k≥1 es estrictamente estacionaria, por lo tanto
E(φ(Yj:j+n )) = E(hφ (Xj+1:j+n )) = E(hφ (X1:n )) = E(φ(Y0:n )).
Ası́, el proceso {Yk }k≥0 es estrictamente estacionario. Por otra parte, al
consider las funciones medibles φ : Rk → [0, 1], ξ : Rl → [0, 1],
cov(φ(Y0:k ), ξ(Yk+s: k+s+l ))
= E (φ(Y0:k )ξ(Yk+s: k+s+l )) − E (φ(Y0:k )) E (ξ(Yk+s: k+s+l ))
= E (hφ (X1:k )hξ (Xk+s+1: k+s+l )) − E (hφ (X1:k )) E (hξ (Xk+s+1: k+s+l ))
= cov(hφ (X1:k ), hξ (Xk+s+1: k+s+l )).
Entonces,
αn (Y )
sup |cov(φ(Y0:k ), ξ(Yk+s: k+s+l ))| : 0 ≤ φ, ξ ≤ 1, φ ∈ Mk0 (Y ),

=
k+s+l

ξ ∈ Mk+s (Y )
sup |cov(hφ (X1:k ), hξ (Xk+s+1: k+s+l ))| : 0 ≤ hφ , hξ ≤ 1, hφ ∈ Mk1 (X),

=
hξ ∈ Mk+s+l

k+s+1 (X)
≤ αn (X).
Propiedadades de procesos AR-RM 25

Sólo resta demostrar que αn (X) decrese geométricamente a 0, cuando n va a


∞. Para esto, utilizamos que si la distribución inicial de la cadena de Markov X
Pm (n)
es la distribución invariante λ, entonces βn (X) = j=1 supi=1:m |ai,j − λi |λj ,
y {Xn }n≥1 es geométricamente ergódica, es decir existe 0 < ζ < 1 tal que
(n)
supi |ai,j − λi | ≤ cζ n , obtenemos que

2αn (Y ) ≤ 2αn (X) ≤ βn (X) ≤ cmζ n .

ası́, es α-mezclante con al menos con velocidad geométrica.

Ejemplo de proceso AR-RM que no es fuertemente α-mezclante. Si


consideramos el caso de un proceso AR-RM lineal con θi = (0, ρi )t para todo
i = 1, . . . , m, que la variable aleatoria e1 se distribuye Bernoulli con parámetro
q y que Y0 = 0 entonces el proceso definido por
n−1
X
Yn = ρXk · · · ρX1 ek+1 ,
k=0

con la convención de que ρXk · · · ρX1 = 1 para k = 0, no es fuertemente α-


mezclante. En efecto se puede probar (ver D. Andrews [2]) que si 0 < ρi ≤ 1/2
entonces existe un conjunto A ∈ M0−∞ con P(A) > 0 y existen conjuntos
Bs ∈ M∞ n con P(Bs ) ≤ c para s ∈ N, y alguna constante c < 1 tal que
P(Bs |A) = 1, para todo s y esto implica que

αs (Y ) ≥ P(A ∩ Bs ) − P(A)P(Bs ) = P(A)(P(Bs |A) − P(Bs )) ≤ P(A)(1 − c)

y por lo tanto αs (Y ) no decrece a 0 cuando s → ∞, por lo tanto el proceso Y


no es fuertemente α-mezclante.

4. La función de verosimilitud

El estimador por máxima verosimilitud se define como

ψ̂n = arg máx ln (ψ).


ψ

Denotaremos las distribuciones y densidades son denotadas por p. La función


de verosimilitud que consideramos, esta definida por ln (ψ) = log pψ (Y1:n |Y0 ).
Decimos que el estimador de máxima verosimilitud es consistente si ψ̂n → ψ0
cuando n → ∞ c.s.
Para demostrar la consistencia del estimador de máxima verosimilitud si-
guiendo el enfoque de Wald (1949) son necesarios los siguientes tres pasos:
26 L Rodrı́guez

1. Demostrar que existe una función determinı́stica l(ψ) tal que

lı́m v(n)ln (ψ) = l(ψ) c.s.


n→∞

donde v(n) es una sucesión de normalización que no depende de ψ.


2. Dar condiciones para que l(ψ) tenga un único máximo en ψ = ψ0 .

3. Concluimos que ψ̂n = arg máxψ ln (ψ) → arg máxψ l(ψ) = ψ0 .

Esta metodologı́a es estándar para probar consistencia, en general el paso


1 está soportado por la ley fuerte de grandes números. En el caso de procesos
autorregresivos con régimen de Markov, para obtener una ley fuerte para el
proceso de verosimilitud se utilizan técnicas de procesos de Markov no homo-
geneos, básicamente en dos direcciones, en la primera se construye una cadena
de Markov extendida (ver Rynkiewicz [24], Krishnamurthy [19]) la cual satis-
face un teorema ergódico para luego marginalizar y en la segunda se utilizan
técnicas de aproximación al proceso de verosimilitud por procesos estacionarios
y desigualdades de minorización de ciertos núcleos de transición (ver Douc et.
al. [12]).
En este trabajo siguiendo el enfoque de prueba de consistencia de Ramón
van Handel, [25] capı́tulo 7, unido a la aplicación de la propiedad α-mezclante
se puede obtener una nueva prueba de la consistencia del estimador de máxima
verosimilitud, para las demostraciones ver Fermı́n et al. [20]. Verifiquemos que
el paso 3, para demostrar consistencia se satisface bajo convergencia uniforme.
Lema 4. Supongamos que el espacio de parámetros Ψ es compacto. Sea ln :
Ψ → R una sucesión de funciones continuas que converge uniformemente a
l : Ψ → R. Entonces

ψ̂n = arg máx ln (ψ) → arg máx l(ψ)


ψ ψ

Demostración. Como una función continua sobre un compacto alcanza su máxi-


mo existe ψn ∈ arg máxψ ln (ψ) para todo n. Por otra parte se satisfacen las
siguientes desigualdades

0 ≤ sup l(ψ) − l(ψn ) = sup (l(ψ) − ln (ψ) + ln (ψ)) − l(ψn )


ψ∈Ψ ψ∈Ψ
≤ sup (l(ψ) − ln (ψ)) + sup (ln (ψ) − l(ψn ))
ψ∈Ψ ψ∈Ψ
n→∞
≤ sup (l(ψ) − ln (ψ)) + (ln (ψn ) − l(ψn )) ≤ 2 sup (l(ψ) − ln (ψ)) → 0.
ψ∈Ψ ψ∈Ψ

Entonces
lı́m l(ψn ) = sup l(ψ). (8)
n→∞ ψ∈Ψ
Propiedadades de procesos AR-RM 27

Supongamos que para la sucesión {ψn } sus puntos lı́mites no pertenecen al


conjunto {ψ̃ : l(ψ̃) = máxψ∈Ψ l(ψ)}. Por compacidad de Ψ existe una subsuce-
sión {ψn0 } ⊂ {ψn } que converge a ψ 0 y tal que ψn0 6∈ {ψ̃ : l(ψ̃) = máxψ∈Ψ l(ψ)}.
Pero l(ψ) es una función continua porque es lı́mite uniforme de funciones con-
tinuas, ası́ l(ψn0 ) → l(ψ 0 ) < supψ∈Ψ l(ψ) de acuerdo a (8) esto es una contra-
dicción.
Definimos ln (ψ) = n−1 log pψ (Y1:n |Y0 ), demostraremos que ln (ψ) → l(ψ)
para cada ψ ∈ Ψ, para esto será necesario expresar pψ (Y1:n |Y0 ) en términos del
filtro de predicción P(Xk |Y0:n ).
Lema 5. Sea δ = ı́nf i,j=1:m aij . Definimos para 0 < l < k
Z Z
Dk,l = log p(Yk |Y0:k−1 , xk )axk−1 ,xk P(xk−1 |Yl:k−1 )µc (dxk )µc (dxk−1 ),

Entonces |Dk,l − Dk,0 | ≤ 2δ −1 (1 − δ)k−1−l .


Demostración. Fermı́n et al. [20].
Proposición 2. Supongamos que el espacio de parámetros Ψ es compacto y
ln (ψ) = n−1 log pψ (Y1:n |Y0 ) entonces ln (ψ) es continua y l(ψ) = lı́mn→∞ ln (θ)
existe c.s para cada ψ ∈ Ψ.
Demostración. Fermı́n et al. [20].
Teorema 4. Supongamos que Ψ es un conjunto compacto. Además
1. ψ = ψ ∗ si y sólo si Pψ = Pψ∗ .
2. Para todo i, j ∈ {1, . . . , m} y todo y, y 0 ∈ R × R las funciones ψ → aij y
pψ (Y1 = y|Y0 = y 0 , X1 = i) son continuas.
0
3. Se satisface la siguiente condición de Lipschitz |Dkψ − Dkψ | ≤ Kkψ − ψ 0 k
Entonces el estimador de máxima verosimilitud ψˆn es consistente.
Demostración. Para la consistencia es suficiente demostrar, suponiendo la con-
dición de Lipschitz 3. que la convergencia en la proposición 2 es uniforme en
ψ. Como las funciones ln (ψ) son continuas su lı́mite l(ψ) lo es. La hipótesis
0
|Dkψ − Dkψ | ≤ ckψ − ψ 0 k implica que ln (ψ) es Lipschizt por lo tanto l(ψ) tam-
bién.
Como Ψ es compacto, se puede cubrir por un número finito de abiertos de
radio ε para cualquier ε > 0. Existe {ψ1 , . . . , ψl } ⊂ Ψ tal que cada ψ ∈ Ψ esta
a distancia ε de algún punto en {ψ1 , . . . , ψl } ⊂ Ψ. Por desigualdad triangular
se tiene,
|ln (ψ) − l(ψ)| ≤ |ln (ψk ) − ln (ψ)| + |ln (ψk ) − l(ψk )| + |l(ψk ) − l(ψ)|
28 L Rodrı́guez

Por la condición de Lipschitz 3. tenemos que


|ln (ψk ) − ln (ψ)| ≤ K|ψk − ψ|
al tomar esperanza se obtiene la misma cota para |l(ψk ) − l(ψ)|, ası́
sup |ln (ψ) − l(ψ)| ≤ 2Kε + máx |ln (ψk ) − l(ψk )|
ψ∈Ψ k=1:l

Como ε > 0 es arbitrario y ln (ψk ) → l(ψk ) puntualmente por proposición 2,


entonces ln → l c.s uniformemente.
Como el estimador de máxima verosimilitud está definido por ψ̂n = arg máxψ
y demostramos que ln → l uniformemente, por lo tanto se sigue del Lema 4 que
ψ̂n → ψ ∗ = arg máx l(ψ),
ψ

y este valor es único en virtud de la suposición de identificabilidad.


Para demostrar la normalidad asintótica del estimador de máxima verosimi-
litud, la idea se basa en que el gradiente de la función se anula en su máximo y
el desarrollo en Taylor siguiente permite escribir,
0 = ∇ψ ln (ψ̂n ) = ∇ψ ln (ψ ∗ ) + ∇2ψ ln (ψ ∗ )(ψ̂n − ψ ∗ ) + Rn

al despejar en la expresión anterior y normalizar por n, se tiene
√ √
n(ψ̂n − ψ ∗ ) = −(∇2ψ ln (ψ ∗ ))−1 (∇ψ ln (ψ ∗ ) + Rn ) n.
Estos argumentos nos permiten enunciar el próximo teorema.
Teorema 5. Bajo las hipótesis del teorema 4. Suponemos que la matriz de
información asintótica de Fisher J(ψ ∗ ) = var(∇ψ l(ψ ∗ )) es no singular y ψ ∗
pertenece al interior de Ψ.Entonces cuando n → ∞,

n∇ψ ln (ψ ∗ ) → N (0, J(ψ∗)), en distribución.
−(∇2ψ ln (ψ ∗ )) → J(ψ ∗ ), c.s.

nRn → 0, c.s.

lo que permite concluir que n(ψ̂n − ψ ∗ ) → N (0, J(ψ ∗ )−1 ), en distribución.
Para una demostración de este resultado referimos a Douc et. al. [12]. La
demostración es muy general y abarca a procesos autorregresivos controlados
por cadenas de Markov con espacio de estados compactos no necesariamente
finitos.
Como menciona Ailliot en [1] en el caso de AR-RM, hasta donde sabemos, no
se conocen resultados referentes a la normalidad asintótica en el caso particular
de una cadena con espacio de estados finito. Caso en el cual las integrales en
Douc et. al. [12] son sumas finitas que permitirı́an intercambios de lı́mites y
derivadas debilitando las hipótesis del caso general.
Propiedadades de procesos AR-RM 29

4.1. Caso lineal y gaussiano

De aquı́ en adelante nos concentraremos en el caso lineal y gaussiano. Con-


sideramos como función de verosimilitud para el conjunto de observaciones Y0:n
y el parámetro ψ = (θ, σ 2 , A) a la distribución condicional pψ (Y1:n |Y0 ).
Pn
Será necesaria la siguiente notación: para cada 1 ≤ i ≤ m, ni = k=1 1Ii (xk )
es el número de visitas de una realización de la cadena de Markov {Xn }n≥1 al
Pn−1
estado i en los primeros n pasos. nij = k=1 1Ii,j (xk−1 , xk ) es el número de
transiciones de i a j en n pasos.
En virtud de la regla de la probabilidad total, la función de verosimilitud
del modelo se representa como
X X
pψ (Y1:n |Y0 ) = pψ (Y1:n , x1:n |y0 ) = pθ,σ2 (Y1:n |Y0 , x1:n )pA (x1:n ) (9)
x1:n x1:n

donde

n Y
m
" #1Ii (Xk )
(Yk − ρi Yk−1 − bi )2

Y 1
pθ,σ2 (Y1:n |Y0 , X1:n ) = exp − .
σi2
p
k=1 i=1
2πσi2

y
n Y
m
Y 1I (x ,x )
pA (x1:n ) = aiji,j k k+1 .
k=1 i,j=1

Demostraremos que las hipótesis del teorema 3 para la consistencia son cier-
tas en este caso particular. Viendo directamete que el proceso de verosimilitud
normalizado por v(n) = 1/n es equicontinuo. Este resultado es demostrado pa-
ra cadenas de Markov ocultas con espacio de estados y observaciones discretas
en Finesso [15] y es extendido a AR-RM lineales gaussianos en Rı́os y L. A.
Rodrı́guez [23].
1
Teorema 6. El conjunto de funciones fn (ψ) = n log pψ (Y1:n |Y0 ) es una suce-
sión equicontinua c.s-Pψ0 .

Demostración. Necesitaremos la siguiente notación: Para cada i ≤ m,

Ii := {k ≤ n : Xk = i} = {k1i , . . . , kni }

Sean los vectores Yi := (Yk1i , . . . , Ykni )t , Yi−1 := (Yk1i −1 , . . . , Ykni −1 )t y


Ei := {ek1i , . . . , ekni }.

El simbolo 1i denotará el vector transpuesto que tiene 1 en todas sus


posiciones y tiene talla ni , Wi = [1i Yi−1 ].
30 L Rodrı́guez

De acuerdo con la notación establecida podemos representar el proceso AR-


RM definido por la ecuación (2) por m modelos lineales, para cada i ≤ m

Yi = Wi θi + σi Ei .

por lo tanto la distribución de las observaciones Y0:n condicional a X1n se escribe


como
m  
Y 1 1 T
pψ (Y1:n |Y0 , X1:n ) = p exp − 2 (Yi − Wi θi ) (Yi − Wi θi ) .
2 ni
i=1 ( 2πσi )
2σi

Trabajaremos directamente con la cadena de Markov extendida {(Yn , Xn )}.


Definimos h(ψ) = n1 log pψ (Y0:n , X1:n ) y sean ψ, ψ 0 ∈ Ψ, demostraremos que,
∀ε > 0 existe δ(ε) > 0 tal que:

∀n |hn (ψ) − hn (ψ 0 )| ≤ ε si kψ − ψ 0 k < δ(ε).

La verosimilitud completa pψ (Y0:n , X1:n ) queda escrita como


n Y m m  
Y 1Ii,j (xk ,Xk+1 ) Y 1 1 T
aij exp − 2 (Yi − Wi θi ) (Yi − Wi θi )
i,j=1
k=1 i=1
(2πσi2 )ni /2 2σi

de donde

|hn (ψ) − hn (ψ)|


e
m m
1 X 1 X
≤ nij | log aij − log eaij | + ni log σi2 − log σ
f2 +
i
n i,j=1 2n i=1
m ! m !
1 X 1 1 T
1 X
T θi θei
+ − Yi Yi + Yi Wi −

n i=1 2σi2 n σi2

2σf2 f2
σ
i i=1 i
!T !
Xm
1 θi θi
e θi θi
e
WiT Wi

+ 2 − 2 − . (10)
n i=1 σi
f2
σ σi f2
σ
i i

El lado derecho de la desigualdad anterior se acota de siguiente manera

aij , σi2 , σ
Como nij /n ≤ 1, ni /n ≤ 1 y los parámetros aij , e f2 son acotados
i
por debajo, existe una constante C1 tal que los dos primeros términos en
la desigualdad están acotados por C1 kψ − ψk.
e

En el tercer sumando observamos que debido a la compacidad del espacio


de parámetros, existe una constante C2 tal que
m ! n
1 X 1 1 T

2 2k
1X
− Y Y ≤ C kσ − σ Yk
f
i i 2
n 2σi2 n

f2

i=1 i k=1
Propiedadades de procesos AR-RM 31

La condición de estabilidad y la existencia de momentos de e1 (Yao y Atalli


[26]) garantizan que podamosPutilizar el teorema ergódico para controlar
n
los términos de la forma 1/n k=1 g(Yk ). Por lo tanto
n
f2 k 1
X
C2 kσ 2 − σ Yk ≤ C3 kψ − ψk
e c.s.
n
k=1

Por el mismo argumento de compacidad


!
m n m Xn
1 X T θi θei 1 X 1 X
Yi Wi − ≤ C4 kψ − ψk Yk + Yk Yk−1
e
n i=1
2
σi 2 n n
σ
f
i

k=1i=1 k∈Ii

y nuevamente, de acuerdo al teorema ergódico, el lado derecho de la de-


sigualdad anterior es menor que C4 kψ − ψk
e c.s.

Por la desigualdad de Cauchy-Schwarz


!T !
X m
1 θi θi
e θi θi
e
WiT Wi

2 − 2 −
n i=1 σi
f2
σ σi f2
σ
i i
!
m
1 X θi θei
WiT Wi

≤ −
n σi2

σ
f 2
i=1 i
m
e 1
X
WiT Wi .

≤ C5 kψ − ψk
n i=1

Ahora bien, la norma de la matriz simétrica WiT Wi viene dada por el


módulo del autovalor real más grande, el cual en nuestro caso es
p
tr(WiT Wi ) + tr(WiT Wi )2 − 4 det WiT Wi
.
2
Como det WiT Wi es positivo,
p
tr(WiT Wi ) + tr(WiT Wi )2 − 4 det WiT Wi
≤ tr(WiT Wi ).
2
Tenemos que tr(WiT Wi ) = ni + k∈Ii Yk2 , entonces
P

m n
1 X WiT Wi ≤ 1 + 1
X
Yk2 .

n i=1 n
k=1

Ası́ el último término de (10) es menor que C5 kψ − ψk.


e
32 L Rodrı́guez

Podemos concluir que existe una constante C tal que

|hn (ψ) − hn (ψ 0 )| ≤ Ckψ − ψ 0 k, c.s.

lo que implica que hn es una sucesión equicontinua. Para regresar a {Yn } ob-
servamos que
1
log pψ (Y0:n , X1:n ) ≤ ε,

n pψ0 (Y0:n , X1:n )
de donde
pψ0 (Y1:n , X1:n ) ≤ exp(εn)pψ (Y1:n , X1:n )
y sumando sobre X1:n = x1:n
X X
pψ0 (Y1:n |Y0 ) = pψ0 (Y0:n , x1:n ) ≤ exp(εn) pψ (Y0:n , x1:n ) = pψ (Y1:n |Y0 )
x1:n x1:n

1 pψ0 (Y1:n |Y0 )
por consiguiente log
≤ ε.
n pψ (Y1:n |Y0 )
Con este resultado estamos en las hipótesis del teorema 3 garantizando la
consistencia del estimador de máxima verosimilitud para el caso lineal y gaussia-
no.

4.2. Prueba de hipótesis


En esta sección estudiamos el comportamiento del cociente de verosimilitud
(CV) para probar la hipótesis nula de identificar un modelo CMO contra la
alternativa de un proceso AR-RM. Para la prueba de hipótesis de un modelo de
CMO contra un proceso AR-RM seguimos las ideas de Giudici et al. [16], de-
mostramos que la teorı́a asintótica del CV es válida en este caso. Consideramos
la prueba H0 : ρ = 0 contra H1 : ρ 6= 0.
Teorema 7. 2(l(ρ̂) − l(0)) → χ21 , bajo P0 .
Demostración. Expandimos l(ρ) por Taylor alrededor de ρ̂,

∂l(ρ̂) 1 ∂ 2 l(ρ̂) 2
l(ρ̂) − l(0) = ρ̂ + ρ̂ l(ρ̃)
∂ρ 2 ∂ρ2 ψ
∂l(ρ̂)
donde ρ̃ = λρ̂, λ ∈ (0, 1). También ∂ρ = 0. Ası́
 2 
∂ l(ρ̃)
−2(l(ρ̂) − l(0)) = ρ̂2 −
∂ρ2
p
De acuerdo al teorema 4 ρ̂ J(0) → N (0, 1) y como J(ρ̃)/J(0) → 1 entonces
ρ̂2 J(0) → χ21 .
Propiedadades de procesos AR-RM 33

El teorema garantiza que podemos emplear la prueba CV para rechazar H0


si −2(l(ρ̂) − l(0)) ≥ χ21,q , donde χ21,q es el q-cuartil de la distribución χ21 .
Ahora introducimos una metodologı́a de estimación para el caso lineal y
gaussiano basada en un algoritmo de datos incompletos.

4.3. El algoritmo SAEM


El estimador de máxima verosimilitud es una solución de la ecuación
∇ψ log pψ (y1:n |y0 ) = 0.
Como esta ecuación no tiene una solución analı́tica cerrada, al calcular
numéricamente una solución aproximada se deben considerar los mn términos
que aparecen en la ecuación (9). Esto restringe el modelo a un número limitado
de observaciones y a cadenas con pocos estados. Como una alternativa, para
modelos de CMO Baum et al. [4] introducen el algoritmo forward-backward,
que es una versión temprana del algoritmo EM. El algoritmo EM propuesto en
su forma general por Dempster et al. [11] maximiza la función log-verosimilitud
en problemas con datos incompletos. Este algoritmo es un método recursivo
que permite cambiar la maximización de la función de verosimilitud observada
por un problema de maximización de la verosimilitud completa pψ (y0:n , x1:n ),
la cual viene dada por
m
n Y n m
" #1Ii (xk )
(yk − ρi yk−1 − bi )2

Y 1Ii,j (xk ,xk+1 ) Y Y 1
aij exp − .
σi2
p
k=1 i,j=1 k=1 i=1
2πσi2
(11)
Para describir el paso t + 1 de este algoritmo, consideramos
Q(ψ, ψ (t) )
= E(log pψ (Y0:n , X1:n )|Y0:n = y0:n , ψ (t) )
N
X −1 m
X
= E(1Ii,j (Xn , Xn+1 )|Y0:n = y0:n , ψ (t) ) log(aij )
n=1 i,j=1
N −1 X
m
log(2πσi2 ) (yk − ρi yk−1 − bi )2
X  
(t)
+ E(1Ii (Xn )|Y0:n = y0:n , ψ ) − − .
n=1 i=1
2 σi2

El algoritmo EM se desarrolla en dos pasos, en el paso E se evalúa la función


Q(ψ, ψ (t) ) y en el paso M calculamos
ψ (t+1) = argmax Q(ψ, ψ (t) ).
ψ∈Ψ

Como e1 se distribuye gaussiano el modelo pertenece a la familia exponencial,


ası́ satisface las hipótesis que garantizan la convergencia del algoritmo EM.
34 L Rodrı́guez

Para reducir la posibilidad de estimar máximos locales, utilizamos una ver-


sión estócastica del algoritmo EM llamada SAEM. La convergencia del algoritmo
SAEM es demostrada por Delyon et al. [10]. La ventaja de utilizar el algoritmo
SAEM y no el EM se explica por la sensibilidad del último a la elección del
parámetro de partida del algoritmo. Para una buena elección del parámetro de
partida, las salidas de los dos algoritmos son las mismas. Sucesivas aplicaciones
del algoritmo EM para malas elecciones de los puntos de partida nos llevan a
salidas lejanas a las obtenidas con buenas elecciones de los puntos de partida,
por el contrario, el algoritmo SAEM, arroja los mismos resultados. Para com-
paraciones entre versiones estocásticas del algoritmo EM referimos a Celeux et
al. en [5, 9, 8].
El algoritmo EM se modifica reemplazando el paso de esperanza (E) por: un
paso de simulación (ES) y un paso de aproximación estocástica (EA):
(t)
ES Simulamos una realización x1:n del vector oculto con distribución de pro-
babilidad pψt−1 (x1:n |y1:n ).
EA Actualizamos la aproximación del EM por la cantidad:
   
(t)
Q̂t+1 = Q̂t + γt log pψt−1 y0:n , x1:n − Q̂t

donde (γt ) satisface la condición:


P∞ P∞
(RM) Para todo t ∈ N, γt ∈ [0, 1], t=1 γt = ∞ y t=1 γt2 < ∞.

4.4. Paso ES
En esta sección describimos el método de simulación que usamos en el algo-
ritmo SAEM. Para muestrear de la distribución condicional
pψ (x1:n |y0:n ) = λx1 p(y1 |y0 , x1 ) . . . axn−1 xn p(yn |yn−1 , xn )/pψ (y1:n |y0 ),
para todo x1:n ∈ {1, . . . , m}N . Carter y Kohn en [7] proponen una método
de muestreo que es una versión estocástica del algoritmo forward-backward
propuesto por Baum et al. [4]. Esto se tiene observando que pψ (x1:n |y0:n ) admite
la descomposición,
n−1
Y
pψ (x1:n |y0:n ) = pψ (xn |y0:n ) pψ (xk |xk+1 , y0:n ).
k=1

Dado Xk+1 conocido, pψ (Xk |Xk+1 , y0:n ) es una distribución discreta, lo cual nos
sugiere la siguiente estrategia de muestreo. Para k = 2, . . . , n, i ∈ {1, . . . , m},
calculamos recursivamente el filtro óptimo p(Xk |y0:k , ψ) como
m
X
p(Xn = i|y0:k , ψ) ∝ pψ (yk |yk−1 , Xk = i) aij p(Xk−1 = j|y1:k , ψ).
i=1
Propiedadades de procesos AR-RM 35

Entonces, muestreamos Xn de p(Xn |y0:n , ψ) y para k = n − 1, . . . , 1, Xk se


muestrea de
aix p(Xk = i|y0:k , ψ)
p(Xk = i|Xk+1 = xk+1 , y0:k , ψ) = Pmk+1 .
l=1 ail p(Xk = l|y0:k , ψ)
(t)
En consecuencia este procedimiento genera una cadena de Markov {x1:n }t≥1
ergódica en el espacio de estados finito {1, . . . , m}N , tal que p(x1:n |y0:n , ψ) es
su distribución estacionaria. La ergodicidad sigue demostrando irreducibilidad y
aperiodicidad, para esto observamos que el núcleo de transición Q de la cadena
simulada es positivo,
   Q  
(t) (t−1) (t) N −1 (t) (t)
Q x1:n |x1:n , ψ ∝ p x1:n |y0:n , ψ n=1 p x1:n |x1:n , y0:n , ψ > 0.

En este caso por teoremas clásicos de cadenas de Markov finitas (Kemeny y


Snell [18]) se satisface que,
 
(t+1) (t)
Q x1:n , x1:n , ψ − p(X1:n |y0:n , ψ) ≤ Cρt−1 ,

con C = card({1, . . . , m}N ), ρ = (1 − 2Kx∗ ) y K ∗ = ı́nf K(x0 |x, ψ), para x, x0 ∈


{1, . . . , m}N .

4.4.1. Paso EA La verosimilitud completa del modelo (11), pertenece a


la familia de distribuciones exponecial. En este caso, el paso EA se sustituye
por una aproximación de tipo Robins-Monro (ver Duflo [14]) para estadı́sticos
suficientes S(X1:n ) de la cadena de Markov oculta, definidos por
n,(t)
Ŝ (t) = Ŝ (t−1) + γt (S(x1 ) − Ŝ (t−1) ). (12)
En nuestro caso S = (S1 , S2 , S3 ), donde:
S1 (X1:n ) = [1Ii (Xk )]1≤i≤m,1≤k≤n .
S2 (X1:n ) = (n1 (X1:n ), . . . , nm (X1:n )).
S1 (X1:n ) = [nij (X1:n )]1≤i,j≤m .
El paso de maximización, cuando ρi = 0, está dado por,
(t+1)
(t+1) S3 [i, j]
aij
b = (t+1)
S2 (i)
Pn (t+1)
bb(t+1) k=1 S1 [i, k]yn
i = (t+1)
S2 (i)
n 2
c2
(t+1) 1 X (t+1) 
(t+1)
σ i = S1 [i, k] yn − bi ,
n
k=1
36 L Rodrı́guez

y para ρi 6= 0,
(t+1)
(t+1) S3 [i, j]
aij
b = (t+1)
S2 (i)
Pn−1 (t+1) Pn−1 (t+1) PN (t+1)
(t+1) k=1 S1 [i, n]yk yk−1 − k=1 S1 [i, k]yk k=1 S1 [i, k]yk−1
ρbi = Pn−1 (t+1) P 2
2 n−1 (t+1)
k=1 S1 [i, k]yk−1 − k=1 S1 [i, k]yk
n−1 n
bb(t+1) (t+1) (t+1)
X X
i = S1 [i, k]yk − ρbi S1 [i, k]yk−1
k=1 k=1
n 2
c2
(t+1) 1 X (t+1) 
(t+1)
σ i = S1 [i, k] yn − ρi yn−1 − bi
n
k=1

Al considerar fijas las observaciones y1:n las expresiones anteriores definen de


forma explı́cita, en cada uno de los dos casos de estudio, la aplicación ψb = ψ(S)
entre los estadı́sticos suficientes y el espacio de parámetros. Esta es necesaria
para el estudio de convergencia del algoritmo SAEM.

4.4.2. Convergencia El procedimiento de simulación genera una cadena


(t)
de Markov finita {x1:n }. Las hipótesis de Delyon et al. [10] que garantizan la
convergencia del algoritmo SAEM en este caso son válidas y se resumen en:

Teorema 8. Suponemos las condiciones que garantizan la convergencia del


algoritmo EM, la condición (RM) y las siguientes hipótesis:

SAEM1. Las funciones pψ (y1:n |y0 ) y ψ̂ = ψ(S) son l veces diferenciables.

SAEM2. La función ψ → Qψ = Q(·|·, ψ) es continuamente diferenciable


en Ψ. El núcleo de transición Qψ genera una cadena de Markov ergódica
(t)
con distribución invariante pψ (x1:n |y0:n ). La cadena {x1:n } toma valores
en un conjunto compacto. La función S es acotada.

Entonces, w.p 1, limt→∞ d(ψ (t) , L) = 0, donde

L = {ψ ∈ Ψ : ∂ψ log pψ (y1:n |y0 ) = 0}

es el conjunto de puntos estacionarios.

En nuestro caso las hipótesis del teorema se verifican, en efecto la condición


(RM) es satisfecha si elegimos γt = 1/t, SAEM1 es cierta porque e1 se distribuye
normal y SAEM2 es una consecuencia de los discusión en §4.4. Esto garantiza
que el teorema anterior aplica y de aquı́ obtenemos la convergencia.
Propiedadades de procesos AR-RM 37

5. Ejemplos numéricos

Ilustramos el comportamiento de los métodos de estimación considerando


algunos datos simulados. Trabajamos con un CMO y dos AR-RM. Estimamos
el número de estados utilizando el Critero de Información Bayesiano (BIC), este
método considera la estimación por máxima verosimilitud penalizada (MVP),
utilizando como función de penalidad pen = log(N 2
)
dim(Ψm ). Con respecto a la
consistencia de métodos de verosimilitud penalizada el lector interesado puede
consultar R. Rı́os y L. A. Rodrı́guez [23].
Para evaluar la función de verosimilitud en cualquier parámetro ψ se calcula
m
X
p(y1:N |y0 ψ) = %N (i),
i=1

donde %n (i) = p(y1:n , Xn = i) se evalúa recursivamente con la siguiente fórmula


forward de Baum,
m
X
%n (j) = %n−1 (i)aij p(yn |yn−1 , Xn = i)
i=1

ver D. Le Nhu et ali. [22].


A seguir describimos los ejemplos y mostramos los resultados.

5.1. HMMs

En la simulación del modelo CMO tenemos los siguiente parámetros: dim(Ψm ) =


m2 + 1 N = 500, m = 3, σ 2 = 1.5, θ = (−2, 1, 4),
 
0.9 0.05 0.05
A =  0.05 0.9 0.05  ,
0.05 0.05 0.9

la serie observada es graficada en la Figura 1. El Cuadro 1 contiene los valores al


evaluar el máximo de la verosimilitud penalizada para m = 2, . . . , 7, observemos
que m̂ = 3. En este caso ψ̂ lo estimamos utilizando SAEM, donde los valores
obtenidos son, σˆ2 = 1.49, θ̂ = (−1.98, 4.09, 0.91),
 
0.8650 0.0274 0.1076
 =  0.0404 0.8943 0.0653  ,
0.0658 0.0648 0.8694

en la Figura 2 graficamos la sucesión {ψ (t) }, t = 1, . . . , 4000 y observamos la


convergencia de los estimados.
38 L Rodrı́guez

m −l(ψ) pen −l(ψ) + pen


2 802.32 15.53 817.85
3 419.09 31.07 450.16
4 417.70 52.82 470.52
5 464.70 80.78 545.48
6 445.89 114.97 560.86
7 436.26 155.36 591.62

Cuadro 1: Evaluación de MVP

−2

−4

−6

−8
0 50 100 150 200 250 300 350 400 450 500

Figura 1: Serie observada y1 , . . . , y500 en el caso CMO


.

5.2. AR-RM

En el primer proceso AR-RM que simulamos elegimos los parámetros: dim(Ψm ) =


m(m + 1) + 1, N = 500, m = 2, σ 2 = 1.5,
   
1 −1 0.9 0.1
θ= , A= ,
−0.5 0.5 0.1 0.9

la serie observada es graficada en la Figura 3. El Cuadro 2 contiene los valores


para el MVP para m = 2, . . . , 6, observemos que m̂ = 2. En este caso ψ̂ fue
estimado utilizando SAEM, cuyos valores son, σˆ2 = 1.42,
   
1.07 −0.96 0.8650 0.1350
θ̂ = Â = ,
−0.5 0.5 0.1130 0.8870

en la Figura 4 graficamos la sucesión {ψ (t) }, t = 1, . . . , 1000 y observamos la


convergencia de los estimados.
Propiedadades de procesos AR-RM 39

7 5

4
6

3
5

3
0

2
−1

1.5

1 −2
0 500 1000 1500 2000 2500 3000 3500 4000 0 500 1000 1500 2000 2500 3000 3500 4000

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
0 500 1000 1500 2000 2500 3000 3500 4000

Figura 2: Convergencia de los estimados, σ 2 , θ y A.

−2

−4

−6
0 50 100 150 200 250 300 350 400 450 500

Figura 3: Serie observada y1 , . . . , y500 para el proceso AR-RM


40 L Rodrı́guez

m −l(ψ) pen −l(ψ) + pen


2 351.14 18.64 369.78
3 346.64 37.28 383.92
4 355.10 64.14 417.24
5 354.52 93.21 447.73
6 384.50 130.50 515.00

Cuadro 2: Evaluación de MVP

0.6
1.1 0.5
1 0.4

0.8
0.2

0.6
0

0.4
−0.2
0.2

−0.4
0

−0.6
−0.2

−0.4 −0.8

−0.5
−0.6 −1
0 100 200 300 400 500 600 700 800 900 1000 0 100 200 300 400 500 600 700 800 900 1000

3 0.9

2.8 0.8

2.6
0.7

2.4
0.6

2.2
0.5
2

0.4
1.8

0.3
1.6
1.5
1.4 0.2

1.2 0.1
0 100 200 300 400 500 600 700 800 900 1000 0 100 200 300 400 500 600 700 800 900 1000

Figura 4: Convergencia de los estimados, θ1 , θ2 , σ 2 , y A.


Propiedadades de procesos AR-RM 41

300

200

100

−100

−200

−300

−400
0 50 100 150 200 250 300 350 400 450 500

Figura 5: Serie observada y1 , . . . , y500 para el AR-RM.

1.5
0.9
0.8 1.08
0.9

0.6
0.5

0.4
0

0.2
−0.5
0

−1
−0.2

−1.5
−0.4

−0.6 −2

−0.7
−0.8 −2.5
0 20 40 60 80 100 120 140 160 180 200 0 20 40 60 80 100 120 140 160 180 200

2.1 1

0.9
2

0.8

1.9 0.7

0.6
1.8

0.5

1.7
0.4

1.6 0.3

0.2

1.5
0.1

1.4 0
0 20 40 60 80 100 120 140 160 180 200 0 20 40 60 80 100 120 140 160 180 200

Figura 6: Convergencia de los estimados, θ1 , θ2 , σ 2 , and A.


42 L Rodrı́guez

En la segunda simulación del AR-RM elegimos los parámetros: N = 500,


m = 2, σ 2 = 1.5,
   
1 −2 0.9 0.1
θ= A=
−0.7 1.08 0.1 0.9

la gráfica de la serie se observa en la Figura 5. En este caso observemos que


una de las pendientes de las rectas de regresión tiene coeficiente ρi > 1 que en
el caso de un proceso autorregresivo de orden 1 implicarı́a la inestabilidad del
mismo. Este ejemplo muestra la versatilidad de los AR-RM porque permiten
modelar series temporales que son heterogéneas y volátiles por trozos.
Para este ejemplo m = 2 es fijo y ψ̂ es estimado usando SAEM, los valores
son, σˆ2 = 1.42,
   
0.85 −2.01 0.9093 0.0907
θ̂ = Â = ,
−0.69 1.08 0.019 0.9181

en la Figura 6 graficamos la sucesión {ψ (t) }, t = 1, . . . , 1000 y observamos la


convergencia de los estimados.
Agradecimientos. A Ricardo Rı́os por su discusiones en estos temas y a Marc
Lavielle por toda su ayuda en versiones tempranas de los algoritmos.

Referencias

[1] P. Ailliot. Some theoretical results on Markov-switching autoregressive


models with gamma innovations. C. R. Acad. Sci. Paris, Ser. I, 343:271–
274, 2006.

[2] D. Andrews. Non-strong mixing autoregressive procesess. J. Appl Prob.,


21:930–934, 1984.

[3] J-G Attali. Ergodicity of a certain class of non Feller models : applications
to ARCH and Markov switching models. ESAIM: PS, 8:76–86, 2004.

[4] L. E. Baum, T. Petrie, G. Soules, and N. Weiss. A maximization tecnique


occuring in the statistical analysis of a probabilistic functions of Markov
chains. Ann. Math. Stat., 41:164–171, 1970.

[5] M. Broniatowski, G. Celeux, and J. Diebolt. Data Analysis and Informa-


tics. North Holland, 1983. Reconnaissance de mèlanges de densitè par un
algorithme d’apprentissage probabiliste.

[6] O. Cappe. Ten years of HHMs. Preprint (online). Available: http://www-


sig.enst.fr/˜cappe, 2001.
Propiedadades de procesos AR-RM 43

[7] C. K Carter and R. Kohn. On Gibbs sampling for state space model.
Biometrika, 81:541–553, 1994.
[8] G. Celeux, D. Chauveau, and G. Diebol. On stochastic version of the em
algorithm. Rapport de recherche INRIA, 2514, 1995.
[9] G. Celeux and J. Diebolt. A stochastic approximation type em algorithm
for the mixture problems. Stochastics Reports, 41:119–134, 1992.
[10] B. Delyon, M. Lavielle, and E. Moulines. Convergence of a stochastic
approximation version of EM algorithm. The Annals of Statistics, 27(1):94–
128, 1999.
[11] A. Dempster, N. Laird, and D. Rubin. Maximum-likelihood from incom-
plete data via the EM algorithm. J. Roy. Statist. Soc. Ser. B, 39:1–38,
1977.
[12] R. Douc, E. Moulines, and T. Rydén. Asymptotic properties of the ma-
ximum likelihood estimator in autoregressive models with Markov regime.
Ann. Statist., 32:2254–2304, 2004.
[13] P. Doukhan. Mixing: Propierties and Examples., volume 85. Lecture Notes
in Statist., 1994.
[14] M. Duflo. Algorithmes Stochastiques. Springer-Verlag, Berlin, 1996.
[15] L. Finesso. Estimation of the order a finite Markov chain. PhD thesis,
University of Maryland, 1990.
[16] P. Giudici, T. Ryden, and P. Vandekerkhove. Likelihood-ratio test for
hidden markov models. Biometrics, pages 742–751, 2000.
[17] J.D. Hamilton. A new approach to the economic analysis of non stationary
time series and the business cycle. Econometrica, pages 357–384, 1989.
[18] J. G. Kemeny and J. L. Snell. Finite Markov Chains. Van Nostrand,
Princenton, New Jersey, 1960.
[19] V. Krishnamurthy. Recursive Algorithms for estimation of hidden Markov
Models with markov regime. IEEE Trans. Information theory, 48(2):458–
476, 2002.
[20] Fermı́n L., Rı́os, and L. A. Rodrı́guez. Asymptotic properties of the maxi-
mum likelihood estimator for functional ar process with markov-switching.
In preparation, 2014.
[21] S.P. Meyn and R.L. Tweedie. Markov Chains and. Stochastic Stability.
Springer-Verlag, 1993.
44 L Rodrı́guez

[22] D. Le Nhu, B. G. Leroux, and M. L. Puterman. Exact Likelihood Evalua-


tion in a Markov Mixture Model for Time Series Series of Seizure Counts.
Biometrics, 48:317–323, 1992.
[23] R. Rı́os and L. A. Rodrı́guez. Penalized estimate of the number of states
in gaussian linear ar with markov regime. Electronic Journal of Statistics,
pages 1111–1128, 2008.
[24] J. Rynkiewicz. Modéles hybrides intégrant des réseaux de neurones artifi-
ciels à des modeles de chaı̂nes de Markov cachee: application à la prediction
de series temporelles . PhD thesis, Universite Parı́s I, 2000.

[25] R. v. Handel. Hidden Markov Models. Lecture notes:


https://www.princeton.edu/ rvan/, 2008.
[26] J. Yao and J. G. Attali. On stability of nonlinear AR process with Markov
switching. Adv. Applied Probab, 1999.

Luis-Angel Rodrı́guez
Departamento de Matemáticas. Facultad de Ciencias y Tecnologı́a
Universidad de Carabobo
Valencia, Venezuela
larodri@uc.edu.ve

También podría gustarte