Procesos Autoregresivos No Lineales Markov

See
discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/288467114
Algunas propiedades de procesos autorregresivos

lineales y no lineales con régimen de Markov
Article · January 2015
CITATIONS READS
0 8
1 author:
Luis Angel Rodriguez

Universidad de Carabobo, UC
14 PUBLICATIONS 26 CITATIONS
SEE PROFILE
All in-text references underlined in blue are linked to publications on ResearchGate, Available from: Luis Angel Rodriguez
letting you access and read them immediately. Retrieved on: 09 September 2016
Boletı́n de la Asociación Matemática Venezolana, Vol. XXII, No. 1 (2015) 15
Algunas propiedades de procesos autorregresivos

lineales y no lineales con régimen de Markov
Luis-Angel Rodrı́guez
Resumen. En este trabajo se presentan un conjunto de proposicio-

nes referentes a los procesos autorregresivos con régimen de Markov,
mostrando propiedades que abarcan desde aspectos probabilı́sticos
hasta algunas técnicas de su inferencia estadı́stica. Algunos resul-
tados clásicos son demostrados con técnicas de interés general para
extensiones del tema.
2010 Mathematics Subject Classification: Primary: 60G17, Secondary: 62G07.
Keywords and Phrases: Procesos autorregresivos, cadenas de Markov ocultas,
regresión de estructura variable, máxima verosimilitud.
El objetivo central de este trabajo es dar una introducción al estudio de pro-

cesos de autorregresivos con régimen de Markov, estos pueden ser vistos como
una combinación de los modelos de cadenas de Markov ocultas (CMO) y los
modelos de regresión y autorregresión con umbrales. El estudio de las propie-
dades que caracterizan a los procesos autorregresivos con régimen de Markov
en algunos casos es análogo en técnicas de demostración a las utilizadas para
los procesos autorregresivos y en otros casos con técnicas que vienen desde el
estudio de modelos de CMO.
El uso de un régimen de Markov oculto ofrece la posibilidad de modelar series
temporales que cambian su comportamiento en el tiempo de manera marcada.
Hamilton en [17] utiliza un proceso autorregresivo con régimen de Markov en
el contexto económetrico, para el análisis anual de la serie del producto interno
bruto de los Estados Unidos, con dos regı́menes: contracción y expansión. Los
procesos autorregresivos lineales con régimen de Markov son usados en varias
áreas de la ingenierı́a eléctrica, incluidas detección de fallas y control estocástico
adaptativo, ver Cappe et al. [6] y sus referencias.
Un proceso autorregresivo con régimen de Markov (AR-RM) es un proceso
a tiempo discreto definido por:
Yn = rXn (Yn−1 ) + en (1)
donde {Xn }n≥1 es una cadena de Markov homogénea con valores en el conjunto
{1, . . . , m}, matriz de transición A = [aij ] siendo aij = P(Xn = j|Xn−1 = i).
16 L Rodrı́guez
Las funciones de regresión {r1 , . . . , rm } pertenecen a la clase de funciones F.

Una subclase muy importante de estos procesos es cuando las funciones de
regresión tiene la forma ri (y) = ρi y + bi , en este caso escribimos el modelo como
Yn = ρXn Yn−1 + bXn + en , (2)
para cada 1 ≤ i ≤ m denotamos por θi = (bi , ρi )t y

b1 b2 · · · bm
θ= .
ρ1 ρ2 · · · ρm
Si en la ecuación (2) los ρi = 0 para todo i = 1, . . . , m obtenemos un

modelo de cadena de Markov oculta. En la sección 4.2 estudiamos una prueba
de hipótesis para contrastar la hipótesis de un AR-RM lineal contra un modelo
de cadena de Markov oculta.
El resto del artı́culo esta estructurado de la manera siguiente. En la sección
2 se muestran las propiedades markovianas del proceso conjunto (Xn , Yn ). Bajo
hipótesis usuales, en la sección 3 se demuestra la existencia de la densidad del
proceso AR-RM. En la sección 5 se prueba la propiedad de dependencia débil
del proceso observado. En la sección 4.2, en el caso lineal con ruido gaussiano
se introducen algunas propiedades del proceso de verosimilitud, se propone un
metodologı́a de estimación basada en el algoritmo SAEM y se presentan simu-
laciones.
1. Propiedad de Markov del proceso conjunto
Se comienza esta sección introduciendo algunas definiciones de la larga taxo-

nomı́a de procesos de Markov que serán necesarias para caracterizar el proceso
conjunto {(Xn , Yn )}n≥1 . Para resultados generales para cadenas de Markov re-
ferimos por ejemplo a los libros de Duflo [14] y Meyn y Tweedie [21].
Sean (G, G), (E, E) espacios medibles, {un }n≥0 una sucesión de v.a. indepen-
dientes con valores en (G, G), F : E×G → E una función medible. Consideremos
un proceso estocástico {%n }n≥0 con valores en E. Supongamos que la v.a %0 y
la sucesión {un }n≥0 son independientes. Decimos que {%n }n≥0 es un modelo
iterativo si satisface la ecuación
%n = F (%n−1 , un ).
El siguiente lema demuestra que todo cadena de Markov con valores en un

espacio de estados finito es un modelo iterativo.
Lema 1. Toda cadena de Markov sobre un conjunto finito de estados E es un

modelo iterativo.
Propiedadades de procesos AR-RM 17
Demostración. Supongamos que tenemos una cadena de Markov {Xn }n≥1 sobre
un conjunto de estados E = {1, 2} y con matriz de transición

1−p p
A= .
q 1−q
Sea {Un }n≥1 una sucesión independiente de variables aleatorias uniformes

sobre [0, 1] y definamos la función F : E × [0, 1] → E por
 
 1 si p ≤ u ≤ 1  1 si 0 ≤ u < q
F (1, u) = F (2, u) =
2 si 0 ≤ u < p 2 si q ≤ u ≤ 1
 
por lo tanto la cadena de Markov {ζn }n≥1 definida como sistema iterativo por
ζn = F (ζn−1 , Un )
y {Xn }n≥1 tienen la misma matriz de transición, en efecto

P(F (1, Un = 1) = 1 − p si i = 1
P(ζn = i|ζn−1 = 1) =
P(F (1, un = 2) = p si i = 2
y
P(F (1, Un = 1) = q si i = 1
P(ζn = i|ζn−1 = 2) =
P(F (1, un = 2) = 1 − q si i = 2
por lo tanto se obtiene el lema.
Un modelo iterativo define una cadena de Markov con núcleo de transición
K(A, %n ) = P(%n−1 ∈ A), ver Duflo [14], pág 18.
Una cadena de Markov es ϕ-irreducible si existe una medida ϕ, tal que si
ϕ(A) > 0 entonces K(x, A) > 0 para todo x en el espacio de estados.
Denotamos por el simbolo 1IB (x) denota la función indicatriz de B, la cual
asigna el valor 1 si x ∈ B y 0 en otro caso. Una cadena de MarkovP∞ {%n }n≥0
es recurrente Harris, si cada vez que si ϕ(A) > 0, se tiene P%0 ( n=1 1IA (%n ) =
∞) = 1 para cualquier valor inicial %0 de la cadena de Markov. En este caso,
existe una única (salvo constante multiplicativa) medida invariante. Si además
esta medida es finita, el proceso se llama recurrente Harris positivo.
Una cadena de Markov con núcleo K es felleriana si, para toda función g
continua y acotada, la función Kg definida por
Z
Kg(x) := g(y)K(x, dy)
es continua. Una cadena de Markov es fuertemente felleriana si para toda función

medible y acotada g la función Kg es continua. En particular el modelo iterativo
18 L Rodrı́guez
es felleriano si F es una función continua y es fuertemente felleriano cuando la

sucesión {un }n≥0 tiene densidad con respecto a la medida de Lebesgue, ver
Duflo [14], pág 19.
Suponemos que un proceso AR-RM verifica las siguientes condiciones:
La cadena de Markov {Xn }n≥1 es recurrente y positiva. Su distribución

invariante se denota por, λ = (λ1 , . . . , λm ).
La sucesión de v.a {en }n≥1 es independiente e identicamente distribuida.
Y0 , la cadena de Markov {Xn }n≥1 y la sucesión {en }n≥1 son v.a. mutua-
mente independientes.
Demostraremos que el proceso conjunto {Zn }n≥1 definido por Zn = (Xn , Yn )

es un proceso de Markov, viendo que puede ser escrito como un modelo iterativo.
Lema 2. El proceso conjunto {Zn }n≥1 definido por Zn = (Xn , Yn ) es una
cadena de Markov con espacio de estados {1, . . . , m} × R. Además,
Esta cadena es felleriana si las funciones de regresión ri son continuas,
para i = 1, . . . , m.
Si la v.a. e1 admite una densidad Φ con respecto a la medida de Lebesgue
la cadena de Markov {Zn }n≥1 es fuertemente felleriana.
Si la densidad Φ de e1 es estrictamente positiva entonces la cadena de
Markov {Zn }n≥1 es ϕ-irreducible.
Demostración. El lema 1 implica que
Xn = F (Xn−1 , un ).
para una sucesión {un }n≥1 de variables aleatorias i.i.d centrada e independientes
de {en }n≥1 y donde F : E × [0, 1] → E es una función medible. Ası́, según el
lema 1, {Zn }n≥1 es un modelo iterativo markoviano de la forma

Xn F (Xn−1 , un )
Zn = = .
Yn rF (Xn−1 ,un ) (Yn−1 ) + en
Denotemos por Π el núcleo de transición del proceso conjunto. Demostra-

remos que Π es ϕ-irreducible, donde ϕ es la medida definida por µc m (contar
⊗ Lebesgue) sobre P{1, . . . , m} × B(R), donde P({1, . . . , m}) es la familia de
las partes de {1, . . . , m} y B(R) es la familia de bolerianos de R. Sean A ∈
P({1, . . . , m}) y B ∈ B(R). Supongamos que µc (A)m(B) > 0, entonces
Π(Z, A × B) := P (x ∈ A, rx (y) + e1 ∈ B)
= δx (A)P (e1 ∈ B − rx (y)) .
Supongamos que δx (A)P (e1 ∈ B − rx (y)) = 0 entonces P(e1 ∈ B − rx (y)) =

0, ya que δx (A) > 0. Luego, P(e ∈ B − rx (y)) = 0 y, si suponemos que la
densidad del ruido es estrictamente positiva, podemos afirmar que
Z
1IB (x)Φ(x)dx = 0
y como Φ > 0; entonces, Φ(x)1IB (x) = 0, c.s-x, en consecuencia m(B) = 0 y se

obtiene una contradicción porque m(B) > 0. Por lo tanto Π(Z, A × B) > 0, en
consecuencia la cadena es ϕ-irreducible.
1.1. Estabilidad en el caso lineal
Demostramos la existencia de una solución estacionaria para el proceso AR-

RM.
P∞
Teorema 1. Sea ϑ la distribución de la variable Y∞ = n=0 ρXn · · · ρX1 (bXk+1 +
en+1 ). Para un proceso AR-RM lineal se satisfacen las siguientes proposiciones:
El proceso {Yn } converge en distribución a ϑ.
Propiedad de olvido. Para cualquier distribución de la variable Y0 , el pro-

ceso {Yn } converge en distribución a ϑ.
Demostración. Tenemos que iterando la ecuación (2)

n−1
X
Yn = ρXn · · · ρX1 Y0 + bXn + en + ρXn · · · ρXk+1 (bXk + ek ),
k=1
del teorema ergódico aplicado a la cadena {Xn }n≥1 , se tiene que

n
1X
lı́m log(ρXk ) → Eλ (log(ρX )) c.s.
n→∞ n
k=1
donde X ∼ λ, la ecuación anterior es equivalente a

n1 nm
lı́m ρ1n · · · ρmn → ρλ1 1 · · · ρλmm .
n→∞
n1 nm
Además ρXn · · · ρX1 = (ρ1n · · · ρmn )n y por hipótesis ρλ1 1 · · · ρλmm < 1 enton-
ces del teorema de convergencia dominada se obtiene
lı́m ρXn · · · ρX1 = 0, c.s.

n→∞
20 L Rodrı́guez
Por otra parte, como consecuencia del Teorema Ergódico para {Xk }k≥1 y la
LFGN para las variables aleatorias ek tenemos bXk + ek = O(k) y ası́
∞
X ∞
X
ρXk · · · ρX1 (bXk+1 + ek+1 ) ≤ C (ρλ1 1 · · · ρλmm )k |k + 1| → 0
k=n k=n
P∞
entonces k=n ρXk · · · ρX1 (bXk+1 + ek+1 ) es la cola de una serie sumable y si
para k = 0 definimos ρXk · · · ρX1 = 1 entonces
∞
X
Y∞ = ρXk · · · ρX1 (bXk+1 + ek+1 )
k=0
y esta es una solución para el modelo AR-RM.

Esta solución es estacionaria, en efecto sea
∞
X
Y0 = ρXk · · · ρX1 (bXk+1 + ek+1 )
k=0
y denotemos por ϑ su distribución. Si sustituimos Y0 en el modelo, en distribu-

ción valen las siguientes igualdades
∞
X
Yn = ρ Xn · · · ρ X1 ρXk · · · ρX1 (bXk+1 + ek+1 )
k=0
n−1
X
+bXn + en + ρXn · · · ρXk+1 (bXk + ek )
k=1
∞
X n−1
X
= ρXk+n · · · ρX1 (bXn+k+1 + ek+1 ) + ρXn · · · ρXk+1 (bXk + ek ).
k=0 k=1
Luego, para cada n ∈ N, Yn se distribuye ϑ.

Ahora demostramos que el proceso tiene olvido de la ley inicial. Elejimos Y00
independiente de Y0 y de la cadena de Markov {Xn }n≥1 entonces
|Yn − Yn0 | = |ρXn · · · ρX1 ||Y0 − Y00 |
de donde |Yn − Yn0 | → 0.
Ejemplo. Supongamos que θi = (0, ρi )t para todo i = 1, . . . , m y que la varia-
ble aleatoria e1 se distribuye N (0, 1) entonces la solución estacionaria toma la
forma:
X∞ X∞
Y∞ = ρXn · · · ρX1 en+1 = ρn1 1 · · · ρnmm en+1
n=0 n=0
X∞
≈ (ρλ1 1 · · · ρλmm )n en+1
n=0
1 λ1 λm
en este caso la distribución estacionaria ϑ ∼ N (0, 1−d 2 ) con d = ρ1 · · · ρm .
1.2. Caso sublineal

En esta sección consideramos la estabilidad en el caso no lineal. Yao y Attali
en [26] demuestran que con la hipótesis de sublinealidad
ri (y) ≤ ρi |y| + bi
Pm
para i = 1, . . . , m, la condición de estabilidad Eλ (log ρ) = i=1 log(ρi )λi < 0 y
1
la función de Lyapounov V (x, y) = kyk p + 1 sobre {1, . . . , m} × R, se satisface
la desigualdad
Πp V (x, y) ≤ ρp V (x, y) + βp + 1 − ρp (3)
para constantes positivas, ρp , βp con ρp < 1. Bajo la suposión de que la ca-
dena {Zn }n≥0 es felleriana existe una una medida invariante. Esta medida in-
variante será única si cuando la cadena de Markov {Zn }n≥0 sea por ejemplo
ϕ-irreducible, 1.IV.19 de Duflo [14]. Entonces bajo las hipótesis del lema 1,
queda garantizada la existencia de una única medida invariante.
La desigualdad (3) permite demostrar que la cadena {Zn }n≥0 es V -unifor-
memente ergódica, es decir
kΠn − ϑkV → 0 n → ∞
donde ϑ es la única medida invariante del proceso conjunto {Zn }n≥0 y por mar-
ginalización se obtiene la medida invariante del proceso {Yn }n≥0 .
Teorema 2. Consideremos un proceso AR-RM, supongamos que la funciones

de regresión en cada régimen son sublineales y que se satisface la condición de
estabilidad. Entonces
1. Existe una única solución estacionaria geométricamente ergódica.

2. Si además E(|e1 |s ) < ∞ y la matriz Qs = ρsj aij i,j=1...m tiene radio
espectral estrictamente menor que 1, entonces E(|Yk |s ) < ∞.
La demostración de la parte 1 es la discusión anterior al enunciado del teore-
ma. Para la existencia de momentos referimos a Yao y Attali [26]. Para demos-
trar la irreducibilidad es fundamental suponer que existe una densidad positiva
para la sucesión de innovaciones, que en el caso cuando la distribución es dis-
creta deja de ser cierto. Por ello en Yao y Attali se sustituye la condición de
sublinealidad por una condición de Lipschitz de las funciones ri y se demuestra
directamente, sin pasar por la cadena conjunta {Zn }n≥0 , que el proceso {Yn }n≥0
es estable.
22 L Rodrı́guez
En el caso cuando e1 tiene distribución discreta se puede demostrar que

la cadena de Markov conjunta Z admite una medida invariante. En efecto,
suponiendo que las funciones de regresión ri para i = 1, . . . , m son continuas,
la cadena de Markov {Zn }n≥0 es felleriana y si adicionalmente las funciones de
regresión son sublineales, entonces se satisface una condición de contracción del
tipo (3). Esto es suficiente para garantizar existencia de la medida invariante
pero no la unicidad.
Una técnica que permite demostrar unicidad para cadenas fellerianas que
satisfacen una condición de deriva y que no son irreducibles es verificar que se
satisfacePuna condición de alcanzabilidad, es decir, existe z ∈ {1, . . . , m} × R
∞
tal que k=1 Πk (z, A × B) > 0 para todos los conjuntos abiertos A × B que
contienen a z. En este caso, queda como problema abierto demostrar que bajo
innovaciones con distribución discreta se satisface la condición de alcanzabili-
dad.
También se pueden debilitar la hipótesis de continuidad de las funciones ri .
Attali en [3] introduce la noción de cadenas quasi-fellerianas la cual es más débil
que la fellerianidad y con esta demuestra el siguiente teorema.
Teorema 3. Consideremos un proceso AR-MR. Para el cual:
1. Existe la densidad Φ del proceso de errores {en }n≥1 .
2. Las funciones ri son Riemann integrables.
3. Para cada (i, y) ∈ {1, . . . , m} × R, la sucesión

( n
)
X
k
1/n Π ((i, y), di × dy)
k=1 n≥1
es tensa.
Entonces {Zn }n≥1 es una cadena de Markov Harris positiva.
Para la demostración y la definición de quasi-fellerianidad ver Attali [3].
2. Existencia de la distribución finito dimensional del

proceso conjunto
Comenzamos denotando por V1:n el vector aleatorio (V1 , . . . , Vn )t y v1:n =

(v1 , . . . , vn )t cualquier realización. Ahora veamos la existencia de la densidad
conjunta de las variables Y0:n , X1:n , para el proceso autorregresivo con régimen
de Markov, definido por la ecuación (1).
Lema 3. Para el proceso AR-RM definido en (1), el vector (Y0:n , X1:n ) admite
densidad de probabilidad
p(Y0:n = y0:n , X1:n = x1:n )

= Φ(yn − rxn (yn−1 )) · · · Φ(y1 − rx1 (y0 ))axn−1 xn · · · ax1 x2 µx1 pY0 (y0 )
con respecto a la medida producto m ⊗ µc , donde m y µc denotan las medidas

de Lebesgue y de contar, respectivamente.
Demostración. Definimos el cambio de variables T (Y1 , . . . , Yn ) = (e1 , . . . , en )
donde ek = Yk − rXk (Yk−1 ), para k = 1, . . . , n. Ası́ por el teorema del cambio
de variables como la matriz jacobiana T es triangular su determinante es igual
a 1, por lo tanto para cualquier función medible h,
E(h(Y1:n , X1:n , Y0 ))
= E(h(T −1 (e1:n ), X1:n , Y0 ))
Z X
= h(T −1 (u1:n ), i1:n , y0 ))p(e1:n = u1:n , X1:n = i1:n , Y0 = y0 )du1:n dy0
i1:n
utilizando la independencia conjunta,
p(e1:n = u1:n , X1:n = i1:n , Y0 = y0 ) = p(e1:n = u1:n )p(X1:n = i1:n )pY0 (y0 )
como las densidades de Y0 y e1 existen,
E(h(Y1:n , X1:n , Y0 ))
Z X n
Y n
Y
= h(T −1 (u1:n ), i1:n , y0 ) Φ(uk ) aik−1 ik µi1 pY0 (y0 )du1:n dy0 .
i1:n k=1 k=2
Por lo tanto las v.a (Y1 , . . . , Yn , X1:n , Y0 ) admiten densidad conjunta con res-
pecto a la medida de Lebesgue producto y la medida de contar producto.
La ventaja de este resultado es que cualquier otra distribución marginal de
interés se obtiene por integración de la densidad conjunta obtenida.
3. Propiedades de dependencia
Un proceso Y = {Yk }k∈Z es fuertemente α-mezclante (mixing en inglés), si
αn = sup{|P(A∩B)−P(A)P(B)| : A ∈ M0−∞ , B ∈ M∞
n } → 0, si n → ∞, (4)
donde Mba , con a, b ∈ Z, es la σ-algebra generada por {Yk }k=a:b .

24 L Rodrı́guez
Es absolutamente regular, si
βn = E ess sup{P(B|M0−∞ ) − P(B) : B ∈ M∞

n } → 0, si n → ∞. (5)
Los valores αn son llamados coeficientes fuertemente mezclantes, y los valo-
res βn son los coeficientes absolutamente regulares. Ver Doukhan (1994) para
ejemplos y propiedades bajo condiciones de dependencia, [13]. En general, te-
nemos la desigualdad 2αn ≤ βn ≤ 1.
Los coeficientes α-mezclantes se pueden escribir como:
αn := sup{|cov(φ, ξ)| : 0 ≤ φ, ξ ≤ 1, φ ∈ M0−∞ , ξ ∈ M∞
n }. (6)
En el caso de procesos de Markov estrictamente estacionarios X, con espacio
de estados (E, B), núcleo de transición A y medida de probabilidad invariante
λ; los coeficientes β toman la forma siguiente, see Doukhan ([13], sección 2.4):

βn := E sup{|A(n) (X, B) − λ(B)| : B ∈ B} . (7)
Proposición 1. El proceso AR-RM definido en (1) bajo las condiciones del

lema 1, es estrictamente estacionario, α-mezclante y sus coeficientes decrecen
geométricamente.
Demostración. Definamos hφ (x1:n ) = E(φ(Y0 , Y1:n )|X1:n = x1:n ). Como supo-
nemos que Y0 , la cadena de Markov {Xk }k≥1 y la sucesión {ek }k≥1 son inde-
pendientes entonces
E(φ(Y0:n )) = E(E(φ(Y0:n )|X1:n = x1:n )) = E(hφ (X1:n )).
La cadena de Markov {Xk }k≥1 es estrictamente estacionaria, por lo tanto
E(φ(Yj:j+n )) = E(hφ (Xj+1:j+n )) = E(hφ (X1:n )) = E(φ(Y0:n )).
Ası́, el proceso {Yk }k≥0 es estrictamente estacionario. Por otra parte, al
consider las funciones medibles φ : Rk → [0, 1], ξ : Rl → [0, 1],
cov(φ(Y0:k ), ξ(Yk+s: k+s+l ))
= E (φ(Y0:k )ξ(Yk+s: k+s+l )) − E (φ(Y0:k )) E (ξ(Yk+s: k+s+l ))
= E (hφ (X1:k )hξ (Xk+s+1: k+s+l )) − E (hφ (X1:k )) E (hξ (Xk+s+1: k+s+l ))
= cov(hφ (X1:k ), hξ (Xk+s+1: k+s+l )).
Entonces,
αn (Y )
sup |cov(φ(Y0:k ), ξ(Yk+s: k+s+l ))| : 0 ≤ φ, ξ ≤ 1, φ ∈ Mk0 (Y ),

=
k+s+l

ξ ∈ Mk+s (Y )
sup |cov(hφ (X1:k ), hξ (Xk+s+1: k+s+l ))| : 0 ≤ hφ , hξ ≤ 1, hφ ∈ Mk1 (X),

=
hξ ∈ Mk+s+l

k+s+1 (X)
≤ αn (X).
Sólo resta demostrar que αn (X) decrese geométricamente a 0, cuando n va a

∞. Para esto, utilizamos que si la distribución inicial de la cadena de Markov X
Pm (n)
es la distribución invariante λ, entonces βn (X) = j=1 supi=1:m |ai,j − λi |λj ,
y {Xn }n≥1 es geométricamente ergódica, es decir existe 0 < ζ < 1 tal que
(n)
supi |ai,j − λi | ≤ cζ n , obtenemos que
2αn (Y ) ≤ 2αn (X) ≤ βn (X) ≤ cmζ n .
ası́, es α-mezclante con al menos con velocidad geométrica.
Ejemplo de proceso AR-RM que no es fuertemente α-mezclante. Si

consideramos el caso de un proceso AR-RM lineal con θi = (0, ρi )t para todo
i = 1, . . . , m, que la variable aleatoria e1 se distribuye Bernoulli con parámetro
q y que Y0 = 0 entonces el proceso definido por
n−1
X
Yn = ρXk · · · ρX1 ek+1 ,
k=0
con la convención de que ρXk · · · ρX1 = 1 para k = 0, no es fuertemente α-

mezclante. En efecto se puede probar (ver D. Andrews [2]) que si 0 < ρi ≤ 1/2
entonces existe un conjunto A ∈ M0−∞ con P(A) > 0 y existen conjuntos
Bs ∈ M∞ n con P(Bs ) ≤ c para s ∈ N, y alguna constante c < 1 tal que
P(Bs |A) = 1, para todo s y esto implica que
αs (Y ) ≥ P(A ∩ Bs ) − P(A)P(Bs ) = P(A)(P(Bs |A) − P(Bs )) ≤ P(A)(1 − c)
y por lo tanto αs (Y ) no decrece a 0 cuando s → ∞, por lo tanto el proceso Y

no es fuertemente α-mezclante.
4. La función de verosimilitud
El estimador por máxima verosimilitud se define como
ψ̂n = arg máx ln (ψ).

ψ
Denotaremos las distribuciones y densidades son denotadas por p. La función

de verosimilitud que consideramos, esta definida por ln (ψ) = log pψ (Y1:n |Y0 ).
Decimos que el estimador de máxima verosimilitud es consistente si ψ̂n → ψ0
cuando n → ∞ c.s.
Para demostrar la consistencia del estimador de máxima verosimilitud si-
guiendo el enfoque de Wald (1949) son necesarios los siguientes tres pasos:
26 L Rodrı́guez
1. Demostrar que existe una función determinı́stica l(ψ) tal que
lı́m v(n)ln (ψ) = l(ψ) c.s.

n→∞
donde v(n) es una sucesión de normalización que no depende de ψ.

2. Dar condiciones para que l(ψ) tenga un único máximo en ψ = ψ0 .
3. Concluimos que ψ̂n = arg máxψ ln (ψ) → arg máxψ l(ψ) = ψ0 .
Esta metodologı́a es estándar para probar consistencia, en general el paso

1 está soportado por la ley fuerte de grandes números. En el caso de procesos
autorregresivos con régimen de Markov, para obtener una ley fuerte para el
proceso de verosimilitud se utilizan técnicas de procesos de Markov no homo-
geneos, básicamente en dos direcciones, en la primera se construye una cadena
de Markov extendida (ver Rynkiewicz [24], Krishnamurthy [19]) la cual satis-
face un teorema ergódico para luego marginalizar y en la segunda se utilizan
técnicas de aproximación al proceso de verosimilitud por procesos estacionarios
y desigualdades de minorización de ciertos núcleos de transición (ver Douc et.
al. [12]).
En este trabajo siguiendo el enfoque de prueba de consistencia de Ramón
van Handel, [25] capı́tulo 7, unido a la aplicación de la propiedad α-mezclante
se puede obtener una nueva prueba de la consistencia del estimador de máxima
verosimilitud, para las demostraciones ver Fermı́n et al. [20]. Verifiquemos que
el paso 3, para demostrar consistencia se satisface bajo convergencia uniforme.
Lema 4. Supongamos que el espacio de parámetros Ψ es compacto. Sea ln :
Ψ → R una sucesión de funciones continuas que converge uniformemente a
l : Ψ → R. Entonces
ψ̂n = arg máx ln (ψ) → arg máx l(ψ)

ψ ψ
Demostración. Como una función continua sobre un compacto alcanza su máxi-

mo existe ψn ∈ arg máxψ ln (ψ) para todo n. Por otra parte se satisfacen las
siguientes desigualdades
0 ≤ sup l(ψ) − l(ψn ) = sup (l(ψ) − ln (ψ) + ln (ψ)) − l(ψn )

ψ∈Ψ ψ∈Ψ
≤ sup (l(ψ) − ln (ψ)) + sup (ln (ψ) − l(ψn ))
ψ∈Ψ ψ∈Ψ
n→∞
≤ sup (l(ψ) − ln (ψ)) + (ln (ψn ) − l(ψn )) ≤ 2 sup (l(ψ) − ln (ψ)) → 0.
ψ∈Ψ ψ∈Ψ
Entonces
lı́m l(ψn ) = sup l(ψ). (8)
n→∞ ψ∈Ψ
Supongamos que para la sucesión {ψn } sus puntos lı́mites no pertenecen al

conjunto {ψ̃ : l(ψ̃) = máxψ∈Ψ l(ψ)}. Por compacidad de Ψ existe una subsuce-
sión {ψn0 } ⊂ {ψn } que converge a ψ 0 y tal que ψn0 6∈ {ψ̃ : l(ψ̃) = máxψ∈Ψ l(ψ)}.
Pero l(ψ) es una función continua porque es lı́mite uniforme de funciones con-
tinuas, ası́ l(ψn0 ) → l(ψ 0 ) < supψ∈Ψ l(ψ) de acuerdo a (8) esto es una contra-
dicción.
Definimos ln (ψ) = n−1 log pψ (Y1:n |Y0 ), demostraremos que ln (ψ) → l(ψ)
para cada ψ ∈ Ψ, para esto será necesario expresar pψ (Y1:n |Y0 ) en términos del
filtro de predicción P(Xk |Y0:n ).
Lema 5. Sea δ = ı́nf i,j=1:m aij . Definimos para 0 < l < k
Z Z
Dk,l = log p(Yk |Y0:k−1 , xk )axk−1 ,xk P(xk−1 |Yl:k−1 )µc (dxk )µc (dxk−1 ),
Entonces |Dk,l − Dk,0 | ≤ 2δ −1 (1 − δ)k−1−l .

Demostración. Fermı́n et al. [20].
Proposición 2. Supongamos que el espacio de parámetros Ψ es compacto y
ln (ψ) = n−1 log pψ (Y1:n |Y0 ) entonces ln (ψ) es continua y l(ψ) = lı́mn→∞ ln (θ)
existe c.s para cada ψ ∈ Ψ.
Demostración. Fermı́n et al. [20].
Teorema 4. Supongamos que Ψ es un conjunto compacto. Además
1. ψ = ψ ∗ si y sólo si Pψ = Pψ∗ .
2. Para todo i, j ∈ {1, . . . , m} y todo y, y 0 ∈ R × R las funciones ψ → aij y
pψ (Y1 = y|Y0 = y 0 , X1 = i) son continuas.
0
3. Se satisface la siguiente condición de Lipschitz |Dkψ − Dkψ | ≤ Kkψ − ψ 0 k
Entonces el estimador de máxima verosimilitud ψˆn es consistente.
Demostración. Para la consistencia es suficiente demostrar, suponiendo la con-
dición de Lipschitz 3. que la convergencia en la proposición 2 es uniforme en
ψ. Como las funciones ln (ψ) son continuas su lı́mite l(ψ) lo es. La hipótesis
0
|Dkψ − Dkψ | ≤ ckψ − ψ 0 k implica que ln (ψ) es Lipschizt por lo tanto l(ψ) tam-
bién.
Como Ψ es compacto, se puede cubrir por un número finito de abiertos de
radio ε para cualquier ε > 0. Existe {ψ1 , . . . , ψl } ⊂ Ψ tal que cada ψ ∈ Ψ esta
a distancia ε de algún punto en {ψ1 , . . . , ψl } ⊂ Ψ. Por desigualdad triangular
se tiene,
|ln (ψ) − l(ψ)| ≤ |ln (ψk ) − ln (ψ)| + |ln (ψk ) − l(ψk )| + |l(ψk ) − l(ψ)|
28 L Rodrı́guez
Por la condición de Lipschitz 3. tenemos que

|ln (ψk ) − ln (ψ)| ≤ K|ψk − ψ|
al tomar esperanza se obtiene la misma cota para |l(ψk ) − l(ψ)|, ası́
sup |ln (ψ) − l(ψ)| ≤ 2Kε + máx |ln (ψk ) − l(ψk )|
ψ∈Ψ k=1:l
Como ε > 0 es arbitrario y ln (ψk ) → l(ψk ) puntualmente por proposición 2,

entonces ln → l c.s uniformemente.
Como el estimador de máxima verosimilitud está definido por ψ̂n = arg máxψ
y demostramos que ln → l uniformemente, por lo tanto se sigue del Lema 4 que
ψ̂n → ψ ∗ = arg máx l(ψ),
ψ
y este valor es único en virtud de la suposición de identificabilidad.

Para demostrar la normalidad asintótica del estimador de máxima verosimi-
litud, la idea se basa en que el gradiente de la función se anula en su máximo y
el desarrollo en Taylor siguiente permite escribir,
0 = ∇ψ ln (ψ̂n ) = ∇ψ ln (ψ ∗ ) + ∇2ψ ln (ψ ∗ )(ψ̂n − ψ ∗ ) + Rn
√
al despejar en la expresión anterior y normalizar por n, se tiene
√ √
n(ψ̂n − ψ ∗ ) = −(∇2ψ ln (ψ ∗ ))−1 (∇ψ ln (ψ ∗ ) + Rn ) n.
Estos argumentos nos permiten enunciar el próximo teorema.
Teorema 5. Bajo las hipótesis del teorema 4. Suponemos que la matriz de
información asintótica de Fisher J(ψ ∗ ) = var(∇ψ l(ψ ∗ )) es no singular y ψ ∗
pertenece al interior de Ψ.Entonces cuando n → ∞,
√
n∇ψ ln (ψ ∗ ) → N (0, J(ψ∗)), en distribución.
−(∇2ψ ln (ψ ∗ )) → J(ψ ∗ ), c.s.
√
nRn → 0, c.s.
√
lo que permite concluir que n(ψ̂n − ψ ∗ ) → N (0, J(ψ ∗ )−1 ), en distribución.
Para una demostración de este resultado referimos a Douc et. al. [12]. La
demostración es muy general y abarca a procesos autorregresivos controlados
por cadenas de Markov con espacio de estados compactos no necesariamente
finitos.
Como menciona Ailliot en [1] en el caso de AR-RM, hasta donde sabemos, no
se conocen resultados referentes a la normalidad asintótica en el caso particular
de una cadena con espacio de estados finito. Caso en el cual las integrales en
Douc et. al. [12] son sumas finitas que permitirı́an intercambios de lı́mites y
derivadas debilitando las hipótesis del caso general.
4.1. Caso lineal y gaussiano
De aquı́ en adelante nos concentraremos en el caso lineal y gaussiano. Con-

sideramos como función de verosimilitud para el conjunto de observaciones Y0:n
y el parámetro ψ = (θ, σ 2 , A) a la distribución condicional pψ (Y1:n |Y0 ).
Pn
Será necesaria la siguiente notación: para cada 1 ≤ i ≤ m, ni = k=1 1Ii (xk )
es el número de visitas de una realización de la cadena de Markov {Xn }n≥1 al
Pn−1
estado i en los primeros n pasos. nij = k=1 1Ii,j (xk−1 , xk ) es el número de
transiciones de i a j en n pasos.
En virtud de la regla de la probabilidad total, la función de verosimilitud
del modelo se representa como
X X
pψ (Y1:n |Y0 ) = pψ (Y1:n , x1:n |y0 ) = pθ,σ2 (Y1:n |Y0 , x1:n )pA (x1:n ) (9)
x1:n x1:n
donde
n Y
m
" #1Ii (Xk )
(Yk − ρi Yk−1 − bi )2

Y 1
pθ,σ2 (Y1:n |Y0 , X1:n ) = exp − .
σi2
p
k=1 i=1
2πσi2
y
n Y
m
Y 1I (x ,x )
pA (x1:n ) = aiji,j k k+1 .
k=1 i,j=1
Demostraremos que las hipótesis del teorema 3 para la consistencia son cier-
tas en este caso particular. Viendo directamete que el proceso de verosimilitud
normalizado por v(n) = 1/n es equicontinuo. Este resultado es demostrado pa-
ra cadenas de Markov ocultas con espacio de estados y observaciones discretas
en Finesso [15] y es extendido a AR-RM lineales gaussianos en Rı́os y L. A.
Rodrı́guez [23].
1
Teorema 6. El conjunto de funciones fn (ψ) = n log pψ (Y1:n |Y0 ) es una suce-
sión equicontinua c.s-Pψ0 .
Demostración. Necesitaremos la siguiente notación: Para cada i ≤ m,
Ii := {k ≤ n : Xk = i} = {k1i , . . . , kni }
Sean los vectores Yi := (Yk1i , . . . , Ykni )t , Yi−1 := (Yk1i −1 , . . . , Ykni −1 )t y

Ei := {ek1i , . . . , ekni }.
El simbolo 1i denotará el vector transpuesto que tiene 1 en todas sus

posiciones y tiene talla ni , Wi = [1i Yi−1 ].
30 L Rodrı́guez
De acuerdo con la notación establecida podemos representar el proceso AR-

RM definido por la ecuación (2) por m modelos lineales, para cada i ≤ m
Yi = Wi θi + σi Ei .
por lo tanto la distribución de las observaciones Y0:n condicional a X1n se escribe

como
m
Y 1 1 T
pψ (Y1:n |Y0 , X1:n ) = p exp − 2 (Yi − Wi θi ) (Yi − Wi θi ) .
2 ni
i=1 ( 2πσi )
2σi
Trabajaremos directamente con la cadena de Markov extendida {(Yn , Xn )}.

Definimos h(ψ) = n1 log pψ (Y0:n , X1:n ) y sean ψ, ψ 0 ∈ Ψ, demostraremos que,
∀ε > 0 existe δ(ε) > 0 tal que:
∀n |hn (ψ) − hn (ψ 0 )| ≤ ε si kψ − ψ 0 k < δ(ε).
La verosimilitud completa pψ (Y0:n , X1:n ) queda escrita como

n Y m m
Y 1Ii,j (xk ,Xk+1 ) Y 1 1 T
aij exp − 2 (Yi − Wi θi ) (Yi − Wi θi )
i,j=1
k=1 i=1
(2πσi2 )ni /2 2σi
de donde
|hn (ψ) − hn (ψ)|

e
m m
1 X 1 X
≤ nij | log aij − log eaij | + ni log σi2 − log σ
f2 +
i
n i,j=1 2n i=1
m ! m !
1 X 1 1 T
1 X
T θi θei
+ − Yi Yi + Yi Wi −

n i=1 2σi2 n σi2

2σf2 f2
σ
i i=1 i
!T !
Xm
1 θi θi
e θi θi
e
WiT Wi

+ 2 − 2 − . (10)
n i=1 σi
f2
σ σi f2
σ
i i
El lado derecho de la desigualdad anterior se acota de siguiente manera
aij , σi2 , σ
Como nij /n ≤ 1, ni /n ≤ 1 y los parámetros aij , e f2 son acotados
i
por debajo, existe una constante C1 tal que los dos primeros términos en
la desigualdad están acotados por C1 kψ − ψk.
e
En el tercer sumando observamos que debido a la compacidad del espacio

de parámetros, existe una constante C2 tal que
m ! n
1 X 1 1 T

2 2k
1X
− Y Y ≤ C kσ − σ Yk
f
i i 2
n 2σi2 n

f2
2σ
i=1 i k=1
La condición de estabilidad y la existencia de momentos de e1 (Yao y Atalli

[26]) garantizan que podamosPutilizar el teorema ergódico para controlar
n
los términos de la forma 1/n k=1 g(Yk ). Por lo tanto
n
f2 k 1
X
C2 kσ 2 − σ Yk ≤ C3 kψ − ψk
e c.s.
n
k=1
Por el mismo argumento de compacidad

!
m n m Xn
1 X T θi θei 1 X 1 X
Yi Wi − ≤ C4 kψ − ψk Yk + Yk Yk−1
e
n i=1
2
σi 2 n n
σ
f
i

k=1i=1 k∈Ii

y nuevamente, de acuerdo al teorema ergódico, el lado derecho de la de-

sigualdad anterior es menor que C4 kψ − ψk
e c.s.
Por la desigualdad de Cauchy-Schwarz

!T !
X m
1 θi θi
e θi θi
e
WiT Wi

2 − 2 −
n i=1 σi
f2
σ σi f2
σ
i i
!
m
1 X θi θei
WiT Wi

≤ −
n σi2

σ
f 2
i=1 i
m
e 1
X
WiT Wi .

≤ C5 kψ − ψk
n i=1
Ahora bien, la norma de la matriz simétrica WiT Wi viene dada por el

módulo del autovalor real más grande, el cual en nuestro caso es
p
tr(WiT Wi ) + tr(WiT Wi )2 − 4 det WiT Wi
.
2
Como det WiT Wi es positivo,
p
tr(WiT Wi ) + tr(WiT Wi )2 − 4 det WiT Wi
≤ tr(WiT Wi ).
2
Tenemos que tr(WiT Wi ) = ni + k∈Ii Yk2 , entonces
P
m n
1 X WiT Wi ≤ 1 + 1
X
Yk2 .

n i=1 n
k=1
Ası́ el último término de (10) es menor que C5 kψ − ψk.

e
32 L Rodrı́guez
Podemos concluir que existe una constante C tal que
|hn (ψ) − hn (ψ 0 )| ≤ Ckψ − ψ 0 k, c.s.
lo que implica que hn es una sucesión equicontinua. Para regresar a {Yn } ob-
servamos que
1
log pψ (Y0:n , X1:n ) ≤ ε,

n pψ0 (Y0:n , X1:n )
de donde
pψ0 (Y1:n , X1:n ) ≤ exp(εn)pψ (Y1:n , X1:n )
y sumando sobre X1:n = x1:n
X X
pψ0 (Y1:n |Y0 ) = pψ0 (Y0:n , x1:n ) ≤ exp(εn) pψ (Y0:n , x1:n ) = pψ (Y1:n |Y0 )
x1:n x1:n

1 pψ0 (Y1:n |Y0 )
por consiguiente log
≤ ε.
n pψ (Y1:n |Y0 )
Con este resultado estamos en las hipótesis del teorema 3 garantizando la
consistencia del estimador de máxima verosimilitud para el caso lineal y gaussia-
no.
4.2. Prueba de hipótesis

En esta sección estudiamos el comportamiento del cociente de verosimilitud
(CV) para probar la hipótesis nula de identificar un modelo CMO contra la
alternativa de un proceso AR-RM. Para la prueba de hipótesis de un modelo de
CMO contra un proceso AR-RM seguimos las ideas de Giudici et al. [16], de-
mostramos que la teorı́a asintótica del CV es válida en este caso. Consideramos
la prueba H0 : ρ = 0 contra H1 : ρ 6= 0.
Teorema 7. 2(l(ρ̂) − l(0)) → χ21 , bajo P0 .
Demostración. Expandimos l(ρ) por Taylor alrededor de ρ̂,
∂l(ρ̂) 1 ∂ 2 l(ρ̂) 2
l(ρ̂) − l(0) = ρ̂ + ρ̂ l(ρ̃)
∂ρ 2 ∂ρ2 ψ
∂l(ρ̂)
donde ρ̃ = λρ̂, λ ∈ (0, 1). También ∂ρ = 0. Ası́
2
∂ l(ρ̃)
−2(l(ρ̂) − l(0)) = ρ̂2 −
∂ρ2
p
De acuerdo al teorema 4 ρ̂ J(0) → N (0, 1) y como J(ρ̃)/J(0) → 1 entonces
ρ̂2 J(0) → χ21 .
El teorema garantiza que podemos emplear la prueba CV para rechazar H0

si −2(l(ρ̂) − l(0)) ≥ χ21,q , donde χ21,q es el q-cuartil de la distribución χ21 .
Ahora introducimos una metodologı́a de estimación para el caso lineal y
gaussiano basada en un algoritmo de datos incompletos.
4.3. El algoritmo SAEM

El estimador de máxima verosimilitud es una solución de la ecuación
∇ψ log pψ (y1:n |y0 ) = 0.
Como esta ecuación no tiene una solución analı́tica cerrada, al calcular
numéricamente una solución aproximada se deben considerar los mn términos
que aparecen en la ecuación (9). Esto restringe el modelo a un número limitado
de observaciones y a cadenas con pocos estados. Como una alternativa, para
modelos de CMO Baum et al. [4] introducen el algoritmo forward-backward,
que es una versión temprana del algoritmo EM. El algoritmo EM propuesto en
su forma general por Dempster et al. [11] maximiza la función log-verosimilitud
en problemas con datos incompletos. Este algoritmo es un método recursivo
que permite cambiar la maximización de la función de verosimilitud observada
por un problema de maximización de la verosimilitud completa pψ (y0:n , x1:n ),
la cual viene dada por
m
n Y n m
" #1Ii (xk )
(yk − ρi yk−1 − bi )2

Y 1Ii,j (xk ,xk+1 ) Y Y 1
aij exp − .
σi2
p
k=1 i,j=1 k=1 i=1
2πσi2
(11)
Para describir el paso t + 1 de este algoritmo, consideramos
Q(ψ, ψ (t) )
= E(log pψ (Y0:n , X1:n )|Y0:n = y0:n , ψ (t) )
N
X −1 m
X
= E(1Ii,j (Xn , Xn+1 )|Y0:n = y0:n , ψ (t) ) log(aij )
n=1 i,j=1
N −1 X
m
log(2πσi2 ) (yk − ρi yk−1 − bi )2
X
(t)
+ E(1Ii (Xn )|Y0:n = y0:n , ψ ) − − .
n=1 i=1
2 σi2
El algoritmo EM se desarrolla en dos pasos, en el paso E se evalúa la función

Q(ψ, ψ (t) ) y en el paso M calculamos
ψ (t+1) = argmax Q(ψ, ψ (t) ).
ψ∈Ψ
Como e1 se distribuye gaussiano el modelo pertenece a la familia exponencial,

ası́ satisface las hipótesis que garantizan la convergencia del algoritmo EM.
34 L Rodrı́guez
Para reducir la posibilidad de estimar máximos locales, utilizamos una ver-

sión estócastica del algoritmo EM llamada SAEM. La convergencia del algoritmo
SAEM es demostrada por Delyon et al. [10]. La ventaja de utilizar el algoritmo
SAEM y no el EM se explica por la sensibilidad del último a la elección del
parámetro de partida del algoritmo. Para una buena elección del parámetro de
partida, las salidas de los dos algoritmos son las mismas. Sucesivas aplicaciones
del algoritmo EM para malas elecciones de los puntos de partida nos llevan a
salidas lejanas a las obtenidas con buenas elecciones de los puntos de partida,
por el contrario, el algoritmo SAEM, arroja los mismos resultados. Para com-
paraciones entre versiones estocásticas del algoritmo EM referimos a Celeux et
al. en [5, 9, 8].
El algoritmo EM se modifica reemplazando el paso de esperanza (E) por: un
paso de simulación (ES) y un paso de aproximación estocástica (EA):
(t)
ES Simulamos una realización x1:n del vector oculto con distribución de pro-
babilidad pψt−1 (x1:n |y1:n ).
EA Actualizamos la aproximación del EM por la cantidad:

(t)
Q̂t+1 = Q̂t + γt log pψt−1 y0:n , x1:n − Q̂t
donde (γt ) satisface la condición:

P∞ P∞
(RM) Para todo t ∈ N, γt ∈ [0, 1], t=1 γt = ∞ y t=1 γt2 < ∞.
4.4. Paso ES
En esta sección describimos el método de simulación que usamos en el algo-
ritmo SAEM. Para muestrear de la distribución condicional
pψ (x1:n |y0:n ) = λx1 p(y1 |y0 , x1 ) . . . axn−1 xn p(yn |yn−1 , xn )/pψ (y1:n |y0 ),
para todo x1:n ∈ {1, . . . , m}N . Carter y Kohn en [7] proponen una método
de muestreo que es una versión estocástica del algoritmo forward-backward
propuesto por Baum et al. [4]. Esto se tiene observando que pψ (x1:n |y0:n ) admite
la descomposición,
n−1
Y
pψ (x1:n |y0:n ) = pψ (xn |y0:n ) pψ (xk |xk+1 , y0:n ).
k=1
Dado Xk+1 conocido, pψ (Xk |Xk+1 , y0:n ) es una distribución discreta, lo cual nos
sugiere la siguiente estrategia de muestreo. Para k = 2, . . . , n, i ∈ {1, . . . , m},
calculamos recursivamente el filtro óptimo p(Xk |y0:k , ψ) como
m
X
p(Xn = i|y0:k , ψ) ∝ pψ (yk |yk−1 , Xk = i) aij p(Xk−1 = j|y1:k , ψ).
i=1
Entonces, muestreamos Xn de p(Xn |y0:n , ψ) y para k = n − 1, . . . , 1, Xk se

muestrea de
aix p(Xk = i|y0:k , ψ)
p(Xk = i|Xk+1 = xk+1 , y0:k , ψ) = Pmk+1 .
l=1 ail p(Xk = l|y0:k , ψ)
(t)
En consecuencia este procedimiento genera una cadena de Markov {x1:n }t≥1
ergódica en el espacio de estados finito {1, . . . , m}N , tal que p(x1:n |y0:n , ψ) es
su distribución estacionaria. La ergodicidad sigue demostrando irreducibilidad y
aperiodicidad, para esto observamos que el núcleo de transición Q de la cadena
simulada es positivo,
Q
(t) (t−1) (t) N −1 (t) (t)
Q x1:n |x1:n , ψ ∝ p x1:n |y0:n , ψ n=1 p x1:n |x1:n , y0:n , ψ > 0.
En este caso por teoremas clásicos de cadenas de Markov finitas (Kemeny y

Snell [18]) se satisface que,

(t+1) (t)
Q x1:n , x1:n , ψ − p(X1:n |y0:n , ψ) ≤ Cρt−1 ,

con C = card({1, . . . , m}N ), ρ = (1 − 2Kx∗ ) y K ∗ = ı́nf K(x0 |x, ψ), para x, x0 ∈

{1, . . . , m}N .
4.4.1. Paso EA La verosimilitud completa del modelo (11), pertenece a

la familia de distribuciones exponecial. En este caso, el paso EA se sustituye
por una aproximación de tipo Robins-Monro (ver Duflo [14]) para estadı́sticos
suficientes S(X1:n ) de la cadena de Markov oculta, definidos por
n,(t)
Ŝ (t) = Ŝ (t−1) + γt (S(x1 ) − Ŝ (t−1) ). (12)
En nuestro caso S = (S1 , S2 , S3 ), donde:
S1 (X1:n ) = [1Ii (Xk )]1≤i≤m,1≤k≤n .
S2 (X1:n ) = (n1 (X1:n ), . . . , nm (X1:n )).
S1 (X1:n ) = [nij (X1:n )]1≤i,j≤m .
El paso de maximización, cuando ρi = 0, está dado por,
(t+1)
(t+1) S3 [i, j]
aij
b = (t+1)
S2 (i)
Pn (t+1)
bb(t+1) k=1 S1 [i, k]yn
i = (t+1)
S2 (i)
n 2
c2
(t+1) 1 X (t+1)
(t+1)
σ i = S1 [i, k] yn − bi ,
n
k=1
36 L Rodrı́guez
y para ρi 6= 0,
(t+1)
(t+1) S3 [i, j]
aij
b = (t+1)
S2 (i)
Pn−1 (t+1) Pn−1 (t+1) PN (t+1)
(t+1) k=1 S1 [i, n]yk yk−1 − k=1 S1 [i, k]yk k=1 S1 [i, k]yk−1
ρbi = Pn−1 (t+1) P 2
2 n−1 (t+1)
k=1 S1 [i, k]yk−1 − k=1 S1 [i, k]yk
n−1 n
bb(t+1) (t+1) (t+1)
X X
i = S1 [i, k]yk − ρbi S1 [i, k]yk−1
k=1 k=1
n 2
c2
(t+1) 1 X (t+1)
(t+1)
σ i = S1 [i, k] yn − ρi yn−1 − bi
n
k=1
Al considerar fijas las observaciones y1:n las expresiones anteriores definen de

forma explı́cita, en cada uno de los dos casos de estudio, la aplicación ψb = ψ(S)
entre los estadı́sticos suficientes y el espacio de parámetros. Esta es necesaria
para el estudio de convergencia del algoritmo SAEM.
4.4.2. Convergencia El procedimiento de simulación genera una cadena

(t)
de Markov finita {x1:n }. Las hipótesis de Delyon et al. [10] que garantizan la
convergencia del algoritmo SAEM en este caso son válidas y se resumen en:
Teorema 8. Suponemos las condiciones que garantizan la convergencia del

algoritmo EM, la condición (RM) y las siguientes hipótesis:
SAEM1. Las funciones pψ (y1:n |y0 ) y ψ̂ = ψ(S) son l veces diferenciables.
SAEM2. La función ψ → Qψ = Q(·|·, ψ) es continuamente diferenciable

en Ψ. El núcleo de transición Qψ genera una cadena de Markov ergódica
(t)
con distribución invariante pψ (x1:n |y0:n ). La cadena {x1:n } toma valores
en un conjunto compacto. La función S es acotada.
Entonces, w.p 1, limt→∞ d(ψ (t) , L) = 0, donde
L = {ψ ∈ Ψ : ∂ψ log pψ (y1:n |y0 ) = 0}
es el conjunto de puntos estacionarios.
En nuestro caso las hipótesis del teorema se verifican, en efecto la condición

(RM) es satisfecha si elegimos γt = 1/t, SAEM1 es cierta porque e1 se distribuye
normal y SAEM2 es una consecuencia de los discusión en §4.4. Esto garantiza
que el teorema anterior aplica y de aquı́ obtenemos la convergencia.
5. Ejemplos numéricos
Ilustramos el comportamiento de los métodos de estimación considerando

algunos datos simulados. Trabajamos con un CMO y dos AR-RM. Estimamos
el número de estados utilizando el Critero de Información Bayesiano (BIC), este
método considera la estimación por máxima verosimilitud penalizada (MVP),
utilizando como función de penalidad pen = log(N 2
)
dim(Ψm ). Con respecto a la
consistencia de métodos de verosimilitud penalizada el lector interesado puede
consultar R. Rı́os y L. A. Rodrı́guez [23].
Para evaluar la función de verosimilitud en cualquier parámetro ψ se calcula
m
X
p(y1:N |y0 ψ) = %N (i),
i=1
donde %n (i) = p(y1:n , Xn = i) se evalúa recursivamente con la siguiente fórmula

forward de Baum,
m
X
%n (j) = %n−1 (i)aij p(yn |yn−1 , Xn = i)
i=1
ver D. Le Nhu et ali. [22].

A seguir describimos los ejemplos y mostramos los resultados.
5.1. HMMs
En la simulación del modelo CMO tenemos los siguiente parámetros: dim(Ψm ) =

m2 + 1 N = 500, m = 3, σ 2 = 1.5, θ = (−2, 1, 4),
 
0.9 0.05 0.05
A =  0.05 0.9 0.05  ,
0.05 0.05 0.9
la serie observada es graficada en la Figura 1. El Cuadro 1 contiene los valores al

evaluar el máximo de la verosimilitud penalizada para m = 2, . . . , 7, observemos
que m̂ = 3. En este caso ψ̂ lo estimamos utilizando SAEM, donde los valores
obtenidos son, σˆ2 = 1.49, θ̂ = (−1.98, 4.09, 0.91),
 
0.8650 0.0274 0.1076
Â =  0.0404 0.8943 0.0653  ,
0.0658 0.0648 0.8694
en la Figura 2 graficamos la sucesión {ψ (t) }, t = 1, . . . , 4000 y observamos la

convergencia de los estimados.
38 L Rodrı́guez
m −l(ψ) pen −l(ψ) + pen

2 802.32 15.53 817.85
3 419.09 31.07 450.16
4 417.70 52.82 470.52
5 464.70 80.78 545.48
6 445.89 114.97 560.86
7 436.26 155.36 591.62
Cuadro 1: Evaluación de MVP
−2
−4
−6
−8
0 50 100 150 200 250 300 350 400 450 500
Figura 1: Serie observada y1 , . . . , y500 en el caso CMO

.
5.2. AR-RM
En el primer proceso AR-RM que simulamos elegimos los parámetros: dim(Ψm ) =

m(m + 1) + 1, N = 500, m = 2, σ 2 = 1.5,

1 −1 0.9 0.1
θ= , A= ,
−0.5 0.5 0.1 0.9
la serie observada es graficada en la Figura 3. El Cuadro 2 contiene los valores

para el MVP para m = 2, . . . , 6, observemos que m̂ = 2. En este caso ψ̂ fue
estimado utilizando SAEM, cuyos valores son, σˆ2 = 1.42,

1.07 −0.96 0.8650 0.1350
θ̂ = Â = ,
−0.5 0.5 0.1130 0.8870

7 5
4
6
3
5
3
0
2
−1
1.5
1 −2
0 500 1000 1500 2000 2500 3000 3500 4000 0 500 1000 1500 2000 2500 3000 3500 4000
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
Figura 2: Convergencia de los estimados, σ 2 , θ y A.
−2
−4
−6
0 50 100 150 200 250 300 350 400 450 500
Figura 3: Serie observada y1 , . . . , y500 para el proceso AR-RM

40 L Rodrı́guez
m −l(ψ) pen −l(ψ) + pen

2 351.14 18.64 369.78
3 346.64 37.28 383.92
4 355.10 64.14 417.24
5 354.52 93.21 447.73
6 384.50 130.50 515.00
Cuadro 2: Evaluación de MVP
0.6
1.1 0.5
1 0.4
0.8
0.2
0.6
0
0.4
−0.2
0.2
−0.4
0
−0.6
−0.2
−0.4 −0.8
−0.5
−0.6 −1
0 100 200 300 400 500 600 700 800 900 1000 0 100 200 300 400 500 600 700 800 900 1000
3 0.9
2.8 0.8
2.6
0.7
2.4
0.6
2.2
0.5
2
0.4
1.8
0.3
1.6
1.5
1.4 0.2
1.2 0.1
0 100 200 300 400 500 600 700 800 900 1000 0 100 200 300 400 500 600 700 800 900 1000
Figura 4: Convergencia de los estimados, θ1 , θ2 , σ 2 , y A.

300
200
100
−100
−200
−300
−400
0 50 100 150 200 250 300 350 400 450 500
Figura 5: Serie observada y1 , . . . , y500 para el AR-RM.
1.5
0.9
0.8 1.08
0.9
0.6
0.5
0.4
0
0.2
−0.5
0
−1
−0.2
−1.5
−0.4
−0.6 −2
−0.7
−0.8 −2.5
0 20 40 60 80 100 120 140 160 180 200 0 20 40 60 80 100 120 140 160 180 200
2.1 1
0.9
2
0.8
1.9 0.7
0.6
1.8
0.5
1.7
0.4
1.6 0.3
0.2
1.5
0.1
1.4 0
0 20 40 60 80 100 120 140 160 180 200 0 20 40 60 80 100 120 140 160 180 200
Figura 6: Convergencia de los estimados, θ1 , θ2 , σ 2 , and A.

42 L Rodrı́guez
En la segunda simulación del AR-RM elegimos los parámetros: N = 500,

m = 2, σ 2 = 1.5,

1 −2 0.9 0.1
θ= A=
−0.7 1.08 0.1 0.9
la gráfica de la serie se observa en la Figura 5. En este caso observemos que

una de las pendientes de las rectas de regresión tiene coeficiente ρi > 1 que en
el caso de un proceso autorregresivo de orden 1 implicarı́a la inestabilidad del
mismo. Este ejemplo muestra la versatilidad de los AR-RM porque permiten
modelar series temporales que son heterogéneas y volátiles por trozos.
Para este ejemplo m = 2 es fijo y ψ̂ es estimado usando SAEM, los valores
son, σˆ2 = 1.42,

0.85 −2.01 0.9093 0.0907
θ̂ = Â = ,
−0.69 1.08 0.019 0.9181

Agradecimientos. A Ricardo Rı́os por su discusiones en estos temas y a Marc
Lavielle por toda su ayuda en versiones tempranas de los algoritmos.
Referencias
[1] P. Ailliot. Some theoretical results on Markov-switching autoregressive

models with gamma innovations. C. R. Acad. Sci. Paris, Ser. I, 343:271–
274, 2006.
[2] D. Andrews. Non-strong mixing autoregressive procesess. J. Appl Prob.,

21:930–934, 1984.
[3] J-G Attali. Ergodicity of a certain class of non Feller models : applications
to ARCH and Markov switching models. ESAIM: PS, 8:76–86, 2004.
[4] L. E. Baum, T. Petrie, G. Soules, and N. Weiss. A maximization tecnique

occuring in the statistical analysis of a probabilistic functions of Markov
chains. Ann. Math. Stat., 41:164–171, 1970.
[5] M. Broniatowski, G. Celeux, and J. Diebolt. Data Analysis and Informa-

tics. North Holland, 1983. Reconnaissance de mèlanges de densitè par un
algorithme d’apprentissage probabiliste.
[6] O. Cappe. Ten years of HHMs. Preprint (online). Available: http://www-

sig.enst.fr/˜cappe, 2001.
[7] C. K Carter and R. Kohn. On Gibbs sampling for state space model.
Biometrika, 81:541–553, 1994.
[8] G. Celeux, D. Chauveau, and G. Diebol. On stochastic version of the em
algorithm. Rapport de recherche INRIA, 2514, 1995.
[9] G. Celeux and J. Diebolt. A stochastic approximation type em algorithm
for the mixture problems. Stochastics Reports, 41:119–134, 1992.
[10] B. Delyon, M. Lavielle, and E. Moulines. Convergence of a stochastic
approximation version of EM algorithm. The Annals of Statistics, 27(1):94–
128, 1999.
[11] A. Dempster, N. Laird, and D. Rubin. Maximum-likelihood from incom-
plete data via the EM algorithm. J. Roy. Statist. Soc. Ser. B, 39:1–38,
1977.
[12] R. Douc, E. Moulines, and T. Rydén. Asymptotic properties of the ma-
ximum likelihood estimator in autoregressive models with Markov regime.
Ann. Statist., 32:2254–2304, 2004.
[13] P. Doukhan. Mixing: Propierties and Examples., volume 85. Lecture Notes
in Statist., 1994.
[14] M. Duflo. Algorithmes Stochastiques. Springer-Verlag, Berlin, 1996.
[15] L. Finesso. Estimation of the order a finite Markov chain. PhD thesis,
University of Maryland, 1990.
[16] P. Giudici, T. Ryden, and P. Vandekerkhove. Likelihood-ratio test for
hidden markov models. Biometrics, pages 742–751, 2000.
[17] J.D. Hamilton. A new approach to the economic analysis of non stationary
time series and the business cycle. Econometrica, pages 357–384, 1989.
[18] J. G. Kemeny and J. L. Snell. Finite Markov Chains. Van Nostrand,
Princenton, New Jersey, 1960.
[19] V. Krishnamurthy. Recursive Algorithms for estimation of hidden Markov
Models with markov regime. IEEE Trans. Information theory, 48(2):458–
476, 2002.
[20] Fermı́n L., Rı́os, and L. A. Rodrı́guez. Asymptotic properties of the maxi-
mum likelihood estimator for functional ar process with markov-switching.
In preparation, 2014.
[21] S.P. Meyn and R.L. Tweedie. Markov Chains and. Stochastic Stability.
Springer-Verlag, 1993.
44 L Rodrı́guez
[22] D. Le Nhu, B. G. Leroux, and M. L. Puterman. Exact Likelihood Evalua-

tion in a Markov Mixture Model for Time Series Series of Seizure Counts.
Biometrics, 48:317–323, 1992.
[23] R. Rı́os and L. A. Rodrı́guez. Penalized estimate of the number of states
in gaussian linear ar with markov regime. Electronic Journal of Statistics,
pages 1111–1128, 2008.
[24] J. Rynkiewicz. Modéles hybrides intégrant des réseaux de neurones artifi-
ciels à des modeles de chaı̂nes de Markov cachee: application à la prediction
de series temporelles . PhD thesis, Universite Parı́s I, 2000.
[25] R. v. Handel. Hidden Markov Models. Lecture notes:

https://www.princeton.edu/ rvan/, 2008.
[26] J. Yao and J. G. Attali. On stability of nonlinear AR process with Markov
switching. Adv. Applied Probab, 1999.
Luis-Angel Rodrı́guez
Departamento de Matemáticas. Facultad de Ciencias y Tecnologı́a
Universidad de Carabobo
Valencia, Venezuela
larodri@uc.edu.ve

Procesos Autoregresivos No Lineales Markov

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Procesos Autoregresivos No Lineales Markov

Cargado por

Copyright:

Formatos disponibles

See

Algunas propiedades de procesos autorregresivos

Article · January 2015

Luis Angel Rodriguez

Algunas propiedades de procesos autorregresivos

Resumen. En este trabajo se presentan un conjunto de proposicio-

El objetivo central de este trabajo es dar una introducción al estudio de pro-

Yn = rXn (Yn−1 ) + en (1)

Las funciones de regresión {r1 , . . . , rm } pertenecen a la clase de funciones F.

Yn = ρXn Yn−1 + bXn + en , (2)

para cada 1 ≤ i ≤ m denotamos por θi = (bi , ρi )t y

Si en la ecuación (2) los ρi = 0 para todo i = 1, . . . , m obtenemos un

1. Propiedad de Markov del proceso conjunto

Se comienza esta sección introduciendo algunas definiciones de la larga taxo-

El siguiente lema demuestra que todo cadena de Markov con valores en un

Lema 1. Toda cadena de Markov sobre un conjunto finito de estados E es un

Sea {Un }n≥1 una sucesión independiente de variables aleatorias uniformes

y {Xn }n≥1 tienen la misma matriz de transición, en efecto

es continua. Una cadena de Markov es fuertemente felleriana si para toda función

es felleriano si F es una función continua y es fuertemente felleriano cuando la

La cadena de Markov {Xn }n≥1 es recurrente y positiva. Su distribución

Demostraremos que el proceso conjunto {Zn }n≥1 definido por Zn = (Xn , Yn )

Denotemos por Π el núcleo de transición del proceso conjunto. Demostra-

Supongamos que δx (A)P (e1 ∈ B − rx (y)) = 0 entonces P(e1 ∈ B − rx (y)) =

y como Φ > 0; entonces, Φ(x)1IB (x) = 0, c.s-x, en consecuencia m(B) = 0 y se

1.1. Estabilidad en el caso lineal

Demostramos la existencia de una solución estacionaria para el proceso AR-

El proceso {Yn } converge en distribución a ϑ.

Propiedad de olvido. Para cualquier distribución de la variable Y0 , el pro-

Demostración. Tenemos que iterando la ecuación (2)

del teorema ergódico aplicado a la cadena {Xn }n≥1 , se tiene que

donde X ∼ λ, la ecuación anterior es equivalente a

lı́m ρXn · · · ρX1 = 0, c.s.

y esta es una solución para el modelo AR-RM.

y denotemos por ϑ su distribución. Si sustituimos Y0 en el modelo, en distribu-

Luego, para cada n ∈ N, Yn se distribuye ϑ.

1.2. Caso sublineal

Teorema 2. Consideremos un proceso AR-RM, supongamos que la funciones

En el caso cuando e1 tiene distribución discreta se puede demostrar que

Teorema 3. Consideremos un proceso AR-MR. Para el cual:

1. Existe la densidad Φ del proceso de errores {en }n≥1 .

2. Las funciones ri son Riemann integrables.

3. Para cada (i, y) ∈ {1, . . . , m} × R, la sucesión

Entonces {Zn }n≥1 es una cadena de Markov Harris positiva.

Para la demostración y la definición de quasi-fellerianidad ver Attali [3].

2. Existencia de la distribución finito dimensional del

Comenzamos denotando por V1:n el vector aleatorio (V1 , . . . , Vn )t y v1:n =

p(Y0:n = y0:n , X1:n = x1:n )

con respecto a la medida producto m ⊗ µc , donde m y µc denotan las medidas

utilizando la independencia conjunta,

como las densidades de Y0 y e1 existen,

donde Mba , con a, b ∈ Z, es la σ-algebra generada por {Yk }k=a:b .

Proposición 1. El proceso AR-RM definido en (1) bajo las condiciones del

Sólo resta demostrar que αn (X) decrese geométricamente a 0, cuando n va a

2αn (Y ) ≤ 2αn (X) ≤ βn (X) ≤ cmζ n .

ası́, es α-mezclante con al menos con velocidad geométrica.

Ejemplo de proceso AR-RM que no es fuertemente α-mezclante. Si

con la convención de que ρXk · · · ρX1 = 1 para k = 0, no es fuertemente α-

αs (Y ) ≥ P(A ∩ Bs ) − P(A)P(Bs ) = P(A)(P(Bs |A) − P(Bs )) ≤ P(A)(1 − c)

y por lo tanto αs (Y ) no decrece a 0 cuando s → ∞, por lo tanto el proceso Y

El estimador por máxima verosimilitud se define como

ψ̂n = arg máx ln (ψ).

Denotaremos las distribuciones y densidades son denotadas por p. La función

1. Demostrar que existe una función determinı́stica l(ψ) tal que