Documentos de Académico
Documentos de Profesional
Documentos de Cultura
discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/288467114
CITATIONS READS
0 8
1 author:
SEE PROFILE
All in-text references underlined in blue are linked to publications on ResearchGate, Available from: Luis Angel Rodriguez
letting you access and read them immediately. Retrieved on: 09 September 2016
Boletı́n de la Asociación Matemática Venezolana, Vol. XXII, No. 1 (2015) 15
donde {Xn }n≥1 es una cadena de Markov homogénea con valores en el conjunto
{1, . . . , m}, matriz de transición A = [aij ] siendo aij = P(Xn = j|Xn−1 = i).
16 L Rodrı́guez
%n = F (%n−1 , un ).
Demostración. Supongamos que tenemos una cadena de Markov {Xn }n≥1 sobre
un conjunto de estados E = {1, 2} y con matriz de transición
1−p p
A= .
q 1−q
por lo tanto la cadena de Markov {ζn }n≥1 definida como sistema iterativo por
ζn = F (ζn−1 , Un )
Xn = F (Xn−1 , un ).
para una sucesión {un }n≥1 de variables aleatorias i.i.d centrada e independientes
de {en }n≥1 y donde F : E × [0, 1] → E es una función medible. Ası́, según el
lema 1, {Zn }n≥1 es un modelo iterativo markoviano de la forma
Xn F (Xn−1 , un )
Zn = = .
Yn rF (Xn−1 ,un ) (Yn−1 ) + en
Π(Z, A × B) := P (x ∈ A, rx (y) + e1 ∈ B)
= δx (A)P (e1 ∈ B − rx (y)) .
Propiedadades de procesos AR-RM 19
n1 nm
Además ρXn · · · ρX1 = (ρ1n · · · ρmn )n y por hipótesis ρλ1 1 · · · ρλmm < 1 enton-
ces del teorema de convergencia dominada se obtiene
Por otra parte, como consecuencia del Teorema Ergódico para {Xk }k≥1 y la
LFGN para las variables aleatorias ek tenemos bXk + ek = O(k) y ası́
∞
X ∞
X
ρXk · · · ρX1 (bXk+1 + ek+1 ) ≤ C (ρλ1 1 · · · ρλmm )k |k + 1| → 0
k=n k=n
P∞
entonces k=n ρXk · · · ρX1 (bXk+1 + ek+1 ) es la cola de una serie sumable y si
para k = 0 definimos ρXk · · · ρX1 = 1 entonces
∞
X
Y∞ = ρXk · · · ρX1 (bXk+1 + ek+1 )
k=0
1 λ1 λm
en este caso la distribución estacionaria ϑ ∼ N (0, 1−d 2 ) con d = ρ1 · · · ρm .
ri (y) ≤ ρi |y| + bi
Pm
para i = 1, . . . , m, la condición de estabilidad Eλ (log ρ) = i=1 log(ρi )λi < 0 y
1
la función de Lyapounov V (x, y) = kyk p + 1 sobre {1, . . . , m} × R, se satisface
la desigualdad
Πp V (x, y) ≤ ρp V (x, y) + βp + 1 − ρp (3)
para constantes positivas, ρp , βp con ρp < 1. Bajo la suposión de que la ca-
dena {Zn }n≥0 es felleriana existe una una medida invariante. Esta medida in-
variante será única si cuando la cadena de Markov {Zn }n≥0 sea por ejemplo
ϕ-irreducible, 1.IV.19 de Duflo [14]. Entonces bajo las hipótesis del lema 1,
queda garantizada la existencia de una única medida invariante.
La desigualdad (3) permite demostrar que la cadena {Zn }n≥0 es V -unifor-
memente ergódica, es decir
kΠn − ϑkV → 0 n → ∞
donde ϑ es la única medida invariante del proceso conjunto {Zn }n≥0 y por mar-
ginalización se obtiene la medida invariante del proceso {Yn }n≥0 .
es tensa.
Lema 3. Para el proceso AR-RM definido en (1), el vector (Y0:n , X1:n ) admite
densidad de probabilidad
E(h(Y1:n , X1:n , Y0 ))
= E(h(T −1 (e1:n ), X1:n , Y0 ))
Z X
= h(T −1 (u1:n ), i1:n , y0 ))p(e1:n = u1:n , X1:n = i1:n , Y0 = y0 )du1:n dy0
i1:n
p(e1:n = u1:n , X1:n = i1:n , Y0 = y0 ) = p(e1:n = u1:n )p(X1:n = i1:n )pY0 (y0 )
E(h(Y1:n , X1:n , Y0 ))
Z X n
Y n
Y
= h(T −1 (u1:n ), i1:n , y0 ) Φ(uk ) aik−1 ik µi1 pY0 (y0 )du1:n dy0 .
i1:n k=1 k=2
Por lo tanto las v.a (Y1 , . . . , Yn , X1:n , Y0 ) admiten densidad conjunta con res-
pecto a la medida de Lebesgue producto y la medida de contar producto.
La ventaja de este resultado es que cualquier otra distribución marginal de
interés se obtiene por integración de la densidad conjunta obtenida.
3. Propiedades de dependencia
Un proceso Y = {Yk }k∈Z es fuertemente α-mezclante (mixing en inglés), si
αn = sup{|P(A∩B)−P(A)P(B)| : A ∈ M0−∞ , B ∈ M∞
n } → 0, si n → ∞, (4)
Es absolutamente regular, si
βn = E ess sup{P(B|M0−∞ ) − P(B) : B ∈ M∞
n } → 0, si n → ∞. (5)
Los valores αn son llamados coeficientes fuertemente mezclantes, y los valo-
res βn son los coeficientes absolutamente regulares. Ver Doukhan (1994) para
ejemplos y propiedades bajo condiciones de dependencia, [13]. En general, te-
nemos la desigualdad 2αn ≤ βn ≤ 1.
Los coeficientes α-mezclantes se pueden escribir como:
αn := sup{|cov(φ, ξ)| : 0 ≤ φ, ξ ≤ 1, φ ∈ M0−∞ , ξ ∈ M∞
n }. (6)
En el caso de procesos de Markov estrictamente estacionarios X, con espacio
de estados (E, B), núcleo de transición A y medida de probabilidad invariante
λ; los coeficientes β toman la forma siguiente, see Doukhan ([13], sección 2.4):
βn := E sup{|A(n) (X, B) − λ(B)| : B ∈ B} . (7)
4. La función de verosimilitud
Entonces
lı́m l(ψn ) = sup l(ψ). (8)
n→∞ ψ∈Ψ
Propiedadades de procesos AR-RM 27
donde
n Y
m
" #1Ii (Xk )
(Yk − ρi Yk−1 − bi )2
Y 1
pθ,σ2 (Y1:n |Y0 , X1:n ) = exp − .
σi2
p
k=1 i=1
2πσi2
y
n Y
m
Y 1I (x ,x )
pA (x1:n ) = aiji,j k k+1 .
k=1 i,j=1
Demostraremos que las hipótesis del teorema 3 para la consistencia son cier-
tas en este caso particular. Viendo directamete que el proceso de verosimilitud
normalizado por v(n) = 1/n es equicontinuo. Este resultado es demostrado pa-
ra cadenas de Markov ocultas con espacio de estados y observaciones discretas
en Finesso [15] y es extendido a AR-RM lineales gaussianos en Rı́os y L. A.
Rodrı́guez [23].
1
Teorema 6. El conjunto de funciones fn (ψ) = n log pψ (Y1:n |Y0 ) es una suce-
sión equicontinua c.s-Pψ0 .
Ii := {k ≤ n : Xk = i} = {k1i , . . . , kni }
Yi = Wi θi + σi Ei .
de donde
aij , σi2 , σ
Como nij /n ≤ 1, ni /n ≤ 1 y los parámetros aij , e f2 son acotados
i
por debajo, existe una constante C1 tal que los dos primeros términos en
la desigualdad están acotados por C1 kψ − ψk.
e
m n
1 X
WiT Wi
≤ 1 + 1
X
Yk2 .
n i=1 n
k=1
lo que implica que hn es una sucesión equicontinua. Para regresar a {Yn } ob-
servamos que
1
log pψ (Y0:n , X1:n ) ≤ ε,
n pψ0 (Y0:n , X1:n )
de donde
pψ0 (Y1:n , X1:n ) ≤ exp(εn)pψ (Y1:n , X1:n )
y sumando sobre X1:n = x1:n
X X
pψ0 (Y1:n |Y0 ) = pψ0 (Y0:n , x1:n ) ≤ exp(εn) pψ (Y0:n , x1:n ) = pψ (Y1:n |Y0 )
x1:n x1:n
1 pψ0 (Y1:n |Y0 )
por consiguiente log
≤ ε.
n pψ (Y1:n |Y0 )
Con este resultado estamos en las hipótesis del teorema 3 garantizando la
consistencia del estimador de máxima verosimilitud para el caso lineal y gaussia-
no.
∂l(ρ̂) 1 ∂ 2 l(ρ̂) 2
l(ρ̂) − l(0) = ρ̂ + ρ̂ l(ρ̃)
∂ρ 2 ∂ρ2 ψ
∂l(ρ̂)
donde ρ̃ = λρ̂, λ ∈ (0, 1). También ∂ρ = 0. Ası́
2
∂ l(ρ̃)
−2(l(ρ̂) − l(0)) = ρ̂2 −
∂ρ2
p
De acuerdo al teorema 4 ρ̂ J(0) → N (0, 1) y como J(ρ̃)/J(0) → 1 entonces
ρ̂2 J(0) → χ21 .
Propiedadades de procesos AR-RM 33
4.4. Paso ES
En esta sección describimos el método de simulación que usamos en el algo-
ritmo SAEM. Para muestrear de la distribución condicional
pψ (x1:n |y0:n ) = λx1 p(y1 |y0 , x1 ) . . . axn−1 xn p(yn |yn−1 , xn )/pψ (y1:n |y0 ),
para todo x1:n ∈ {1, . . . , m}N . Carter y Kohn en [7] proponen una método
de muestreo que es una versión estocástica del algoritmo forward-backward
propuesto por Baum et al. [4]. Esto se tiene observando que pψ (x1:n |y0:n ) admite
la descomposición,
n−1
Y
pψ (x1:n |y0:n ) = pψ (xn |y0:n ) pψ (xk |xk+1 , y0:n ).
k=1
Dado Xk+1 conocido, pψ (Xk |Xk+1 , y0:n ) es una distribución discreta, lo cual nos
sugiere la siguiente estrategia de muestreo. Para k = 2, . . . , n, i ∈ {1, . . . , m},
calculamos recursivamente el filtro óptimo p(Xk |y0:k , ψ) como
m
X
p(Xn = i|y0:k , ψ) ∝ pψ (yk |yk−1 , Xk = i) aij p(Xk−1 = j|y1:k , ψ).
i=1
Propiedadades de procesos AR-RM 35
y para ρi 6= 0,
(t+1)
(t+1) S3 [i, j]
aij
b = (t+1)
S2 (i)
Pn−1 (t+1) Pn−1 (t+1) PN (t+1)
(t+1) k=1 S1 [i, n]yk yk−1 − k=1 S1 [i, k]yk k=1 S1 [i, k]yk−1
ρbi = Pn−1 (t+1) P 2
2 n−1 (t+1)
k=1 S1 [i, k]yk−1 − k=1 S1 [i, k]yk
n−1 n
bb(t+1) (t+1) (t+1)
X X
i = S1 [i, k]yk − ρbi S1 [i, k]yk−1
k=1 k=1
n 2
c2
(t+1) 1 X (t+1)
(t+1)
σ i = S1 [i, k] yn − ρi yn−1 − bi
n
k=1
5. Ejemplos numéricos
5.1. HMMs
−2
−4
−6
−8
0 50 100 150 200 250 300 350 400 450 500
5.2. AR-RM
7 5
4
6
3
5
3
0
2
−1
1.5
1 −2
0 500 1000 1500 2000 2500 3000 3500 4000 0 500 1000 1500 2000 2500 3000 3500 4000
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
−2
−4
−6
0 50 100 150 200 250 300 350 400 450 500
0.6
1.1 0.5
1 0.4
0.8
0.2
0.6
0
0.4
−0.2
0.2
−0.4
0
−0.6
−0.2
−0.4 −0.8
−0.5
−0.6 −1
0 100 200 300 400 500 600 700 800 900 1000 0 100 200 300 400 500 600 700 800 900 1000
3 0.9
2.8 0.8
2.6
0.7
2.4
0.6
2.2
0.5
2
0.4
1.8
0.3
1.6
1.5
1.4 0.2
1.2 0.1
0 100 200 300 400 500 600 700 800 900 1000 0 100 200 300 400 500 600 700 800 900 1000
300
200
100
−100
−200
−300
−400
0 50 100 150 200 250 300 350 400 450 500
1.5
0.9
0.8 1.08
0.9
0.6
0.5
0.4
0
0.2
−0.5
0
−1
−0.2
−1.5
−0.4
−0.6 −2
−0.7
−0.8 −2.5
0 20 40 60 80 100 120 140 160 180 200 0 20 40 60 80 100 120 140 160 180 200
2.1 1
0.9
2
0.8
1.9 0.7
0.6
1.8
0.5
1.7
0.4
1.6 0.3
0.2
1.5
0.1
1.4 0
0 20 40 60 80 100 120 140 160 180 200 0 20 40 60 80 100 120 140 160 180 200
Referencias
[3] J-G Attali. Ergodicity of a certain class of non Feller models : applications
to ARCH and Markov switching models. ESAIM: PS, 8:76–86, 2004.
[7] C. K Carter and R. Kohn. On Gibbs sampling for state space model.
Biometrika, 81:541–553, 1994.
[8] G. Celeux, D. Chauveau, and G. Diebol. On stochastic version of the em
algorithm. Rapport de recherche INRIA, 2514, 1995.
[9] G. Celeux and J. Diebolt. A stochastic approximation type em algorithm
for the mixture problems. Stochastics Reports, 41:119–134, 1992.
[10] B. Delyon, M. Lavielle, and E. Moulines. Convergence of a stochastic
approximation version of EM algorithm. The Annals of Statistics, 27(1):94–
128, 1999.
[11] A. Dempster, N. Laird, and D. Rubin. Maximum-likelihood from incom-
plete data via the EM algorithm. J. Roy. Statist. Soc. Ser. B, 39:1–38,
1977.
[12] R. Douc, E. Moulines, and T. Rydén. Asymptotic properties of the ma-
ximum likelihood estimator in autoregressive models with Markov regime.
Ann. Statist., 32:2254–2304, 2004.
[13] P. Doukhan. Mixing: Propierties and Examples., volume 85. Lecture Notes
in Statist., 1994.
[14] M. Duflo. Algorithmes Stochastiques. Springer-Verlag, Berlin, 1996.
[15] L. Finesso. Estimation of the order a finite Markov chain. PhD thesis,
University of Maryland, 1990.
[16] P. Giudici, T. Ryden, and P. Vandekerkhove. Likelihood-ratio test for
hidden markov models. Biometrics, pages 742–751, 2000.
[17] J.D. Hamilton. A new approach to the economic analysis of non stationary
time series and the business cycle. Econometrica, pages 357–384, 1989.
[18] J. G. Kemeny and J. L. Snell. Finite Markov Chains. Van Nostrand,
Princenton, New Jersey, 1960.
[19] V. Krishnamurthy. Recursive Algorithms for estimation of hidden Markov
Models with markov regime. IEEE Trans. Information theory, 48(2):458–
476, 2002.
[20] Fermı́n L., Rı́os, and L. A. Rodrı́guez. Asymptotic properties of the maxi-
mum likelihood estimator for functional ar process with markov-switching.
In preparation, 2014.
[21] S.P. Meyn and R.L. Tweedie. Markov Chains and. Stochastic Stability.
Springer-Verlag, 1993.
44 L Rodrı́guez
Luis-Angel Rodrı́guez
Departamento de Matemáticas. Facultad de Ciencias y Tecnologı́a
Universidad de Carabobo
Valencia, Venezuela
larodri@uc.edu.ve