Está en la página 1de 54

Métodos de aproximación bayesianos

Técnicas y métodos

M.Sc. Christian Amao Suxo

Universidad Nacional de Ingenierı́a


Escuela Profesional de Ingenierı́a Estadı́stica

Semestre I, 2020

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 1 / 54
Temario
1 Introducción
2 Simulación de variables aleatorias
Método de la transformada inversa
Métodos generales de transformación
Métodos de aceptación y rechazo
3 Método de Monte Carlo
Muestreo de Monte Carlo
Muestreo por importancia
4 Métodos de Markov Chain - Monte Carlo (MCMC)
¿Qué son los métodos MCMC?
Cadenas de Markov
Muestreo de Gibbs
Algoritmo Metropolis - Hastings
Diagnosis de convergencia

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 2 / 54
Introducción

¿Cuál es el contexto del problema?


En un problema de análisis bayesiano, toda la información requerida
es descrita en la distribución posteriori:
1 Probabilidades.
2 Valores esperados.
3 Optimización de funciones.
Sin embargo, existen casos en los cuales estas cantidades no pueden
ser obtenidas analı́ticamente. Por ejemplo, supóngase que
X|θ ∼ N (θ, σ02 ) y θ ∼ Cauchy(µ, τ ), entonces se obtiene que
2 2
π(θ|x) ∝ (τ 2 + (θ − µ)2 )−1 e−(θ−x) /(2σ ) y por tanto:
R∞ 2 2 −1 −(θ−x)2 /(2σ02 ) dθ
−∞ θ(τ + (θ − µ) ) e
E(θ|x) = R∞ (1)
2 2 −1 −(θ−x)2 /(2σ02 ) dθ
−∞ (τ + (θ − µ) ) e

Interrogante: ¿Qué métodos computacionales nos permiten


aproximar efectivamente las cantidades bayesianas de interés?

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 3 / 54
Simulación de variables aleatorias

¿Cómo se simulan variables aleatorias?

Los métodos de aproximación basados en muestreo requieren de la


generación de variables aleatorias de diversa ı́ndole.
La distribución U(0, 1) brinda la representación probabilı́stica básica
de aleatoriedad en un computador (Ver aquı́ para más detalle.).
Las simulaciones de variables aleatorias usan como base la
distribución de la variable aleatoria: U(0, 1). La generación de
cualquier distribución requerirá de la generación de variables
uniformes simuladas.

Observación: No es posible la generación de números aleatorios en el


sentido estricto, por lo que se habla de números pseudo-aleatorios.

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 4 / 54
Simulación de variables aleatorias Método de la transformada inversa

1 Introducción
2 Simulación de variables aleatorias
Método de la transformada inversa
Métodos generales de transformación
Métodos de aceptación y rechazo
3 Método de Monte Carlo
Muestreo de Monte Carlo
Muestreo por importancia
4 Métodos de Markov Chain - Monte Carlo (MCMC)
¿Qué son los métodos MCMC?
Cadenas de Markov
Muestreo de Gibbs
Algoritmo Metropolis - Hastings
Diagnosis de convergencia

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 5 / 54
Simulación de variables aleatorias Método de la transformada inversa

¿En qué consiste el método de la transformada inversa?

Método de la transformada inversa


Para una variable aleatoria continua X con densidad pX positiva en todo
su dominio, la transformada inversa usa el hecho de que

U = FX (X) ∼ U(0, 1). (2)

Ası́, si se desea simular X, entonces se simula primero U para obtener

X = FX−1 (U ). (3)

Observación: Para una variable aleatoria arbitraria X con fda FX ,


defı́nase la operación FX− (u) = inf {x; F (x) ≥ u}. Si U ∼ U(0, 1),
entonces FX− (U ) se distribuye como X.

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 6 / 54
Simulación de variables aleatorias Método de la transformada inversa

¿En qué consiste el método de la transformada inversa?

Ejemplo
1 Si se desea simular X ∼ Exp(1), entonces se calcula
u = FX (x) = 1 − e−x y despejando x con respecto a u se obtiene
que x = −log(1 − u). Por tanto, si U ∼ U(0, 1), entonces

X = −log(1 − U ) ∼ Exp(1).

Compare los resultados obtenidos con el generador de R para variables


aleatorias exponenciales. Para ello genere 10000 valores usando rexp.

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 7 / 54
Simulación de variables aleatorias Método de la transformada inversa

¿En qué consiste el método de la transformada inversa?

Ejercicios
1 Genere 10000 valores de la distribución logı́stica Logis(µ, β), con
µ ∈ R y β > 0, cuya densidad viene dada por

1 e−(x−µ)/β
p(x) = .
β (1 + e−(x−µ)/β )2
2 Genere 10000 valores de la distribución Cauchy C(µ, σ), con µ ∈ R y
σ > 0, cuya densidad viene dada por
1 1
p(x) = .
πσ 1 + ( x−µ
σ )
2

3 Compare los valores obtenidos con los generados por R usando la


función rlogis y rcauchy.

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 8 / 54
Simulación de variables aleatorias Método de la transformada inversa

¿Cómo se simulan variables aleatorias discretas?

Transformación inversa para variables aleatorias discretas


Para generar valores de la variable aleatoria discreta X ∼ pX , se calculan
primero:
p0 = pX (X ≤ 0), p1 = pX (X ≤ 1), . . . , (4)
y luego se genera U ∼ U(0, 1) y se toma

X = k si pk−1 ≤ U ≤ pk . (5)

Ejemplo
Haciendo uso de la transformación inversa, genere 10000 valores de una
distribución Bin(10, 3) y compare estos valores con los generados por la
función rbinom.

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 9 / 54
Simulación de variables aleatorias Métodos generales de transformación

1 Introducción
2 Simulación de variables aleatorias
Método de la transformada inversa
Métodos generales de transformación
Métodos de aceptación y rechazo
3 Método de Monte Carlo
Muestreo de Monte Carlo
Muestreo por importancia
4 Métodos de Markov Chain - Monte Carlo (MCMC)
¿Qué son los métodos MCMC?
Cadenas de Markov
Muestreo de Gibbs
Algoritmo Metropolis - Hastings
Diagnosis de convergencia

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 10 / 54
Simulación de variables aleatorias Métodos generales de transformación

¿En qué consisten los métodos generales de transformación?

Estos métodos se abren paso cuando una variable aleatoria X está


relacionada de manera simple con otra variable que es sencilla de
simular.

Ejemplos
i.i.d.
En el ejemplo anterior, se pudieron simular Xi ∼ Exp(1). Entonces, se
pueden simular las variables:
1. Y = 2 nj=1 Xj ∼ χ2 (2n), n ∈ N.
P

2. Y = β aj=1 Xj ∼ G(a, β), a ∈ N.


P
Pa
j=1 Xj
3. Y = Pa+b ∼ Be(a, b), a, b ∈ N.
j=1 Xj

Ejercicio. Simule 10000 valores de la distribución χ2 (10), G(5, 1.5) y


Be(8, 15) y compárelos con los obtenidos mediante las funciones de R
rchisq, rgamma y rbeta.
M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 11 / 54
Simulación de variables aleatorias Métodos generales de transformación

¿En qué consisten los métodos generales de transformación?

Algoritmo de Box-Muller
Si U1 y U2 son dos variables U(0, 1) independientes, entonces
p p
X1 = −2log(U1 )cos(2πU2 ) y X2 = −2log(U1 )sen(2πU2 ) (6)

son variables N (0, 1) independientes.

Ejemplo
Genere 10000 valores de una distribución normal estándar usando el
algoritmo de Box-Muller y compárelos con los generados por R con la
función rnorm.

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 12 / 54
Simulación de variables aleatorias Métodos de aceptación y rechazo

1 Introducción
2 Simulación de variables aleatorias
Método de la transformada inversa
Métodos generales de transformación
Métodos de aceptación y rechazo
3 Método de Monte Carlo
Muestreo de Monte Carlo
Muestreo por importancia
4 Métodos de Markov Chain - Monte Carlo (MCMC)
¿Qué son los métodos MCMC?
Cadenas de Markov
Muestreo de Gibbs
Algoritmo Metropolis - Hastings
Diagnosis de convergencia

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 13 / 54
Simulación de variables aleatorias Métodos de aceptación y rechazo

¿En qué consisten los métodos de aceptación y rechazo?

Método de aceptación-rechazo
Supóngase que se desea simular los valores de una variable aleatoria X ∼ p
y se tiene una densidad q cuyos valores son fáciles de simular y además:
a. p y q tienen soportes compatibles (i.e. q(x) > 0 cuando p(x) > 0).
b. ∃M > 0 tal que supx {p(x)/q(x)} ≤ M .
El método consiste en:
1. Generar una variable Y proveniente de la densidad q.
2. Generar U ∼ U(0, 1) (independiente de Y ).
3. Si U ≤ Mp(Y )
q(Y ) , entonces X = Y . Caso contrario, rechazar y retornar
al paso 1.

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 14 / 54
Simulación de variables aleatorias Métodos de aceptación y rechazo

¿En qué consisten los métodos de aceptación y rechazo?

Este método es conocido como método indirecto de simulación


porque simula valores de una densidad pX basada en los valores de
una densidad qX más fácil de simular.
Este método asegura la simulación de valores de la densidad X porque

P(Y ≤ x|U ≤ p(Y )/M q(Y )) = P(X ≤ x). (7)

Sea N : La cantidad de iteraciones hasta obtener un acierto. N es


una variable aleatoria geométrica de parámetro p = P(U ≤ Mp(Y )
q(Y ) ).
Con esto se demuestra que E(N ) = 1/p.
Se demuestra que p = 1/M y por tanto E(N ) = M . Con esto, se
debe buscar un M que sea lo más pequeño posible, i.e.

M = supx {p(x)/q(x)}

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 15 / 54
Simulación de variables aleatorias Métodos de aceptación y rechazo

¿En qué consisten los métodos de aceptación y rechazo?

Ejercicios
1 Simule 10000 valores de una distribución Be(1.5, 4.3) usando el
método de aceptación y rechazo tomando como densidad candidata a
la distribución U(0, 1).
2 Simule 10000 valores de una distribución N (0, 1) usando el método
de aceptación y rechazo tomando como densidad candidata a la
distribución de Laplace cuya densidad está dada por
1
p(x) = e−|x| , x ∈ R
2
3 Compare los resultados obtenidos con los brindados por las funciones
de R rbeta y rnorm.

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 16 / 54
Método de Monte Carlo Muestreo de Monte Carlo

1 Introducción
2 Simulación de variables aleatorias
Método de la transformada inversa
Métodos generales de transformación
Métodos de aceptación y rechazo
3 Método de Monte Carlo
Muestreo de Monte Carlo
Muestreo por importancia
4 Métodos de Markov Chain - Monte Carlo (MCMC)
¿Qué son los métodos MCMC?
Cadenas de Markov
Muestreo de Gibbs
Algoritmo Metropolis - Hastings
Diagnosis de convergencia

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 17 / 54
Método de Monte Carlo Muestreo de Monte Carlo

¿En qué consiste la aproximación mediante muestreo?

Supóngase que la cantidad de interés es:


Z
E(h(X)) = h(x)pX (x)dx (8)
X

y que esta cantidad no se puede calcular analı́ticamente.


El principio del método de Monte Carlo consiste en generar una
m.a.s. (x1 , x2 , . . . , xn ) provenientes de una densidad pX y proponer
como aproximación empı́rica de (8)
n
1X
hn = h(xi ). (9)
n
i=1

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 18 / 54
Método de Monte Carlo Muestreo de Monte Carlo

¿En qué consiste la aproximación mediante muestreo?

De la ley fuerte de los grandes números, se tiene que


a.s.
hn → E(h(X))

Ası́ para n suficientemente grande, hn es una buena aproximación


de E(h(X)).
Si E(h2 (X)) < ∞, entonces se tiene que
Z
V ar(h(X)) 1
V (hn ) = = (h(x) − E(h(X)))2 pX (x)dx (10)
n n X

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 19 / 54
Método de Monte Carlo Muestreo de Monte Carlo

¿En qué consiste la aproximación mediante muestreo?

V (hn ) puede ser estimada mediante


n
1 X
V\
(hn ) = (h(xj ) − hn )2 , (11)
n(n − 1)
j=1

donde (x1 , x2 , . . . , xn ) es una m.a.s. proveniente de la densidad pX .


Bajo ciertas condiciones y por el teorema del lı́mite central:

hn − E(h(X)) D
q → N (0, 1) (12)
\
V (hn )

Con la ecuación (12) y para un n suf. grande, se pueden construir los


lı́mites para la aproximación de E(h(X)).

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 20 / 54
Método de Monte Carlo Muestreo de Monte Carlo

¿En qué consiste la aproximación mediante muestreo?

Ejercicios
1 Use el método de aproximación de Monte Carlo para estimar la
siguiente integral:
Z 1
(cos(50x) + sen(20x))2 dx
0

2 Replique el ejercicio anterior pero considerando como lı́mites de


integración a, b con a < b.
3 Use el método de aproximación de Monte Carlo para estimar la
integral Z ∞
xα−1 e−x dx
0
para α = 1, 2, 3, . . . , N .

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 21 / 54
Método de Monte Carlo Muestreo de Monte Carlo

¿En qué consiste la aproximación mediante muestreo?

Ejercicios
1 Supóngase que se desea estimar la función
R x de1 distribución de una
−t 2 /2
distribución normal estándar: Φ(x) = −∞ 2π e
√ dt
a. Exprese el problema para solucionarlo con un muestreo de Monte Carlo.
b. Calcule la varianza del estimador de Monte Carlo de Φ(x) y dé una
cota superior para la misma.
c. ¿Cuál es el número de iteraciones mı́nimo para obtener estimaciones de
Φ(x) con una precisión de al menos 4 decimales?
d. Obtenga estimaciones de Φ(x) para x = −2, 0 y 2 con la cantidad de
iteraciones hallada en c.
2 Supóngase que se desea estimar la probabilidad P(Z > 4.5) donde
Z ∼ N (0, 1). Observe lo siguiente:
a. ¿Cuántas simulaciones son necesarias para obtener un valor simulado
proveniente de una distribución Z que sea mayor a 4.5?
b. Realice una estimación por MC con n = 10000 simulaciones. ¿Las
estimaciones son buenas? ¿Por qué?
M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 22 / 54
Método de Monte Carlo Muestreo por importancia

1 Introducción
2 Simulación de variables aleatorias
Método de la transformada inversa
Métodos generales de transformación
Métodos de aceptación y rechazo
3 Método de Monte Carlo
Muestreo de Monte Carlo
Muestreo por importancia
4 Métodos de Markov Chain - Monte Carlo (MCMC)
¿Qué son los métodos MCMC?
Cadenas de Markov
Muestreo de Gibbs
Algoritmo Metropolis - Hastings
Diagnosis de convergencia

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 23 / 54
Método de Monte Carlo Muestreo por importancia

¿En qué consiste el muestreo por importancia?

Muestreo de Monte Carlo por importancia


R
Supóngase que se desea estimar Ep (h(X)) = X h(x)p(x)dx, pero existe
una densidad alternativa q(x) (función de importancia) que tiene el
mismo soporte que h × p, entonces:
Z Z
Ep (h(X)) = h(x)p(x)dx = {h(x)w(x)}q(x)dx = Eq (h(X)w(X)) (13)
X X

donde w(x) = p(x)/q(x). La aproximación se da simulando observaciones


i.i.d X1 , . . . , Xn con densidad q con n suf. grande:
n
1X
hwn = h(xi )w(xi ) (14)
n
i=1

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 24 / 54
Método de Monte Carlo Muestreo por importancia

¿En qué consiste el muestreo por importancia?

Ejemplo
1 Mediante el método de Monte Carlo, aproxime el área bajo la curva
de la distribución normal estándar en el intervalo [−3, 3]. Para ello
use como funciones de importancia la densidad de una variable
U[−3, 3] y una distribución Cauchy truncada en [−3, 3]. ¿Qué
densidad hace que el algoritmo sea más eficiente? ¿Por qué?
2 Supóngase que se desea estimar la probabilidad P(Z > 4.5) donde
Z ∼ N (0, 1). Use un muestreo MC por importancia para estimar
dicha probabilidad usando como densidad alternativa la distribución
Exp(1) truncada en [4.5, ∞].

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 25 / 54
Método de Monte Carlo Muestreo por importancia

OJO: Un estimador de Monte Carlo es un “mejor” estimador si tiene


menor varianza (por el mismo costo computacional) que sus competidores.

Selección óptima de la función de importancia


Una función de importancia q(x) adecuada deberı́a tener las siguientes
propiedades:
1 q(x) > 0 cuando h(x)p(x) > 0.
2 q(x) deberı́a ser aproximadamente proporcional a |h(x)p(x)|, para
alcanzar la mı́nima varianza.
3 Deberı́a ser fácil simular valores provenientes de la densidad q.
4 Deberı́a ser fácil calcular la densidad q(x) para cualquier valor x que
pueda tomar.
5 Los valores de q(x) en las colas de la distribución no deben ser muy
pequeños a comparación de h(x)p(x), i.e. los valores de
h(x)p(x)/q(x) deberı́an ser “uniformes”.

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 26 / 54
Método de Monte Carlo Muestreo por importancia

Muestreo MC para estimar cantidades bayesianas


En el caso de estimaciones de cantidades bayesianes estas se expresarán:
R
g(θ)p(X|θ)p(θ)dθ
Z
E(g(θ)|X) = g(θ)p(θ|X)dθ = ΘR (15)
Θ Θ p(X|θ)p(θ)dθ

Luego, suponiendo que u es una función de importancia adecuada, la


ecuación (12) queda como:
R
g(θ)w(θ)u(θ)dθ Eu (g(θ)w(θ))
E(g(θ)|X) = ΘR = (16)
Θ w(θ)u(θ)dθ Eu (w(θ))

Donde w(θ) = p(X|θ)p(θ)/u(θ). Finalmente aproximamos la esperanza


generando θ1 , . . . , θn variables i.i.d. con densidad u con n suf. grande:
n
X n
X
π
E (g(θ)|X) ≈ w(θi )g(θi )/ w(θi ) (17)
i=1 i=1

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 27 / 54
Método de Monte Carlo Muestreo por importancia

Ejemplo
Para el estimador de bayes Normal - Cauchy:
R ∞ θ −(x−θ)2 /2
1+θ2
e dθ
δ(x) = R−∞
∞ 1 2
−(x−θ) /2 dθ
,
−∞ 1+θ2 e

resuelva los siguientes items para x = 0, 2, 4:


a. Grafique los integrandos y use el método de Monte Carlo para estimar
δ(x). Use la simulación de variables provenientes de una distribución
Cauchy estándar mediante el método de transformada inversa.
b. Repita el experimento usando el método de Monte Carlo pero esta
vez basado en la simulación de valores de una distribución normal
obtenidas mediante el algoritmo de Box-Muller.
c. Compare los resultados obtenidos en a y b. ¿Qué experimento
asegura una convergencia más rápida? ¿Por qué?

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 28 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) ¿Qué son los métodos MCMC?

1 Introducción
2 Simulación de variables aleatorias
Método de la transformada inversa
Métodos generales de transformación
Métodos de aceptación y rechazo
3 Método de Monte Carlo
Muestreo de Monte Carlo
Muestreo por importancia
4 Métodos de Markov Chain - Monte Carlo (MCMC)
¿Qué son los métodos MCMC?
Cadenas de Markov
Muestreo de Gibbs
Algoritmo Metropolis - Hastings
Diagnosis de convergencia

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 29 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) ¿Qué son los métodos MCMC?

¿En qué consisten los métodos Markov Chain - Monte Carlo?

Los métodos Markov Chain - Monte Carlo (MCMC) permiten simular


valores de una distribución posteriori de la cual no es fácil generar
muestras.
En el proceso de simulación MCMC, cada valor generado depende
solo del anterior valor simulado, de ahı́ la noción de cadena de
Markov.
Los métodos MCMC son muy usados en la computación moderna
Bayesiana ya que en la mayorı́a de los casos la forma analı́tica de
π(θ|x) es desconocida y la dimensión de θ elevada.

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 30 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Cadenas de Markov

1 Introducción
2 Simulación de variables aleatorias
Método de la transformada inversa
Métodos generales de transformación
Métodos de aceptación y rechazo
3 Método de Monte Carlo
Muestreo de Monte Carlo
Muestreo por importancia
4 Métodos de Markov Chain - Monte Carlo (MCMC)
¿Qué son los métodos MCMC?
Cadenas de Markov
Muestreo de Gibbs
Algoritmo Metropolis - Hastings
Diagnosis de convergencia

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 31 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Cadenas de Markov

¿Qué es una Cadena de Markov?

Cadena de Markov
Una cadena de Markov es una secuencia de variables aleatorias discretas,
{Θi , i = 0, 1, 2, . . . } tal que la distribución de Θt dados los valores previos
Θ0 , Θ1 , . . . , Θt−1 solo depende de Θt−1 , i.e.

P (Θt ∈ A|Θ0 = θ0 , . . . , Θt−1 = θt−1 ) = P (Θt ∈ A|Θt−1 = θt−1 ), ∀A ∈ 2Ω

Nos restringiremos al caso temporalmente homogéneo, en el cual la


probabilidad P (Θt+1 = j|Θt = i) = pij no depende del tiempo t.
La matriz P = (pij )i,j∈S es llamada la matriz de transición de la
cadena {Θt }.

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 32 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Cadenas de Markov

¿Qué propiedades tiene una Cadena de Markov?

Se dice que la distribución π es la distribución estacionaria asociada


a la cadena de Markov {Θt }, si la distribución de probabilidad de Θ0
es π y la distribución de Θt es π, ∀t ≥ 1. Ası́, diremos que {Θt }t≥0 es
una cadena de Markov con distribución estacionaria π = (πi : i ∈ S) si

π = πP , (18)

donde P es la matriz de transición de la cadena.


Una cadena de Markov {Θn }n≥0 con espacio de estados contable S y
matriz de transición P es llamada irreducible si para cualquier par de
estados i, j ∈ S, existe n ≥ 1 tal que la probabilidad de llegar al
estado j comenzando en el estado i es positiva, es decir

∃n ≥ 1 tal que P (Θn = j|Θ0 = i) > 0 (19)

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 33 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Cadenas de Markov

¿Qué propiedades tiene una Cadena de Markov?

Una cadena de Markov es recurrente si para cualquier estado i, si la


cadena comienza en i, esta eventualmente retornará a i con
probabilidad 1.
Una cadena de Markov es recurrente positiva si el tiempo esperado
medio de retorno al estado i es finito. Caso contrario, se dice que la
cadena es recurrente nula
Una cadena de Markov es aperiódica si para algún i ∈ S se cumple
que
m.c.d.{n : pnii > 0} = 1 (20)

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 34 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Cadenas de Markov

¿Qué propiedades tiene una Cadena de Markov?

Teorema
Sea {Θn }n≥0 una cadena de Markov con espacio de estados contable S y
matriz de transición P . Además, supóngase que la cadena es irreducible y
aperiódica. Si π es una distribución estacionaria de {Θn }n≥0 , entonces
para cualquier distribución inicial de Θ0
X
lim |P (Θn = j) − πj | = 0 (21)
n→∞
j

Observación: El teorema presentado postula que para n suf. grande, sea


cual fuese la distribución inicial, la distribución de probabilidad de Θn será
muy cercana a la de π.

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 35 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Cadenas de Markov

¿Cómo ayudan las Cadenas de Markov?

1 Supongamos que queremos simular valores de una distribución


posteriori π(θ|x). La idea de los métodos MCMC consiste en simular
una cadena de Markov {Θn }n≥0 cuya distribución estacionaria sea
π(θ|x).
2 Cada valor simulado, θn , depende únicamente de su predecesor, θn−1 .
3 Es necesario simular la cadena para un número elevado de iteraciones
para aproximarse a la distribución estacionaria. Si el algoritmo se
implementa correctamente, la convergencia de la cadena está
garantizada independientemente de cuáles sean los valores iniciales.

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 36 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Cadenas de Markov

¿Cómo ayudan las Cadenas de Markov?

1 Los primeros valores simulados, (iteraciones de burn-in), se eliminan


porque no están en el estado estacionario.
2 Una vez que se tiene que la cadena de Markov ha convergido a la
distribución estacionaria p(θ|y), entonces se entenderı́a que los valores
simulados de esta cadena pueden ser usados para hallar cantidades
bayesianas de interés.

Problema: Las realizaciones no son independientes.

Solución: El Teorema Ergódico.

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 37 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Cadenas de Markov

¿Qué propiedades tiene una Cadena de Markov?

Teorema Ergódico
Sean Θ1 , Θ2 , . . . , ΘN valores de una cadena de Markov {Θn } que es
aperiódica, irreducible y positiva recurrente. Si E(g(θ)) < ∞, entonces
N Z
1 X a.s.
g(Θi ) → g(θ)π(θ)dθ, (22)
N Θ
i=1

donde π es la distribución estacionaria de la cadena {Θn }.

Interrogante: ¿Qué métodos generan cadenas de Markov ergódicas que


convergan a una distribución candidata π cualquiera?

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 38 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Muestreo de Gibbs

1 Introducción
2 Simulación de variables aleatorias
Método de la transformada inversa
Métodos generales de transformación
Métodos de aceptación y rechazo
3 Método de Monte Carlo
Muestreo de Monte Carlo
Muestreo por importancia
4 Métodos de Markov Chain - Monte Carlo (MCMC)
¿Qué son los métodos MCMC?
Cadenas de Markov
Muestreo de Gibbs
Algoritmo Metropolis - Hastings
Diagnosis de convergencia

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 39 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Muestreo de Gibbs

¿En qué consiste el muestreo de Gibbs?

Supongamos que se desea simular la densidad conjunta

p(θ) = p(θ1 , θ2 , . . . , θk )

y que para todo i = 1, 2, . . . , k; es posible simular valores de la distribución


condicional completa,

p(θi |θ −i ) = p(θi |θ1 , . . . , θi−1 , θi+1 , . . . , θk )

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 40 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Muestreo de Gibbs

¿En qué consiste el muestreo de Gibbs?

Algoritmo de Gibbs
1. Fijar un valor inicial, θ 0 = (θ1,0 , θ2,0 , . . . , θk,0 )0 .
2. Para t ≥ 0, generar:
Simular θ1,t+1 ∼ p(θ1 |θ2,t , . . . , θk,t )
Simular θ2,t+1 ∼ p(θ2 |θ1,t+1 , θ3,t . . . , θk,t )
Simular θ3,t+1 ∼ p(θ3 |θ1,t+1 , θ2,t+1 , θ4,t . . . , θk,t )
..
.
Simular θk,t+1 ∼ p(θk |θ1,t+1 , . . . , θk−1,t+1 )
3. Hacer t = t + 1 y retornar al paso 2 hasta lograr convergencia.

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 41 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Muestreo de Gibbs

Aplicación del algoritmo de Gibbs

Ejemplo 1: Simulación de una normal bivariada


Aplique el algoritmo de Gibbs para generar pares aleatorios (x, y)
correspondientes a una distribución normal bivariada de la forma
   
0 1 ρ
(X, Y ) ∼ N ,
0 ρ 1

. Para esto se hallan primero las condicionales completas:


Y | X = x ∼ N (ρx, 1 − ρ2 )
X | Y = y ∼ N (ρy, 1 − ρ2 )

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 42 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Muestreo de Gibbs

Aplicación del Algoritmo de Gibbs

Ejemplo: Simulación de una normal bivariada


1. Inicializar los valores X (0) e Y (0)
2. Para j ≥ 1, simular
Y (j) ∼ N (ρX (j−1) , 1 − ρ2 )
X (j) ∼ N (ρY (j) , 1 − ρ2 )
3. Hacer j = j + 1 e iterar hasta alcanzar convergencia.

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 43 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Muestreo de Gibbs

¿Cómo se aplica el muestreo de Gibbs?

Ejemplo 2
Suponga que se tiene una muestra Xi |λi ∼ P(λi ) para i = 1, 2, . . . , 10.
Además, se establecen las jerarquı́as:
iid
λi |β ∼ G(1.8, β)
β ∼ G(0.01, 1)

Si los valores observados de la muestra son

X = (5, 1, 5, 14, 3, 19, 1, 1, 4, 22),

entonces mediante el muestreo de Gibbs simule valores de la densidad


posteriori de λ = (λ1 , λ2 , . . . , λ10 )0 .

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 44 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Muestreo de Gibbs

¿Cómo se aplica el muestreo de Gibbs?

Ejemplo 2
Para aplicar el muestreo de Gibbs se requiere definir la densidad
condicional completa. Para ello se halla primero la densidad posteriori de
todos los parámetros involucrados como sigue:

p(λ, β|X) = p(X|λ, β) × p(λ|β) × p(β)


10  −λi xi
β α α−1 −βλi δ γ γ−1 −δβ

Y e λi
p(λ, β|X) = × λi e × β e
xi ! Γ(α) Γ(γ)
i=1
10 
Y 
p(λ, β|X) ∝ λixi +α−1 e−(1+β)λi × β 10α+γ−1 e−δβ
i=1

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 45 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Muestreo de Gibbs

¿Cómo se aplica el muestreo de Gibbs?

Ejemplo 2
Hallando las distribuciones condicionales completas se obtiene que:

p(λi |λ−i , β, X) ∝ λxi i +α−1 e−(1+β)λi


P10
p(β|λ, X) ∝ β 10α+γ−1 e−β(δ+ i=1 λi )

Con esto se obtiene que:


p(λi |λ−i , β, X) es una densidad proveniente de una distribución
G(xi + α, β + 1).
p(β|λ, X) es una
Pdensidad proveniente de una distribución
G(10α + γ, δ + 10i=1 λi ).

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 46 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Algoritmo Metropolis - Hastings

1 Introducción
2 Simulación de variables aleatorias
Método de la transformada inversa
Métodos generales de transformación
Métodos de aceptación y rechazo
3 Método de Monte Carlo
Muestreo de Monte Carlo
Muestreo por importancia
4 Métodos de Markov Chain - Monte Carlo (MCMC)
¿Qué son los métodos MCMC?
Cadenas de Markov
Muestreo de Gibbs
Algoritmo Metropolis - Hastings
Diagnosis de convergencia

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 47 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Algoritmo Metropolis - Hastings

¿En qué consiste el algoritmo de Metropolis - Hastings?

Algoritmo Metropolis - Hastings


Supóngase que existe una función q(x|θ) la cual es sencilla de simular y se
desean simular los valores de una distribución π(θ):
1. Hacer i = 0 e iniciamos en θ(0) .
2. Para j ≥ 1. Sea, x = θ(j−1) .
3. Se genera y ∼ q(y | x) y u ∼ U(0, 1).
4. Si u < α(x, y) se acepta y, θ(j) = y; en otro caso, θ(j) = x, donde
 
π(y) q(x | y)
α(x, y) = min ,1
π(x) q(y | x)

5. Hacer j = j + 1 y retornar a 2 hasta alcanzar convergencia.

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 48 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Algoritmo Metropolis - Hastings

Observaciones:
En caso la distribución a querer simular se la distribución posteriori
π(θ|x), la probabilidad de aceptación α, no depende de la constante
de integración de la distribución posteriori, de modo que:

π(θ∗ )f (x|θ∗ )q(θt |θ∗ )


 
α = min 1,
π(θt )f (x|θt )q(θ∗ |θt )

El algoritmo MH no es muy eficiente si α es muy elevada. Esto


porque la autocorrelación entre los valores simulados serı́a alta y la
cadena convergerı́a lentamente hacia la distribución posteriori de θ.
En el caso univariado una elección habitual es usar

q(θ∗ |θt ) = N (θt , σ 2 )

donde el valor σ se ajusta para obtener un valor aceptable de α.

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 49 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Diagnosis de convergencia

1 Introducción
2 Simulación de variables aleatorias
Método de la transformada inversa
Métodos generales de transformación
Métodos de aceptación y rechazo
3 Método de Monte Carlo
Muestreo de Monte Carlo
Muestreo por importancia
4 Métodos de Markov Chain - Monte Carlo (MCMC)
¿Qué son los métodos MCMC?
Cadenas de Markov
Muestreo de Gibbs
Algoritmo Metropolis - Hastings
Diagnosis de convergencia

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 50 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Diagnosis de convergencia

¿Cómo saber si los valores simulados son los correctos?

Cuando se ejecuta un algoritmo MCMC, es importante examinar si los


valores simulados, θt , han convergido aproximadamente a la
distribución estacionaria, π(θ|x). Para ello es recomendable:
1 Examinar empı́ricamente cómo de bien está explorando el algoritmo
MCMC el espacio de estados.
2 Verificar la convergencia
PN de las medias de los valores simulados en el
MCMC, e.g. si N1 t=1 θt → E(θ|x).
3 Analizar si los valores simulados son aproximadamente una muestra de
valores independientes e idénticamente distribuidos.
También se podrı́a ejecutar el algoritmo varias veces comenzando en
distintos valores iniciales y comprobar si el comportamiento de la
distribución estacionaria es la misma.

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 51 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Diagnosis de convergencia

¿Cómo saber si los valores simulados son los correctos?


Para examinar si la cadena está explorando bien el espacio de estados,
se pueden graficar los valores simulados de θt frente a t y analizar si
se producen desviaciones de la estacionaridad.
(a) (b) (c)

Figura: Diferentes tipos de simulaciones para examinar si el algoritmo MCMC


explora bien el espacio de estados. (a) Buena exploración, (b) mala exploración y
(c) mala exploración.
M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 52 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Diagnosis de convergencia

¿Cómo saber si los valores simulados son los correctos?


Para examinar la convergencia de las medias posteriori de los
parámetros estimados, se pueden graficar el valor de la media muestral
de los valores simulados en función de t y verificar si han convergido.

Figura: Simulaciones de los valores estimados de E(θ|x) para examinar si dos


distintos algoritmos MCMC convergen a la media posteriori.
M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 53 / 54
Métodos de Markov Chain - Monte Carlo (MCMC) Diagnosis de convergencia

¿Cómo saber si los valores simulados son los correctos?


Finalmente, se pueden graficar las funciones de autocorrelación de los
valores generados. En general, como se simulan valores de una
cadena de Markov, los valores de θt estarán correlados positivamente.

(a) (b)
Figura: Simulación del correlograma de las cadenas de Markov mediante el
algoritmo MCMC: (a) Paseo Aleatorio MH (q(θ∗ |θ) = q(|θ∗ − θ|)), (b) Muestreo
independiente MH (q(θ∗ |θt ) = q(θ∗ )).

M.Sc. Christian Amao Suxo (UNI) Métodos de aproximación bayesianos Semestre I, 2020 54 / 54

También podría gustarte