Lect 3

Estadı́stica Bayesiana: Un modelo no-paramétrico
Luis Gutiérrez
Departamento de Estadı́stica
Pontificia Universidad Católica de Chile
Jornadas de Ingenierı́a Estadı́stica UBB, 2022
llgutier@mat.uc.cl Estadı́stica Bayesiana 1 / 30

La distribución Dirichlet
Sea w = (w1 , w2 , . . . , wN )
Se dice que w ∼ Dirichlet(α1 , α2 , . . . , αN ) si
Γ( N N
P
j=1 αj ) α −1
Y
P(w1 , w2 , . . . , wN ) = QN wj j
j=1 Γ(αj ) j=1
El soporte de la distribución corresponde al simplex de probabilidades

en N dimensiones
N
X
∆N = {(w1 , w2 , . . . , wN ) : wj ≥ 0, wj = 1}
j=1

Dirichlet Processes
Examples of Dirichlet distributions
Yee Whye Teh (Gatsby) DP and HDP Tutorial Mar 1, 2007 / CUED 4 / 53

La distribución Dirichlet, es una distribución sobre un vector de

probabilidades finito–dimensional
Es la priori conjugada para el modelo multinomial
La distribución Beta es un caso particular de la distribución Dirichlet
La distribución Dirichlet es una distribución sobre distribuciones
¿Se podrá extender al caso de un vector de probabilidades

infinito–dimensional?

El proceso Dirichlet
El proceso Dirichlet es una distribución sobre un vector de

probabilidades infinito–dimensional
En otras palabras, un Proceso Dirichlet (DP) es una distribución

sobre medidas de probabilidad (G)
El Proceso Dirichlet tiene dos parámetros

G0 , parámetro infinito-dimensional conocido como medida base del
proceso
M > 0, escalar, conocido como parámetro de precisión

Dirichlet Processes
Definition
A Dirichlet
Diremos que G Process (DP)Proceso
sigue un is a distribution over probability
Dirichlet y lo denotaremos como
measures.
A DP has two parameters:
G∼
Base distribution H, which DP(M,
is like G0of),the DP.
the mean
Strength parameter ↵, which is like an inverse-variance of the DP.
sı́ paraWe write:
cualquier partición finita (A1 , . . . , AN ) de X
G ⇠ DP(↵, H)
(G (Aany
if for 1 ),partition
. . . , G (A . . ,∼
, .))
(A1N An )Dirichlet(MG
of X: 0 (A1 ), . . . , MG0 (AN ))
(G(A1 ), . . . , G(An )) ⇠ Dirichlet(↵H(A1 ), . . . , ↵H(An ))
A4
A1
A6
A3 A5
A2
Yee Whye Teh (Gatsby) DP and HDP Tutorial Mar 1, 2007 / CUED 5 / 53

Note que G and G0 tienen soporte en el mismo conjunto, en este caso

X
A es cualquier subconjunto medible de X
Si sólo consideramos la partición A y Ac , tenemos que
(G (A), G (Ac )) ∼ Beta(MG0 (A), MG0 (Ac ))
Con esto, podemos utilizar las propiedades de la distribución Beta

para obtener los momentos de G

MG0 (A)
E[G (A)] = ,
MG0 (A) + MG0 (Ac )
MG0 (A)
= ,
M(G0 (A) + G0 (Ac ))
= G0 (A).
MG0 (A)MG0 (Ac )

V[G (A)] = ,
[MG0 (A) + MG0 (Ac )]2 [MG0 (A) + MG0 (Ac ) + 1]
M 2 G0 (A)G0 (Ac )
= ,
M 2 (1 + M)
G0 (A)(1 − G0 (A))
= .
1+M
El Proceso Dirichlet
1.0
1.0
0.8 M = 1, G_0:=N(0,1) M = 5, G_0:=N(0,1)
0.8
0.6
0.6
Gx
Gx
0.4
0.4
0.2
0.2
0.0
0.0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
x x
1.0
1.0
M = 20, G_0:=N(0,1) M = 100, G_0:=N(0,1)
0.8
0.8
0.6
0.6
Gx
Gx
0.4
0.4
0.2
0.2
0.0
0.0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
llgutier@mat.uc.cl x Estadı́stica Bayesiana x 9 / 30

El Proceso Dirichlet
Una medida de probabilidad es una función de subconjuntos de un

espacio X a [0, 1] satisfaciendo ciertas propiedades
A DP es una distribución sobre medidas de probabilidad tal que las

marginales sobre particiones finitas siguen una distribución Dirichlet
¿Cómo sabemos que tal objeto existe?

Teorema de consistencia de Kolmogorov: Si las distribuciones finito
dimensionales se pueden describir consistentemente, entonces la
distribución sobre medidas de probabilidad existe
Teorema de de Finetti: Si tenemos una secuencia infinita

intercambiable de variables aleatorias, entonces existe una distribución
sobre medidas de probabilidad que las hace independientes

El Proceso Dirichlet: Representación Stick-Breaking
Como G es una medida de probabilidad discreta, entonces se puede

representar como
∞
X
G (·) = wj δθj (·), (1)
j=1
donde ∞
P
j=1 wj = 1, casi seguramente y δθ (·) es la medida de Dirac
sobre θ
En (1), se asume que {w }∞ ∞
j=1 son independientes de los {θ}j=1 . Estos
últimos son iid desde G0 .

Dirichlet Process
Dirichlet
El Proceso Process
Dirichlet: Representación Stick-Breaking
 Consider Gaussian G0
 Consider Gaussian G0
Si la G0 := N(0, 1)
 G ~ DP(α, G0)
 G ~GDP(α,
Entonces G0)G0 ), puede lucir ası́
∼ DP(M,
11
11

El Proceso Dirichlet: Representación Stick-Breaking
La representación Stick-Breaking nos dice cómo construir los pesos

w1 , w2 , . . .
iid
Sı́ vj ∼ Beta(1, M), j > 1 y luego construimos los pesos utilizando
j−1
Y
w1 = v1 , y wj = vj (1 − vl ), para j > 1,
l=1
iid
y los átomos los generamos desde G0 , θj ∼ G0 , j > 1, entonces
∞
X
G (·) = wj δθj (·)
j=1
sigue un DP, en particular G ∼ DP(M, G0 )

El Proceso Dirichlet: modelos DPM
Suponga el siguiente modelo jerárquico:
yi ∼ F (yi | θi ), i = 1, . . . , n, (2)
iid
θi ∼ G,
G ∼ DP(M, G0 ).
En (2) y como G es discreta, entonces tendremos empates entre los θi y

θi 0 , i 6= i 0 .

El Proceso Dirichlet: modelos DPM
El modelo de (2) se puede re-escribir como una mezcla infinita,

utilizando el teorema de la convolución
Z
iid
yi ∼ F (· | θ)dG (θ), (3)
Z ∞
X
= F (· | θ) wj dδθj (·),
j=1
∞
X
= wj F (· | θj ).
j=1
Dependiendo de la elección del kernel F , la mezcla podrı́a por ejemplo

acomodar datos con más de una moda

El Proceso Dirichlet: Inferencia
Hay varias propuestas en la literatura para hacer la inferencia del

modelo (3)
Todas se basan en algoritmos MCMC
Existen los algoritmos marginales (en donde se integra la medida

aleatoria) y los algoritmos condicionales a la medida aleatoria
Aquı́ estudiaremos el algoritmo condicional de Slice Sampling para

mezclas infinitas

Considere el modelo
∞
iid
X
yi ∼ wj F (yi | θj ), i = 1, . . . , n
j=1
Partiremos definiendo una variable latente di , i = 1, . . . , n tal que
(yi | di = j) ∼ F (yi | θj ),
Con esto la verosimilitud de las n observaciones se puede escribir

como
∞ Pn
Y 1{d =j} Y
L(θ, w | y , d ) = wj i=1 i f (yi | θj ),
j=1 {i:di =j}
todavı́a tenemos infinitos términos en la verosimilitud!

Para evitar el cálculo de un número infinito de términos Walker (2007)

introduce un segundo set de variables latentes ui , i = 1, . . . , n, tal que
∞
X
f (yi , ui | w , θ) = 1{ui <wj } f (yi | θj )
j=1
La ventaja de este enfoque es que sólo un subconjunto de los pesos

wj cumple la condición (wj > ui , i = 1, . . . , n)
En un escenario de muestreo solo necesitamos N componentes en la

mezcla
N = max {N1 , . . . , Nn }, donde Ni es el entero más grande j tal que

wj > ui

Adicionando la variable latente di que acabamos de definir tenemos

que
f (yi , ui , di | w , θ) = 1{ui <wd } f (yi | θdi )
i
Con esto la verosimilitud doblemente aumentada nos queda

n
Y
L(w , θ | y , u, d ) = 1{ui <wd } f (yi | θdi )
i
i=1

Recurriendo a la construcción de Stick-breaking tenemos, podemos

definir las prioris para pesos y átomos como
iid iid
vj ∼ Beta(1, M) y θj ∼ G0
Con esto tenemos que la condicional completa para los átomos esta
dada por
Y
π(θj | · · · ) ∝ g0 (θj ) f (yi | θj ), j = 1, . . . , N
{i:di =j}

Para actualizar los pesos, primero debemos re-escribir la distribución

de las latentes di , i = 1, . . . , n
En particular tenemos que
1(di =1) 1(di =2) 1(di =3) 1(di =N)
P(di = j) = w1 w2 w3 · · · wN , (4)
1(d =1) 1(di =2) 1(di =3)
= v1 i [v2 (1 − V 1)] [v3 (1 − v1 )(1 − v2 )] ···
1(di =N)
× [vN (1 − v1 )(1 − v2 ) · · · (1 − vN−1 )]
1(di =1) 1(di =2) 1(di =3) 1(d =N)
= v1 v2 v3 · · · vN i (1 − v1 )1(di =2) +1(di =3) +···1(di =N)
× (1 − v2 )1(di =3) +1(di =4) +···1(di =N) · · · (1 − vN−1 )1(di =N)
1(d =1) 1(d =2) 1(d =1)
= v1 i (1 − v1 )1(di >1) v2 i (1 − v2 )1(di >2) · · · vN i (1 − vN )1(di >N)
N
Y 1(d =j)
= vj i (1 − vj )1(di >j) (5)
j=1

La distribución conjunta de los di , i = 1, . . . , n, nos queda

n Y
N
Y 1(di =j)
P(d1 , . . . , dn ) ∝ vj (1 − vj )1(di >j) ,
i=1 j=1
N Pn
Y i=1 1(di =j) Pn
1(di >j)
∝ vj (1 − vj ) i=1
j=1
La condicional completa de los Sticks nos queda

N Pn
Y 1(di =j) Pn
1(di >j)
π(vj | · · · ) ∝ vj1−1 (1 − vj ) M−1
vj i=1
(1 − vj ) i=1
j=1
1+ ni=1 1(di =j) −1
P Pn
= vj (1 − vj )M+ i=1 1(di >j) −1

Con esto tenemos que

n
X n
X
(vj | · · · ) ∼ Beta(1 + 1(di =j) , M + 1(di >j) )
i=1 i=1
La condicional completa de las latentes nos queda
π(ui | · · · ) ∝ 1(0<ui <wd )

i
Finalmente
P(di = k) ∝ 1(k:wk >ui ) f (yi | θk )

El Proceso Dirichlet: ejemplo de modelo DPM
yi | φi ∼ Erlang(dφi e, λ), (6)

iid
φi | G ∼ G,
G | M, G0 ∼ DP(M, G0 ),
λ ∼ Gamma(a, b),
M ∼ Gamma(a0 , b0 ),
Ası́ (6), es equivalente a

∞
iid
X
yi ∼ wj Erlang(dφj e, λ) (7)
j=1

(0) (0)
Inicializar N, φN , λ(0) , v N , u (0) y d (0)
dφj e−1

λdφj e yi
× φaj 0 −1 e −b0 φj
Q
Muestrear φj desde p(φj | . . .) ∝ {i:di =j}

dφj e−1 !
Pn Pn
Muestrear λ desde Gamma a + i=1 dφdi e , b + i=1 yi
Pn Pn
Q Beta 1 + i=1 1{di = h} , M + i=1 1{di > j} ,
Muestrear vh desde
calcular wj = vj `<j (1 − v` )
Muestrear ui desde (ui | . . .) ∼ Unif(0, wdi ), i = 1, . . . , n .

Con probabilidad P[di = j | . . . ] ∝ 1{j : wj > ui } Er yi | dφdi e, λ ,

muestrear di ; i = 1, . . . , n
Repetir los pasos 2 a 6 hasta alcanzar la estacionariedad.

Ejemplo pesos de salmones de distintas edades

Day 15
10
8
6
Density
4
2
0
0.0 0.1 0.2 0.3 0.4 0.5
Weight in Kg

Day 34
6
5
4
Density
3
2
1
0
0.0 0.2 0.4 0.6 0.8
Weight in Kg

Day 74
5
4
Density
3
2
1
0
0.0 0.5 1.0 1.5
Weight in Kg

Day 154
2.0
1.5
Density
1.0
0.5
0.0
0 1 2 3
Weight in Kg

Lect 3

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Lect 3

Cargado por

Copyright:

Formatos disponibles

Estadı́stica Bayesiana: Un modelo no-paramétrico

Jornadas de Ingenierı́a Estadı́stica UBB, 2022

llgutier@mat.uc.cl Estadı́stica Bayesiana 1 / 30

El soporte de la distribución corresponde al simplex de probabilidades

llgutier@mat.uc.cl Estadı́stica Bayesiana 2 / 30

llgutier@mat.uc.cl Estadı́stica Bayesiana 3 / 30

La distribución Dirichlet, es una distribución sobre un vector de

Es la priori conjugada para el modelo multinomial

La distribución Beta es un caso particular de la distribución Dirichlet

La distribución Dirichlet es una distribución sobre distribuciones

¿Se podrá extender al caso de un vector de probabilidades

llgutier@mat.uc.cl Estadı́stica Bayesiana 4 / 30

El proceso Dirichlet es una distribución sobre un vector de

En otras palabras, un Proceso Dirichlet (DP) es una distribución

El Proceso Dirichlet tiene dos parámetros

M > 0, escalar, conocido como parámetro de precisión

llgutier@mat.uc.cl Estadı́stica Bayesiana 5 / 30

llgutier@mat.uc.cl Estadı́stica Bayesiana 6 / 30

Note que G and G0 tienen soporte en el mismo conjunto, en este caso

A es cualquier subconjunto medible de X

Si sólo consideramos la partición A y Ac , tenemos que

(G (A), G (Ac )) ∼ Beta(MG0 (A), MG0 (Ac ))

Con esto, podemos utilizar las propiedades de la distribución Beta

llgutier@mat.uc.cl Estadı́stica Bayesiana 7 / 30

MG0 (A)MG0 (Ac )

llgutier@mat.uc.cl x Estadı́stica Bayesiana x 9 / 30

Una medida de probabilidad es una función de subconjuntos de un

A DP es una distribución sobre medidas de probabilidad tal que las

¿Cómo sabemos que tal objeto existe?

Teorema de de Finetti: Si tenemos una secuencia infinita

llgutier@mat.uc.cl Estadı́stica Bayesiana 10 / 30

Como G es una medida de probabilidad discreta, entonces se puede

llgutier@mat.uc.cl Estadı́stica Bayesiana 11 / 30

llgutier@mat.uc.cl Estadı́stica Bayesiana 12 / 30

La representación Stick-Breaking nos dice cómo construir los pesos

sigue un DP, en particular G ∼ DP(M, G0 )

llgutier@mat.uc.cl Estadı́stica Bayesiana 13 / 30

Suponga el siguiente modelo jerárquico:

En (2) y como G es discreta, entonces tendremos empates entre los θi y

llgutier@mat.uc.cl Estadı́stica Bayesiana 14 / 30

El modelo de (2) se puede re-escribir como una mezcla infinita,

Dependiendo de la elección del kernel F , la mezcla podrı́a por ejemplo

llgutier@mat.uc.cl Estadı́stica Bayesiana 15 / 30

Hay varias propuestas en la literatura para hacer la inferencia del

Todas se basan en algoritmos MCMC

Existen los algoritmos marginales (en donde se integra la medida

Aquı́ estudiaremos el algoritmo condicional de Slice Sampling para

llgutier@mat.uc.cl Estadı́stica Bayesiana 16 / 30

Partiremos definiendo una variable latente di , i = 1, . . . , n tal que

Con esto la verosimilitud de las n observaciones se puede escribir

todavı́a tenemos infinitos términos en la verosimilitud!

llgutier@mat.uc.cl Estadı́stica Bayesiana 17 / 30

Para evitar el cálculo de un número infinito de términos Walker (2007)

La ventaja de este enfoque es que sólo un subconjunto de los pesos

En un escenario de muestreo solo necesitamos N componentes en la

N = max {N1 , . . . , Nn }, donde Ni es el entero más grande j tal que

llgutier@mat.uc.cl Estadı́stica Bayesiana 18 / 30

Adicionando la variable latente di que acabamos de definir tenemos

Con esto la verosimilitud doblemente aumentada nos queda

llgutier@mat.uc.cl Estadı́stica Bayesiana 19 / 30

Recurriendo a la construcción de Stick-breaking tenemos, podemos

llgutier@mat.uc.cl Estadı́stica Bayesiana 20 / 30