Está en la página 1de 30

Estadı́stica Bayesiana: Un modelo no-paramétrico

Luis Gutiérrez

Departamento de Estadı́stica
Pontificia Universidad Católica de Chile

Jornadas de Ingenierı́a Estadı́stica UBB, 2022

llgutier@mat.uc.cl Estadı́stica Bayesiana 1 / 30


La distribución Dirichlet

Sea w = (w1 , w2 , . . . , wN )
Se dice que w ∼ Dirichlet(α1 , α2 , . . . , αN ) si

Γ( N N
P
j=1 αj ) α −1
Y
P(w1 , w2 , . . . , wN ) = QN wj j
j=1 Γ(αj ) j=1

El soporte de la distribución corresponde al simplex de probabilidades


en N dimensiones
N
X
∆N = {(w1 , w2 , . . . , wN ) : wj ≥ 0, wj = 1}
j=1

llgutier@mat.uc.cl Estadı́stica Bayesiana 2 / 30


La distribución Dirichlet
Dirichlet Processes
Examples of Dirichlet distributions

Yee Whye Teh (Gatsby) DP and HDP Tutorial Mar 1, 2007 / CUED 4 / 53

llgutier@mat.uc.cl Estadı́stica Bayesiana 3 / 30


La distribución Dirichlet

La distribución Dirichlet, es una distribución sobre un vector de


probabilidades finito–dimensional

Es la priori conjugada para el modelo multinomial

La distribución Beta es un caso particular de la distribución Dirichlet

La distribución Dirichlet es una distribución sobre distribuciones

¿Se podrá extender al caso de un vector de probabilidades


infinito–dimensional?

llgutier@mat.uc.cl Estadı́stica Bayesiana 4 / 30


El proceso Dirichlet

El proceso Dirichlet es una distribución sobre un vector de


probabilidades infinito–dimensional

En otras palabras, un Proceso Dirichlet (DP) es una distribución


sobre medidas de probabilidad (G)

El Proceso Dirichlet tiene dos parámetros


G0 , parámetro infinito-dimensional conocido como medida base del
proceso

M > 0, escalar, conocido como parámetro de precisión

llgutier@mat.uc.cl Estadı́stica Bayesiana 5 / 30


El proceso Dirichlet
Dirichlet Processes
Definition

A Dirichlet
Diremos que G Process (DP)Proceso
sigue un is a distribution over probability
Dirichlet y lo denotaremos como
measures.
A DP has two parameters:
G∼
Base distribution H, which DP(M,
is like G0of),the DP.
the mean
Strength parameter ↵, which is like an inverse-variance of the DP.
sı́ paraWe write:
cualquier partición finita (A1 , . . . , AN ) de X
G ⇠ DP(↵, H)
(G (Aany
if for 1 ),partition
. . . , G (A . . ,∼
, .))
(A1N An )Dirichlet(MG
of X: 0 (A1 ), . . . , MG0 (AN ))
(G(A1 ), . . . , G(An )) ⇠ Dirichlet(↵H(A1 ), . . . , ↵H(An ))
A4
A1

A6
A3 A5
A2

Yee Whye Teh (Gatsby) DP and HDP Tutorial Mar 1, 2007 / CUED 5 / 53

llgutier@mat.uc.cl Estadı́stica Bayesiana 6 / 30


El proceso Dirichlet

Note que G and G0 tienen soporte en el mismo conjunto, en este caso


X

A es cualquier subconjunto medible de X

Si sólo consideramos la partición A y Ac , tenemos que

(G (A), G (Ac )) ∼ Beta(MG0 (A), MG0 (Ac ))

Con esto, podemos utilizar las propiedades de la distribución Beta


para obtener los momentos de G

llgutier@mat.uc.cl Estadı́stica Bayesiana 7 / 30


El proceso Dirichlet

MG0 (A)
E[G (A)] = ,
MG0 (A) + MG0 (Ac )
MG0 (A)
= ,
M(G0 (A) + G0 (Ac ))
= G0 (A).

MG0 (A)MG0 (Ac )


V[G (A)] = ,
[MG0 (A) + MG0 (Ac )]2 [MG0 (A) + MG0 (Ac ) + 1]
M 2 G0 (A)G0 (Ac )
= ,
M 2 (1 + M)
G0 (A)(1 − G0 (A))
= .
1+M
llgutier@mat.uc.cl Estadı́stica Bayesiana 8 / 30
El Proceso Dirichlet

1.0

1.0
0.8 M = 1, G_0:=N(0,1) M = 5, G_0:=N(0,1)

0.8
0.6

0.6
Gx

Gx
0.4

0.4
0.2

0.2
0.0

0.0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3

x x
1.0

1.0
M = 20, G_0:=N(0,1) M = 100, G_0:=N(0,1)
0.8

0.8
0.6

0.6
Gx

Gx
0.4

0.4
0.2

0.2
0.0

0.0

-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3

llgutier@mat.uc.cl x Estadı́stica Bayesiana x 9 / 30


El Proceso Dirichlet

Una medida de probabilidad es una función de subconjuntos de un


espacio X a [0, 1] satisfaciendo ciertas propiedades

A DP es una distribución sobre medidas de probabilidad tal que las


marginales sobre particiones finitas siguen una distribución Dirichlet

¿Cómo sabemos que tal objeto existe?


Teorema de consistencia de Kolmogorov: Si las distribuciones finito
dimensionales se pueden describir consistentemente, entonces la
distribución sobre medidas de probabilidad existe

Teorema de de Finetti: Si tenemos una secuencia infinita


intercambiable de variables aleatorias, entonces existe una distribución
sobre medidas de probabilidad que las hace independientes

llgutier@mat.uc.cl Estadı́stica Bayesiana 10 / 30


El Proceso Dirichlet: Representación Stick-Breaking

Como G es una medida de probabilidad discreta, entonces se puede


representar como

X
G (·) = wj δθj (·), (1)
j=1

donde ∞
P
j=1 wj = 1, casi seguramente y δθ (·) es la medida de Dirac
sobre θ
En (1), se asume que {w }∞ ∞
j=1 son independientes de los {θ}j=1 . Estos
últimos son iid desde G0 .

llgutier@mat.uc.cl Estadı́stica Bayesiana 11 / 30


Dirichlet Process
Dirichlet
El Proceso Process
Dirichlet: Representación Stick-Breaking
 Consider Gaussian G0
 Consider Gaussian G0
Si la G0 := N(0, 1)

 G ~ DP(α, G0)
 G ~GDP(α,
Entonces G0)G0 ), puede lucir ası́
∼ DP(M,

11
11

llgutier@mat.uc.cl Estadı́stica Bayesiana 12 / 30


El Proceso Dirichlet: Representación Stick-Breaking

La representación Stick-Breaking nos dice cómo construir los pesos


w1 , w2 , . . .
iid
Sı́ vj ∼ Beta(1, M), j > 1 y luego construimos los pesos utilizando
j−1
Y
w1 = v1 , y wj = vj (1 − vl ), para j > 1,
l=1

iid
y los átomos los generamos desde G0 , θj ∼ G0 , j > 1, entonces

X
G (·) = wj δθj (·)
j=1

sigue un DP, en particular G ∼ DP(M, G0 )

llgutier@mat.uc.cl Estadı́stica Bayesiana 13 / 30


El Proceso Dirichlet: modelos DPM

Suponga el siguiente modelo jerárquico:

yi ∼ F (yi | θi ), i = 1, . . . , n, (2)
iid
θi ∼ G,
G ∼ DP(M, G0 ).

En (2) y como G es discreta, entonces tendremos empates entre los θi y


θi 0 , i 6= i 0 .

llgutier@mat.uc.cl Estadı́stica Bayesiana 14 / 30


El Proceso Dirichlet: modelos DPM

El modelo de (2) se puede re-escribir como una mezcla infinita,


utilizando el teorema de la convolución
Z
iid
yi ∼ F (· | θ)dG (θ), (3)
Z ∞
X
= F (· | θ) wj dδθj (·),
j=1

X
= wj F (· | θj ).
j=1

Dependiendo de la elección del kernel F , la mezcla podrı́a por ejemplo


acomodar datos con más de una moda

llgutier@mat.uc.cl Estadı́stica Bayesiana 15 / 30


El Proceso Dirichlet: Inferencia

Hay varias propuestas en la literatura para hacer la inferencia del


modelo (3)

Todas se basan en algoritmos MCMC

Existen los algoritmos marginales (en donde se integra la medida


aleatoria) y los algoritmos condicionales a la medida aleatoria

Aquı́ estudiaremos el algoritmo condicional de Slice Sampling para


mezclas infinitas

llgutier@mat.uc.cl Estadı́stica Bayesiana 16 / 30


El Proceso Dirichlet: Inferencia

Considere el modelo

iid
X
yi ∼ wj F (yi | θj ), i = 1, . . . , n
j=1

Partiremos definiendo una variable latente di , i = 1, . . . , n tal que

(yi | di = j) ∼ F (yi | θj ),

Con esto la verosimilitud de las n observaciones se puede escribir


como
∞ Pn
Y 1{d =j} Y
L(θ, w | y , d ) = wj i=1 i f (yi | θj ),
j=1 {i:di =j}

todavı́a tenemos infinitos términos en la verosimilitud!

llgutier@mat.uc.cl Estadı́stica Bayesiana 17 / 30


El Proceso Dirichlet: Inferencia

Para evitar el cálculo de un número infinito de términos Walker (2007)


introduce un segundo set de variables latentes ui , i = 1, . . . , n, tal que

X
f (yi , ui | w , θ) = 1{ui <wj } f (yi | θj )
j=1

La ventaja de este enfoque es que sólo un subconjunto de los pesos


wj cumple la condición (wj > ui , i = 1, . . . , n)

En un escenario de muestreo solo necesitamos N componentes en la


mezcla

N = max {N1 , . . . , Nn }, donde Ni es el entero más grande j tal que


wj > ui

llgutier@mat.uc.cl Estadı́stica Bayesiana 18 / 30


El Proceso Dirichlet: Inferencia

Adicionando la variable latente di que acabamos de definir tenemos


que
f (yi , ui , di | w , θ) = 1{ui <wd } f (yi | θdi )
i

Con esto la verosimilitud doblemente aumentada nos queda


n
Y
L(w , θ | y , u, d ) = 1{ui <wd } f (yi | θdi )
i
i=1

llgutier@mat.uc.cl Estadı́stica Bayesiana 19 / 30


El Proceso Dirichlet: Inferencia

Recurriendo a la construcción de Stick-breaking tenemos, podemos


definir las prioris para pesos y átomos como
iid iid
vj ∼ Beta(1, M) y θj ∼ G0

Con esto tenemos que la condicional completa para los átomos esta
dada por
Y
π(θj | · · · ) ∝ g0 (θj ) f (yi | θj ), j = 1, . . . , N
{i:di =j}

llgutier@mat.uc.cl Estadı́stica Bayesiana 20 / 30


El Proceso Dirichlet: Inferencia

Para actualizar los pesos, primero debemos re-escribir la distribución


de las latentes di , i = 1, . . . , n
En particular tenemos que
1(di =1) 1(di =2) 1(di =3) 1(di =N)
P(di = j) = w1 w2 w3 · · · wN , (4)
1(d =1) 1(di =2) 1(di =3)
= v1 i [v2 (1 − V 1)] [v3 (1 − v1 )(1 − v2 )] ···
1(di =N)
× [vN (1 − v1 )(1 − v2 ) · · · (1 − vN−1 )]
1(di =1) 1(di =2) 1(di =3) 1(d =N)
= v1 v2 v3 · · · vN i (1 − v1 )1(di =2) +1(di =3) +···1(di =N)
× (1 − v2 )1(di =3) +1(di =4) +···1(di =N) · · · (1 − vN−1 )1(di =N)
1(d =1) 1(d =2) 1(d =1)
= v1 i (1 − v1 )1(di >1) v2 i (1 − v2 )1(di >2) · · · vN i (1 − vN )1(di >N)
N
Y 1(d =j)
= vj i (1 − vj )1(di >j) (5)
j=1

llgutier@mat.uc.cl Estadı́stica Bayesiana 21 / 30


El Proceso Dirichlet: Inferencia

La distribución conjunta de los di , i = 1, . . . , n, nos queda


n Y
N
Y 1(di =j)
P(d1 , . . . , dn ) ∝ vj (1 − vj )1(di >j) ,
i=1 j=1
N Pn
Y i=1 1(di =j) Pn
1(di >j)
∝ vj (1 − vj ) i=1

j=1

La condicional completa de los Sticks nos queda


N Pn
Y 1(di =j) Pn
1(di >j)
π(vj | · · · ) ∝ vj1−1 (1 − vj ) M−1
vj i=1
(1 − vj ) i=1

j=1
1+ ni=1 1(di =j) −1
P Pn
= vj (1 − vj )M+ i=1 1(di >j) −1

llgutier@mat.uc.cl Estadı́stica Bayesiana 22 / 30


El Proceso Dirichlet: Inferencia

Con esto tenemos que


n
X n
X
(vj | · · · ) ∼ Beta(1 + 1(di =j) , M + 1(di >j) )
i=1 i=1

La condicional completa de las latentes nos queda

π(ui | · · · ) ∝ 1(0<ui <wd )


i

Finalmente
P(di = k) ∝ 1(k:wk >ui ) f (yi | θk )

llgutier@mat.uc.cl Estadı́stica Bayesiana 23 / 30


El Proceso Dirichlet: ejemplo de modelo DPM

yi | φi ∼ Erlang(dφi e, λ), (6)


iid
φi | G ∼ G,
G | M, G0 ∼ DP(M, G0 ),
λ ∼ Gamma(a, b),
M ∼ Gamma(a0 , b0 ),

Ası́ (6), es equivalente a



iid
X
yi ∼ wj Erlang(dφj e, λ) (7)
j=1

llgutier@mat.uc.cl Estadı́stica Bayesiana 24 / 30


(0) (0)
Inicializar N, φN , λ(0) , v N , u (0) y d (0)
 dφj e−1

λdφj e yi
× φaj 0 −1 e −b0 φj
Q
Muestrear φj desde p(φj | . . .) ∝ {i:di =j}

dφj e−1 !
Pn Pn 
Muestrear λ desde Gamma a + i=1 dφdi e , b + i=1 yi
Pn Pn 
Q Beta 1 + i=1 1{di = h} , M + i=1 1{di > j} ,
Muestrear vh desde
calcular wj = vj `<j (1 − v` )

Muestrear ui desde (ui | . . .) ∼ Unif(0, wdi ), i = 1, . . . , n .


Con probabilidad P[di = j | . . . ] ∝ 1{j : wj > ui } Er yi | dφdi e, λ ,


muestrear di ; i = 1, . . . , n
Repetir los pasos 2 a 6 hasta alcanzar la estacionariedad.

llgutier@mat.uc.cl Estadı́stica Bayesiana 25 / 30


El Proceso Dirichlet: ejemplo de modelo DPM

Ejemplo pesos de salmones de distintas edades

llgutier@mat.uc.cl Estadı́stica Bayesiana 26 / 30


El Proceso Dirichlet: ejemplo de modelo DPM

Day 15

10
8
6
Density

4
2
0

0.0 0.1 0.2 0.3 0.4 0.5

Weight in Kg

llgutier@mat.uc.cl Estadı́stica Bayesiana 27 / 30


El Proceso Dirichlet: ejemplo de modelo DPM

Day 34

6
5
4
Density

3
2
1
0

0.0 0.2 0.4 0.6 0.8

Weight in Kg

llgutier@mat.uc.cl Estadı́stica Bayesiana 28 / 30


El Proceso Dirichlet: ejemplo de modelo DPM

Day 74

5
4
Density

3
2
1
0

0.0 0.5 1.0 1.5

Weight in Kg

llgutier@mat.uc.cl Estadı́stica Bayesiana 29 / 30


El Proceso Dirichlet: ejemplo de modelo DPM

Day 154

2.0
1.5
Density

1.0
0.5
0.0

0 1 2 3

Weight in Kg

llgutier@mat.uc.cl Estadı́stica Bayesiana 30 / 30

También podría gustarte