Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Gaussianprocesses PDF
Gaussianprocesses PDF
Distribución
Gaussiana
Procesos
Gaussianos
Procesos Gaussianos
Eduardo Morales
INAOE
(INAOE) 1 / 47
Contenido
Introducción
Distribución
Gaussiana
Procesos
Gaussianos
1 Introducción
2 Distribución Gaussiana
3 Procesos Gaussianos
(INAOE) 2 / 47
Introducción
Procesos Gaussianos
Introducción
Distribución
Gaussiana
Procesos
• Normalmente, en los algoritmos de aprendizaje que
Gaussianos
hemos visto, dado un conjunto de ejemplos de
entrenamiento se busca encontrar el mejor modelo que
ajuste a los datos (o el modelo que haga las mejores
predicciones con ejemplos de prueba).
• Cuando hablamos de algoritmos bayesianos, en
cambio podemos buscar la distribución posterior sobre
los modelos.
• Estas distribuciones nos cuantifican nuestra
incertidumbre en los modelos.
(INAOE) 3 / 47
Introducción
Procesos Gaussianos
Introducción
Distribución
Gaussiana
Procesos
Gaussianos
(INAOE) 4 / 47
Introducción
Procesos Gaussianos
Introducción • Los procesos gaussianos se empezaron a estudiar
Distribución
Gaussiana
para predicción de series de tiempo en los 40’s
Procesos (Wiener, Kolmogorov)
Gaussianos
• Más adelante (70’s) se usaron en geoestadı́stica y
meteorologı́a, en lo que se llamó kriging usando 2 o 3
dimensiones.
• Más adelante en estadı́stica espacial (ver Creesie,
1993)
• También en regresión: O’Hagan, 1978
• Se realizaron experimentos en computadoras (sin
ruido) a finales de los 80’s (Sacks et al. 1989)
• Se popularizaron recientemente en aprendizaje
computacional por Williams y Rasmussen (1996) y Neal
(1996) para resolver problemas de regresión.
(INAOE) 5 / 47
Distribución Gaussiana
Distribución Gaussiana
Introducción
Distribución
Gaussiana La distribución Gaussiana es la más conocida y utilizada en
Procesos probabilidad:
Gaussianos
(INAOE) 6 / 47
Distribución Gaussiana
Distribución Gaussiana
Introducción
Distribución
Gaussiana
Procesos
Gaussianos
2
p(y |µ, σ 2 ) = √ 1 2 exp(− (x−µ)
2σ 2
)
2πσ
2
= N (y |µ, σ )
(INAOE) 7 / 47
Distribución Gaussiana
Propiedades
Introducción
Distribución
Gaussiana
yi ∼ N (µ, σ 2 )
n
X n
X n
X
yi ∼ N ( µi , σi2 )
i=1 i=1 i=1
(INAOE) 8 / 47
Distribución Gaussiana
Propiedades
Introducción
Distribución
Gaussiana
yi ∼ N (µ, σ 2 )
wy ∼ N (wµ, w 2 σ 2 )
• La distribución gaussiana se puede extender hacia
gaussianas multivariables.
• Ahora se tiene un vector media µ ∈ Rn y matriz de
covarianza Σ de n × n que es simétrica definida positiva
(x T Ax > 0 y todos su eigenvalores son positivos).
(INAOE) 9 / 47
Distribución Gaussiana
Gaussianas Multivariables
Introducción
Distribución
Gaussiana
Procesos
Gaussianos
1 1
p(x; µ, Σ) = exp(− (x − µ)T Σ−1 (x − µ))
(2π)n/2 |Σ|1/2 2
(INAOE) 10 / 47
Distribución Gaussiana
Gaussianas Multivariables
Introducción
Distribución
Gaussiana Ejemplo de dos variables:
Procesos
Gaussianos
1 1 (w − µ1 )2 (h − µ2 )2
p(w, h) = q exp(− ( + ))
σ12 σ22
q
2πσ12 2πσ22 2
T −1
σ12
1 1 w µ1 0
p(w, h) = exp(− −
h µ2 0 σ22
q
2π σ12 σ22 2
w µ1
−
h µ2
(INAOE) 11 / 47
Distribución Gaussiana
Distribución
Gaussiana
Procesos
Gaussianos
• En general, la definición de una distribución gaussiana
multivariable es:
1 1
p(X |µ, Σ) = exp(− (X − µ)T Σ−1 (X − µ))
(2π)n/2 |Σ|1/2 2
(INAOE) 12 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana
Procesos
Gaussianos
• Los procesos gaussianos son una extensión hacia
colecciones infinitas de variables.
• Esta extensión nos permite pensar en los procesos
gaussianos como distribuciones, no sólo sobre vectores
aleatorios sino sobre distribuciones de funciones
aleatorias.
• Para entender esto, pongamos un ejemplo sencillo
(INAOE) 13 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana
Procesos
• Vamos a suponer que tenemos un conjunto de posibles
Gaussianos funciones que mapean un vector X a R. Algunos
ejemplos de una función particular h0 podrı́a ser:
h0 (x1 ) = 5, h0 (x2 ) = 2.3, h0 (x3 ) = π, . . ., h0 (xm ) = −7
• Como el dominio de h tiene solo m elementos,
podemos representarlo de forma compacta como un
vector ~h = [h(x1 ), h(x2 ), . . . , h(xm )]T
• Para especificar una distribución de probabilidad,
necesitamos asociarle una densidad de probabilidad a
cada posible función h.
(INAOE) 14 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana • Una forma natural es hacer una correspondencia entre
Procesos
Gaussianos
la función y su vector ~h, ~h = N (~
µ, σ 2 I) (y suponiendo
i.i.d):
m
Y 1 1
P(h) = √ exp(− 2 (h(xi ) − µi )2 )
2πσ 2σ
i=1
(INAOE) 15 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana
Procesos
Gaussianos • ¿Cómo podemos hacerlo cuando el dominio es infinito?
(INAOE) 16 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana
(INAOE) 17 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana
Procesos
Gaussianos
h(x1 ) m(x1 ) k(x1 , x1 ) . . . k (x1 , xm )
.. .. .. .. ..
∼ N ,
. . . . .
h(xm ) m(xm ) k (xm , x1 ) . . . k(xm , xm )
(INAOE) 18 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana • Cada dimensión de la gaussiana corresponde a un
Procesos elemento x y su componente correspondiente del
Gaussianos
vector aleatorio representa el de h(x).
• Usando las propiedades de marginalización para
gaussianas multivariables, podemos obtener la
densidad marginal multivariable gaussiana
correspondiente a cualquier subconjunto finito de
variables.
• Para m(·) podemos usar cualquier función real, pero
para k (·, ·) debe de cumplirse que para cualquier
conjunto de elementos x1 , . . . , xm ∈ X , la matriz
resultante:
(INAOE) 19 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana
Procesos
Gaussianos
k (x1 , x1 ) . . . k(x1 , xm )
K =
.. .. ..
. . .
k(xm , x1 ) . . . k (xm , xm )
sea válida para una distribución gaussiana multivariable
(positiva semidefinitiva), lo cual son las mismas condiciones
que para los Kernels (Mercer’s condition), por lo que
cualquier función kernel se puede usar como función de
covarianza.
(INAOE) 20 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana • Uno de los esquemas más usados en GPs es
Procesos
Gaussianos
considerar una media cero y usar el kernel exponencial
cuadrado:
h(·) ∼ GP(0, k (·, ·))
kSE (x, x 0 ) = exp(− 2τ1 2 ||x − x 0 ||2 )
• con este kernel:
• h(x) y h(x 0 ) tienen alta covarianza cuando x y x 0 están
cercanos en el espacio de entrada, i.e.,
||x − x 0 || = |x − x 0 | ≈ 0 y exp(− 2τ1 2 ||x − x 0 ||2 ) ≈ 1
• h(x) y h(x 0 ) tienen baja covarianza cuando x y x 0 están
separados en el espacio de entrada, i.e., ||x − x 0 || 0 y
exp(− 2τ1 2 ||x − x 0 ||2 ) ≈ 0
(INAOE) 21 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana
Procesos
Gaussianos
(INAOE) 22 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana
(INAOE) 23 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana
(INAOE) 24 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana
Procesos
Gaussianos
" # !
~h
k(X , X ) k(X , X∗ )
p |X , X∗ ~
∼ N 0,
h~∗ k(X∗ , X ) k(X∗ , X∗ )
(INAOE) 25 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana donde:
Procesos
Gaussianos
~h ∈ Rm tal que ~h = [h(x (1) ) . . . h(x (m) )]T
(1) (m)
h~∗ ∈ Rm∗ tal que h~∗ = [h(x∗ ) . . . h(x∗ )]T
K (X , X ) ∈ Rm×m tal que (K (X , X ))i,j = k(x (i) , x (j) )
(j)
K (X , X∗ ) ∈ Rm×m tal que (K (X , X ))i,j = k(x (i) , x∗ )
(i)
K (X∗ , X ) ∈ Rm×m tal que (K (X , X ))i,j = k(x∗ , x (j) )
(i) (j)
K (X∗ , X∗ ) ∈ Rm×m tal que (K (X , X ))i,j = k (x∗ , x∗ )
(INAOE) 26 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana
Procesos
Gaussianos
• Para el ruido:
" #!
σ 2 I ~0
~ ~0,
p ∼N ~0T σ 2 I
~∗
(INAOE) 27 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana
Procesos
Gaussianos • Suponemos que son independientes, por lo que su
suma también lo es:
" #
~y
~h ~
|X , X∗ = ~ + ∼
y~∗ h∗ ~∗
k (X , X ) + σ 2 I k (X , X∗ )
~
N 0,
k (X∗ , X ) k (X∗ , X∗ ) + σ 2 I
(INAOE) 28 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana
Procesos
Gaussianos
• Usando las reglas de condicionamiento gaussianas, se
sigue que:
(INAOE) 29 / 47
Procesos Gaussianos
Gaussianas Multivariables
Introducción
Distribución
Gaussiana
• Una propiedad importante de las distribuciones
Procesos gaussianas, es que la probabilidad condicional de dos
Gaussianos
distribuciones gaussianas también es gaussiana.
• Vamos a suponer que tenemos dividido un conjunto de
variables en dos subconjuntos:
xa
x=
xb
y lo mismo para la media µ:
µa
µ=
µb
(INAOE) 30 / 47
Procesos Gaussianos
Gaussianas Multivariables
Introducción
Distribución
Gaussiana
Procesos
Gaussianos
• y la matrı́z de covarianza Σ:
Σa,a Σa,b
Σ=
Σb,a Σb,b
• Se puede notar que ΣT = Σ, que Σa,a y Σb,b son
simétricas y que Σb,a = ΣTa,b
(INAOE) 31 / 47
Procesos Gaussianos
Gaussianas Multivariables
Introducción
Distribución
Gaussiana
Procesos
Gaussianos • Muchas veces es más conveniente trabajar con el
inverso de la matriz de covarianza: Λ ≡ Σ−1 , también
conocida como la matriz de precisión (precision matrix):
Λa,a Λa,b
Λ=
Λb,a Λb,b
La cual también cumple con las condiciones de
simetrı́a.
(INAOE) 32 / 47
Procesos Gaussianos
Gaussianas Multivariables
Introducción
Distribución
Gaussiana
− 12 (x − µ)T Σ−1 (x − µ) =
− 12 (xa − µa ) Λa,a (xa − µa ) − 21 (xa − µa )T Λa,b (xb
T − µb )
− 12 (xb − µb )T Λb,a (xa − µa ) − 12 (xb − µb )T Λb,b (xb − µb )
(INAOE) 33 / 47
Procesos Gaussianos
Gaussianas Multivariables
Introducción
Distribución
Gaussiana • Nuestro objetivo es cambiar esta expresión por una que
Procesos
Gaussianos
dependa de la media y varianza de p(xa |xb ).
• Esta es una operación común en distribuciones
gaussianas, llamada “completando el cuadrado” que
permita soluciones directas.
• En general el exponente de una gaussiana se puede
expresar como:
1 1
− (x −µ)T Σ−1 (x −µ) = − x T Σ−1 x +x T Σ−1 µ+ const
2 2
donde const denota a términos que no dependen de x.
(INAOE) 34 / 47
Procesos Gaussianos
Gaussianas Multivariables
Introducción
1
− xaT Λa,a xa
2
De donde podemos concluir que la covarianza (inverso
de precisión) de p(xa |xb ) está dado por:
Σa|b = Λ−1
a,a
(INAOE) 35 / 47
Procesos Gaussianos
Gaussianas Multivariables
Introducción
Distribución
Gaussiana
(INAOE) 36 / 47
Procesos Gaussianos
Gaussianas Multivariables
Introducción
Distribución
Gaussiana
Procesos
Gaussianos • Para poder hacer uso de esto usamos una identididad
de invesión de matrices partidas:
−1
−MBD −1
A B M
=
C D −D CM D + D −1 CMBD −1
−1 −1
(INAOE) 37 / 47
Procesos Gaussianos
Gaussianas Multivariables
Introducción
Distribución
Gaussiana
Con esta definición:
Procesos −1
Gaussianos
−1 Σa,a Σa,b Λa,a Λa,b
Σ = =Λ=
Σb,a Σb,b Λb,a Λb,b
y
Λa,a = (Σa,a − Σa,b Σ−1
b,b Σb,a )
−1
(INAOE) 38 / 47
Procesos Gaussianos
Distribución
Gaussiana
Procesos
Gaussianos
(INAOE) 39 / 47
Procesos Gaussianos
Distribución
Gaussiana
Procesos
Gaussianos
(INAOE) 40 / 47
Procesos Gaussianos
Distribución
Gaussiana
Procesos
Gaussianos
(INAOE) 41 / 47
Procesos Gaussianos
Distribución
Gaussiana
(INAOE) 42 / 47
Procesos Gaussianos
Hiperparámetros
Introducción
• Los hiperparámetros nos determinan las posibles
Distribución
Gaussiana distribuciones
Procesos • Para obtener los hiperparámetros podemos derivar con
Gaussianos
respecto a θ, pero antes es importante usar las
siguientes dos expresiones:
∂ −1 ∂K −1
K = −K −1 K
∂θ ∂θ
donde ∂K
∂θ es una matriz con las derivadas de sus
elementos.
∂ ∂K
log|K | = tr (K −1 )
∂θ ∂θ
donde tr o trace es la suma de los elementos de la
diagonal de la matriz
(INAOE) 43 / 47
Procesos Gaussianos
Hiperparámetros
Introducción
Distribución • Entonces:
Gaussiana
Procesos ∂ 1 ∂K −1 1 ∂K
Gaussianos
p(y|x, θ) = y T K −1 K y − tr (K −1 )
∂θj 2 ∂θj 2 ∂θi
1 ∂K
= tr ((ααT − K −1 ) )
2 ∂θi
donde α = K −1 y
• Para obtener entonces los hiperparámetros se sigue un
proceso basado en gradiente (es un problema de
optimización no-convexo), por ejemplo, basado en
gradiente conjugado o quasi-Newton
• Se puede caer en mı́nimos locales
(INAOE) 44 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana
Procesos
Gaussianos
Limitaciones:
• La complejidad de la inferencia es O(n3 ) por la
inversión de la matriz.
• No son capaces de lidear con discontinuidades
(INAOE) 45 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana
(INAOE) 46 / 47
Procesos Gaussianos
Procesos Gaussianos
Introducción
Distribución
Gaussiana
• Determinar los valores de los hiperparámetros (proceso
Procesos
Gaussianos de optimización).
Nuestra estimación a posteriori de θ ocurre cuando
p(θ|x, y ) es máximo, lo que corresponde a maximizar
log(p(y |x, θ) dado por:
1 1 n
logp(y |x, θ) = − y T K −1 − log|K | − log2π
2 2 2
Lo cual se puede resolver usando un algoritmo de
optimización multivariable como gradiente conjugado,
Nelder-Mead simplex, etc.
(INAOE) 47 / 47