Mixtura de Exponenciales Truncadas

MTE: Mixturas de Exponenciales
Truncadas
GRANADA JUNIO 2003
.– p.1
Esquema
Introducción.
.– p.2
Esquema
Introducción.
Potenciales MTE .
.– p.2
Esquema
Introducción.
Potenciales MTE .
Aprendiendo densidades univariantes.
.– p.2
Esquema
Introducción.
Potenciales MTE .
Resultados
.– p.2
Esquema
Introducción.
Potenciales MTE .
Resultados
Densidades condicionadas.
.– p.2
Esquema
Introducción.
Potenciales MTE .
Resultados
Densidades condicionadas.
Conclusiones.
.– p.2
Introducción
Cuando trabajamos con datos reales, frecuentemente
aparecen a la vez variables discretas y continuas.
.– p.3
Introducción
Tratamiento ’clásico’de las variables continuas en las
Redes Bayesianas.
.– p.3
Introducción
Redes Bayesianas.
Distribuciones Condicionales Gaussianas.
.– p.3
Introducción
Redes Bayesianas.
Discretizar.
.– p.3
Introducción
Redes Bayesianas.
¿Conocemos la distribución conjunta?
Discretizar.
.– p.3
Introducción
Redes Bayesianas.
Las discretas no pueden tener padres continuos.
Discretizar.
.– p.3
Introducción
Redes Bayesianas.
Discretizar.
.– p.3
Introducción
Redes Bayesianas.
?´Conocemos la distribución conjunta?
Discretizar.
Pérdida de
informa-
ción.
.– p.4
Introducción
Redes Bayesianas.
?´Conocemos la distribución conjunta?
Discretizar.
Pérdida de
informa-
ción.
.– p.4
Potenciales MTE
Sea X = (Y, Z) una variable aleatoria n-dimensional .
Una funcion φ : ΩX 7→ IR0+ es un potencial de clase mixtura
de exponenciales truncadas si se da una de las siguientes
condiciones:
.– p.5
Potenciales MTE
condiciones:
i. Podemos escribir φ como
m
( d c
)
(j) (d+k)
X X X
φ(x) = φ(y, z) = a0 + ai exp bi yj + bi zk ∀x ∈ ΩX
i=1 j=1 k=1
(j)
donde los ai y bi son números reales.
.– p.5
Potenciales MTE
condiciones:
i. Podemos escribir φ como
m
( d c
)
(j) (d+k)
X X X
φ(x) = φ(y, z) = a0 + ai exp bi yj + bi zk ∀x ∈ ΩX
i=1 j=1 k=1
(j)
donde los ai y bi son números reales.
ii. Hay una partición Ω1 , . . . , Ωk de ΩX en hipercubos tal
que φ es: φ(x) = φi (x) si x ∈ Ωi , donde cada φi ,
i = 1, . . . , k se puede escribir como arriba.
.– p.5
Ejemplo de potencial MTE
(X, Z1 , Z2 ) Dos variables continuas y una discreta.

3z1 +z2

 2 + e si 0 < z1 ≤ 1, 0 < z2 < 2, x = 0

z1 +z2
si 0 < z1 ≤ 1, 2 ≤ z2 < 3, x = 0



 1 + e
 1 + e2z1 +z2


si 1 < z1 < 2, 0 < z2 < 2, x = 0
φ(x, z1 , z2 ) = 4
1 z1 +2z2
 + 5e si 1 < z1 < 2, 2 ≤ z2 < 3, x = 0
2



z1 z2
+ 2e si 0 < z1 ≤ 1, x = 1



 e

1 + e3z1 +z2 si 1 < z1 < 2, x = 1
.– p.6
Distribuciones (condicionadas) MTE
Una variable X = (Y, Z) sigue una distribución MTE , si
su densidad f verifica estas condiciones:
.– p.7
i. f es un potencial MTE.
.– p.7
X Z
ii. f (y, z)dz = 1 .
y∈ΩY ΩZ
.– p.7
X Z
ii. f (y, z)dz = 1 .
y∈ΩY ΩZ
Sean X1 = (Y1 , Z1 ) y X2 = (Y2 , Z2 ) dos variables

aleatorias mixtas. Decimos que un potencial MTE f
definido sobre ΩX1 ∪X2 es una densidad condicional MTE
si para cada x2 ∈ ΩX2 , se da que f R(X2 =x2 ) es una
densidad MTE para X1 .
.– p.7
X Z
ii. f (y, z)dz = 1 .
y∈ΩY ΩZ
Sean X1 = (Y1 , Z1 ) y X2 = (Y2 , Z2 ) dos variables

aleatorias mixtas. Decimos que un potencial MTE f
definido sobre ΩX1 ∪X2 es una densidad condicional MTE
si para cada x2 ∈ ΩX2 , se da que f R(X2 =x2 ) es una
densidad MTE para X1 .
.– p.7
Propiedades de las MTE
Operaciones comunes en algoritmos de propagación:
.– p.8
a. Restricción
.– p.8
a. Restricción
b. Combinación
.– p.8
a. Restricción
b. Combinación
c. Marginalización
.– p.8
a. Restricción
b. Combinación
c. Marginalización
d. División
.– p.8
a. Restricción
b. Combinación
c. Marginalización
d. División
.– p.8
a. Restricción
b. Combinación
c. Marginalización
d. División
Métodos exactos : Sin división.
e.g. algoritmo Shenoy Shaffer , Lazy propagation . . .
.– p.8
a. Restricción
b. Combinación
c. Marginalización
d. División
Métodos exactos : Sin división.
e.g. algoritmo Shenoy Shaffer , Lazy propagation . . .
Métodos aproximados : Markov Chain Monte Carlo.
.– p.8
Algoritmo de aprendizaje
Tareas principales:
.– p.9
Tareas principales:
I. Partición del dominio.
.– p.9
Tareas principales:
II. Selección del número de términos exponenciales en
cada intervalo.
.– p.9
Tareas principales:
II. Selección del número de términos exponenciales en
cada intervalo.
III. Estimación de los parámetros.
.– p.9
Partición del dominio
exp(x)
.– p.10
exp(x)
No hay cambios de crecimiento/ decrecimiento
.– p.10
exp(x)
No hay cambios de crecimiento/ decrecimiento

No hay cambios de concavidad / convexidad
.– p.10
Número de términos exponenciales.
+ términos
.– p.11
+ términos → + precisión
.– p.11
↓
+ complejitud
.– p.11
↓ ↓
+ complejitud → Compromiso
.– p.11
↓ ↓
Nuestro potencial MTE aprendido será:

f ∗ (x) = K + a exp {bx} + c exp {dx}
.– p.11
↓ ↓

Complejidad baja
.– p.11
↓ ↓

Complejidad baja
Gran poder de ajuste
.– p.11
Estimación de los parámetros
REGRESIÓN EXPONENCIAL.
(xi , yi ) i = 1, . . . , n
y = a exp {bx}
.– p.12
(xi , yi ) i = 1, . . . , n
y = a exp {bx} ⇒ log y = loga + bx → y ∗ = a∗ + bx
.– p.12
(xi , yi ) i = 1, . . . , n
∗ ∗ Sxy∗
(y − ȳ ) = 2 (x − x̄)
Sx
.– p.12
(xi , yi ) i = 1, . . . , n

∗ ∗ Sxy∗
a = ȳ − 2 x̄
∗ ∗ Sxy∗ Sx
(y − ȳ ) = 2 (x − x̄) Sxy∗
Sx b= 2
Sx
.– p.12
(xi , yi ) i = 1, . . . , n

∗ ∗ Sxy∗
a = ȳ − 2 x̄
∗ ∗ Sxy∗ Sx
(y − ȳ ) = 2 (x − x̄) Sxy∗
Sx b= 2
Sx
ERROR :
n
X (yi − a exp {bxi } − c exp {dxi } − K)2
i=1
n .– p.12
Buscamos aquel K que minimize el error:
n
∂E X −2(yi − a exp {bxi } − c exp {dxi } − K)
=
∂K i=1
n
.– p.13
Buscamos aquel K que minimize el error:
n
∂E X −2(yi − a exp {bxi } − c exp {dxi } − K)
=
∂K i=1
n
tras resolver la ecuación ∂E

∂K = 0 obtenemos:
n
1 X
K= (yi − a exp {bxi } − c exp {dxi })
n i=1
.– p.13
y= K + a exp {bx} + c exp {dx}
.– p.14

Estimamos c y d:
.– p.15

Estimamos c y d:
w = y − a exp {bx} − K
.– p.15

Estimamos c y d:
w = y − a exp {bx} − K = c exp {dx}
.– p.15

Estimamos c y d:
Actualizamos c y d sólo si el error decrece
.– p.15

Estimamos c y d:
Actualizamos c y d sólo si el error disminuye
Estimamos a y b:
.– p.16

Estimamos c y d:
Estimamos a y b:
w = y − c exp {dx} − K
.– p.16

Estimamos c y d:
Estimamos a y b:
w = y − c exp {dx} − K = a exp {bx}
.– p.16

Estimamos c y d:
Estimamos a y b:
Actualizamos a y b sólo si el error disminuye
.– p.16

Estimamos c y d:
Estimamos a y b:
Actualizamos a y b sólo si el error decrece
Estimamos K:
.– p.17

Estimamos c y d:
Estimamos a y b:
Estimamos K:
Obtenemos K
.– p.17

Estimamos c y d:
Estimamos a y b:
Estimamos K:
Obtenemos K
Actualizamos K sólo si el error decrece
.– p.17
Punto de partida
c=d=0
.– p.18
Punto de partida
c=d=0 → Introducimos el segundo término si el error decrece.
.– p.18
Punto de partida
a, b y K :
.– p.18
Punto de partida
a, b y K :
y = a exp {bx}
.– p.18
Punto de partida
a, b y K :
y = a exp {bx} K minimizando el error
.– p.18
Punto de partida
a, b y K :

Método de las derivadas.
f (x) ≈ a exp {bx} + K
.– p.18
Punto de partida
a, b y K :

f (x) ≈ a exp {bx} + K ⇒ f 0 (x) = ab exp {bx}
.– p.18
Punto de partida
a, b y K :

f (x) ≈ a exp {bx} + K ⇒ f 0 (x) = ab exp {bx}
(x, y), f 0 (x) significa las pendientes de las rectas que

unen (x, y).
Después obtenemos K minimizando el error
.– p.18
Ajuste de modelos conocidos
Muestra x e y = f (x).
.– p.19
DISTRIBUCIÓN UNIFORME
.– p.19
 1

x ∈ (l1 , l2 ) ,
f (x) = l2 − l1
0 en otro caso .
.– p.19
 1

x ∈ (l1 , l2 ) ,
f (x) = l2 − l1
0 en otro caso .
DISTRIBUCIÓN EXPONENCIAL
.– p.19
 1

x ∈ (l1 , l2 ) ,
f (x) = l2 − l1
0 en otro caso .
f (x) = λ exp {−λx} x>0 .
.– p.19
 1

x ∈ (l1 , l2 ) ,
f (x) = l2 − l1
0 en otro caso .
f (x) = λ exp {−λx} x>0 .
(0, l) donde l es tal que P (X > l) ≈ 0
.– p.19
Distribución Normal: N (0, 1) ⇒ N (µ, σ)
.– p.20
Intervalos: (−4, −1), (−1, 0), (0, 1), (1, 4)
.– p.20
Intervalos: (−4, −1), (−1, 0), (0, 1), (1, 4)
0.4
MTE
Normal
0.3
0.2
0.1
0
-4 -2 0 2 4
.– p.20
Test
Simulamos 100 valores de N (0, 1)
.– p.21
Test
Simulamos 100 valores de la densidad MTE
.– p.21
Test
Test Kolmogorov-Smirnov :
.– p.21
Test
H0 : Ambas muestras provienen de la misma
distribución
H1 : Las muestras provienen de la misma
distribución
.– p.21
Test
H0 : Ambas muestras provienen de la misma
distribución
H1 : Las muestras provienen de la misma
distribución
p-Valor : 0.6994
.– p.21
Ejemplo 1.- Consumo
471 valores 36.1 - 1583.79
.– p.22
Ejemplo 1.- Consumo
471 valores 36.1 - 1583.79
0.004
MTE
Consumption
0.0035
0.003
0.0025
0.002
0.0015
0.001
0.0005
0
0 200 400 600 800 1000 1200 1400 1600
.– p.22
Ejemplo 1.- Consumo
471 valores 36.1 - 1583.79

(36.1, 196.1) (196.1, 1583.79)
0.004
MTE
Consumption
0.0035
0.003
0.0025
0.002
0.0015
0.001
0.0005
0
0 200 400 600 800 1000 1200 1400 1600
.– p.22
Test para consumo
χ2 TEST:
.– p.23
Test para consumo
χ2 TEST:
(
H0 : (z1 , . . . , zn ) proviene de la MTE aprendida
H1 : (z1 , . . . , zn ) no proviene de la MTE aprendida
.– p.23
Test para consumo
χ2 TEST:
(
α = 0.05
.– p.23
Test para consumo
χ2 TEST:
(
α = 0.05
Región crítica : (0, 0.484) ∪ (11.20, ∞)
.– p.23
Test para consumo
χ2 TEST:
(
α = 0.05
Región crítica : (0, 0.484) ∪ (11.20, ∞)
Valor del estadístico 3.172402699364092
.– p.23
Ejemplo 2.- Cosecha
471 valores 0.45 - 26
.– p.24
Ejemplo 2.- Cosecha
471 valores 0.45 - 26
0.18
MTE
0.16 Harvest
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 5 10 15 20 25 30
.– p.24
Ejemplo 2.- Cosecha
471 valores 0.45 - 26

(0.45, 4.45) (4.45, 26)
0.18
MTE
0.16 Harvest
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 5 10 15 20 25 30
.– p.24
Test para Cosecha
χ2 TEST:
.– p.25
Test para Cosecha
χ2 TEST:
(
.– p.25
Test para Cosecha
χ2 TEST:
(
α = 0.05
.– p.25
Test para Cosecha
χ2 TEST:
(
α = 0.05
Región crítica: (0, 0.484) ∪ (11.20, ∞)
.– p.25
Test para Cosecha
χ2 TEST:
(
α = 0.05
Región crítica: (0, 0.484) ∪ (11.20, ∞)
Valor del estadístico 5.704724703434343
.– p.25
Distribuciones condicionadas
A B
.– p.26
A B
P (A, B, C) = P (A)P (B)P (C|A, B)
.– p.26
A B
P (A, B, C) = P (A)P (B)P (C|A, B)
P (A) y P (B) OK
.– p.26
A B
P (A, B, C) = P (A)P (B)P (C|A, B)
P (A) y P (B) OK
P (C|A, B)?
.– p.26
Posibles soluciones
Definición:
f (X, Y )
f (X|Y ) =
f (Y )
No cerrado para la división.
.– p.27
Posibles soluciones
Definición:
f (X, Y )
f (X|Y ) =
f (Y )
No cerrado para la división.
Regresión exponencial:
m
X
f (x|y) = a0 + ai exp {bi x + ci y}
i=1
¿Condiciones para ser una densidad condicionada?
.– p.27
Posibles soluciones
Si los padres son discretos ⇒ Aprender un potencial
MTE para cada configuración de los padres.
.– p.28
Posibles soluciones
Si los padres son continuos ⇒ Discretizándolos
podríamos aprender un potencial MTE para cada
configuración de los padres.
.– p.28
Posibles soluciones
Si los padres son continuos ⇒ Discretizándolos
podríamos aprender un potencial MTE para cada
configuración de los padres.
La mejor forma de representarlos es mediante un árbol
de probabilidad mixto.
.– p.28
Árbol de probabilidad mixto
P (C|A,B)
A
[0,2) (2,3]
B B
(0,1] (1,2) (0,1] (1,2)
C C ec +2e3c 1+ec
(0,2) [2,3) [2,3)

(0,2)
1 2c 1
2+e3c 1+ec 4 +e 2 +5e c
.– p.29
Aprendiendo condicionadas
Las hojas del árbol serán densidades MTE, definidas
únicamente sobre la variable no condicionada.
.– p.30
Los nodos internos serán los padres.
.– p.30
Árbol de clasificación:
.– p.30
¿Qué variable partir?
.– p.30
¿Cómo partir la variable?
.– p.30
¿Cómo partir la variable?
Pararemos cuando en cada rama aparezcan todos los
padres.
.– p.30
¿Cómo partir la variable
Si la variable es discreta Di , tendrá tantos hijos como
estados.
.– p.31
estados.
Di
yes no
.– p.31
estados.
Di
yes no
Si la variable es continua Ci , partimos su dominio de

definición en un número fijo de intervalos.
.– p.31
estados.
Di
yes no

Igual longitud
.– p.31
estados.
Di
yes no

Igual longitud
Igual frecuencia
.– p.31
estados.
Di
yes no

Igual longitud
Igual frecuencia
Ci
I1 I2
I2
.– p.31
¿Por qué variable partimos?
Para todas la variables por las que partir, calculamos
cuáles serían sus hijos, y los correspondientes errores
en cada uno de esos hijos.
.– p.32
Ci
I1 I3
I2
e1 e2 e3
.– p.32
Ci
I1 I3
I2
e1 e2 e3
Calculamos le entropía de esos errores normalizados:
X
SG(Ci ) = ei log(ei )
i
.– p.32
Ci
I1 I3
I2
e1 e2 e3
Calculamos le entropía de esos errores normalizados:
X
SG(Ci ) = ei log(ei )
i
Nos quedamos con aquella variable que maximize la

entropía. .– p.32
Ejemplo
Supongamos que queremos calcular la densidad condi-
cionada f (X|C, D), donde X y C son continuas y D es disc-
reta.
.– p.33
Ejemplo
I1 I2
f11 f21
.– p.34
Ejemplo
yes no
e1 e2
.– p.35
Ejemplo
I1 I2
e1 e2
.– p.36
Ejemplo
yes no
X X
I1 I2 I1 I2
f11 f21 f12 f22
.– p.37
Ejemplo
yes no
X X
I3
I3
f12 f22
.– p.38
Ejemplo
yes no
C X
I1 I2 I1 I2
e1 e2 f12 f22
.– p.39
Ejemplo
yes no
C X
I1 I2 I1 I2
X X f13 f23
I1 I2 I1 I2
f11 f21 f12 f22
.– p.40
Ejemplo
yes no
C X
I1 I2 I1 I2
X X f13 f23
I1 I2
f12 f22
.– p.41
Ejemplo
yes no
C X
I1 I2 I1 I2
X X f13 f23
I1 I2
f11 f21
.– p.42
Ejemplo
yes no
C X
I1 I2
I1
X X
I1 I2 I1 I2
f11 f21 f12 f22
.– p.43
Ejemplo
yes no
C C
I1 I2 I1 I2
X X X X
I1 I2 I1 I2 I1 I2 I1 I2
f11 f21 f12 f22 f13 f23 f14 f24
.– p.44
Resultados
Considerando un par de variables aleatorias X e Y , con
una distribución normal bivariante, con vector de medias
→
−
µ y matriz de covarianzas
Ã !
1 0.5
Cov(X, Y ) =
0.5 1
√
lo que significa que f (X|Y ) → N (0.5y, 0.75)
Aplicando el algoritmo para distintos valores del número
de intervalos por los que partir obtuvimos:
.– p.45
Resultados
Normal condicionada original Estimación con dos intervalos
0.4 0.4
0.3
f(x|y) 0.3
f(x|y)
0.2 2 0.2 2
0.1 0.1
0 0
-2 0 x 0 x
-2
-1
0 0
-2 -2
y 1 y
2 2
.– p.46
Resultados
Normal condicionada original Estimación con tres intervalos
0.4
0.3 0.4
f(x|y) f(x|y)
0.2 2 0.2 2
0.1
0 0
-2 0 x 0 x
-2
-1
0 0
-2 -2
y 1 y
2 2
.– p.47
Resultados
Normal condicionada original Estimación con cuatro intervalos
0.4
0.3 0.4
f(x|y) f(x|y)
0.2 2 0.2 2
0.1
0 0
-2 0 x 0 x
-2
-1
0 0
-2 -2
y 1 y
2 2
.– p.48
Resultados
Normal condicionada original Estimación con cinco intervalos
0.4
0.3
f(x|y) 0.4
f(x|y)
0.2 2 0.2 2
0.1
0 0
-2 0 x 0 x
-2
-1
0 0
-2 -2
y 1 y
2 2
.– p.49
Trabajos futuros
Mejorar la partición del dominio de las variables
continuas.
.– p.50
Trabajos futuros
continuas.
Poda del árbol.
.– p.50
Trabajos futuros
continuas.
Poda del árbol.
Eliminar términos exponenciales.
.– p.50
Trabajos futuros
continuas.
Poda del árbol.
Podar variables continuas. Unir dos intervalos
.– p.50
Trabajos futuros
continuas.
Poda del árbol.
Podar variables discretas.
.– p.50
Trabajos futuros
continuas.
Poda del árbol.
Podar variables discretas.
Integrar las variables Gaussianas.
.– p.50

Mixtura de Exponenciales Truncadas

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mixtura de Exponenciales Truncadas

Cargado por

Copyright:

Formatos disponibles

MTE: Mixturas de Exponenciales

GRANADA JUNIO 2003

Sean X1 = (Y1 , Z1 ) y X2 = (Y2 , Z2 ) dos variables

Sean X1 = (Y1 , Z1 ) y X2 = (Y2 , Z2 ) dos variables

No hay cambios de crecimiento/ decrecimiento

No hay cambios de crecimiento/ decrecimiento

Nuestro potencial MTE aprendido será:

Nuestro potencial MTE aprendido será:

Nuestro potencial MTE aprendido será:

y = a exp {bx} ⇒ log y = loga + bx → y ∗ = a∗ + bx

y = a exp {bx} ⇒ log y = loga + bx → y ∗ = a∗ + bx

y = a exp {bx} ⇒ log y = loga + bx → y ∗ = a∗ + bx

y = a exp {bx} ⇒ log y = loga + bx → y ∗ = a∗ + bx

tras resolver la ecuación ∂E

y= K + a exp {bx} + c exp {dx}

y= K + a exp {bx} + c exp {dx}

y= K + a exp {bx} + c exp {dx}

y= K + a exp {bx} + c exp {dx}

y= K + a exp {bx} + c exp {dx}

y= K + a exp {bx} + c exp {dx}

y= K + a exp {bx} + c exp {dx}

y= K + a exp {bx} + c exp {dx}

y= K + a exp {bx} + c exp {dx}

y= K + a exp {bx} + c exp {dx}

y= K + a exp {bx} + c exp {dx}

y= K + a exp {bx} + c exp {dx}

y = a exp {bx} K minimizando el error

y = a exp {bx} K minimizando el error

f (x) ≈ a exp {bx} + K

y = a exp {bx} K minimizando el error

f (x) ≈ a exp {bx} + K ⇒ f 0 (x) = ab exp {bx}

y = a exp {bx} K minimizando el error

f (x) ≈ a exp {bx} + K ⇒ f 0 (x) = ab exp {bx}

(x, y), f 0 (x) significa las pendientes de las rectas que

471 valores 36.1 - 1583.79

471 valores 36.1 - 1583.79

471 valores 36.1 - 1583.79

471 valores 0.45 - 26

471 valores 0.45 - 26

471 valores 0.45 - 26

P (A, B, C) = P (A)P (B)P (C|A, B)

P (A, B, C) = P (A)P (B)P (C|A, B)

P (A, B, C) = P (A)P (B)P (C|A, B)

¿Condiciones para ser una densidad condicionada?

(0,1] (1,2) (0,1] (1,2)

(0,2) [2,3) [2,3)

Si la variable es continua Ci , partimos su dominio de

Si la variable es continua Ci , partimos su dominio de

Si la variable es continua Ci , partimos su dominio de

Si la variable es continua Ci , partimos su dominio de

Nos quedamos con aquella variable que maximize la

f11 f21 f12 f22

f11 f21 f12 f22

f11 f21 f12 f22

f11 f21 f12 f22 f13 f23 f14 f24

Normal condicionada original Estimación con dos intervalos

Normal condicionada original Estimación con tres intervalos

Normal condicionada original Estimación con cuatro intervalos

Normal condicionada original Estimación con cinco intervalos

También podría gustarte