Está en la página 1de 153

MTE: Mixturas de Exponenciales

Truncadas

GRANADA JUNIO 2003

.– p.1
Esquema
Introducción.

.– p.2
Esquema
Introducción.
Potenciales MTE .

.– p.2
Esquema
Introducción.
Potenciales MTE .
Aprendiendo densidades univariantes.

.– p.2
Esquema
Introducción.
Potenciales MTE .
Aprendiendo densidades univariantes.
Resultados

.– p.2
Esquema
Introducción.
Potenciales MTE .
Aprendiendo densidades univariantes.
Resultados
Densidades condicionadas.

.– p.2
Esquema
Introducción.
Potenciales MTE .
Aprendiendo densidades univariantes.
Resultados
Densidades condicionadas.
Conclusiones.

.– p.2
Introducción
Cuando trabajamos con datos reales, frecuentemente
aparecen a la vez variables discretas y continuas.

.– p.3
Introducción
Cuando trabajamos con datos reales, frecuentemente
aparecen a la vez variables discretas y continuas.
Tratamiento ’clásico’de las variables continuas en las
Redes Bayesianas.

.– p.3
Introducción
Cuando trabajamos con datos reales, frecuentemente
aparecen a la vez variables discretas y continuas.
Tratamiento ’clásico’de las variables continuas en las
Redes Bayesianas.
Distribuciones Condicionales Gaussianas.

.– p.3
Introducción
Cuando trabajamos con datos reales, frecuentemente
aparecen a la vez variables discretas y continuas.
Tratamiento ’clásico’de las variables continuas en las
Redes Bayesianas.
Distribuciones Condicionales Gaussianas.

Discretizar.

.– p.3
Introducción
Cuando trabajamos con datos reales, frecuentemente
aparecen a la vez variables discretas y continuas.
Tratamiento ’clásico’de las variables continuas en las
Redes Bayesianas.
Distribuciones Condicionales Gaussianas.
¿Conocemos la distribución conjunta?

Discretizar.

.– p.3
Introducción
Cuando trabajamos con datos reales, frecuentemente
aparecen a la vez variables discretas y continuas.
Tratamiento ’clásico’de las variables continuas en las
Redes Bayesianas.
Distribuciones Condicionales Gaussianas.
¿Conocemos la distribución conjunta?
Las discretas no pueden tener padres continuos.
Discretizar.

.– p.3
Introducción
Cuando trabajamos con datos reales, frecuentemente
aparecen a la vez variables discretas y continuas.
Tratamiento ’clásico’de las variables continuas en las
Redes Bayesianas.
Distribuciones Condicionales Gaussianas.
¿Conocemos la distribución conjunta?
Las discretas no pueden tener padres continuos.
Discretizar.

.– p.3
Introducción
Cuando trabajamos con datos reales, frecuentemente
aparecen a la vez variables discretas y continuas.
Tratamiento ’clásico’de las variables continuas en las
Redes Bayesianas.
Distribuciones Condicionales Gaussianas.
?´Conocemos la distribución conjunta?
Las discretas no pueden tener padres continuos.
Discretizar.

Pérdida de
informa-
ción.
.– p.4
Introducción
Cuando trabajamos con datos reales, frecuentemente
aparecen a la vez variables discretas y continuas.
Tratamiento ’clásico’de las variables continuas en las
Redes Bayesianas.
Distribuciones Condicionales Gaussianas.
?´Conocemos la distribución conjunta?
Las discretas no pueden tener padres continuos.
Discretizar.

Pérdida de
informa-
ción.
.– p.4
Potenciales MTE
Sea X = (Y, Z) una variable aleatoria n-dimensional .
Una funcion φ : ΩX 7→ IR0+ es un potencial de clase mixtura
de exponenciales truncadas si se da una de las siguientes
condiciones:

.– p.5
Potenciales MTE
Sea X = (Y, Z) una variable aleatoria n-dimensional .
Una funcion φ : ΩX 7→ IR0+ es un potencial de clase mixtura
de exponenciales truncadas si se da una de las siguientes
condiciones:
i. Podemos escribir φ como
m
( d c
)
(j) (d+k)
X X X
φ(x) = φ(y, z) = a0 + ai exp bi yj + bi zk ∀x ∈ ΩX
i=1 j=1 k=1

(j)
donde los ai y bi son números reales.

.– p.5
Potenciales MTE
Sea X = (Y, Z) una variable aleatoria n-dimensional .
Una funcion φ : ΩX 7→ IR0+ es un potencial de clase mixtura
de exponenciales truncadas si se da una de las siguientes
condiciones:
i. Podemos escribir φ como
m
( d c
)
(j) (d+k)
X X X
φ(x) = φ(y, z) = a0 + ai exp bi yj + bi zk ∀x ∈ ΩX
i=1 j=1 k=1

(j)
donde los ai y bi son números reales.
ii. Hay una partición Ω1 , . . . , Ωk de ΩX en hipercubos tal
que φ es: φ(x) = φi (x) si x ∈ Ωi , donde cada φi ,
i = 1, . . . , k se puede escribir como arriba.
.– p.5
Ejemplo de potencial MTE
(X, Z1 , Z2 ) Dos variables continuas y una discreta.

3z1 +z2

 2 + e si 0 < z1 ≤ 1, 0 < z2 < 2, x = 0

z1 +z2
si 0 < z1 ≤ 1, 2 ≤ z2 < 3, x = 0



 1 + e
 1 + e2z1 +z2


si 1 < z1 < 2, 0 < z2 < 2, x = 0
φ(x, z1 , z2 ) = 4
1 z1 +2z2
 + 5e si 1 < z1 < 2, 2 ≤ z2 < 3, x = 0
2



z1 z2
+ 2e si 0 < z1 ≤ 1, x = 1



 e

1 + e3z1 +z2 si 1 < z1 < 2, x = 1

.– p.6
Distribuciones (condicionadas) MTE
Una variable X = (Y, Z) sigue una distribución MTE , si
su densidad f verifica estas condiciones:

.– p.7
Distribuciones (condicionadas) MTE
Una variable X = (Y, Z) sigue una distribución MTE , si
su densidad f verifica estas condiciones:
i. f es un potencial MTE.

.– p.7
Distribuciones (condicionadas) MTE
Una variable X = (Y, Z) sigue una distribución MTE , si
su densidad f verifica estas condiciones:
i. f es un potencial MTE.
X Z
ii. f (y, z)dz = 1 .
y∈ΩY ΩZ

.– p.7
Distribuciones (condicionadas) MTE
Una variable X = (Y, Z) sigue una distribución MTE , si
su densidad f verifica estas condiciones:
i. f es un potencial MTE.
X Z
ii. f (y, z)dz = 1 .
y∈ΩY ΩZ

Sean X1 = (Y1 , Z1 ) y X2 = (Y2 , Z2 ) dos variables


aleatorias mixtas. Decimos que un potencial MTE f
definido sobre ΩX1 ∪X2 es una densidad condicional MTE
si para cada x2 ∈ ΩX2 , se da que f R(X2 =x2 ) es una
densidad MTE para X1 .

.– p.7
Distribuciones (condicionadas) MTE
Una variable X = (Y, Z) sigue una distribución MTE , si
su densidad f verifica estas condiciones:
i. f es un potencial MTE.
X Z
ii. f (y, z)dz = 1 .
y∈ΩY ΩZ

Sean X1 = (Y1 , Z1 ) y X2 = (Y2 , Z2 ) dos variables


aleatorias mixtas. Decimos que un potencial MTE f
definido sobre ΩX1 ∪X2 es una densidad condicional MTE
si para cada x2 ∈ ΩX2 , se da que f R(X2 =x2 ) es una
densidad MTE para X1 .

.– p.7
Propiedades de las MTE
Operaciones comunes en algoritmos de propagación:

.– p.8
Propiedades de las MTE
Operaciones comunes en algoritmos de propagación:
a. Restricción

.– p.8
Propiedades de las MTE
Operaciones comunes en algoritmos de propagación:
a. Restricción
b. Combinación

.– p.8
Propiedades de las MTE
Operaciones comunes en algoritmos de propagación:
a. Restricción
b. Combinación
c. Marginalización

.– p.8
Propiedades de las MTE
Operaciones comunes en algoritmos de propagación:
a. Restricción
b. Combinación
c. Marginalización
d. División

.– p.8
Propiedades de las MTE
Operaciones comunes en algoritmos de propagación:
a. Restricción
b. Combinación
c. Marginalización
d. División

.– p.8
Propiedades de las MTE
Operaciones comunes en algoritmos de propagación:
a. Restricción
b. Combinación
c. Marginalización
d. División
Métodos exactos : Sin división.
e.g. algoritmo Shenoy Shaffer , Lazy propagation . . .

.– p.8
Propiedades de las MTE
Operaciones comunes en algoritmos de propagación:
a. Restricción
b. Combinación
c. Marginalización
d. División
Métodos exactos : Sin división.
e.g. algoritmo Shenoy Shaffer , Lazy propagation . . .
Métodos aproximados : Markov Chain Monte Carlo.

.– p.8
Algoritmo de aprendizaje
Tareas principales:

.– p.9
Algoritmo de aprendizaje
Tareas principales:
I. Partición del dominio.

.– p.9
Algoritmo de aprendizaje
Tareas principales:
I. Partición del dominio.
II. Selección del número de términos exponenciales en
cada intervalo.

.– p.9
Algoritmo de aprendizaje
Tareas principales:
I. Partición del dominio.
II. Selección del número de términos exponenciales en
cada intervalo.
III. Estimación de los parámetros.

.– p.9
Partición del dominio

exp(x)

.– p.10
Partición del dominio

exp(x)

No hay cambios de crecimiento/ decrecimiento

.– p.10
Partición del dominio

exp(x)

No hay cambios de crecimiento/ decrecimiento


No hay cambios de concavidad / convexidad
.– p.10
Número de términos exponenciales.

+ términos

.– p.11
Número de términos exponenciales.

+ términos → + precisión

.– p.11
Número de términos exponenciales.

+ términos → + precisión

+ complejitud

.– p.11
Número de términos exponenciales.

+ términos → + precisión
↓ ↓
+ complejitud → Compromiso

.– p.11
Número de términos exponenciales.

+ términos → + precisión
↓ ↓
+ complejitud → Compromiso

Nuestro potencial MTE aprendido será:


f ∗ (x) = K + a exp {bx} + c exp {dx}

.– p.11
Número de términos exponenciales.

+ términos → + precisión
↓ ↓
+ complejitud → Compromiso

Nuestro potencial MTE aprendido será:


f ∗ (x) = K + a exp {bx} + c exp {dx}
Complejidad baja

.– p.11
Número de términos exponenciales.

+ términos → + precisión
↓ ↓
+ complejitud → Compromiso

Nuestro potencial MTE aprendido será:


f ∗ (x) = K + a exp {bx} + c exp {dx}
Complejidad baja
Gran poder de ajuste

.– p.11
Estimación de los parámetros

REGRESIÓN EXPONENCIAL.
(xi , yi ) i = 1, . . . , n

y = a exp {bx}

.– p.12
Estimación de los parámetros

REGRESIÓN EXPONENCIAL.
(xi , yi ) i = 1, . . . , n

y = a exp {bx} ⇒ log y = loga + bx → y ∗ = a∗ + bx

.– p.12
Estimación de los parámetros

REGRESIÓN EXPONENCIAL.
(xi , yi ) i = 1, . . . , n

y = a exp {bx} ⇒ log y = loga + bx → y ∗ = a∗ + bx

∗ ∗ Sxy∗
(y − ȳ ) = 2 (x − x̄)
Sx

.– p.12
Estimación de los parámetros

REGRESIÓN EXPONENCIAL.
(xi , yi ) i = 1, . . . , n

y = a exp {bx} ⇒ log y = loga + bx → y ∗ = a∗ + bx


∗ ∗ Sxy∗
a = ȳ − 2 x̄
∗ ∗ Sxy∗ Sx
(y − ȳ ) = 2 (x − x̄) Sxy∗
Sx b= 2
Sx

.– p.12
Estimación de los parámetros

REGRESIÓN EXPONENCIAL.
(xi , yi ) i = 1, . . . , n

y = a exp {bx} ⇒ log y = loga + bx → y ∗ = a∗ + bx


∗ ∗ Sxy∗
a = ȳ − 2 x̄
∗ ∗ Sxy∗ Sx
(y − ȳ ) = 2 (x − x̄) Sxy∗
Sx b= 2
Sx
ERROR :
n
X (yi − a exp {bxi } − c exp {dxi } − K)2
i=1
n .– p.12
Estimación de los parámetros
Buscamos aquel K que minimize el error:
n
∂E X −2(yi − a exp {bxi } − c exp {dxi } − K)
=
∂K i=1
n

.– p.13
Estimación de los parámetros
Buscamos aquel K que minimize el error:
n
∂E X −2(yi − a exp {bxi } − c exp {dxi } − K)
=
∂K i=1
n

tras resolver la ecuación ∂E


∂K = 0 obtenemos:
n
1 X
K= (yi − a exp {bxi } − c exp {dxi })
n i=1

.– p.13
Estimación de los parámetros

y= K + a exp {bx} + c exp {dx}

.– p.14
Estimación de los parámetros

y= K + a exp {bx} + c exp {dx}


Estimamos c y d:

.– p.15
Estimación de los parámetros

y= K + a exp {bx} + c exp {dx}


Estimamos c y d:
w = y − a exp {bx} − K

.– p.15
Estimación de los parámetros

y= K + a exp {bx} + c exp {dx}


Estimamos c y d:
w = y − a exp {bx} − K = c exp {dx}

.– p.15
Estimación de los parámetros

y= K + a exp {bx} + c exp {dx}


Estimamos c y d:
w = y − a exp {bx} − K = c exp {dx}
Actualizamos c y d sólo si el error decrece

.– p.15
Estimación de los parámetros

y= K + a exp {bx} + c exp {dx}


Estimamos c y d:
w = y − a exp {bx} − K = c exp {dx}
Actualizamos c y d sólo si el error disminuye
Estimamos a y b:

.– p.16
Estimación de los parámetros

y= K + a exp {bx} + c exp {dx}


Estimamos c y d:
w = y − a exp {bx} − K = c exp {dx}
Actualizamos c y d sólo si el error disminuye
Estimamos a y b:
w = y − c exp {dx} − K

.– p.16
Estimación de los parámetros

y= K + a exp {bx} + c exp {dx}


Estimamos c y d:
w = y − a exp {bx} − K = c exp {dx}
Actualizamos c y d sólo si el error disminuye
Estimamos a y b:
w = y − c exp {dx} − K = a exp {bx}

.– p.16
Estimación de los parámetros

y= K + a exp {bx} + c exp {dx}


Estimamos c y d:
w = y − a exp {bx} − K = c exp {dx}
Actualizamos c y d sólo si el error disminuye
Estimamos a y b:
w = y − c exp {dx} − K = a exp {bx}
Actualizamos a y b sólo si el error disminuye

.– p.16
Estimación de los parámetros

y= K + a exp {bx} + c exp {dx}


Estimamos c y d:
w = y − a exp {bx} − K = c exp {dx}
Actualizamos c y d sólo si el error decrece
Estimamos a y b:
w = y − c exp {dx} − K = a exp {bx}
Actualizamos a y b sólo si el error decrece
Estimamos K:

.– p.17
Estimación de los parámetros

y= K + a exp {bx} + c exp {dx}


Estimamos c y d:
w = y − a exp {bx} − K = c exp {dx}
Actualizamos c y d sólo si el error decrece
Estimamos a y b:
w = y − c exp {dx} − K = a exp {bx}
Actualizamos a y b sólo si el error decrece
Estimamos K:
Obtenemos K

.– p.17
Estimación de los parámetros

y= K + a exp {bx} + c exp {dx}


Estimamos c y d:
w = y − a exp {bx} − K = c exp {dx}
Actualizamos c y d sólo si el error decrece
Estimamos a y b:
w = y − c exp {dx} − K = a exp {bx}
Actualizamos a y b sólo si el error decrece
Estimamos K:
Obtenemos K
Actualizamos K sólo si el error decrece
.– p.17
Punto de partida
c=d=0

.– p.18
Punto de partida
c=d=0 → Introducimos el segundo término si el error decrece.

.– p.18
Punto de partida
c=d=0 → Introducimos el segundo término si el error decrece.
a, b y K :

.– p.18
Punto de partida
c=d=0 → Introducimos el segundo término si el error decrece.
a, b y K :

y = a exp {bx}

.– p.18
Punto de partida
c=d=0 → Introducimos el segundo término si el error decrece.
a, b y K :

y = a exp {bx} K minimizando el error

.– p.18
Punto de partida
c=d=0 → Introducimos el segundo término si el error decrece.
a, b y K :

y = a exp {bx} K minimizando el error


Método de las derivadas.

f (x) ≈ a exp {bx} + K

.– p.18
Punto de partida
c=d=0 → Introducimos el segundo término si el error decrece.
a, b y K :

y = a exp {bx} K minimizando el error


Método de las derivadas.

f (x) ≈ a exp {bx} + K ⇒ f 0 (x) = ab exp {bx}

.– p.18
Punto de partida
c=d=0 → Introducimos el segundo término si el error decrece.
a, b y K :

y = a exp {bx} K minimizando el error


Método de las derivadas.

f (x) ≈ a exp {bx} + K ⇒ f 0 (x) = ab exp {bx}

(x, y), f 0 (x) significa las pendientes de las rectas que


unen (x, y).
Después obtenemos K minimizando el error

.– p.18
Ajuste de modelos conocidos
Muestra x e y = f (x).

.– p.19
Ajuste de modelos conocidos
Muestra x e y = f (x).
DISTRIBUCIÓN UNIFORME

.– p.19
Ajuste de modelos conocidos
Muestra x e y = f (x).
DISTRIBUCIÓN UNIFORME
 1

x ∈ (l1 , l2 ) ,
f (x) = l2 − l1
0 en otro caso .

.– p.19
Ajuste de modelos conocidos
Muestra x e y = f (x).
DISTRIBUCIÓN UNIFORME
 1

x ∈ (l1 , l2 ) ,
f (x) = l2 − l1
0 en otro caso .

DISTRIBUCIÓN EXPONENCIAL

.– p.19
Ajuste de modelos conocidos
Muestra x e y = f (x).
DISTRIBUCIÓN UNIFORME
 1

x ∈ (l1 , l2 ) ,
f (x) = l2 − l1
0 en otro caso .

DISTRIBUCIÓN EXPONENCIAL
f (x) = λ exp {−λx} x>0 .

.– p.19
Ajuste de modelos conocidos
Muestra x e y = f (x).
DISTRIBUCIÓN UNIFORME
 1

x ∈ (l1 , l2 ) ,
f (x) = l2 − l1
0 en otro caso .

DISTRIBUCIÓN EXPONENCIAL
f (x) = λ exp {−λx} x>0 .
(0, l) donde l es tal que P (X > l) ≈ 0

.– p.19
Ajuste de modelos conocidos
Distribución Normal: N (0, 1) ⇒ N (µ, σ)

.– p.20
Ajuste de modelos conocidos
Distribución Normal: N (0, 1) ⇒ N (µ, σ)
Intervalos: (−4, −1), (−1, 0), (0, 1), (1, 4)

.– p.20
Ajuste de modelos conocidos
Distribución Normal: N (0, 1) ⇒ N (µ, σ)
Intervalos: (−4, −1), (−1, 0), (0, 1), (1, 4)
0.4
MTE
Normal
0.3

0.2

0.1

0
-4 -2 0 2 4

.– p.20
Test
Simulamos 100 valores de N (0, 1)

.– p.21
Test
Simulamos 100 valores de N (0, 1)
Simulamos 100 valores de la densidad MTE

.– p.21
Test
Simulamos 100 valores de N (0, 1)
Simulamos 100 valores de la densidad MTE
Test Kolmogorov-Smirnov :

.– p.21
Test
Simulamos 100 valores de N (0, 1)
Simulamos 100 valores de la densidad MTE
Test Kolmogorov-Smirnov :
H0 : Ambas muestras provienen de la misma
distribución
H1 : Las muestras provienen de la misma
distribución

.– p.21
Test
Simulamos 100 valores de N (0, 1)
Simulamos 100 valores de la densidad MTE
Test Kolmogorov-Smirnov :
H0 : Ambas muestras provienen de la misma
distribución
H1 : Las muestras provienen de la misma
distribución
p-Valor : 0.6994

.– p.21
Ejemplo 1.- Consumo

471 valores 36.1 - 1583.79

.– p.22
Ejemplo 1.- Consumo

471 valores 36.1 - 1583.79

0.004
MTE
Consumption
0.0035

0.003

0.0025

0.002

0.0015

0.001

0.0005

0
0 200 400 600 800 1000 1200 1400 1600

.– p.22
Ejemplo 1.- Consumo

471 valores 36.1 - 1583.79


(36.1, 196.1) (196.1, 1583.79)
0.004
MTE
Consumption
0.0035

0.003

0.0025

0.002

0.0015

0.001

0.0005

0
0 200 400 600 800 1000 1200 1400 1600

.– p.22
Test para consumo
χ2 TEST:

.– p.23
Test para consumo
χ2 TEST:
(
H0 : (z1 , . . . , zn ) proviene de la MTE aprendida
H1 : (z1 , . . . , zn ) no proviene de la MTE aprendida

.– p.23
Test para consumo
χ2 TEST:
(
H0 : (z1 , . . . , zn ) proviene de la MTE aprendida
H1 : (z1 , . . . , zn ) no proviene de la MTE aprendida
α = 0.05

.– p.23
Test para consumo
χ2 TEST:
(
H0 : (z1 , . . . , zn ) proviene de la MTE aprendida
H1 : (z1 , . . . , zn ) no proviene de la MTE aprendida
α = 0.05
Región crítica : (0, 0.484) ∪ (11.20, ∞)

.– p.23
Test para consumo
χ2 TEST:
(
H0 : (z1 , . . . , zn ) proviene de la MTE aprendida
H1 : (z1 , . . . , zn ) no proviene de la MTE aprendida
α = 0.05
Región crítica : (0, 0.484) ∪ (11.20, ∞)
Valor del estadístico 3.172402699364092

.– p.23
Ejemplo 2.- Cosecha

471 valores 0.45 - 26

.– p.24
Ejemplo 2.- Cosecha

471 valores 0.45 - 26

0.18
MTE
0.16 Harvest

0.14

0.12

0.1

0.08

0.06

0.04

0.02

0
0 5 10 15 20 25 30

.– p.24
Ejemplo 2.- Cosecha

471 valores 0.45 - 26


(0.45, 4.45) (4.45, 26)
0.18
MTE
0.16 Harvest

0.14

0.12

0.1

0.08

0.06

0.04

0.02

0
0 5 10 15 20 25 30

.– p.24
Test para Cosecha
χ2 TEST:

.– p.25
Test para Cosecha
χ2 TEST:
(
H0 : (z1 , . . . , zn ) proviene de la MTE aprendida
H1 : (z1 , . . . , zn ) no proviene de la MTE aprendida

.– p.25
Test para Cosecha
χ2 TEST:
(
H0 : (z1 , . . . , zn ) proviene de la MTE aprendida
H1 : (z1 , . . . , zn ) no proviene de la MTE aprendida
α = 0.05

.– p.25
Test para Cosecha
χ2 TEST:
(
H0 : (z1 , . . . , zn ) proviene de la MTE aprendida
H1 : (z1 , . . . , zn ) no proviene de la MTE aprendida
α = 0.05
Región crítica: (0, 0.484) ∪ (11.20, ∞)

.– p.25
Test para Cosecha
χ2 TEST:
(
H0 : (z1 , . . . , zn ) proviene de la MTE aprendida
H1 : (z1 , . . . , zn ) no proviene de la MTE aprendida
α = 0.05
Región crítica: (0, 0.484) ∪ (11.20, ∞)
Valor del estadístico 5.704724703434343

.– p.25
Distribuciones condicionadas

A B

.– p.26
Distribuciones condicionadas

A B

P (A, B, C) = P (A)P (B)P (C|A, B)

.– p.26
Distribuciones condicionadas

A B

P (A, B, C) = P (A)P (B)P (C|A, B)

P (A) y P (B) OK

.– p.26
Distribuciones condicionadas

A B

P (A, B, C) = P (A)P (B)P (C|A, B)

P (A) y P (B) OK

P (C|A, B)?

.– p.26
Posibles soluciones
Definición:
f (X, Y )
f (X|Y ) =
f (Y )
No cerrado para la división.

.– p.27
Posibles soluciones
Definición:
f (X, Y )
f (X|Y ) =
f (Y )
No cerrado para la división.

Regresión exponencial:
m
X
f (x|y) = a0 + ai exp {bi x + ci y}
i=1

¿Condiciones para ser una densidad condicionada?

.– p.27
Posibles soluciones
Si los padres son discretos ⇒ Aprender un potencial
MTE para cada configuración de los padres.

.– p.28
Posibles soluciones
Si los padres son discretos ⇒ Aprender un potencial
MTE para cada configuración de los padres.
Si los padres son continuos ⇒ Discretizándolos
podríamos aprender un potencial MTE para cada
configuración de los padres.

.– p.28
Posibles soluciones
Si los padres son discretos ⇒ Aprender un potencial
MTE para cada configuración de los padres.
Si los padres son continuos ⇒ Discretizándolos
podríamos aprender un potencial MTE para cada
configuración de los padres.
La mejor forma de representarlos es mediante un árbol
de probabilidad mixto.

.– p.28
Árbol de probabilidad mixto
P (C|A,B)

A
[0,2) (2,3]

B B

(0,1] (1,2) (0,1] (1,2)

C C ec +2e3c 1+ec

(0,2) [2,3) [2,3)


(0,2)

1 2c 1
2+e3c 1+ec 4 +e 2 +5e c

.– p.29
Aprendiendo condicionadas
Las hojas del árbol serán densidades MTE, definidas
únicamente sobre la variable no condicionada.

.– p.30
Aprendiendo condicionadas
Las hojas del árbol serán densidades MTE, definidas
únicamente sobre la variable no condicionada.
Los nodos internos serán los padres.

.– p.30
Aprendiendo condicionadas
Las hojas del árbol serán densidades MTE, definidas
únicamente sobre la variable no condicionada.
Los nodos internos serán los padres.
Árbol de clasificación:

.– p.30
Aprendiendo condicionadas
Las hojas del árbol serán densidades MTE, definidas
únicamente sobre la variable no condicionada.
Los nodos internos serán los padres.
Árbol de clasificación:
¿Qué variable partir?

.– p.30
Aprendiendo condicionadas
Las hojas del árbol serán densidades MTE, definidas
únicamente sobre la variable no condicionada.
Los nodos internos serán los padres.
Árbol de clasificación:
¿Qué variable partir?
¿Cómo partir la variable?

.– p.30
Aprendiendo condicionadas
Las hojas del árbol serán densidades MTE, definidas
únicamente sobre la variable no condicionada.
Los nodos internos serán los padres.
Árbol de clasificación:
¿Qué variable partir?
¿Cómo partir la variable?
Pararemos cuando en cada rama aparezcan todos los
padres.

.– p.30
¿Cómo partir la variable
Si la variable es discreta Di , tendrá tantos hijos como
estados.

.– p.31
¿Cómo partir la variable
Si la variable es discreta Di , tendrá tantos hijos como
estados.
Di
yes no

.– p.31
¿Cómo partir la variable
Si la variable es discreta Di , tendrá tantos hijos como
estados.
Di
yes no

Si la variable es continua Ci , partimos su dominio de


definición en un número fijo de intervalos.

.– p.31
¿Cómo partir la variable
Si la variable es discreta Di , tendrá tantos hijos como
estados.
Di
yes no

Si la variable es continua Ci , partimos su dominio de


definición en un número fijo de intervalos.
Igual longitud

.– p.31
¿Cómo partir la variable
Si la variable es discreta Di , tendrá tantos hijos como
estados.
Di
yes no

Si la variable es continua Ci , partimos su dominio de


definición en un número fijo de intervalos.
Igual longitud
Igual frecuencia

.– p.31
¿Cómo partir la variable
Si la variable es discreta Di , tendrá tantos hijos como
estados.
Di
yes no

Si la variable es continua Ci , partimos su dominio de


definición en un número fijo de intervalos.
Igual longitud
Igual frecuencia

Ci

I1 I2
I2

.– p.31
¿Por qué variable partimos?
Para todas la variables por las que partir, calculamos
cuáles serían sus hijos, y los correspondientes errores
en cada uno de esos hijos.

.– p.32
¿Por qué variable partimos?
Para todas la variables por las que partir, calculamos
cuáles serían sus hijos, y los correspondientes errores
en cada uno de esos hijos.
Ci
I1 I3
I2
e1 e2 e3

.– p.32
¿Por qué variable partimos?
Para todas la variables por las que partir, calculamos
cuáles serían sus hijos, y los correspondientes errores
en cada uno de esos hijos.
Ci
I1 I3
I2
e1 e2 e3
Calculamos le entropía de esos errores normalizados:
X
SG(Ci ) = ei log(ei )
i

.– p.32
¿Por qué variable partimos?
Para todas la variables por las que partir, calculamos
cuáles serían sus hijos, y los correspondientes errores
en cada uno de esos hijos.
Ci
I1 I3
I2
e1 e2 e3
Calculamos le entropía de esos errores normalizados:
X
SG(Ci ) = ei log(ei )
i

Nos quedamos con aquella variable que maximize la


entropía. .– p.32
Ejemplo
Supongamos que queremos calcular la densidad condi-
cionada f (X|C, D), donde X y C son continuas y D es disc-
reta.

.– p.33
Ejemplo

I1 I2

f11 f21

.– p.34
Ejemplo

yes no

e1 e2

.– p.35
Ejemplo

I1 I2

e1 e2

.– p.36
Ejemplo

yes no

X X

I1 I2 I1 I2

f11 f21 f12 f22

.– p.37
Ejemplo

yes no

X X

I3
I3

f12 f22

.– p.38
Ejemplo

yes no

C X

I1 I2 I1 I2

e1 e2 f12 f22

.– p.39
Ejemplo

yes no

C X

I1 I2 I1 I2

X X f13 f23

I1 I2 I1 I2

f11 f21 f12 f22

.– p.40
Ejemplo

yes no

C X

I1 I2 I1 I2

X X f13 f23

I1 I2

f12 f22

.– p.41
Ejemplo

yes no

C X

I1 I2 I1 I2

X X f13 f23

I1 I2

f11 f21

.– p.42
Ejemplo

yes no

C X

I1 I2
I1

X X

I1 I2 I1 I2

f11 f21 f12 f22

.– p.43
Ejemplo

yes no

C C

I1 I2 I1 I2

X X X X

I1 I2 I1 I2 I1 I2 I1 I2

f11 f21 f12 f22 f13 f23 f14 f24

.– p.44
Resultados
Considerando un par de variables aleatorias X e Y , con
una distribución normal bivariante, con vector de medias


µ y matriz de covarianzas
à !
1 0.5
Cov(X, Y ) =
0.5 1

lo que significa que f (X|Y ) → N (0.5y, 0.75)
Aplicando el algoritmo para distintos valores del número
de intervalos por los que partir obtuvimos:

.– p.45
Resultados

Normal condicionada original Estimación con dos intervalos

0.4 0.4
0.3
f(x|y) 0.3
f(x|y)
0.2 2 0.2 2
0.1 0.1
0 0
-2 0 x 0 x
-2
-1
0 0
-2 -2
y 1 y
2 2

.– p.46
Resultados

Normal condicionada original Estimación con tres intervalos

0.4
0.3 0.4
f(x|y) f(x|y)
0.2 2 0.2 2
0.1
0 0
-2 0 x 0 x
-2
-1
0 0
-2 -2
y 1 y
2 2

.– p.47
Resultados

Normal condicionada original Estimación con cuatro intervalos

0.4
0.3 0.4
f(x|y) f(x|y)
0.2 2 0.2 2
0.1
0 0
-2 0 x 0 x
-2
-1
0 0
-2 -2
y 1 y
2 2

.– p.48
Resultados

Normal condicionada original Estimación con cinco intervalos

0.4
0.3
f(x|y) 0.4
f(x|y)
0.2 2 0.2 2
0.1
0 0
-2 0 x 0 x
-2
-1
0 0
-2 -2
y 1 y
2 2

.– p.49
Trabajos futuros
Mejorar la partición del dominio de las variables
continuas.

.– p.50
Trabajos futuros
Mejorar la partición del dominio de las variables
continuas.
Poda del árbol.

.– p.50
Trabajos futuros
Mejorar la partición del dominio de las variables
continuas.
Poda del árbol.
Eliminar términos exponenciales.

.– p.50
Trabajos futuros
Mejorar la partición del dominio de las variables
continuas.
Poda del árbol.
Eliminar términos exponenciales.
Podar variables continuas. Unir dos intervalos

.– p.50
Trabajos futuros
Mejorar la partición del dominio de las variables
continuas.
Poda del árbol.
Eliminar términos exponenciales.
Podar variables continuas. Unir dos intervalos
Podar variables discretas.

.– p.50
Trabajos futuros
Mejorar la partición del dominio de las variables
continuas.
Poda del árbol.
Eliminar términos exponenciales.
Podar variables continuas. Unir dos intervalos
Podar variables discretas.
Integrar las variables Gaussianas.

.– p.50

También podría gustarte