Curso de Estadistica

Teoría de decisión Bayesiana
Dr. Wilfrido Gómez Flores
Teorema de Bayes
Retomando los conceptos básicos de teoría de probabilidad vistos en la
clase anterior. Sean X = {xi |i = 1, . . . , M } e Y = {yi |i = 1, . . . , L} dos
variables aleatorias con M y L elementos, respectivamente. Sean p(X) y
p(Y ) las probabilidade marginales de X e Y . Sea p(X, Y ) las probabilidades
conjuntas de X e Y . Sea p(Y |X) la probabilidad condicional de Y dado X.
Entonces, las dos reglas básicas de probabilidad se definen como [1]:
P
Regla de la suma: p(X) = Y p(X, Y ).
Regla del producto: p(X, Y ) = p(Y |X)p(X).
A partir de la propiedad de simetría de la regla del producto p(X, Y ) =

p(Y, X) se obtiene la siguiente relación entre probabilidades condicionales:
p(X|Y )p(Y )
p(Y |X) = , (1)
p(X)
la cual es conocida como el Teorema de Bayes.
Adaptando (1) al problema de clasificación de patrones se tiene:
p(x|ωi )p(ωi )
p(ωi |x) = , (2)
p(x)
donde x = [x1 , . . . , xD ]T es un vector D-dimensional de características y

ωi ∈ Ω = {ω1 , . . . , ωC } indica la i-ésima clase de un problema con C clases.
1
Riesgo condicional
El riesgo condicional asociado con tomar la acción αi es [2]:
C
X
R(αi |x) = λ(αi |ωj )p(ωj |x), i = 1, . . . , a, (3)
j=1
donde C es el número de clases o estados de naturaleza y λ(αi |ωj ) es la pérdi-

da incurrida en tomar la acción αi cuando el estado de naturaleza verdadero
es ωj .
Para el caso especial de dos clases se tiene:
La acción α1 indica decidir por la clase ω1 .
La acción α2 indica decidir por la clase ω2 .
La pérdida λij indica decidir por la clase ωi cuando la clase verdadera

es ωj .
En términos de probabilidades a posteriori el riesgo condicional para dos

clases es:
R(α1 |x) = λ11 p(ω1 |x) + λ12 p(ω2 |x) (4)
y
R(α2 |x) = λ21 p(ω1 |x) + λ22 p(ω2 |x). (5)
La regla para decidir por la clase ω1 involucra obtener el menor riesgo, es
decir, R(α1 |x) < R(α2 |x); por tanto, a partir de (4) y (5) se tiene:
λ11 p(ω1 |x) + λ12 p(ω2 |x) < λ21 p(ω1 |x) + λ22 p(ω2 |x). (6)
Reacomodando términos en (6):
λ21 p(ω1 |x) − λ11 p(ω1 |x) > λ12 p(ω2 |x) − λ22 p(ω2 |x), (7)
(λ21 − λ11 )p(ω1 |x) > (λ12 − λ22 )p(ω2 |x). (8)
Por tanto, a partir de (8) se deriva la regla de decisión de mínimo riesgo:
(
ω1 si (λ21 − λ11 )p(ω1 |x) > (λ12 − λ22 )p(ω2 |x)
Decidir . (9)
ω2 otro caso
2
Expresando (8) en términos de probabilidades a priori se tiene:
(λ21 − λ11 )p(x|ω1 )p(ω1 ) > (λ12 − λ22 )p(x|ω2 )p(ω2 ). (10)
De este modo, la regla de decisión de mínimo riesgo en (9) se puede definir

en términos de la razón de las verosimilitudes de ambas clases como:
p(x|ω1 ) λ12 − λ22 p(ω2 )

> . (11)
p(x|ω2 ) λ21 − λ11 p(ω1 )
En problemas de clasificación se busca minimizar la tasa de error de cla-
sificación, de manera que la función de pérdida deberá contar como un error
cuando se decide por la clase ωi (i.e., acción αi ) cuando la clase verdadera
es ωj . Por tanto, la función de pérdida se convierte en una función indicatriz
denominada función ‘cero-uno’ y se define como:
(
0 i=j
λ(αi |ωj ) = , (12)
6 j
1 i=
para i, j = 1, . . . , C. Nótese que en la función ‘cero-uno’ todos los errores son

igualmente costosos.
Aplicando (12) en (3) se tiene:
X
R(αi |x) = p(ωj |x), (13)
i6=j
= 1 − p(ωi |x). (14)
Esto indica que minimizar el error requiere decidir por la probabilidad a

posteriori más probable de ser la clase ωi , es decir, maximizar p(ωi |x). Por
tanto, la regla de decisión de error mínimo se expresa en términos de máxima
probabilidad a posteriori como:
Decidir ωi si p(ωi |x) > p(ωj |x) ∀i 6= j, (15)

lo cual representa la generalización de la regla de decisión Bayesiana, y que
se puede expresar en términos del teorema de Bayes en (2):
p(x|ωi )p(ωi ) p(x|ωj )p(ωj )

Decidir ωi si > ∀i 6= j. (16)
p(x) p(x)
3
Simulación del Teorema de Bayes
A continuación se ilustra una simulación del Teorema de Bayes tomando
como referencia el ejemplo de la clasificación de pescados, róbalo y salmón,
dado en el libro “Pattern Classification” [2].
En el Algoritmo 1 se presenta el código en Matlab para generar datos
de luminosidad para las clases róbalo y salmón.
1 function [w1,w2] = dataset

2 % Probabilidades a priori
3 p1 = 1/2;
4 p2 = 1-p1;
5 % Numero de patrones
6 N = 1e6; % Total
7 N1 = round(p1*N); % Clase 1
8 N2 = round(p2*N); % Clase 2
9 % Simula clase 1: robalo
10 w1 = [mvnrnd(11.2,0.5,round(0.37*N1));...
11 mvnrnd(13.4,0.7,round(0.63*N1))];
12 % Simula clase 2: salmon
13 w2 = [mvnrnd(11.2,0.5,round(0.60*N2));...
14 mvnrnd(13.0,0.7,round(0.40*N2))];
15 end
Algoritmo 1: Código Matlab para simular datos de luminosidad para dos

clases de pescado.
En el Algoritmo 2 se presenta el código en Matlab para calcular las pro-

babilidades a posteriori para ambas clases de pescado utilizando el Teorema
de Bayes. En la Figura 1 se muestran las gráficas de probabilidades generadas
por la simulación en el Algoritmo 2, líneas 20–32.
4
1 % Genera conjunto de datos usando Algoritmo 1
2 [w1,w2] = dataset;
3 % Numero de patrones
4 N1 = numel(w1); % Clase 1
5 N2 = numel(w2); % Clase 2
6 N = N1+N2; % Total
7 % Verosimilitud clase 1
8 [h1,c1] = hist(w1,50);
9 pw1 = h1/N;
10 p1 = N1/N; % Probabilidad a priori clase 1
11 % Verosimilitud clase 2
12 [h2,c2] = hist(w2,50);
13 pw2 = h2/N;
14 p2 = N2/N; % Probabilidad a priori clase 2
15 % Teorema de Bayes
16 px = pw1*p1 + pw2*p2; % Evidencia (probabilidad total)
17 ps1 = (pw1*p1)./px; % Probabilidad a posteriori clase 1
18 ps2 = (pw2*p1)./px; % Probabilidad a posteriori clase 2
19 % Grafica probabilidades
20 figure;
21 subplot 211;
22 plot(c1,pw1,c2,pw2,'linewidth',2);
23 legend('\omega_1','\omega_2');
24 xlim([9 15]);
25 xlabel('{\it x}'); ylabel('{\it p}({\it x}|\omega)');
26 set(gca,'FontSize',11);
27 subplot 212;
28 plot(c1,ps1,c2,ps2,'linewidth',2);
29 legend('\omega_1','\omega_2');
30 xlim([9 15]);
31 xlabel('{\it x}'); ylabel('{\it p}({\it \omega}|x)');
32 set(gca,'FontSize',11);
Algoritmo 2: Código Matlab para calcular probabilidades a posteriori a

partir del Teorema de Bayes.
5
Figura 1: Arriba: Funciones de verosimilitud para las clases de pescado
ω1 =róbalo y ω2 =salmón. Abajo: Probabilidades a posteriori para ambas
clases de pescado.
6
Referencias
[1] C. M. Bishop, Pattern Recognition and Machine Learning, Springer, 1st
edition, 2006.
[2] R. O. Duda, P. E. Hart, D. G. Stork, Pattern Classification, Addison

Wesley, 2nd edition, 2000.

Curso de Estadistica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Curso de Estadistica

Cargado por

Copyright:

Formatos disponibles

Teoría de decisión Bayesiana

Dr. Wilfrido Gómez Flores

Regla del producto: p(X, Y ) = p(Y |X)p(X).

A partir de la propiedad de simetría de la regla del producto p(X, Y ) =

donde x = [x1 , . . . , xD ]T es un vector D-dimensional de características y

donde C es el número de clases o estados de naturaleza y λ(αi |ωj ) es la pérdi-

La acción α1 indica decidir por la clase ω1 .

La acción α2 indica decidir por la clase ω2 .

La pérdida λij indica decidir por la clase ωi cuando la clase verdadera

En términos de probabilidades a posteriori el riesgo condicional para dos

De este modo, la regla de decisión de mínimo riesgo en (9) se puede definir

p(x|ω1 ) λ12 − λ22 p(ω2 )

para i, j = 1, . . . , C. Nótese que en la función ‘cero-uno’ todos los errores son

Esto indica que minimizar el error requiere decidir por la probabilidad a

Decidir ωi si p(ωi |x) > p(ωj |x) ∀i 6= j, (15)

p(x|ωi )p(ωi ) p(x|ωj )p(ωj )

1 function [w1,w2] = dataset

Algoritmo 1: Código Matlab para simular datos de luminosidad para dos

En el Algoritmo 2 se presenta el código en Matlab para calcular las pro-

Algoritmo 2: Código Matlab para calcular probabilidades a posteriori a

[2] R. O. Duda, P. E. Hart, D. G. Stork, Pattern Classification, Addison

También podría gustarte