Está en la página 1de 19

Análisis de Datos

Teoría de decisión Bayesiana

Profesor: Dr. Wilfrido Gómez Flores

1
Teoría de decisión Bayesiana
• La teoría de probabilidad Teoría de
provee un marco teórico para Teoría de
probabilidad
decisión
los procesos de cuantificación
y manipulación de la
incertidumbre. Incertidumbre
Decisiones
óptimas

• Teoría de decisión Bayesiana:


‣ Cuantifica el compromiso entre varias decisiones de
clasificación usando probabilidades y los costos que acompañan
tales decisiones.
‣ Asume que el problema de decisión está en términos
probabilísticos, y que todas las probabilidades relevantes son
conocidas.

2
Ejemplo ilustrativo
• Una planta empacadora de pescados
quiere automatizar el proceso de
separación de pescados que van
sobre una banda de producción.
• Existen dos tipos de pescados:
róbalo y salmón.

• Supóngase que una persona observa los peces pasando por la


banda de producción y se le dificulta predecir qué pescado es el
próximo en salir, lo cual parece tener un comportamiento
aleatorio.
• Sea ω el “estado de naturaleza” con ω=ω1 para róbalo y ω=ω2
para salmón.
• Debido a que el estado de naturaleza es impredecible, entonces ω
es la variable que debe ser descrita probabilísticamente.
3
Probabilidades a priori
• El estado de naturaleza se puede describir en términos de su
probabilidad a priori, la cual expresa el conocimiento existente
acerca de ω antes de que aparezca algún tipo de pescado sin
ningún otro tipo de evidencia:
‣ p(ω1) es la probabilidad a priori de que el siguiente pescado sea
un róbalo.
‣ p(ω2) es la probabilidad a priori de que el siguiente pescado sea
un salmón.
• Estas probabilidades a priori son dependientes de factores como
época del año, lugar de pesca, etc.
• Asúmase que no existen otros tipos de pescados, de manera que
p(ω1)+ p(ω2)=1, lo cual indica exclusividad y exhaustividad.
4
Probabilidades a priori
• ¿Cómo se puede tomar una decisión utilizando únicamente el
conocimiento a priori?
⎧⎪ ω si p(ω 1 ) > p(ω 2 )
Decidir ⎨ 1 (1)
⎪⎩ ω 2 otro caso

• Obviamente siempre se tomará la misma decisión aún sabiendo


que cualquier tipo de pescado puede ser el próximo en salir.
• Si p(ω1) y p(ω2) son equiprobables, es decir, p(ω1)=p(ω2), se
tiene 50/50 de estar en lo correcto.
• La probabilidad de error de la regla de decisión en (1) es:

p(error) = min{p(ω 1 ), p(ω 2 )}


(2)
= 1 − max{p(ω 1 ), p(ω 2 )}
5
Probabilidad clase-condicional

• Para mejorar la decisión, se debe usar otro tipo de información o


evidencia, por ejemplo, una medida de luminosidad, x, del pescado
a partir de un sensor.
• Se tendrán diferentes lecturas de luminosidad para pescados de
distinta especie, es decir, x debe ser discriminante (e invariante).
• Considerando x como una variable aleatoria, su distribución depende
del estado de naturaleza y se expresa en términos de una función
de densidad de probabilidad clase-condicional p(x|ω).
• Entonces, las diferencias entre p(x|ω1) y p(x|ω2) describen las
diferencias en luminosidad entre poblaciones de róbalo y salmón.

6
Probabilidad clase-condicional
p(x | ω i )

ω2

ω1

Funciones de densidad de probabilidad (PDF) clase-condicionales


hipotéticas para dos clases que muestran la densidad de probabilidad
de medir una característica x dado un patrón en la clase ωi.
7
Probabilidad a posteriori
• Supóngase que se conoce p(ωj) y p(x|ωj), para j=1,2, y la medida de
luminosidad de un pescado es x.
• La función de probabilidad conjunta de encontrar un patrón que está en
la clase ωj y que tiene un valor de característica x es:
p(x, ω j ) = p(ω j ,x)
(3)
p(ω j | x)p(x) = p(x | ω j )p(ω j )
• Reacomodando términos se tiene la fórmula de Bayes:
p(x | ω j )p(ω j )
p(ω j | x) = (4)
p(x)
donde p(ωj|x) es la probabilidad a posteriori que indica la probabilidad del
estado de naturaleza de ser ωj dado un valor x. El denominador en (4)
para el caso de dos clases es:
2
p(x) = ∑ p(x | ω )p(ω )
j j
(5)
j =1
8
Probabilidad a posteriori
• La fórmula de Bayes se puede expresar informalmente como:

verosimilitud × previo
posterior =
evidencia

• La regla de decisión Bayesiana está dada por:

⎧⎪ ω si p(ω 1 | x) > p(ω 2 | x)


Decidir ⎨ 1 (6)
⎪⎩ ω 2 otro caso

• Reescribiendo la regla de decisión:

⎧⎪ ω si p(x | ω 1 )p(ω 1 ) > p(x | ω 2 )p(ω 2 )


Decidir ⎨ 1 (7)
⎪⎩ ω 2 otro caso

9
Probabilidad a posteriori
p(ω i | x)

ω1

ω2

Probabilidades posteriores para las probabilidades particulares


p(ω1)=2/3 y p(ω2)=1/3.

10
Probabilidad de error

• Cada vez que se observa un valor particular de x, la probabilidad


de error es:
⎧⎪ p(ω | x) si se decide ω
p(error | x) = ⎨ 1 2
(8)
⎪⎩ p(ω 2 | x) si se decide ω 1

• Minimizar la probabilidad de error involucra decidir de acuerdo a


la regla de clasificación Bayesiana dada en (6), de este modo (8) se
vuelve
p(error | x) = min{p(ω 1 | x), p(ω 2 | x)}
(9)
= 1 − max{p(ω 1 | x), p(ω 2 | x)}

11
Generalización

• Las ideas hasta ahora consideradas se pueden generalizar en cuatro


formas:
‣ Permitir más de una característica.
‣ Permitir más de dos estados de naturaleza.
‣ Permitir acciones además de meramente decidir el estado de
naturaleza.
‣ Introducir una función de pérdida (loss function) más general que
la probabilidad de error.

12
Definiciones

• Sea {ω1,…,ωC} un conjunto finito de C estados de naturaleza


(clases o categorías).
• Sea {α1,…,αA} un conjunto de A posibles acciones.
• Sea λ(αi|ωj) la pérdida incurrida por tomar una acción αi cuando
el estado de naturaleza es ωj.
• Sea x un vector D-dimensional de variables aleatorias denominado
vector de características.

13
Fórmula de Bayes
• p(ωj) es la probabilidad a priori de la clase ωj, j=1,…,C.

• p(x|ωj) es la función de densidad de probabilidad clase


condicional para x.
• La probabilidad a posteriori para la clase ωj se computa de acuerdo
con el teorema de Bayes:
p(x | ω j )p(ω j )
p(ω j | x) = (10)
p(x)
donde la evidencia es
C
p(x) = ∑ p(x | ω j )p(ω j ) (11)
j =1

14
Riesgo condicional

• Supóngase que se tiene una observación particular x y se


contempla tomar la acción αi.
• Si el verdadero estado de naturaleza es ωj, se incurrirá en la
pérdida λ(αi|ωj).
• La pérdida esperada (o riesgo condicional) asociada con tomar la
acción αi es:
C
R(α i | x) = ∑ λ(α i | ω j )p(ω j | x), para i = 1,…,A (12)
j =1

• Seleccionar la acción αi para la cual R(αi|x) es mínimo.

15
Clasificación binaria
• En el caso especial de clasificación binaria se tiene:
‣ Acción α1: decidir ω1.
‣ Acción α2: decidir ω2.
‣ λij=λ(αi|ωj), pérdida incurrida en decidir ωi cuando el estado de
naturaleza verdadero es ωj.
• En términos de probabilidades a posteriori el riesgo condicional es:

R(α 1 | x) = λ11p(ω 1 | x) + λ12p(ω 2 | x) (13)


R(α 2 | x) = λ 21p(ω 1 | x) + λ 22p(ω 2 | x) (14)
• La regla de decisión de mínimo riesgo es:
⎧⎪ ω si (λ 21 − λ11 )p(ω 1 | x) > (λ12 − λ 22 )p(ω 2 | x)
Decidir ⎨ 1 (15)
⎪⎩ ω 2 otro caso
16
Clasificación binaria
• La regla de decisión de mínimo riesgo en (15) corresponde a
decidir ω1 si:
p(x | ω 1 ) λ12 − λ 22 p(ω 2 )
> (16)
p(x | ω 2 ) λ 21 − λ11 p(ω 1 )
• Se compara la proporción de verosimilitud con un umbral que es
independiente de la observación x.
p(x | ω 1 )
p(x | ω 2 )

Razón de verosimilitudes y
frontera de decisión θa. R1 es
la región del espacio de
características clasificada
como ω1 y del mismo modo
para R2 y ω2.
x

17
Tasa de error de clasificación
• En problemas de clasificación las acciones son decisiones sobre
clases.
• Se busca una regla de decisión que minimice la tasa de error de
clasificación (i.e., la probabilidad de error).
• Usualmente si la acción αi es tomada y el verdadero estado de
naturaleza es ωj, entonces la decisión es correcta si i=j y es un
error si i≠j, lo cual se expresa mediante la función de pérdida 0-1:

⎧⎪ 0 i = j
λ(α i | ω j ) = ⎨ i, j = 1,…,C (17)
⎪⎩ 1 i ≠ j

• Esta función no asigna pérdida a una decisión correcta y asigna


una pérdida unitaria a cualquier error, de modo que todos los
errores son igualmente costosos.
18
Tasa de error de clasificación
• Riesgo condicional correspondiente a la función de pérdida 0-1:
C
R(α i | x) = ∑ λ(α i | ω j )p(ω j | x)
i =1

= ∑ p(ω j
| x)
i≠j

= 1 − p(ω i | x) (18)
• Minimizar el riesgo requiere maximizar p(ωi|x), resultando en la
regla de decisión de error mínimo:

Decidir ω i si p(ω i | x) > p(ω j | x) para todo i ≠ j (19)

• Esta regla de decisión es la generalización de la regla de decisión


Bayesiana en (6).

19

También podría gustarte