Clase02b PDF

Análisis de Datos
Teoría de decisión Bayesiana
Profesor: Dr. Wilfrido Gómez Flores
1
Teoría de decisión Bayesiana
• La teoría de probabilidad Teoría de
provee un marco teórico para Teoría de
probabilidad
decisión
los procesos de cuantificación
y manipulación de la
incertidumbre. Incertidumbre
Decisiones
óptimas
• Teoría de decisión Bayesiana:

‣ Cuantifica el compromiso entre varias decisiones de
clasificación usando probabilidades y los costos que acompañan
tales decisiones.
‣ Asume que el problema de decisión está en términos
probabilísticos, y que todas las probabilidades relevantes son
conocidas.
2
Ejemplo ilustrativo
• Una planta empacadora de pescados
quiere automatizar el proceso de
separación de pescados que van
sobre una banda de producción.
• Existen dos tipos de pescados:
róbalo y salmón.
• Supóngase que una persona observa los peces pasando por la

banda de producción y se le dificulta predecir qué pescado es el
próximo en salir, lo cual parece tener un comportamiento
aleatorio.
• Sea ω el “estado de naturaleza” con ω=ω1 para róbalo y ω=ω2
para salmón.
• Debido a que el estado de naturaleza es impredecible, entonces ω
es la variable que debe ser descrita probabilísticamente.
3
Probabilidades a priori
• El estado de naturaleza se puede describir en términos de su
probabilidad a priori, la cual expresa el conocimiento existente
acerca de ω antes de que aparezca algún tipo de pescado sin
ningún otro tipo de evidencia:
‣ p(ω1) es la probabilidad a priori de que el siguiente pescado sea
un róbalo.
‣ p(ω2) es la probabilidad a priori de que el siguiente pescado sea
un salmón.
• Estas probabilidades a priori son dependientes de factores como
época del año, lugar de pesca, etc.
• Asúmase que no existen otros tipos de pescados, de manera que
p(ω1)+ p(ω2)=1, lo cual indica exclusividad y exhaustividad.
4
Probabilidades a priori
• ¿Cómo se puede tomar una decisión utilizando únicamente el
conocimiento a priori?
⎧⎪ ω si p(ω 1 ) > p(ω 2 )
Decidir ⎨ 1 (1)
⎪⎩ ω 2 otro caso
• Obviamente siempre se tomará la misma decisión aún sabiendo

que cualquier tipo de pescado puede ser el próximo en salir.
• Si p(ω1) y p(ω2) son equiprobables, es decir, p(ω1)=p(ω2), se
tiene 50/50 de estar en lo correcto.
• La probabilidad de error de la regla de decisión en (1) es:
p(error) = min{p(ω 1 ), p(ω 2 )}

(2)
= 1 − max{p(ω 1 ), p(ω 2 )}
5
Probabilidad clase-condicional
• Para mejorar la decisión, se debe usar otro tipo de información o

evidencia, por ejemplo, una medida de luminosidad, x, del pescado
a partir de un sensor.
• Se tendrán diferentes lecturas de luminosidad para pescados de
distinta especie, es decir, x debe ser discriminante (e invariante).
• Considerando x como una variable aleatoria, su distribución depende
del estado de naturaleza y se expresa en términos de una función
de densidad de probabilidad clase-condicional p(x|ω).
• Entonces, las diferencias entre p(x|ω1) y p(x|ω2) describen las
diferencias en luminosidad entre poblaciones de róbalo y salmón.
6
Probabilidad clase-condicional
p(x | ω i )
ω2
ω1
Funciones de densidad de probabilidad (PDF) clase-condicionales

hipotéticas para dos clases que muestran la densidad de probabilidad
de medir una característica x dado un patrón en la clase ωi.
7
Probabilidad a posteriori
• Supóngase que se conoce p(ωj) y p(x|ωj), para j=1,2, y la medida de
luminosidad de un pescado es x.
• La función de probabilidad conjunta de encontrar un patrón que está en
la clase ωj y que tiene un valor de característica x es:
p(x, ω j ) = p(ω j ,x)
(3)
p(ω j | x)p(x) = p(x | ω j )p(ω j )
• Reacomodando términos se tiene la fórmula de Bayes:
p(x | ω j )p(ω j )
p(ω j | x) = (4)
p(x)
donde p(ωj|x) es la probabilidad a posteriori que indica la probabilidad del
estado de naturaleza de ser ωj dado un valor x. El denominador en (4)
para el caso de dos clases es:
2
p(x) = ∑ p(x | ω )p(ω )
j j
(5)
j =1
8
• La fórmula de Bayes se puede expresar informalmente como:
verosimilitud × previo
posterior =
evidencia
• La regla de decisión Bayesiana está dada por:
⎧⎪ ω si p(ω 1 | x) > p(ω 2 | x)

Decidir ⎨ 1 (6)
• Reescribiendo la regla de decisión:
⎧⎪ ω si p(x | ω 1 )p(ω 1 ) > p(x | ω 2 )p(ω 2 )

Decidir ⎨ 1 (7)
9
p(ω i | x)
ω1
ω2
Probabilidades posteriores para las probabilidades particulares

p(ω1)=2/3 y p(ω2)=1/3.
10
Probabilidad de error
• Cada vez que se observa un valor particular de x, la probabilidad

de error es:
⎧⎪ p(ω | x) si se decide ω
p(error | x) = ⎨ 1 2
(8)
⎪⎩ p(ω 2 | x) si se decide ω 1
• Minimizar la probabilidad de error involucra decidir de acuerdo a

la regla de clasificación Bayesiana dada en (6), de este modo (8) se
vuelve
p(error | x) = min{p(ω 1 | x), p(ω 2 | x)}
(9)
= 1 − max{p(ω 1 | x), p(ω 2 | x)}
11
Generalización
• Las ideas hasta ahora consideradas se pueden generalizar en cuatro

formas:
‣ Permitir más de una característica.
‣ Permitir más de dos estados de naturaleza.
‣ Permitir acciones además de meramente decidir el estado de
naturaleza.
‣ Introducir una función de pérdida (loss function) más general que
la probabilidad de error.
12
Definiciones
• Sea {ω1,…,ωC} un conjunto finito de C estados de naturaleza

(clases o categorías).
• Sea {α1,…,αA} un conjunto de A posibles acciones.
• Sea λ(αi|ωj) la pérdida incurrida por tomar una acción αi cuando
el estado de naturaleza es ωj.
• Sea x un vector D-dimensional de variables aleatorias denominado
vector de características.
13
Fórmula de Bayes
• p(ωj) es la probabilidad a priori de la clase ωj, j=1,…,C.
• p(x|ωj) es la función de densidad de probabilidad clase

condicional para x.
• La probabilidad a posteriori para la clase ωj se computa de acuerdo
con el teorema de Bayes:
p(x | ω j )p(ω j )
p(ω j | x) = (10)
p(x)
donde la evidencia es
C
p(x) = ∑ p(x | ω j )p(ω j ) (11)
j =1
14
Riesgo condicional
• Supóngase que se tiene una observación particular x y se

contempla tomar la acción αi.
• Si el verdadero estado de naturaleza es ωj, se incurrirá en la
pérdida λ(αi|ωj).
• La pérdida esperada (o riesgo condicional) asociada con tomar la
acción αi es:
C
R(α i | x) = ∑ λ(α i | ω j )p(ω j | x), para i = 1,…,A (12)
j =1
• Seleccionar la acción αi para la cual R(αi|x) es mínimo.
15
Clasificación binaria
• En el caso especial de clasificación binaria se tiene:
‣ Acción α1: decidir ω1.
‣ Acción α2: decidir ω2.
‣ λij=λ(αi|ωj), pérdida incurrida en decidir ωi cuando el estado de
naturaleza verdadero es ωj.
• En términos de probabilidades a posteriori el riesgo condicional es:
R(α 1 | x) = λ11p(ω 1 | x) + λ12p(ω 2 | x) (13)

R(α 2 | x) = λ 21p(ω 1 | x) + λ 22p(ω 2 | x) (14)
• La regla de decisión de mínimo riesgo es:
⎧⎪ ω si (λ 21 − λ11 )p(ω 1 | x) > (λ12 − λ 22 )p(ω 2 | x)
Decidir ⎨ 1 (15)
16
Clasificación binaria
• La regla de decisión de mínimo riesgo en (15) corresponde a
decidir ω1 si:
p(x | ω 1 ) λ12 − λ 22 p(ω 2 )
> (16)
p(x | ω 2 ) λ 21 − λ11 p(ω 1 )
• Se compara la proporción de verosimilitud con un umbral que es
independiente de la observación x.
p(x | ω 1 )
p(x | ω 2 )
Razón de verosimilitudes y
frontera de decisión θa. R1 es
la región del espacio de
características clasificada
como ω1 y del mismo modo
para R2 y ω2.
x
17
Tasa de error de clasificación
• En problemas de clasificación las acciones son decisiones sobre
clases.
• Se busca una regla de decisión que minimice la tasa de error de
clasificación (i.e., la probabilidad de error).
• Usualmente si la acción αi es tomada y el verdadero estado de
naturaleza es ωj, entonces la decisión es correcta si i=j y es un
error si i≠j, lo cual se expresa mediante la función de pérdida 0-1:
⎧⎪ 0 i = j
λ(α i | ω j ) = ⎨ i, j = 1,…,C (17)
⎪⎩ 1 i ≠ j
• Esta función no asigna pérdida a una decisión correcta y asigna

una pérdida unitaria a cualquier error, de modo que todos los
errores son igualmente costosos.
18
Tasa de error de clasificación
• Riesgo condicional correspondiente a la función de pérdida 0-1:
C
R(α i | x) = ∑ λ(α i | ω j )p(ω j | x)
i =1
= ∑ p(ω j
| x)
i≠j
= 1 − p(ω i | x) (18)
• Minimizar el riesgo requiere maximizar p(ωi|x), resultando en la
regla de decisión de error mínimo:
Decidir ω i si p(ω i | x) > p(ω j | x) para todo i ≠ j (19)
• Esta regla de decisión es la generalización de la regla de decisión

Bayesiana en (6).
19

Clase02b PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase02b PDF

Cargado por

Copyright:

Formatos disponibles

Análisis de Datos

Teoría de decisión Bayesiana

Profesor: Dr. Wilfrido Gómez Flores

• Teoría de decisión Bayesiana:

• Supóngase que una persona observa los peces pasando por la

• Obviamente siempre se tomará la misma decisión aún sabiendo

p(error) = min{p(ω 1 ), p(ω 2 )}

• Para mejorar la decisión, se debe usar otro tipo de información o

Funciones de densidad de probabilidad (PDF) clase-condicionales

• La regla de decisión Bayesiana está dada por:

⎧⎪ ω si p(ω 1 | x) > p(ω 2 | x)

• Reescribiendo la regla de decisión:

⎧⎪ ω si p(x | ω 1 )p(ω 1 ) > p(x | ω 2 )p(ω 2 )

Probabilidades posteriores para las probabilidades particulares

• Cada vez que se observa un valor particular de x, la probabilidad

• Minimizar la probabilidad de error involucra decidir de acuerdo a

• Las ideas hasta ahora consideradas se pueden generalizar en cuatro

• Sea {ω1,…,ωC} un conjunto finito de C estados de naturaleza

• p(x|ωj) es la función de densidad de probabilidad clase

• Supóngase que se tiene una observación particular x y se

• Seleccionar la acción αi para la cual R(αi|x) es mínimo.

R(α 1 | x) = λ11p(ω 1 | x) + λ12p(ω 2 | x) (13)

• Esta función no asigna pérdida a una decisión correcta y asigna

Decidir ω i si p(ω i | x) > p(ω j | x) para todo i ≠ j (19)

• Esta regla de decisión es la generalización de la regla de decisión

También podría gustarte