Está en la página 1de 56

RAZONAMIENTO BAYESIANO

CAMPUS DIGITAL
PLAN CAPACITACIÓN DIGITAL CM

Tema 4.2 . Grupo 83M


Departamento de Informática
Universidad Carlos III de Madrid
“Cuando actualizas tu creencia inicial con nueva información, obtienes
una nueva creencia mejorada.”
Cómo predecir el futuro y reducir la incertidumbre gracias a la inferencia bayesiana (I) - Think Big Empresas (blogthinkbig.com)

Imagínate que regresas a casa desde San Francisco, recién llegado de la Conferencia RSA. Estás deshaciendo la maleta, abres el cajón de tu cómoda
donde guardas tu ropa interior y, ¿qué descubres? ¡Una prenda de ropa interior que no te pertenece! Lógicamente, te preguntas: ¿cuál es la
probabilidad de que tu pareja te esté engañando? ¡Teorema de Bayes al rescate!

Gonzalo Álvarez Marañón


escritor, científico y
conferenciante
1 PROBABILIDAD
 Razonamiento con incertidumbre
 Enfoques de la probabilidad
 Probabilidad conjunta
 Probabilidad condicional

2 RAZONAMIENTO BAYESIANO
 Teorema de la probabilidad total
 Teorema Bayes
 Ejemplos del razonamiento Bayesiano
ÍNDICE  Probabilidad Relativa
 Normalización
 Teorema de Bayes simplificado

3 APLICACIONES RAZONAMIENTO BAYESIANO


 Caso 1: Predicción
 Caso 2: Diagnóstico médico
 Caso 3: Toma de decisiones
 El formalismo de las probabilidades representa bien un tipo de
incertidumbre
 El problema viene completamente determinado por la distribución
RESUMEN

conjunta de todas las variables implicadas, la representación tabular


es sencilla de interpretar pero no escala.
 Se necesitan mecanismos que permitan representación e inferencia
más eficiente utilizando:
Concepto de independencia
Regla de la cadena
Teorema de Bayes
 En la inferencia por enumeración se suman los casos positivos para
calcular la probabilidad de los eventos buscados y luego se normaliza
 En la inferencia por el teorema de Bayes se calcula la probabilidad a
posteriori en función de las probabilidades a priori, si es preciso usando
la regla del producto o el teorema de la probabilidad total
1. PROBABILIDAD
RAZONAMIENTO CON INCERTIDUMBRE
Aplicaciones de la IA ¿Y si el modelo es incorrecto o incompleto?
Tareas típicas: toma de decisiones, clasificación,  ¿Qué es más probable?
predicción, . . . . Uso de probabilidades: redes
 ¿Que es cierto? vs ... bayesianas, predicción de secuencias
Uso de lógica clásica: satisfacción (reconocimiento de voz), clasificación
proposicional, verificación de circuitos, (de idioma), . . . .
sistemas de producción, . .

En teoría, podemos razonar usando lógica clásica. En la


práctica, hay incertidumbre:
 Que tiene que ver con la representación Al igual que usamos lógica como base para los
Ignorancia teórica: es posible que no exista sistemas de producción, queremos basarnos en
conocimiento completo del problema. Ej: un formalismo para representar incertidumbre.
medicina, comportamientos humanos.
Inadecuación de las representaciones:  Cálculo de Probabilidades: por
representación de la vaguedad ejemplo, considerar varios escenarios
(“Si su estilo es moderno, ofrécele un producto posibles, cada uno con un peso
novedoso”) numérico que representa cuan
 Que tiene que ver con limitaciones prácticas probable es.
Coste: es mucho trabajo representar todos los  Lógica borrosa: equivalente a
posibles hechos y reglas para todas las asociar un grado de pertenencia de
excepciones y posibilidades. los hechos a categorías o relaciones
Ignorancia práctica: aunque pudieramos
enumerar todas las reglas y Corresponden a tipos de incertidumbre diferentes.
hechos, puede que nos falte información al
tomar la decisión. (“Creo que es un cliente”)
ENFOQUES DE LA PROBABILIDAD

La probabilidad puede interpretarse como una


medida de:
Clásica
 Frecuentista: las probabilidades provienen de  la proporción de veces en que algo es cierto.
experimentos y estadísticas - “Indefinida, no se han realizado
experimentos”
- Que sería una propiedad física y
puede medirse experimentalmente
Bayesiana  el grado de creencia en que algo es cierto
 Objetivista: la probabilidad como aspecto de la - “1, en el pasado siempre se ha
realidad que refleja la propensión de los objetos a cumplido
comportarse de una determinada manera -1-ε, donde ε es la proporción de
 Subjetivista: la probabilidad como caracterización del estrellas en el universo que cambian a
grado de creencia de un agente, sin significación supernova cada día y explotan
externa - Que podría variar por cada persona
o sistema inteligente.

El cálculo de probabilidad no depende de la interpretación.


La probabilidad es una medida de la certidumbre de que ocurra un evento.
 Su valor es un número entre 0 y 1, donde un evento imposible corresponde a cero y uno seguro corresponde
a uno.
 Una forma empírica de estimar la probabilidad consiste en obtener la frecuencia con la que sucede un
determinado acontecimiento mediante la repetición de experimentos aleatorios, bajo
condiciones suficientemente estables.
 En algunos experimentos la probabilidad de estos sucesos pueden ser calculadas de manera teórica,
especialmente cuando todos son igualmente probables.
PROBABILIDAD

 La probabilidad se define para un espacio muestral Ω.  Suceso seguro: siempre se verifica, E


 Un suceso es cualquier subconjunto del espacio  Suceso imposible: nunca se verifica, 
muestral de un experimento aleatorio  Se llama suceso complementario de un suceso A al
1. Un suceso o evento atómico e ∈ Ω es una posible suceso que se verifica si no se verifica A, y se
situación/mundo resultado de un experimento representa ¬A o Ac. Está formado por los elementos
aleatorio: del espacio muestral (E) que no están en A
Siempre ocurre alguno de ellos (conjunto  Un suceso A está contenido en otro suceso B,
exhaustivo, la unión de todos ellos es igual al representado AB, si al verificarse A
espacio muestral ) necesariamente se verifica B.
Son mutuamente excluyentes (no hay ninguna  Se llama suceso unión de A y B, AB, al que verifica
intersección distinta de ) A o B. Está formado por los resultados
2. Un suceso o evento (compuesto) A es un conjunto de experimentales que están en A o en B.
eventos atómicos: A ⊆ Ω.  Se llama suceso intersección de A y B, AB, al que
P(A) = Σe∈A P(e) verifica tanto A como B. Está formado por los
 Una distribución de probabilidad asigna un número P(e) resultados experimentales que están
a cada e ∈ Ω, tal que simultáneamente en A y B
0 ≤ P(e) ≤ 1 y Σe∈Ω P(e) = 1
Probabilidad como frecuencia
Sea r el numero de resultados obtenidos mediante un experimento y rA el número de veces que el resultado fue
PROBABILIDAD FRECUENTISTA
el suceso A. La frecuencia relativa fA de A se define como:
rA
fA 
Y cumple r
 0  fA  1
 fA = 0  rA=0; fA = 1  rA=0
 Si A y B son eventos mutuamente excluyentes, entonces fAB = fA + fB
 Cuando r → entonces fA = Probabilidad(A)
Se llama probabilidad a cualquier función P, que asigna a
cada suceso Ai de un espacio muestral E un valor
numérico P(Ai), que verifica los axiomas siguientes:
PROBABILIDAD AXIOMÁTICA
 0 ≤ P(Ai) ≤1
 P(E) = 1
 Para cualquier número finito k de sucesos
mutuamente excluyentes A1, A2, ..., Ak se cumple:
P(i=1..kAk) = i=1..kP(Ai)
Propiedades:
 P(¬ A) =1 - P(A)
 P(AB) = P(A) + P(B) - P(A  B)
 P(ABC) = P(A) + P(B) + P(C) - P(A  B) - P(A  C) - P(B
 C) + P(A  B  C)
 P(A  B) … ya veremos

Variable aleatoria Distribución de probabilidad


 Muchas veces tenemos un suceso con un conjunto de  X= x denota que la variable aleatoria X toma el valor x  ΩX.
resultados mutuamente excluyente  La función P(X=x) es una función de probabilidad para X en ΩX
 Si tiramos una moneda, el resultado es cara o cruz si se cumple:
 Si tiramos un dado, se producen seis resultados distintos  0  P(X=x)  1, x ΩX
 La temperatura de un paciente puede estar en un conjunto de intervalos:  1= ∑ xΩx Pr(X=x)
<36.5, 36.5-37.4, 37.5-38.4, 38.5-39.4, >39.4  La colección de pares [(x, P(X=x)), x ΩX] se llama
distribución de probabilidad de X
 En lugar de tener una proposición para cada caso se  Ejemplo: M Variable Aleatoria representa lanzamiento de una
introduce el concepto de variable aleatoria moneda DP(M)=((0,1/2),(1,1/2))
 Se permiten proposiciones de la forma:
 Variable = Resultado
 Por ejemplo, si M=Resultado de tirar una moneda con valores posibles
cara y cruz se permiten las proposiciones:
 M=cara y M=Cruz y podemos hablar de
 P(M=cara) y P(M=cruz) que representan la probabilidad de obtener una
cara y una cruz respectivamente
Grado de certeza de proposiciones más complejas

Podemos estar interesados en estudiar varias variables en conjunto. Por ejemplo


PROBABILIDAD CONJUNTA

P(Sarampión=verdadero ^ Fiebre=verdadero) que es la probabilidad de que el paciente tenga


sarampión y fiebre.
Generalmente lo escribiremos como:
P(Sarampión ^ Fiebre) o P(Sarampión, Fiebre).

Para ello se necesita la distribución conjunta del conjunto de variables aleatorias VA.

Recuerda a la tabla de la verdad lógica excepto que:


 Describe los valores de probabilidad para cada combinación de valores de las variables.
 Generalmente dichos valores no se pueden calcular a partir de sus componentes.

Distribución conjunta de Variables Aleatorias Probabilidad marginal


Dado el conjunto de VA {X,Y,Z}
Probabilidad conjunta: P ( xi )   P ( xi , y j ,z k )
P(xi, yj, zk)  P(X=xi  Y=yi  Z=zk) j , k
1   P ( xi )   P ( y j )   P ( z k )
 P( x , y ,z
i , j , k
i j k ) 1 i j k
PROBABILIDAD CONJUNTA Probabilidad Conjunta
Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Ejemplo Distribución de Probabilidad Conjunta

De los registros de pacientes de un odontólogo obtenemos la


siguiente tabla (matriz de contingencia), sobre un total de 1000
casos, que relaciona síntoma observado (si tiene o no dolor de
dientes) y resultado de la exploración (la sonda dental se engancha o
no), con el diagnóstico final del mismo (tiene o no caries).
dolorDeDientes ¬ dolorDeDientes

engancha ¬ engancha engancha ¬ engancha


caries 108 12 72 8
¬ caries 16 64 144 576

¿Cuál es la distribución de probabilidad conjunta?


Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Ejemplo distribución conjunta

De los registros de pacientes de un odontólogo obtenemos la


siguiente tabla (matriz de contingencia), sobre un total de 1000
casos, que relaciona síntoma observado (si tiene o no dolor de
dientes) y resultado de la exploración (la sonda dental se engancha o
no), con el diagnóstico final del mismo (tiene o no caries).
dolorDeDientes ¬ dolorDeDientes

engancha ¬ engancha engancha ¬ engancha


caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

¿Cuál es la distribución de probabilidad conjunta? Se divide


cada casilla de la matriz de contingencia por el número de casos
totales


Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Inferencia usando Probabilidad Conjunta


De los registros de pacientes de un odontólogo obtenemos la
siguiente tabla, sobre un total de 1000 casos, que relaciona síntoma
observado (si tiene o no dolor de dientes) y resultado de la
exploración (la sonda dental se engancha o no), con el diagnóstico
final del mismo (tiene o no caries).

dolorDeDientes ¬ dolorDeDientes

engancha ¬ engancha engancha ¬ engancha


caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

¿Cuál es la probabilidad de que un paciente tenga caries , P(caries)?


¿Cuál es la probabilidad de que un paciente tenga dolor de dientes
P(dolorDeDientes)?
¿Cuál es la probabilidad de que la sonda se enganche pero el paciente no
tenga dolor de dientes P(¬dolorDeDientes, engancha)?


Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Inferencia usando Probabilidad Conjunta


De los registros de pacientes de un odontólogo obtenemos la
siguiente tabla, sobre un total de 1000 casos, que relaciona síntoma
observado (si tiene o no dolor de dientes) y resultado de la
exploración (la sonda dental se engancha o no), con el diagnóstico
final del mismo (tiene o no caries).

dolorDeDientes ¬ dolorDeDientes

engancha ¬ engancha engancha ¬ engancha


caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

¿Cuál es la probabilidad de que un paciente tenga caries , P(caries)? 0.2


¿Cuál es la probabilidad de que un paciente tenga dolor de dientes
P(dolorDeDientes)?
¿Cuál es la probabilidad de que la sonda se enganche pero el paciente no tenga dolor
de dientes P(¬dolorDeDientes, engancha)?


Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Inferencia usando Probabilidad Conjunta


De los registros de pacientes de un odontólogo obtenemos la
siguiente tabla, sobre un total de 1000 casos, que relaciona síntoma
observado (si tiene o no dolor de dientes) y resultado de la
exploración (la sonda dental se engancha o no), con el diagnóstico
final del mismo (tiene o no caries).

dolorDeDientes ¬ dolorDeDientes

engancha ¬ engancha engancha ¬ engancha


caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

¿Cuál es la probabilidad de que un paciente tenga caries , P(caries)? 0.2


¿Cuál es la probabilidad de que un paciente tenga dolor de dientes
P(dolorDeDientes)?
¿Cuál es la probabilidad de que la sonda se enganche pero el paciente no tenga
dolor de dientes P(¬dolorDeDientes, engancha)?


Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Inferencia usando Probabilidad Conjunta


De los registros de pacientes de un odontólogo obtenemos la
siguiente tabla, sobre un total de 1000 casos, que relaciona síntoma
observado (si tiene o no dolor de dientes) y resultado de la
exploración (la sonda dental se engancha o no), con el diagnóstico
final del mismo (tiene o no caries).

dolorDeDientes ¬ dolorDeDientes

engancha ¬ engancha engancha ¬ engancha


caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

¿Cuál es la probabilidad de que un paciente tenga caries , P(caries)? 0.2


¿Cuál es la probabilidad de que un paciente tenga dolor de dientes
P(dolorDeDientes)? 0.2
¿Cuál es la probabilidad de que la sonda se enganche pero el paciente no tenga
dolor de dientes P(¬dolorDeDientes, engancha)?


Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Inferencia usando Probabilidad Conjunta


De los registros de pacientes de un odontólogo obtenemos la
siguiente tabla, sobre un total de 1000 casos, que relaciona síntoma
observado (si tiene o no dolor de dientes) y resultado de la
exploración (la sonda dental se engancha o no), con el diagnóstico
final del mismo (tiene o no caries).

dolorDeDientes ¬ dolorDeDientes

engancha ¬ engancha engancha ¬ engancha


caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

¿Cuál es la probabilidad de que un paciente tenga caries , P(caries)? 0.2


¿Cuál es la probabilidad de que un paciente tenga dolor de dientes
P(dolorDeDientes)? 0.2
¿Cuál es la probabilidad de que la sonda se enganche pero el paciente no
tenga dolor de dientes P(¬dolorDeDientes, engancha)?


Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Inferencia usando Probabilidad Conjunta


De los registros de pacientes de un odontólogo obtenemos la
siguiente tabla, sobre un total de 1000 casos, que relaciona síntoma
observado (si tiene o no dolor de dientes) y resultado de la
exploración (la sonda dental se engancha o no), con el diagnóstico
final del mismo (tiene o no caries).

dolorDeDientes ¬ dolorDeDientes

engancha ¬ engancha engancha ¬ engancha


caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

¿Cuál es la probabilidad de que un paciente tenga caries , P(caries)? 0.2


¿Cuál es la probabilidad de que un paciente tenga dolor de dientes
P(dolorDeDientes)? 0.2
¿Cuál es la probabilidad de que la sonda se enganche pero el paciente no
tenga dolor de dientes P(¬dolorDeDientes, engancha)? 0.216


Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Inferencia usando Probabilidad Conjunta

De los registros de pacientes de un odontólogo obtenemos la


siguiente tabla, sobre un total de 1000 casos, que relaciona síntoma
observado (si tiene o no dolor de dientes) y resultado de la
exploración (la sonda dental se engancha o no), con el diagnóstico
final del mismo (tiene o no caries).

dolorDeDientes ¬ dolorDeDientes

engancha ¬ engancha engancha ¬ engancha


caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

¿Cómo se calcula P(dolorDeDientes ∨ caries) = ?

20 / 40

Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Inferencia usando Probabilidad Conjunta

De los registros de pacientes de un odontólogo obtenemos la


siguiente tabla, sobre un total de 1000 casos, que relaciona síntoma
observado (si tiene o no dolor de dientes) y resultado de la
exploración (la sonda dental se engancha o no), con el diagnóstico
final del mismo (tiene o no caries).

dolorDeDientes ¬ dolorDeDientes

engancha ¬ engancha engancha ¬ engancha


caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

¿Cómo se calcula P(dolorDeDientes ∨ caries) = ?


0.108 + 0.012 + 0.072 + 0.008 + 0.016 + 0.064 = 0.28

20 / 40

Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Razonamiento mediante la Distribución Conjunta

¡La distribución conjunta en forma tabular permite contestar en términos


probabilísticos a cualquier pregunta sobre variables discretas!

¡Pero... no escala!
En problemas reales puede haber cientos o miles de variables
Es imposible definir todas las probabilidades y trabajar con ellas
¡Pero es la base teórica para otras aproximaciones que escalan mejor!

25 / 40

Probabilidad incondicional
PROBABILIDAD CONDICIONAL
La interpretación de las probabilidades utilizadas hasta ahora nos dan el grado de creencia en una proposición
asumiendo que no se sabe nada más.
 Así P(Sarampión) significa la probabilidad de que el paciente tenga sarampión asumiendo que no
se sabe nada más.
A estas probabilidades se las llama probabilidades incondicionales o probabilidades a priori.
 Cuando aprendemos algo nuevo (por ejemplo el paciente tiene manchas) deberíamos cambiar
nuestro grado de creencia en que el paciente tenga sarampión.
 Sin embargo, el valor de P(Sarampión) no se altera cuando se aprende algo nuevo puesto que
expresa “asumiendo que no se sabe nada más”.
En lugar de esto se representa el impacto de la nueva información mediante una proposición distinta.

Probabilidad condicional

Se llama probabilidad de A condicionada a B,


representado P(A|B), a la probabilidad de que haya
ocurrido A sabiendo que ha ocurrido B.

P( A  B)
P( A | B) 
P( B)
EJEMPLO
EJEMPLO
EJEMPLO
Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Cálculo usando la Probabilidad Conjunta

¿Cómo calcular P(Caries|dolorDeDientes = V)? (donde ”Caries”


es la variable aleatoria)

Distribución conjunta:

dolorDeDientes ¬ dolorDeDientes

engancha ¬ engancha engancha ¬ engancha


caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

Para evento, sumar los eventos atómicos correspondientes:


Σ
P(A) = P(e)
e∈A

24 / 40

Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Cálculo usando la Probabilidad Conjunta

¿Cómo calcular P(Caries|dolorDeDientes = V)? (donde ”Caries”


es la variable aleatoria)

Distribución conjunta:

dolorDeDientes ¬ dolorDeDientes

engancha ¬ engancha engancha ¬ engancha


caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

Para evento, sumar los eventos atómicos correspondientes:


Σ
P(A) = P(e)
e∈A

P(dolorDeDientes) = 0.108 + 0.012 + 0.016 + 0.064 = 0.2

24 / 40

Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Cálculo usando la Probabilidad Conjunta


¿Cómo calcular P(Caries|dolorDeDientes = V)? (donde ”Caries”
es la variable aleatoria)
Distribución conjunta:

dolorDeDientes ¬ dolorDeDientes

engancha ¬ engancha engancha ¬ engancha


caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

P(¬ caries ∧ dolorDeDientes)


P(¬caries|dolorDeDientes) =
P(dolorDeDientes)
0.016 + 0.064
= = 0.4
0.108 + 0.012 + 0.016 + 0.064
P(caries|dolorDeDientes) = ... = 0.6
P(Caries|dolorDeDientes) = ⟨0.6,0.4⟩

24 / 40

Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Normalización
¿Cómo calcular P(Caries|dolorDeDientes = V)? (donde ”Caries”
es la variable aleatoria)
Distribución conjunta:

dolorDeDientes ¬ dolorDeDientes

engancha ¬ engancha engancha ¬ engancha


caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

El denominador puede ser visto como constante de normalización α.


P(Caries|dolorDeDientes)
= (P(caries|dolorDeDientes), P(¬caries|dolorDeDientes)⟩
P(caries ∧ dolorDeDientes) P(¬caries ∧ dolorDeDientes)
= ( , ⟩
P(dolorDeDientes) P(dolorDeDientes)
= α(P(caries ∧ dolorDeDientes), P(¬caries ∧ dolorDeDientes)⟩
= α(0.108 + 0.012, 0.016 + 0.064⟩
= α ( 0 . 1 2 , 0.08⟩ = ( 0 . 6 , 0.4⟩

24 / 40

Si A y B son mutuamente excluyentes: P(A,B) =0  P(A | B) = 0 = P(B | A).
PROPIEDASDES PROBABILIDAD

Si A  B entonces P(B | A) = 1
CONJUNTA/CONDICIONAL

Regla del producto


P(A,B) = P(A | B) P(B), si p(B) > 0
P(A,B) = P(B | A) P(A), si p(A) > 0

Regla del producto condicional


P(A,B|C)= P(A|B,C) P(B|C)
P(A,B|C) = P(B|A,C) P(A|C)

Regla de la cadena (factorización de la probabilidad conjunta aplicando regla del producto)


P(x1,x2,..,xn)= P(x1)
P(x2|x1)
P(x3|x1,x2)

P(xn|x1,..,xn-1)

P(Engancha, DolorDeDientes, Caries) =

P(Caries/DolorDeDientes,
¡Podemos definir la probabilidad conjunta mediante Engancha)P(DolorDeDientes, Engancha) =
probabilidades condicionales! P(Caries/DolorDeDientes,
Engancha)P(DolorDeDientes/Engancha)P(Engancha)
2. RAZONAMIENTO
BAYESIANO
TEOREMA DE LA PROBABILIDAD TOTAL A y B son independientes si y sólo la ocurrencia
de uno de ellos no afecta a la ocurrencia del
Reducción de tamaño de distribución
otro
de 2exp3 · 6 = 48 probabilidades
P(A|B) = P(A), ó
a 2exp3 + 6 = 14
P(B|A) = P(B), ó
Menor tamaño implica:
P(A, B) = P(A)P(B)
 Algoritmos más eficientes
Ejemplo
 Menos datos (probabilidades) a especificar
P(DolorDeDientes, Caries, Engancha, D1) =
P(DolorDeDientes, Caries, Engancha)P(D1)

Teorema de la probabilidad total: P ( B )   P ( B, Ai )   P ( B / Ai )  P ( Ai )


i i

Una partición del Espacio Todo suceso B, puede ser


A1 A2 A1 A2
muestral es un conjunto de descompuesto en componentes de
sucesos A1, A2, A3, A4… una partición.
que cumplen: B = (BA1) (B A2) ( BA3) (BA4)
• Sus intersecciones son
disjuntas (son Si conocemos la probabilidad de B en
B
mutuamente cada uno de los componentes de una
excluyentes). partición, podemos calcular la
• La unión de todos ellos probabilidad total de B como:.
A3 A4 es el Espacio muestral A3 A4 P(B) = P(B∩A1) + P(B∩A2 ) + P( B∩A3 ) + ( B∩A4)
(exhaustivos). = P(B|A1) P(A1) + P(B|A2) P(A2) + …
Regla de Bayes Teorema de Bayes

Se obtiene a partir de las 2 expresiones de la regla


TEOREMA DE BAYES

del producto P(B/A)P(A)


P(A/B) = = αP(B/A)P(A)
P(A,B) = P(A | B)  P(B) P(B)
P(A,B) = P(B | A)  P(A), siendo a  1 / P( B)

Igualamos los términos derechos aplicando T. Probabilidad Total P ( B )   P( B / Ai)  P( Ai)


i
<
P(A | B)  P(B) = P(B | A)  P(A),

Y despejamos P(A|B) ó P(B|A)

¡Podemos calcular unas condicionales a Regla de Bayes generalizada


partir de otras!
A veces obtener P(B/A) es más sencillo que
obtener P(A/B) P(B | A, C)P(A | C)
P(A | B, C) 
P(B | C)
P(Causa | Efecto) = P(Efecto | Causa)P(Causa)
P(Efecto)
Regla de Bayes Tomas Bayes
1702-1761
Se obtiene a partir de las 2 expresiones de la regla
del producto
NORMALIZACIÓN

P(A,B) = P(A | B)  P(B) Teorema de Bayes


P(A,B) = P(B | A)  P(A),
P(B/A)P(A)
Igualamos los términos derechos P(A/B) = = αP(B/A)P(A)
P(B)
P(A | B)  P(B) = P(B | A)  P(A),
siendo a  1 / P( B)
Y despejamos P(A|B) ó P(B|A) P ( B )   P ( B / Ai )  P ( Ai )
i

¡Podemos calcular unas condicionales a Regla de Bayes generalizada


partir de otras!
A veces obtener P(B/A) es más sencillo que
obtener P(A/B) P(B | A, C)P(A | C)
P(A | B, C) 
P(B | C)
P(Causa | Efecto) = P(Efecto | Causa)P(Causa)
P(Efecto)
Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Ejemplo 1
Árbol de probabilidad condicional:
• Los caminos representan intersecciones, y
En un aula el 70% de los alumnos son mujeres. De cada arco es una probabilidad condicional
ellas el 10% son fumadoras. De los hombres, son • Las bifurcaciones representan uniones
fumadores el 20%. disjuntas.

¿Qué proporción de fumadores hay en total? Fuma


0,1
P(F) = P(F,M) + P (F,H)
T. Prob. Total. = P(F | M) P(M) +P(F | H) P(H) 0,7 Mujer
H y M forman una partición = 0,1 x 0,7 + 0,2 x 0,3 = 0,13 0,9
No fuma
E
¿Se elije a un individuo al azar y resulta fumador.
¿Cuál es la probabilidad de que sea un hombre? 0,2
0,3 Fuma
P(H | F) = P(F, H) / P(F) Hombre
T. Bayes = P(F | H) P(H) / P(F)
= 0,2 x 0,3 / 0,13 = 0,46 0,8
No fuma

P(F) P(H | F)?


= P(F,M) + P(F,H) = P(F / H) . P(H) / P(F)
= P(M) P(F | M) + P(H) P(F | H) = 0,3 x 0,2 / 0,13 = 0,46
= 0,7 x 0,1 + 0,3 x 0,2 = 0,13
Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Ejemplo 2

Probabilidades a priori
P(Enfermo = si) = 0.008
P(Enfermo = no) = 0.992
Probabilidades condicionadas: P(Test_laboratorio | Paciente_enfermo)
Enfermo = si Enfermo = no
Test = ⊕ 0.98 0.03
Test = - 0.02 0.97

Observación: un nuevo paciente tiene un resultado positivo en el test de laboratorio


¿P(Enfermo = si/Test = ⊕)?
¿P(Enfermo = no/Test = ⊕)?
P(Enfermo = si/Test = ⊕) = α P(Test = ⊕/Enfermo = si)P(Enfermo = si) = α 0.0078 = 0.2
P(Enfermo = no/Test = ⊕) = α P(Test = ⊕/Enfermo = no)P(Enfermo = no) = α 0.0298 = 0.8
a  1 / P( B)
P (Test  )  P (Test   / Enfermo  si )  P ( Enfermo  si ) 
P (Test   / Enfermo  no)  P ( Enfermo  no) 
0,0078  0,0298  0,0376
29 / 40

RAZONAMIENTO BAYESIANO
ÁMBITOS APLICACIÓN DEL

Calcular la distribución a posteriori dada cierta evidencia P(X |e)

1. Predicción: ej. determinar si una zona se inundará según la situación meteorológica actual

P(Inundación/Meteorología)

2. Diagnóstico: ej. determinar si una persona tiene una enfermedad según unos resultados de pruebas

P(Enfermedad/Resultados_pruebas)

3. Clasificación: determinar a qué clase pertenecen unas observaciones. Ej. dada una imagen determinar si
contiene un gato o un perro:
P(clase = gato/características_imagen)
P(clase = perro/características_imagen)

4. Toma de decisiones: elegir acciones más útiles (maximizan la utilidad esperada), dada cierta evidencia.

UtilidadEsperada(Accion = j)
= Σi P(Salida = i|Accion = j, evidencia) × P (Salida = i)

Ej.
UtilidadEsperada(Accion = tratamientoj)
= Σi P(Salida = i|Accion = tratamientoj, test_negativo) × P (Salida = i),
siendo i =enfermo, no_enfermo)
Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Ej Razonamiento Bayesiano en diagnóstico meningitis

Usando la regla de bayes para diagnóstico:

P(Efecto|Causa)P(Causa)
P(Causa|Efecto) =
P(Efecto)

Ejemplo. Sea M = meningitis y R = rigidez de nuca.


Probabilidad 0.8 de tener rigidez en la nuca, dado que se tiene
meningitis.
Probabilidad 0.0001 de tener meningitis.
Probabilidad 0.1 de tener rigidez en la nuca.

Razonamiento Bayesiano

Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Ej Razonamiento Bayesiano en diagnóstico


meningitis
Usando la regla de bayes para diagnóstico:
P(Efecto|Causa)P(Causa)
P(Causa|Efecto) =
P(Efecto)

Ejemplo. Sea M = meningitis y R = rigidez de nuca.


¿Probabilidad de tener meningitis dado que se tiene rigidez en la nuca?
P(r |m)P(m) 0.8 × 0.0001
P(m|r) = = = 0.0008
P(r ) 0.1

¿Probabilidad de no tener meningitis dado que se tiene rigidez en la


nuca?
P(¬ m|r) = 1 − P(m|r) = 1 − 0.0008 = 0.9992
¿Qué pasa si la rigidez en la nuca fuera muy rara? P(r ) = 0.001
0.8 × 0.0001
P(m|r) = = 0.08
0.001
P(¬ m|r) = 1 − P(m|r) = 0.92
Razonamiento Bayesiano

M = “meningitis”
Formula racional de Bayes
PROBABILIDAD RELATIVA

C = “rigidez cuello”
L = “latigazos”en el cuello
P(C / M)=0.5 P(M)=1/50000
P(C | L)=0.8 P(L)=1/1000

P(M | C) P(C | M) P(M) 0.5 1/50000 1


    
P(L | C) P(C | L) P(L) 0.8 1/1000 80

Razón de probabilidad Teniendo cuello rígido, la presencia de


latigazos es 80 veces más probable que
Razón de verosimilitud la meningitis
P(C | M)P(M)
P(M | C)  En general P(H | E) = αP(E |H)P(H) siendo
P(C)
1 / P(E) = α es un factor de normalización
NORMALIZACIÓN

(hace que los términos condicionales sumen 1)


1 / P(C) = α es un factor de normalización
Por TPTotal P(C)= P(C|M)  P(M) + P(C| M)  P(M)
(hace que los términos condicionales sumen 1)

P(e|h) h1 h2 h3
P(h1|e4)= P(e4|h1)P(h1)=   0.05  0.46 = 0.023
P(h1)=0.46 e1 0.30 0.25 0.20
P(h2|e4)= P(e4|h2)P(h2)=   0.10  0.36 = 0.036
P(h2)=0.36 e2 0.40 0.35 0.50 P(h3|e4)= P(e4|h3)P(h3)=   0.20  0.18 = 0.036
P(h3)=0.18 e3 0.25 0.30 0.10
0.023 + 0.036 + 0.036 = 1  =10.526
e4 0.05 0.10 0.20
Si consideramos que X e Y son variables
independientes, considerando la presencia de
BAYES SIMPLIFICADO

H, entonces
P(X | Y,H) = P(X | H) o P(X,Y/H)= P(X/H) P(Y/H)

Tomas Bayes
1702-1761
Teorema de Bayes simplificado
P(H | X,Y) = αP(H) P (X | H) P (Y | H),
donde α es la constante de normalización que
hace que todos los términos P(h | x,y) sumen 1.
3. APLICACIONES
DEL RAZONAMIENTO
BAYESIANO
Contexto:
Un aula, en la que algunos son fumadores.

Variables:
M proposicional. m si es mujer, ¬m si es hombre.
CASO 1: PREDICCIÓN

F proposicional. f si fuma, ¬f sino

Datos:
En un aula el 70 % de los alumnos son mujeres:
P(m) = 0.7; P(¬m) = 0.3
De ellas el 10 % son fumadoras:
P(f |m) = 0.1
De los hombres, el 20 % fuma:
P(f |¬m) = 0.2.

¿Cuál es la probabilidad de que una


persona elegida al azar sea hombre,
dado que se observa que es fumador?
Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Caso1: Predicción: Tabaco y Género


P(¬ m, f )
Hombre Mujer P(¬ m|f ) =
P(f )
P(¬m) = 0.3 P(m) = 0.7
P(¬ m, f ) = P(f |¬m)P(¬ m)

Fumador

P(f |¬m) = 0.2 P(f |m) = 0.1

38 / 40
Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Caso1: Predicción: Tabaco y Género


P(¬ m, f )
Hombre Mujer P(¬ m|f ) =
P(f )
P(¬m) = 0.3 P(m) = 0.7
P(¬ m, f ) = P(f |¬m)P(¬ m)

P(f ) se calcula sumando los


Fumador mundos compatibles con f :

P(f )
= P(f , m) + P(f , ¬ m)
P(f |¬m) = 0.2 P(f |m) = 0.1 = P(f |m)P(m) + P(f |¬m)P(¬ m)
= 0.1 × 0.7 + 0.2 × 0.3 = 0.13

38 / 40
Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Caso1: Predicción: Tabaco y Género


P(¬ m, f )
Hombre Mujer P(¬ m|f ) =
P(f )
P(¬m) = 0.3 P(m) = 0.7
P(¬ m, f ) = P(f |¬m)P(¬ m)

P(f ) se calcula sumando los


Fumador mundos compatibles con f :

P(f )
= P(f , m) + P(f , ¬ m)
P(f |¬m) = 0.2 P(f |m) = 0.1 = P(f |m)P(m) + P(f |¬m)P(¬ m)
= 0.1 × 0.7 + 0.2 × 0.3 = 0.13

P(¬ m,f ) P(f |¬m)P(¬ m) 0.2 × 0.3


P(¬ m|f ) = = = = 0.4615
P(f ) P(f ) 0.13

38 / 40
Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Caso1: Predicción: Tabaco y Género

También podríamos usar normalización:


P(¬ m|f ) = P(f |¬m)P(¬m)
P(f )
= αP(f |¬m)P(¬ m)
= α × 0.2 × 0.3 = α0.06
P(f |¬m)P(¬m)
P(m|f ) = P(f )
= αP(f |m)P(m) = α × 0.1 × 0.7 = α0.07
Luego
P(¬m|f ) = 0.4615
P(m|f ) = 0.5384
P(M|f ) = ⟨0.5384, 0.4615⟩

donde descubrimos
1 1
α= =
0.13 P(F )
Ejemplo
CASO 2. DIAGNÓSTICO MÉDICO
-¿Qué probabilidad tengo de
1. Al llegar un individuo a la consulta tenemos una idea
estar enfermo?
a priori sobre la probabilidad de que tenga una - En principio un 20%. Le haremos
enfermedad. unas pruebas.
2. A continuación se le pasa una prueba diagnóstica
que nos aportará nueva información: Presenta
glucosuria o no.
3. En función del resultado tenemos una nueva idea (a
posteriori) sobre la probabilidad de que esté enfermo. - Presentaglucosuria. La
Nuestra opinión a priori ha sido modificada por probabilidad ahora es del 88%.
el resultado de un experimento.

Conceptos
Partimos de la estimación de P(Enfermo) (prob. a priori)
• Prevalencia: % de la población que presenta
una enfermedad.
Aplicamos una prueba diagnóstica, de la cual sabemos:
• Sensibilidad (verdaderos +)= Tasa de acierto
sobre enfermos.
• Especificidad (verdaderos -)= Tasa de acierto
sobre sanos.
Índices predictivos: Usando T. de Bayes, podemos
calcular las probabilidades a posteriori (en función de
los resultados del test):
• Índice Predictivo Positivo= P(Enfermo | Test +)
• Índice Predictivo Negativo =P(Sano | Test -)
¿Y si hay varias posibles enfermedades H1,H2,...,Hm ? ¿Y si hay varias enfermedades y varios tests E1,E2,...,Em?
CASO 2. DIAGNÓSTICO MÉDICO • Se asume que no pueden coexistir en el • Enfermedad más probable dadas las evidencias:
paciente (exclusividad mutua) y que el paciente necesitamos calcular el máximo de
tiene una de las enfermedades (completitud). P(H|E1,E2,...,Em)=P(E1,E2,...,Em| H)P(H)/P(E1,E2,...,Em)
• En estas condiciones se puede aplicar la forma • Si al paciente se le hace un conjunto de 30 pruebas y
general del Teorema de Bayes. por simplificar se supone que cada una da como
• Se necesita: resultado sí o no.
– La prevalencia de cada enfermedad: – Entonces para almacenar la tabla de
P(hi) probabilidad conjunta P(E1,E2,...,Em |hi) se
– La sensibilidad y especificidad del test necesitan guardar unos 2e30 números reales
para cada enfermedad: P(e|hi), P(¬ e| (unos 10 Terabytes por paciente)
¬ hi). – ¿Cómo estimamos los números a partir de casos
• Se toma la enfermedad con mayor (en la Tierra hay 2e32 personas
probabilidad: max P(H|E) aproximadamente)?
– ¿Cómo optimizamos computación?

Bayes clásico Bayes simplificado


Hipótesis 1: los diagnósticos son exclusivos (no Hipótesis 2: que los hallazgos son condicionalmente
puede haber diagnósticos simultáneos) y independientes entre sí para cada diagnóstico.
exhaustivos (no hay otros diagnósticos posibles)
P(e1 ,.., em | h i )  P(e1 | h i )  ..  P(em | h i ), i
P(h i )  P(e1 ,.., e m | h i )
P(h i | e1 ,.., e m )  P(h i )  P(e1 | h i )  ..  P(e m | h i )
 P(h j )  P(e1 ,.., e m | h j )
j
P(h i | e1 ,.., e m ) 
 P(h j )  P(e1 | h j )  ..  P(em | h j )
• Requiere n probabilidades a priori y 2em x n j
• Requiere n probabilidades a priori y mxn condicionales
condicionadas  (2em-1)x n+n-1 parámetros
 nxm+n-1 parámetros independientes
independientes
• Ejemplo: 3 diagnósticos, 10 hallazgos requiere 32
• Ejemplo: para 3 diagnósticos y 10 hallazgos
parámetros, 5 diagnósticos y 20 hallazgos requiere 104
requiere 3.071 parámetros, con 5 diagnósticos y
parámetros
20 hallazgos se requieren 5.242.879 parámetros
CASO 3. TOMA DE DECISIONES
Utiliza 3 Sensores de La tarea de los sensores es
diferente tipo distinguir entre operarios
humanos y robots que
aparecen en la fábrica
Un sensor es de tipo sónar, es decir, es
capaz de extraer la posición en la que
se encuentra un objeto. Con objeto de simplificar el
Otro sensor es una cámara que permite problema suponemos que
identificar los contornos de un objeto. cada sensor decide la
identidad del objeto de forma
El último sensor es un detector de independiente
temperatura.

Incertidumbre definida por los sensores:

SONAR TEMPERATURA CÁMARAS Sonar: Distancia


S

Distancia
Región de incertidumbre
Cámara: Comparación de firmas
 xy
r
 x y
 (x i  mx )( yi  my )  (xi  mx ) 2
 xy  i
x  i
N N
(y i  my ) 2

Movimientos de los Robots [0, 200 ] y  i


N

Movimientos de los humanos [10, 14.14] Temperatura:


FÁBRICA
Robots. Temperatura máxima 35º C ± 1
Humanos. Cerca de 36.5ºC
Sensores independientes.
Cada sensor (sonar, temperatura y cámara) queda definido por dos etiquetas, “humano” y “robot”.
CASO 3. TOMA DE DECISIONES
Las probabilidades de las evidencias a priori se han calculado con una muestra de 1000 objetos:
• En el sensor sonar de 1000 objetos, han pasado por el sonar 500 objetos robot y 500 objetos humano. De los 500
objetos robot el sonar ha dicho 350 veces que eran robots cuando sí eran robots y 150 veces que eran
humanos cuando realmente eran robots. De los 500 objetos humano, el sonar ha dicho que 400 eran humanos
cuando realmente eran humanos pero 100 objetos los ha catalogado como robots cuando eran humanos
• En el sensor temperatura de 1000 objetos, han pasado 500 objetos robot y 500 objetos humanos. De los 500
objetos robot este sensor ha dicho 350 veces que eran robots cuando sí eran robots y 150 veces que eran
humanos cuando realmente eran robots. De los 500 objetos humano, el sonar ha dicho que 450 eran humanos
cuando realmente eran humanos pero 50 objetos los ha catalogado como robots cuando eran humanos
• En el sensor cámara de 1000 objetos, han pasado por el sensor 500 objetos robot y 500 objetos humanos. De los
500 objetos robot el sensor ha dicho que 300 eran robot y 200 que eran humanos. De los 500 objetos humanos,
el sensor ha dicho que 200 eran robots y 300 humanos.

Hipótesis:
Humano (H) ->
p(H) = 0,4
Robot (R) -> p(R)
= 0.6
Toma de decisiones:
CASO 3. TOMA DE DECISIONES
¿Probabilidad que sea humano cuando los tres sensores dicen que es humano?
¿Probabilidad que sea humano cuando los sensores sonar y temperatura dicen que es
humano y el sensor cámara dice que es robot?
¿Probabilidad que sea humano cuando el sensor sonar dice que es humano y los
sensores temperatura y cámara dicen que es robot?
¿Probabilidad que sea humano cuando los tres sensores, sonar, temperatura y cámara,
dicen que es robot?
¿Probabilidad que sea robot cuando los tres sensores dicen que es humano?
¿Probabilidad que sea robot cuando los tres sensores dicen que es robot?

¿ P (e1 ,.., em | hi )  P (e1 | hi )  ..  P (em | hi ), i ?

P(h i )  P(e1 | h i )  ..  P(e m | h i )


P(h i | e1 ,.., e m ) 
 P(h j )  P(e1 | h j )  ..  P(em | h j )
j
GRACIAS

También podría gustarte