Está en la página 1de 56

RAZONAMIENTO BAYESIANO

CAMPUS DIGITAL
PLAN CAPACITACIÓN DIGITAL CM

Tema 4.2 . Grupo 83M


Departamento de Informática
Universidad Carlos III de Madrid
“Cuando actualizas tu creencia inicial con nueva información, obtienes
una nueva creencia mejorada.”
Cómo predecir el futuro y reducir la incertidumbre gracias a la inferencia bayesiana (I) - Think Big Empresas (blogthinkbig.com)

Imagínate que regresas a casa desde San Francisco, recién llegado de la Conferencia RSA. Estás deshaciendo la maleta, abres el cajón de tu cómoda
donde guardas tu ropa interior y, ¿qué descubres? ¡Una prenda de ropa interior que no te pertenece! Lógicamente, te preguntas: ¿cuál es la probabilidad
de que tu pareja te esté engañando? ¡Teorema de Bayes al rescate!

Gonzalo Álvarez Marañón


escritor, científico y conferenciante
1 PROBABILIDAD
 Razonamiento con incertidumbre
 Enfoques de la probabilidad
 Probabilidad conjunta
 Probabilidad condicional

2 RAZONAMIENTO BAYESIANO
 Teorema de la probabilidad total
 Teorema Bayes
 Ejemplos del razonamiento Bayesiano
ÍNDICE  Probabilidad Relativa
 Normalización
 Teorema de Bayes simplificado

3 APLICACIONES RAZONAMIENTO BAYESIANO


 Caso 1: Predicción
 Caso 2: Diagnóstico médico
 Caso 3: Toma de decisiones
 El formalismo de las probabilidades representa bien un tipo de incertidumbre
 El problema viene completamente determinado por la distribución conjunta de
todas las variables implicadas, la representación tabular es sencilla de interpretar
RESUMEN

pero no escala.
 Se necesitan mecanismos que permitan representación e inferencia más eficiente
utilizando:
Concepto de independencia
Regla de la cadena
Teorema de Bayes
 En la inferencia por enumeración se suman los casos positivos para calcular la
probabilidad de los eventos buscados y luego se normaliza
 En la inferencia por el teorema de Bayes se calcula la probabilidad a posteriori en
función de las probabilidades a priori, si es preciso usando la regla del producto o el
teorema de la probabilidad total
1. PROBABILIDAD
Aplicaciones de la IA ¿Y si el modelo es incorrecto o incompleto?
Tareas típicas: toma de decisiones, clasificación, predicción, . . . .  ¿Qué es más probable?
 ¿Que es cierto? vs ... Uso de probabilidades: redes bayesianas,
Uso de lógica clásica: satisfacción proposicional, predicción de secuencias (reconocimiento de
RAZONAMIENTO CON

verificación de circuitos, sistemas de producción, . . voz), clasificación (de idioma), . . . .


INCERTIDUMBRE

En teoría, podemos razonar usando lógica clásica. En la práctica, hay


incertidumbre:
 Que tiene que ver con la representación Al igual que usamos lógica como base para los sistemas de
Ignorancia teórica: es posible que no exista conocimiento producción, queremos basarnos en un formalismo para
completo del problema. Ej: medicina, comportamientos representar incertidumbre.
humanos.
Inadecuación de las representaciones: representación de  Cálculo de Probabilidades: por ejemplo,
la vaguedad considerar varios escenarios posibles, cada
(“Si su estilo es moderno, ofrécele un producto uno con un peso numérico que representa
novedoso”) cuan probable es.
 Que tiene que ver con limitaciones prácticas  Lógica borrosa: equivalente a asociar un
Coste: es mucho trabajo representar todos los posibles grado de pertenencia de los hechos a
hechos y reglas para todas las excepciones y categorías o relaciones
posibilidades.
Ignorancia práctica: aunque pudieramos enumerar todas Corresponden a tipos de incertidumbre diferentes.
las reglas y
hechos, puede que nos falte información al tomar la
decisión. (“Creo que es un cliente”)
ENFOQUES DE LA PROBABILIDAD

La probabilidad puede interpretarse como una medida de:

Clásica  la proporción de veces en que algo es cierto.


 Frecuentista: las probabilidades provienen de experimentos y - “Indefinida, no se han realizado experimentos”
estadísticas - Que sería una propiedad física y puede
medirse experimentalmente
 el grado de creencia en que algo es cierto
- “1, en el pasado siempre se ha cumplido
Bayesiana -1-ε, donde ε es la proporción de estrellas en el
 Objetivista: la probabilidad como aspecto de la realidad que refleja universo que cambian a supernova cada día y
la propensión de los objetos a comportarse de una determinada explotan
manera - Que podría variar por cada persona o
 Subjetivista: la probabilidad como caracterización del grado de sistema inteligente.
creencia de un agente, sin significación externa

El cálculo de probabilidad no depende de la interpretación.


La probabilidad es una medida de la certidumbre de que ocurra un evento.
 Su valor es un número entre 0 y 1, donde un evento imposible corresponde a cero y uno seguro corresponde a uno.
 Una forma empírica de estimar la probabilidad consiste en obtener la frecuencia con la que sucede un determinado acontecimiento
mediante la repetición de experimentos aleatorios, bajo condiciones suficientemente estables.
 En algunos experimentos la probabilidad de estos sucesos pueden ser calculadas de manera teórica, especialmente cuando todos
son igualmente probables.
PROBABILIDAD

 La probabilidad se define para un espacio muestral Ω.  Suceso seguro: siempre se verifica, E


 Un suceso es cualquier subconjunto del espacio muestral de un  Suceso imposible: nunca se verifica, 
experimento aleatorio  Se llama suceso complementario de un suceso A al suceso
1. Un suceso o evento atómico e ∈ Ω es una posible que se verifica si no se verifica A, y se representa ¬A o Ac.
situación/mundo resultado de un experimento aleatorio: Está formado por los elementos del espacio muestral (E) que
Siempre ocurre alguno de ellos (conjunto exhaustivo, la no están en A
unión de todos ellos es igual al espacio muestral )  Un suceso A está contenido en otro suceso B, representado
Son mutuamente excluyentes (no hay ninguna intersección AB, si al verificarse A necesariamente se verifica B.
distinta de )  Se llama suceso unión de A y B, AB, al que verifica A o B.
2. Un suceso o evento (compuesto) A es un conjunto de eventos Está formado por los resultados experimentales que están en A
atómicos: A ⊆ Ω. o en B.
P(A) = Σe∈A P(e)  Se llama suceso intersección de A y B, AB, al que verifica
 Una distribución de probabilidad asigna un número P(e) a cada e tanto A como B. Está formado por los resultados
∈ Ω, tal que experimentales que están simultáneamente en A y B
0 ≤ P(e) ≤ 1 y Σe∈Ω P(e) = 1
PROBABILIDAD FRECUENTISTA Probabilidad como frecuencia
Sea r el numero de resultados obtenidos mediante un experimento y rA el número de veces que el resultado fue el suceso A. La
frecuencia relativa fA de A se define como:
rA
fA 
Y cumple r
 0  fA  1
 fA = 0  rA=0; fA = 1  rA=0
 Si A y B son eventos mutuamente excluyentes, entonces fAB = fA + fB
 Cuando r → entonces fA = Probabilidad(A)
Se llama probabilidad a cualquier función P, que asigna a cada suceso
Ai de un espacio muestral E un valor numérico P(Ai), que verifica
PROBABILIDAD AXIOMÁTICA
los axiomas siguientes:
 0 ≤ P(Ai) ≤1
 P(E) = 1
 Para cualquier número finito k de sucesos mutuamente
excluyentes A1, A2, ..., Ak se cumple:
P(i=1..kAk) = i=1..kP(Ai)
Propiedades:
 P(¬ A) =1 - P(A)
 P(AB) = P(A) + P(B) - P(A  B)
 P(ABC) = P(A) + P(B) + P(C) - P(A  B) - P(A  C) - P(B 
C) + P(A  B  C)
 P(A  B) … ya veremos

Variable aleatoria Distribución de probabilidad


 Muchas veces tenemos un suceso con un conjunto de resultados  X= x denota que la variable aleatoria X toma el valor x  ΩX.
mutuamente excluyente  La función P(X=x) es una función de probabilidad para X en ΩX
 Si tiramos una moneda, el resultado es cara o cruz si se cumple:
 Si tiramos un dado, se producen seis resultados distintos  0  P(X=x)  1, x ΩX
 La temperatura de un paciente puede estar en un conjunto de intervalos:  1= ∑ xΩx Pr(X=x)
<36.5, 36.5-37.4, 37.5-38.4, 38.5-39.4, >39.4  La colección de pares [(x, P(X=x)), x ΩX] se llama
distribución de probabilidad de X
 En lugar de tener una proposición para cada caso se introduce el  Ejemplo: M Variable Aleatoria representa lanzamiento de una
concepto de variable aleatoria moneda DP(M)=((0,1/2),(1,1/2))
 Se permiten proposiciones de la forma:
 Variable = Resultado
 Por ejemplo, si M=Resultado de tirar una moneda con valores posibles
cara y cruz se permiten las proposiciones:
 M=cara y M=Cruz y podemos hablar de
 P(M=cara) y P(M=cruz) que representan la probabilidad de obtener una
cara y una cruz respectivamente
Grado de certeza de proposiciones más complejas
PROBABILIDAD CONJUNTA
Para resolver problemas con incertidumbre podemos estar interesados en estudiar varias variables en conjunto. Por ejemplo
P(Sarampión=verdadero ^ Fiebre=verdadero) que es la probabilidad de que el paciente tenga sarampión y fiebre.
Generalmente lo escribiremos como:
P(Sarampión ^ Fiebre) o P(Sarampión, Fiebre).

Para ello se necesita la distribución conjunta del conjunto de variables aleatorias VA.

Recuerda a la tabla de la verdad lógica excepto que:


 Describe los valores de probabilidad para cada combinación de valores de las variables.
 Generalmente dichos valores no se pueden calcular a partir de sus componentes.

Distribución conjunta de Variables Aleatorias Probabilidad marginal


Dado el conjunto de VA {X,Y,Z}
Probabilidad conjunta: P ( xi )   P( xi , y j ,z k )
P(xi, yj, zk)  P(X=xi  Y=yi  Z=zk) j , k
1   P( xi )   P( y j )   P ( z k )
 P( x , y ,z
i , j , k
i j k ) 1 i j k
PROBABILIDAD CONJUNTA Probabilidad Conjunta
Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Ejemplo Distribución de Probabilidad Conjunta

De los registros de pacientes de un odontólogo obtenemos la siguiente tabla


(matriz de contingencia), sobre un total de 1000 casos, que relaciona
síntoma observado (si tiene o no dolor de dientes) y resultado de la
exploración (la sonda dental se engancha o no), con el diagnóstico final del
mismo (tiene o no caries).
 
dolorDeDientes ¬ dolorDeDientes
  engancha ¬ engancha engancha ¬ engancha
caries 108 12 72 8
¬ caries 16 64 144 576

¿Cuál es la distribución de probabilidad conjunta?


Incertidumbre Probabilidad P. Conjunta P. Razonamiento Bayesiano Ejemplos
Condicional

Ejemplo distribución conjunta

De los registros de pacientes de un odontólogo obtenemos la siguiente tabla


(matriz de contingencia), sobre un total de 1000 casos, que relaciona
síntoma observado (si tiene o no dolor de dientes) y resultado de la
exploración (la sonda dental se engancha o no), con el diagnóstico final del
mismo (tiene o no caries).
 
dolorDeDientes ¬ dolorDeDientes
  engancha ¬ engancha engancha ¬ engancha
caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

¿Cuál es la distribución de probabilidad conjunta? Se divide cada


casilla de la matriz de contingencia por el número de casos totales


Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Ejemplos
Bayesiano

Inferencia usando Probabilidad Conjunta


De los registros de pacientes de un odontólogo obtenemos la siguiente
tabla, sobre un total de 1000 casos, que relaciona síntoma observado (si
tiene o no dolor de dientes) y resultado de la exploración (la sonda dental
se engancha o no), con el diagnóstico final del mismo (tiene o no caries).

 
dolorDeDientes ¬ dolorDeDientes
  engancha ¬ engancha engancha ¬ engancha
caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

¿Cuál es la probabilidad de que un paciente tenga caries , P(caries)?


¿Cuál es la probabilidad de que un paciente tenga dolor de dientes
P(dolorDeDientes)?
¿Cuál es la probabilidad de que la sonda se enganche pero el paciente no tenga
dolor de dientes P(¬dolorDeDientes, engancha)?


Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Ejemplos
Bayesiano

Inferencia usando Probabilidad Conjunta


De los registros de pacientes de un odontólogo obtenemos la siguiente
tabla, sobre un total de 1000 casos, que relaciona síntoma observado (si
tiene o no dolor de dientes) y resultado de la exploración (la sonda dental
se engancha o no), con el diagnóstico final del mismo (tiene o no caries).

 
dolorDeDientes ¬ dolorDeDientes
  engancha ¬ engancha engancha ¬ engancha
caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

¿Cuál es la probabilidad de que un paciente tenga caries , P(caries)? 0.2


¿Cuál es la probabilidad de que un paciente tenga dolor de dientes P(dolorDeDientes)?
¿Cuál es la probabilidad de que la sonda se enganche pero el paciente no tenga dolor de dientes
P(¬dolorDeDientes, engancha)?


Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Ejemplos
Bayesiano

Inferencia usando Probabilidad Conjunta


De los registros de pacientes de un odontólogo obtenemos la siguiente
tabla, sobre un total de 1000 casos, que relaciona síntoma observado (si
tiene o no dolor de dientes) y resultado de la exploración (la sonda dental
se engancha o no), con el diagnóstico final del mismo (tiene o no caries).

 
dolorDeDientes ¬ dolorDeDientes
  engancha ¬ engancha engancha ¬ engancha
caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

¿Cuál es la probabilidad de que un paciente tenga caries , P(caries)? 0.2


¿Cuál es la probabilidad de que un paciente tenga dolor de dientes
P(dolorDeDientes)?
¿Cuál es la probabilidad de que la sonda se enganche pero el paciente no tenga dolor de
dientes P(¬dolorDeDientes, engancha)?


Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Ejemplos
Bayesiano

Inferencia usando Probabilidad Conjunta


De los registros de pacientes de un odontólogo obtenemos la siguiente
tabla, sobre un total de 1000 casos, que relaciona síntoma observado (si
tiene o no dolor de dientes) y resultado de la exploración (la sonda dental
se engancha o no), con el diagnóstico final del mismo (tiene o no caries).

 
dolorDeDientes ¬ dolorDeDientes
  engancha ¬ engancha engancha ¬ engancha
caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

¿Cuál es la probabilidad de que un paciente tenga caries , P(caries)? 0.2


¿Cuál es la probabilidad de que un paciente tenga dolor de dientes
P(dolorDeDientes)? 0.2
¿Cuál es la probabilidad de que la sonda se enganche pero el paciente no tenga dolor de
dientes P(¬dolorDeDientes, engancha)?


Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Ejemplos
Bayesiano

Inferencia usando Probabilidad Conjunta


De los registros de pacientes de un odontólogo obtenemos la siguiente
tabla, sobre un total de 1000 casos, que relaciona síntoma observado (si
tiene o no dolor de dientes) y resultado de la exploración (la sonda dental
se engancha o no), con el diagnóstico final del mismo (tiene o no caries).

 
dolorDeDientes ¬ dolorDeDientes
  engancha ¬ engancha engancha ¬ engancha
caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

¿Cuál es la probabilidad de que un paciente tenga caries , P(caries)? 0.2


¿Cuál es la probabilidad de que un paciente tenga dolor de dientes P(dolorDeDientes)?
0.2
¿Cuál es la probabilidad de que la sonda se enganche pero el paciente no tenga dolor de
dientes P(¬dolorDeDientes, engancha)?


Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Ejemplos
Bayesiano

Inferencia usando Probabilidad Conjunta


De los registros de pacientes de un odontólogo obtenemos la siguiente
tabla, sobre un total de 1000 casos, que relaciona síntoma observado (si
tiene o no dolor de dientes) y resultado de la exploración (la sonda dental
se engancha o no), con el diagnóstico final del mismo (tiene o no caries).

 
dolorDeDientes ¬ dolorDeDientes
  engancha ¬ engancha engancha ¬ engancha
caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

¿Cuál es la probabilidad de que un paciente tenga caries , P(caries)? 0.2


¿Cuál es la probabilidad de que un paciente tenga dolor de dientes P(dolorDeDientes)?
0.2
¿Cuál es la probabilidad de que la sonda se enganche pero el paciente no tenga dolor de
dientes P(¬dolorDeDientes, engancha)? 0.216


Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Ejemplos
Bayesiano

Inferencia usando Probabilidad Conjunta

De los registros de pacientes de un odontólogo obtenemos la siguiente


tabla, sobre un total de 1000 casos, que relaciona síntoma observado (si
tiene o no dolor de dientes) y resultado de la exploración (la sonda dental
se engancha o no), con el diagnóstico final del mismo (tiene o no caries).

 
dolorDeDientes ¬ dolorDeDientes
  engancha ¬ engancha engancha ¬ engancha
caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

¿Cómo se calcula P(dolorDeDientes ∨ caries) = ?

20 / 40

Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Ejemplos
Bayesiano

Inferencia usando Probabilidad Conjunta

De los registros de pacientes de un odontólogo obtenemos la siguiente


tabla, sobre un total de 1000 casos, que relaciona síntoma observado (si
tiene o no dolor de dientes) y resultado de la exploración (la sonda dental
se engancha o no), con el diagnóstico final del mismo (tiene o no caries).

 
dolorDeDientes ¬ dolorDeDientes
  engancha ¬ engancha engancha ¬ engancha
caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

¿Cómo se calcula P(dolorDeDientes ∨ caries) = ?


0.108 + 0.012 + 0.072 + 0.008 + 0.016 + 0.064 = 0.28

20 / 40

Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Razonamiento mediante la Distribución Conjunta

¡La distribución conjunta en forma tabular permite contestar en términos


probabilísticos a cualquier pregunta sobre variables discretas!

¡Pero... no escala!
En problemas reales puede haber cientos o miles de variables Es
imposible definir todas las probabilidades y trabajar con ellas
¡Pero es la base teórica para otras aproximaciones que escalan mejor!

25 / 40

PROBABILIDAD CONDICIONAL
Probabilidad incondicional
La interpretación de las probabilidades utilizadas hasta ahora nos dan el grado de creencia en una proposición asumiendo que no se sabe
nada más.
 Así P(Sarampión) significa la probabilidad de que el paciente tenga sarampión asumiendo que no se sabe nada más.
A estas probabilidades se las llama probabilidades incondicionales o probabilidades a priori.
 Cuando aprendemos algo nuevo (por ejemplo el paciente tiene manchas) deberíamos cambiar nuestro grado de creencia
en que el paciente tenga sarampión.
 Sin embargo, el valor de P(Sarampión) no se altera cuando se aprende algo nuevo puesto que expresa “asumiendo que
no se sabe nada más”.
En lugar de esto se representa el impacto de la nueva información mediante una proposición distinta.

Probabilidad condicional

Se llama probabilidad de A condicionada a B, representado P(A|B),


a la probabilidad de que haya ocurrido A sabiendo que ha ocurrido
B.

P( A  B)
P( A | B) 
P( B)
EJEMPLO
EJEMPLO
EJEMPLO
Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Ejemplos
Bayesiano

Cálculo usando la Probabilidad Conjunta

¿Cómo calcular P(Caries|dolorDeDientes = V)? (donde ”Caries”


es la variable aleatoria)

Distribución conjunta:
 
dolorDeDientes ¬ dolorDeDientes
  engancha ¬ engancha engancha ¬ engancha
caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

Para evento, sumar los eventos atómicos correspondientes:

Σ
P(A) = P(e)
e∈A

24 / 40

Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Ejemplos
Bayesiano

Cálculo usando la Probabilidad Conjunta


¿Cómo calcular P(Caries|dolorDeDientes = V)? (donde ”Caries”
es la variable aleatoria)

Distribución conjunta:

 
dolorDeDientes ¬ dolorDeDientes
  engancha ¬ engancha engancha ¬ engancha
caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

Para evento, sumar los eventos atómicos correspondientes:

Σ
P(A) = P(e)
e∈A

P(dolorDeDientes) = 0.108 + 0.012 + 0.016 + 0.064 = 0.2


24 / 40

Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Ejemplos
Bayesiano

Cálculo usando la Probabilidad Conjunta


¿Cómo calcular P(Caries|dolorDeDientes = V)? (donde ”Caries”
es la variable aleatoria)
Distribución conjunta:

 
dolorDeDientes ¬ dolorDeDientes
  engancha ¬ engancha engancha ¬ engancha
caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

P(¬ caries ∧ dolorDeDientes)


P(¬caries|dolorDeDientes) =
P(dolorDeDientes)
0.016 + 0.064
=
= 0.4
0.108 + 0.012 + 0.016 + 0.064
P(caries|dolorDeDientes) = . . . =
0.6 = ⟨0.6,
P(Caries|dolorDeDientes) 0.4⟩
24 / 40

Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Normalización
¿Cómo calcular P(Caries|dolorDeDientes = V)? (donde ”Caries”
es la variable aleatoria)
Distribución conjunta:
 
dolorDeDientes ¬ dolorDeDientes
  engancha ¬ engancha engancha ¬ engancha
caries 0.108 0.012 0.072 0.008
¬ caries 0.016 0.064 0.144 0.576

El denominador puede ser visto como constante de normalización α.


P(Caries|dolorDeDientes)
= (P(caries|dolorDeDientes), P(¬caries|dolorDeDientes)⟩

P(caries ∧ dolorDeDientes) P(¬caries ∧ dolorDeDientes)


= ( , ⟩

P(dolorDeDientes)
P(dolorDeDientes)
= α(P(caries ∧ dolorDeDientes), P(¬caries ∧ dolorDeDientes)⟩
= α(0 .10 8 + 0.012, 0.016 + 0.064⟩
= α ( 0 . 1 2 , 0.08⟩ = ( 0 . 6 , 0.4⟩

24 / 40

PROPIEDASDES PROBABILIDAD
Si A y B son mutuamente excluyentes: P(A,B) =0  P(A | B) = 0 = P(B | A).

Si A  B entonces P(B | A) = 1
CONJUNTA/CONDICIONAL

Regla del producto


P(A,B) = P(A | B) P(B), si p(B) > 0
P(A,B) = P(B | A) P(A), si p(A) > 0

Regla del producto condicional


P(A,B|C)= P(A|B,C) P(B|C)
P(A,B|C) = P(B|A,C) P(A|C)

Regla de la cadena (factorización de la probabilidad conjunta aplicando regla del producto)


P(x1,x2,..,xn)= P(x1)
P(x2|x1)
P(x3|x1,x2)

P(xn|x1,..,xn-1)

P(Engancha, DolorDeDientes, Caries) =

P(Caries/DolorDeDientes, Engancha)P(DolorDeDientes, Engancha)


¡Podemos definir la probabilidad conjunta mediante =
probabilidades condicionales! P(Caries/DolorDeDientes,
Engancha)P(DolorDeDientes/Engancha)P(Engancha)
2. RAZONAMIENTO
BAYESIANO
TEOREMA DE LA PROBABILIDAD
A y B son independientes si y sólo la ocurrencia de uno
de ellos no afecta a la ocurrencia del otro
Reducción de tamaño de distribución
P(A|B) = P(A), ó
de 2exp3 · 6 = 48 probabilidades
P(B|A) = P(B), ó
a 2exp3 + 6 = 14
P(A, B) = P(A)P(B)
Menor tamaño implica:
Ejemplo
 Algoritmos más eficientes
P(DolorDeDientes, Caries, Engancha, D1) =
 Menos datos (probabilidades) a especificar
P(DolorDeDientes, Caries, Engancha)P(D1)
TOTAL

Teorema de la probabilidad total: P( B)   P ( B, Ai )   P( B / Ai )  P( Ai )


i i

Una partición del Espacio Todo suceso B, puede ser descompuesto en


A1 A2 A1 A2
muestral es un conjunto de componentes de una partición.
sucesos A1, A2, A3, A4… que
cumplen: B = (BA1) (B A2) ( BA3) (BA4)
• Sus intersecciones son
Si conocemos la probabilidad de B en cada uno
disjuntas (son mutuamente B
de los componentes de una partición, podemos
excluyentes).
calcular la probabilidad total de B como:.
• La unión de todos ellos es el
Espacio muestral
A3 A4 (exhaustivos). A3 A4 P(B) = P(B∩A1) + P(B∩A2 ) + P( B∩A3 ) + ( B∩A4)
= P(B|A1) P(A1) + P(B|A2) P(A2) + …
Regla de Bayes Teorema de Bayes
TEOREMA DE BAYES

Se obtiene a partir de las 2 expresiones de la regla del producto


P(A,B) = P(A | B)  P(B) P(B/A)P(A)
P(A/B) = P(B) = αP(B/A)P(A)
P(A,B) = P(B | A)  P(A),
siendo a  1 / P( B)
Igualamos los términos derechos
P ( B )   P ( B / Ai)  P ( Ai)
P(A | B)  P(B) = P(B | A)  P(A), aplicando T. Probabilidad Total i
<
Y despejamos P(A|B) ó P(B|A)

¡Podemos calcular unas condicionales a partir de Regla de Bayes generalizada


otras!
A veces obtener P(B/A) es más sencillo que obtener
P(A/B) P(B | A, C)P(A | C)
P(A | B, C) 
P(B | C)
P(Causa | Efecto) = P(Efecto | Causa)P(Causa)
P(Efecto)
Regla de Bayes Tomas Bayes
1702-1761
Se obtiene a partir de las 2 expresiones de la regla del producto
NORMALIZACIÓN

P(A,B) = P(A | B)  P(B)


P(A,B) = P(B | A)  P(A), Teorema de Bayes

Igualamos los términos derechos


P(A | B)  P(B) = P(B | A)  P(A), P(B/A)P(A)
P(A/B) = P(B) = αP(B/A)P(A)
a  1 / P( B)
Y despejamos P(A|B) ó P(B|A) siendo
P ( B )   P( B / Ai)  P ( Ai)
i

¡Podemos calcular unas condicionales a partir de Regla de Bayes generalizada


otras!
A veces obtener P(B/A) es más sencillo que obtener
P(A/B) P(B | A, C)P(A | C)
P(A | B, C) 
P(B | C)
P(Causa | Efecto) = P(Efecto | Causa)P(Causa)
P(Efecto)
Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Ejemplo 1
Árbol de probabilidad condicional:
• Los caminos representan intersecciones, y cada arco es
En un aula el 70% de los alumnos son mujeres. De ellas el 10% una probabilidad condicional
son fumadoras. De los hombres, son fumadores el 20%. • Las bifurcaciones representan uniones disjuntas.

¿Qué proporción de fumadores hay en total?


P(F) = P(F,M) + P (F,H) Fuma
0,1
= P(F | M) P(M) +P(F | H) P(H)
T. Prob. Total. = 0,1 x 0,7 + 0,2 x 0,3 = 0,13 0,7 Mujer
H y M forman una partición 0,9
No fuma
¿Se elije a un individuo al azar y resulta fumador. ¿Cuál es la E
probabilidad de que sea un hombre?
P(H | F) = P(F, H) / P(F) 0,2
0,3 Fuma
= P(F | H) P(H) / P(F) Hombre
T. Bayes = 0,2 x 0,3 / 0,13 = 0,46
0,8
No fuma

P(F) P(H | F)?


= P(F,M) + P(F,H) = P(F / H) . P(H) / P(F)
= P(M) P(F | M) + P(H) P(F | H) = 0,3 x 0,2 / 0,13 = 0,46
= 0,7 x 0,1 + 0,3 x 0,2 = 0,13
Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Ejemplo 2
Probabilidades a priori
P(Enfermo = si) = 0.008
P(Enfermo = no) = 0.992
Probabilidades condicionadas: P(Test_laboratorio | Paciente_enfermo)
Enfermo = si Enfermo = no
Test = ⊕ 0.98 0.03
Test = - 0.02 0.97

Observación: un nuevo paciente tiene un resultado positivo en el test de laboratorio


¿P(Enfermo = si/Test = ⊕)?
¿P(Enfermo = no/Test = ⊕)?
P(Enfermo = si/Test = ⊕) = α P(Test = ⊕/Enfermo = si)P(Enfermo = si) = α 0.0078 = 0.2
P(Enfermo = no/Test = ⊕) = α P(Test = ⊕/Enfermo = no)P(Enfermo = no) = α 0.0298 = 0.8
a  1 / P( B)
P (Test  )  P(Test   / Enfermo  si )  P ( Enfermo  si ) 
P(Test   / Enfermo  no)  P ( Enfermo  no) 
0,0078  0,0298  0,0376
29 / 40

RAZONAMIENTO BAYESIANO
ÁMBITOS APLICACIÓN DEL

Calcular la distribución a posteriori dada cierta evidencia P(X |e)

1.Predicción: ej. determinar si una zona se inundará según la situación meteorológica actual

P(Inundación/Meteorología)

2.Diagnóstico: ej. determinar si una persona tiene una enfermedad según unos resultados de pruebas

P(Enfermedad/Resultados_pruebas)

3.Clasificación: determinar a qué clase pertenecen unas observaciones. Ej. dada una imagen determinar si contiene un gato o un
perro:
P(clase = gato/características_imagen)
P(clase = perro/características_imagen)

4.Toma de decisiones: elegir acciones más útiles (maximizan la utilidad esperada), dada cierta evidencia.

UtilidadEsperada(Accion = j)
= Σi P(Salida = i|Accion = j, evidencia) × P (Salida = i)

Ej.
UtilidadEsperada(Accion = tratamientoj)
= Σi P(Salida = i|Accion = tratamientoj, test_negativo) × P (Salida = i),
siendo i =enfermo, no_enfermo)
Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Ej Razonamiento Bayesiano en diagnóstico meningitis

Usando la regla de bayes para diagnóstico:

P(Efecto|Causa)P(Causa)
P(Causa|Efecto) =
P(Efecto)

Ejemplo. Sea M = meningitis y R = rigidez de nuca.


Probabilidad 0.8 de tener rigidez en la nuca, dado que se tiene
meningitis.
Probabilidad 0.0001 de tener meningitis.
Probabilidad 0.1 de tener rigidez en la nuca.

Razonamiento Bayesiano

Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Ej Razonamiento Bayesiano en diagnóstico meningitis


Usando la regla de bayes para diagnóstico:
P(Efecto|Causa)P(Causa)
P(Causa|Efecto) =
P(Efecto)

Ejemplo. Sea M = meningitis y R = rigidez de nuca.


¿Probabilidad de tener meningitis dado que se tiene rigidez en la nuca?
P(r |m)P(m) 0.8 × 0.0001
P(m|r ) = = 0.0008
P(r ) 0.1
=
¿Probabilidad de no tener meningitis dado que se tiene rigidez en la nuca?
P(¬ m|r ) = 1 − P(m|r ) = 1 − 0.0008 = 0.9992
¿Qué pasa si la rigidez en la nuca fuera muy rara? P(r ) = 0.001

P(m|r ) 0.8 × 0.0001


0.001 = 0.08
=
= 1 − P(m|r ) = 0.92
P(¬ m|r ) ▲
Razonamiento Bayesiano
PROBABILIDAD RELATIVA
M = “meningitis”
Formula racional de Bayes C = “rigidez cuello”
L = “latigazos”en el cuello
P(C / M)=0.5 P(M)=1/50000
P(C | L)=0.8 P(L)=1/1000

P(M | C) P(C | M) P(M) 0.5 1/50000 1


    
P(L | C) P(C | L) P(L) 0.8 1/1000 80

Razón de probabilidad Teniendo cuello rígido, la presencia de latigazos


es 80 veces más probable que la meningitis
Razón de verosimilitud
P(C | M)P(M)
P(M | C)  En general P(H | E) = αP(E |H)P(H) siendo
P(C)
NORMALIZACIÓN

1 / P(E) = α es un factor de normalización


1 / P(C) = α es un factor de normalización
(hace que los términos condicionales sumen 1)
Por TPTotal P(C)= P(C|M)  P(M) + P(C| M)  P(M)
(hace que los términos condicionales sumen 1)

P(e|h) h1 h2 h3
e1 0.30 0.25 0.20 P(h1|e4)= P(e4|h1)P(h1)=   0.05  0.46 = 0.023
P(h1)=0.46 P(h2|e4)= P(e4|h2)P(h2)=   0.10  0.36 = 0.036
P(h2)=0.36 e2 0.40 0.35 0.50
P(h3|e4)= P(e4|h3)P(h3)=   0.20  0.18 = 0.036
P(h3)=0.18 e3 0.25 0.30 0.10
e4 0.05 0.10 0.20 0.023 + 0.036 + 0.036 = 1  =10.526
Si consideramos que X e Y son variables independientes,
BAYES SIMPLIFICADO

considerando la presencia de H, entonces


P(X | Y,H) = P(X | H) o P(X,Y/H)= P(X/H) P(Y/H)

Tomas Bayes
Teorema de Bayes simplificado 1702-1761
P(H | X,Y) = αP(H) P (X | H) P (Y | H),
donde α es la constante de normalización que hace que
todos los términos P(h | x,y) sumen 1.
3. APLICACIONES
DEL RAZONAMIENTO
BAYESIANO
Contexto:
Un aula, en la que algunos son fumadores.

Variables:
CASO 1: PREDICCIÓN

M proposicional. m si es mujer, ¬m si es hombre.


F proposicional. f si fuma, ¬f sino

Datos:
En un aula el 70 % de los alumnos son mujeres:
P(m) = 0.7; P(¬m) = 0.3
De ellas el 10 % son fumadoras:
P(f |m) = 0.1
De los hombres, el 20 % fuma:
P(f |¬m) = 0.2.

¿Cuál es la probabilidad de que una persona


elegida al azar sea hombre, dado que se
observa que es fumador?
Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Caso1: Predicción: Tabaco y Género


P(¬ m,
Hombre Mujer P(¬ m|f )
f ) P(f )
=
P(¬m) = 0.3 P(m) = 0.7
P(¬ m, f ) = P(f |
¬m)P(¬ m)

Fumador

P(f |¬m) = P(f |m) =


0.2 0.1

38 / 40
Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Caso1: Predicción: Tabaco y Género


P(¬ m,
Hombre Mujer P(¬ m|f )
f ) P(f )
=
P(¬m) = 0.3 P(m) = 0.7
P(¬ m, f ) = P(f |
¬m)P(¬ m)

P(f ) se calcula sumando los


Fumador mundos compatibles con f :

P(f )
= P(f , m) + P(f , ¬ m)
P(f |¬m) = P(f |m) = = P(f |m)P(m) + P(f |
0.2 0.1 ¬m)P(¬ m)
= 0.1 × 0.7 + 0.2 × 0.3 = 0.13

38 / 40
Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Caso1: Predicción: Tabaco y Género


P(¬ m,
Hombre Mujer P(¬ m|f )
f ) P(f )
=
P(¬m) = 0.3 P(m) = 0.7
P(¬ m, f ) = P(f |
¬m)P(¬ m)

P(f ) se calcula sumando los


Fumador mundos compatibles con f :

P(f )
= P(f , m) + P(f , ¬ m)
P(f |¬m) = P(f |m) = = P(f |m)P(m) + P(f |
0.2 0.1 ¬m)P(¬ m)
= 0.1 × 0.7 + 0.2 × 0.3 = 0.13
P(¬ m, P(f |¬m)P(¬ m) 0.2 × 0.3
P(¬ m|f ) = = = 0.4615
f ) P(f P(f 0.13
=
) )
38 / 40
Incertidumbre Probabilidad P. Conjunta P. Condicional Razonamiento Bayesiano Ejemplos

Caso1: Predicción: Tabaco y Género

También podríamos usar normalización:


P(f |
P(¬ m|f ) ¬m)P(¬m)
P(f
= αP(f |¬m)P(¬ m)
=
= α × 0.2 × 0.3 )= α0.06
P(f |
P(m|f ) ¬m)P(¬
= αP(f |m)P(m) = α × .1 × 0.7 = α0.07
= m) P(f ) 0
Luego 0.4615
0.5384
⟨0.5384, 0.4615⟩

donde descubrimos
1
1
α = =
0.13 P(F )
CASO 2. DIAGNÓSTICO MÉDICO Ejemplo -¿Qué probabilidad tengo de estar
1. Al llegar un individuo a la consulta tenemos una idea a priori enfermo?
sobre la probabilidad de que tenga una enfermedad. - En principio un 20%. Le haremos unas
2. A continuación se le pasa una prueba diagnóstica que nos pruebas.
aportará nueva información: Presenta glucosuria o no.
3. En función del resultado tenemos una nueva idea (a posteriori)
sobre la probabilidad de que esté enfermo.
Nuestra opinión a priori ha sido modificada por el
resultado de un experimento. - Presentaglucosuria. La probabilidad
ahora es del 88%.

Conceptos
Partimos de la estimación de P(Enfermo) (prob. a priori)
• Prevalencia: % de la población que presenta una
enfermedad.
Aplicamos una prueba diagnóstica, de la cual sabemos:
• Sensibilidad (verdaderos +)= Tasa de acierto sobre
enfermos.
• Especificidad (verdaderos -)= Tasa de acierto sobre
sanos.
Índices predictivos: Usando T. de Bayes, podemos calcular las
probabilidades a posteriori (en función de los resultados del test):
• Índice Predictivo Positivo= P(Enfermo | Test +)
• Índice Predictivo Negativo =P(Sano | Test -)
¿Y si hay varias posibles enfermedades H1,H2,...,Hm ? ¿Y si hay varias enfermedades y varios tests E1,E2,...,Em?
CASO 2. DIAGNÓSTICO MÉDICO • Se asume que no pueden coexistir en el paciente • Enfermedad más probable dadas las evidencias: necesitamos
(exclusividad mutua) y que el paciente tiene una de las calcular el máximo de
enfermedades (completitud). P(H|E1,E2,...,Em)=P(E1,E2,...,Em| H)P(H)/P(E1,E2,...,Em)
• En estas condiciones se puede aplicar la forma general del • Si al paciente se le hace un conjunto de 30 pruebas y por simplificar
Teorema de Bayes. se supone que cada una da como resultado sí o no.
• Se necesita: – Entonces para almacenar la tabla de probabilidad conjunta
– La prevalencia de cada enfermedad: P(hi) P(E1,E2,...,Em |hi) se necesitan guardar unos 2e30 números
– La sensibilidad y especificidad del test para cada reales (unos 10 Terabytes por paciente)
enfermedad: P(e|hi), P(¬ e| ¬ hi). – ¿Cómo estimamos los números a partir de casos (en la
• Se toma la enfermedad con mayor probabilidad: max P(H| Tierra hay 2e32 personas aproximadamente)?
E) – ¿Cómo optimizamos computación?

Bayes clásico Bayes simplificado


Hipótesis 1: los diagnósticos son exclusivos (no puede haber Hipótesis 2: que los hallazgos son condicionalmente independientes
diagnósticos simultáneos) y exhaustivos (no hay otros entre sí para cada diagnóstico.
diagnósticos posibles) P(e1 ,.., e m | h i )  P(e1 | h i )  ..  P(e m | h i ), i
P(h i )  P(e1 ,.., e m | h i )
P(h i | e1 ,.., e m )  P(h i )  P(e1 | h i )  ..  P(e m | h i )
 P(h j )  P(e1 ,.., em | h j )
j
P(h i | e1 ,.., e m ) 
 P(h j )  P(e1 | h j )  ..  P(e m | h j )
• Requiere n probabilidades a priori y 2em x n j
• Requiere n probabilidades a priori y mxn condicionales  nxm+n-
condicionadas  (2em-1)x n+n-1 parámetros
1 parámetros independientes
independientes
• Ejemplo: 3 diagnósticos, 10 hallazgos requiere 32 parámetros, 5
• Ejemplo: para 3 diagnósticos y 10 hallazgos requiere
diagnósticos y 20 hallazgos requiere 104 parámetros
3.071 parámetros, con 5 diagnósticos y 20 hallazgos se
requieren 5.242.879 parámetros
CASO 3. TOMA DE DECISIONES
Utiliza 3 Sensores de diferente La tarea de los sensores es
tipo distinguir entre operarios
humanos y robots que
aparecen en la fábrica
Un sensor es de tipo sónar, es decir, es capaz de
extraer la posición en la que se encuentra un
objeto. Con objeto de simplificar el problema
Otro sensor es una cámara que permite suponemos que cada sensor decide la
identificar los contornos de un objeto. identidad del objeto de forma
independiente
El último sensor es un detector de temperatura.

Incertidumbre definida por los sensores:

SONAR TEMPERATURA CÁMARAS Sonar: Distancia


S

Distancia
Región de incertidumbre
Cámara: Comparación de firmas
 xy
r
 x y
 (xi  mx )( yi  m y ) (x i  mx ) 2
 xy  i
x  i
N N
 ( yi  my )2
y  i
Movimientos de los Robots [0, 200 ] N

Movimientos de los humanos [10, 14.14] Temperatura:


FÁBRICA
Robots. Temperatura máxima 35º C ± 1
Humanos. Cerca de 36.5ºC
Sensores independientes.
Cada sensor (sonar, temperatura y cámara) queda definido por dos etiquetas, “humano” y “robot”.
CASO 3. TOMA DE DECISIONES
Las probabilidades de las evidencias a priori se han calculado con una muestra de 1000 objetos:
• En el sensor sonar de 1000 objetos, han pasado por el sonar 500 objetos robot y 500 objetos humano. De los 500 objetos robot el sonar
ha dicho 350 veces que eran robots cuando sí eran robots y 150 veces que eran humanos cuando realmente eran robots. De los 500
objetos humano, el sonar ha dicho que 400 eran humanos cuando realmente eran humanos pero 100 objetos los ha catalogado como
robots cuando eran humanos
• En el sensor temperatura de 1000 objetos, han pasado 500 objetos robot y 500 objetos humanos. De los 500 objetos robot este sensor
ha dicho 350 veces que eran robots cuando sí eran robots y 150 veces que eran humanos cuando realmente eran robots. De los 500
objetos humano, el sonar ha dicho que 450 eran humanos cuando realmente eran humanos pero 50 objetos los ha catalogado como
robots cuando eran humanos
• En el sensor cámara de 1000 objetos, han pasado por el sensor 500 objetos robot y 500 objetos humanos. De los 500 objetos robot el
sensor ha dicho que 300 eran robot y 200 que eran humanos. De los 500 objetos humanos, el sensor ha dicho que 200 eran robots y 300
humanos.

Hipótesis:
Humano (H) ->
p(H) = 0,4
Robot (R) -> p(R) =
0.6
Toma de decisiones:
CASO 3. TOMA DE DECISIONES
¿Probabilidad que sea humano cuando los tres sensores dicen que es humano?
¿Probabilidad que sea humano cuando los sensores sonar y temperatura dicen que es humano y el sensor
cámara dice que es robot?
¿Probabilidad que sea humano cuando el sensor sonar dice que es humano y los sensores temperatura y
cámara dicen que es robot?
¿Probabilidad que sea humano cuando los tres sensores, sonar, temperatura y cámara, dicen que es robot?
¿Probabilidad que sea robot cuando los tres sensores dicen que es humano?
¿Probabilidad que sea robot cuando los tres sensores dicen que es robot?

¿ P(e1 ,.., em | hi )  P (e1 | hi )  ..  P(em | hi ), i ?

P(h i )  P(e1 | h i )  ..  P(e m | h i )


P(h i | e1 ,.., e m ) 
 P(h j )  P(e1 | h j )  ..  P(e m | h j )
j
GRACIAS

También podría gustarte