Documentos de Académico
Documentos de Profesional
Documentos de Cultura
los
Luis Valencia Cabrera
lvalencia@us.es
Sistemas
(http://www.cs.us.es/~lvalencia) Expertos
Ciencias de la Computacion e IA
basados en
(http://www.cs.us.es/) probabilidad
Universidad de Sevilla (2010/2011)
Antecedentes
Los sistemas basados en reglas generalmente no
tienen en cuenta la incertidumbre
Los objetos y reglas son tratados de forma
determinista
Limitación: en la mayor parte de las
aplicaciones, la incertidumbre es lo común y no
la excepción
Algunos sistemas introducen factores de certeza,
de manera que dada una premisa se da una
conclusión con un determinado grado de
certeza en función de la fuerza de la regla.
Problema
Estos sistemas no capturan correctamente las
dependencias entre variables, de forma que
cuando se dispara una regla el peso de la
conclusión depende únicamente de las premisas,
independientemente de las fuentes de las que
provenga.
El uso de factores de certeza ha recibido muchas
críticas por su incapacidad para representar
ciertas dependencias entre las observaciones y la
forma en la que combina el conocimiento.
Todo esto provoca la necesidad de encontrar
otros formalismos para trabajar con incertidumbre.
Ejemplo: diagnóstico médico
Una pregunta típica en diagnóstico médico es: dado que el
paciente presenta un conjunto de síntomas, ¿cuál de las
enfermedades posibles es la que tiene el paciente? Esta
situación implica un cierto grado de incertidumbre puesto que:
Los hechos o datos pueden no ser conocidos con exactitud. Un
paciente puede no estar seguro de haber tenido fiebre durante la
noche. Hay un cierto grado de incertidumbre en la información de
cada paciente (subjetividad, imprecisión, ausencia de información,
errores, datos ausentes, etc.).
El conocimiento no es determinista. Las relaciones entre las
enfermedades y los síntomas no son deterministas; un mismo conjunto
de síntomas puede estar asociado a diferentes enfermedades. No es
extraño encontrar dos pacientes con los mismos síntomas pero
diferentes enfermedades.
Conclusión: es clara la necesidad de contar con sistemas
expertos que traten situaciones de incertidumbre. Un tipo de
sistema experto que trata este tipo de situaciones de forma
efectiva lo constituyen los sistemas expertos basados en
probabilidad.
Un poco de historia
En los primeros sistemas expertos que se hicieron eco de este problema, se eligió la
probabilidad como medida para tratar la incertidumbre (véase Cheeseman (1985) o
Castillo y Álvarez (1991)).
Muy pronto se encontraron algunos problemas, debidos al uso incorrecto de algunas
hipótesis de independencia, utilizadas para reducir la complejidad de los cálculos.
Como resultado, en las primeras etapas de los sistemas expertos, la probabilidad fue
considerada como una medida de incertidumbre poco práctica.
La mayoría de las críticas a los métodos probabilísticos se basaban en:
el altísimo nº parámetros necesarios
la imposibilidad de una asignación o estimación precisa de los mismos
las hipótesis poco realistas de independencia.
Consecuentemente, en la literatura surgieron medidas alternativas a la probabilidad
para tratar la incertidumbre:
factores de certeza
credibilidades,
plausibilidades,
Necesidades
posibilidades
(véase, por ejemplo, Shafer (1976), Zadeh (1983), Buchanan y Shortliffe (1984), Yager
y otros (1987), y Almond (1995)).
Redes probabilísticas
Con la aparición de las redes probabilísticas
(principalmente las redes Bayesianas y Markovianas, que
veremos más adelante), la probabilidad ha resurgido de
forma espectacular, siendo hoy en día, la más intuitiva y la
más aceptada de las medidas de incertidumbre.
para todos los valores posibles x1, . . . , xm de X1, . . . , Xm. En otro caso, se dice
que son dependientes.
ok
Ejemplo 2
Se muestran las funciones de
probabilidad condicional de una
variable dada la otra.
De los resultados anteriores se ve
que
p(x, y) = p(x)p(y) para todos los
valores posibles de x e y X e Y
son independientes.
Esta independencia puede
comprobarse con la definición
alternativa de independencia
p(x|y) = p(x).
Sin embargo, p(x, z) ≠ p(x)p(z) para
algunos valores (en este caso
todos) de x y z. Por tanto, X y Z son
dependientes.
Se puede demostrar también que Y
y Z son dependientes.
Los conceptos de dependencia e
independencia se refieren a dos
subconjuntos de variables. A
continuación, se generaliza para
más de dos conjuntos.
Dependencia e
independencia condicional
Sean X, Y y Z tres conjuntos disjuntos de La definición de independencia
variables, entonces X se dice condicional lleva la idea de que una vez
condicionalmente independiente de Y conocida Z, el conocimiento de Y no
dado Z, si y sólo si altera la probabilidad de X. Si Z ya es
p(x|z, y) = p(x|z), conocida, el conocimiento de Y no
para todos los valores posibles de x, y y z añade información sobre X.
de X, Y y Z; Una definición alternativa, pero
En otro caso X e Y se dicen equivalente, de independencia
condicionalmente dependientes dado Z. condicional es
p(x, y|z) = p(x|z)p(y|z).
Cuando X e Y son condicionalmente
independientes dado Z, se escribe
I(X, Y |Z) (relación de independencia La independencia (incondicional) puede
condicional). ser tratada como un caso particular de la
Cuando X e Y son condicionalmente independencia condicional. Por ejemplo,
dependientes dado Z, se escribe se puede escribir I(X, Y |Φ), para indicar
que X e Y son incondicionalmente
D(X, Y |Z) (relación de dependencia independientes.
condicional).
Ahora bien, X e Y pueden ser
También se escribe I(X, Y |Z)p o D(X, Y independientes incondicionalmente pero
|Z)p para indicar que la relación se deriva condicionalmente dependientes dado Z,
del modelo probabilístico asociado a la es decir, la relación de independencia
probabilidad p (la función de condicional I(X, Y | Φ) y la de
probabilidad conjunta). dependencia condicional D(X, Y |Z)
pueden satisfacersesimult´aneamente.
Ejemplo 3
Del ejemplo anterior teníamos la
función de probabilidad conjunta
de las tres variables binarias X, Y y Z.
Se tenían las siguientes relaciones
de independencia condicional:
I(X, Y | Φ),
D(X,Z| Φ) y D(Y,Z| Φ).
Por ejemplo, para determinar si X e
Y son independientes, se necesita para todos los valores posibles de x, y y z. Para
comprobar si ello, se calculan las probabilidades:
p(x, y) = p(x)p(y)
para todos los valores posibles de x
e y.
También se puede determinar si
cualesquiera dos variables son
condicionalmente independientes En esta tabla puede verse que
dada una tercera variable. p(x|y, z) ≠ p(x|z) y, por tanto, D(X, Y |Z).
Por ejemplo, para comprobar si X e Por ello, la función de probabilidad conjunta
Y son condicionalmente implica que X e Y son incondicionalmente
independientes dado Z, es independientes,
necesario comprobar si I(X, Y |Φ), aunque son condicionalmente
p(x|y, z) = p(x, y, z)/p(y, z) = p(x|z) dependientes dado Z, D(X, Y |Z).
Teorema de Bayes
Supongamos que se tienen n
síntomas {S1, . . . , Sn}. Ahora,
dado que el paciente tiene un
conjunto de síntomas {s1, . . . ,
sk}, se desea calcular la
probabilidad de que el
paciente tenga la
Supongamos que un paciente
enfermedad Ei, es decir, E = ei.
puede estar sano (no tiene Entonces, aplicando el
enfermedad alguna) o tiene una teorema de Bayes, se obtiene:
de m−1 enfermedades posibles {E1,
. . . , Em−1}. Sea E una variable
aleatoria que puede tomar uno de
m posibles valores, {e1, . . . , em},
donde E = ei significa que el
paciente tiene la enfermedad Ei, y
E = em significa que el paciente no
tiene ninguna enfermedad.
Teorema de Bayes. Notas
Comentarios sobre la fórmula anterior:
La probabilidad p(ei) se llama probabilidad marginal, prior, “a
priori” o inicial de la enfermedad E = ei puesto que puede ser
obtenida antes de conocer los síntomas.
La probabilidad p(ei|s1, . . . , sk) es la probabilidad posterior, “a
posteriori” o condicional de la enfermedad E = ei, puesto que
se calcula después de conocer los síntomas S1 = s1, . . . , Sk = sk.
La probabilidad p(s1, . . . , sk|ei) se conoce por el nombre de
verosimilitud de que un paciente con la enfermedad E = ei
tenga los síntomas S1 = s1, . . . , Sk = sk.