Apuntes ADM

U NIVERSIDAD N ACIONAL DE E DUCACI ÓN A
D ISTANCIA UNED
A N ÁLISIS Y T OMA DE DECISIONES EN M EDICINA
M ÁSTER EN F ÍSICA M ÉDICA
Apuntes:
Análisis y toma de decisiones en Medicina,
2020-2021
Autor:
Pablo Álvarez Rodrı́guez
17 de diciembre de 2020
Pablo Álvarez Rodrı́guez, Apuntes Análisis y toma de decisiones en Medicina, página 2
2
Índice general
1. Teorı́a de la probabilidad 7
1.1. Introducción a la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.1. Variable Aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2. Concepto de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.3. Probabilidad Conjunta y Probabilidad Marginal . . . . . . . . . . . 8
1.1.4. Propiedades básicas de las Probabilidades . . . . . . . . . . . . . . 8
1.1.5. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.6. Teorema de la probabilidad total . . . . . . . . . . . . . . . . . . . . 10
1.2. Independencia y correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.1. Independencia probabilı́stica . . . . . . . . . . . . . . . . . . . . . . 10
1.2.2. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.3. Independencia condicional . . . . . . . . . . . . . . . . . . . . . . . 11
1.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.2. Conceptos básicos en Medicina . . . . . . . . . . . . . . . . . . . . . 13
1.3.3. Valor predictivo de un hallazgo . . . . . . . . . . . . . . . . . . . . . 14
1.3.4. PRECAUCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.5. Forma Racional del Teorema de Bayes . . . . . . . . . . . . . . . . . 16
1.4. Método Bayesiano clásico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.1. Fundamentos del método bayesiano clásico . . . . . . . . . . . . . . 16
1.4.2. 1a hipótesis: diagnósticos exclusivos y exhaustivos . . . . . . . . . 17
1.4.3. 2a hipótesis: independencia condicional . . . . . . . . . . . . . . . . 17
1.4.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4.5. Inconvenientes del método bayesiano clásico . . . . . . . . . . . . . 19
1.4.6. Cuándo se puede aplicar el método bayesiano clásico . . . . . . . . 19
3
2. Redes Bayesianas 21
2.1. Fundamentos de Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.1. Origen histórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.2. Punto de partida: Teorı́a de grafos . . . . . . . . . . . . . . . . . . . 21
2.1.3. Definición de Red Bayesiana . . . . . . . . . . . . . . . . . . . . . . 24
2.2. Ejemplos de Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1. Ejemplo: Teorema de Bayes 2 variables . . . . . . . . . . . . . . . . 24
2.2.2. Ejemplo: Método bayesiano clásico . . . . . . . . . . . . . . . . . . . 25
2.2.3. Ejemplo: Paludismo . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3. La puerta OR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.1. Axiomas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.2. Comparación de la puerta OR . . . . . . . . . . . . . . . . . . . . . . 28
2.3.3. Ejemplo de Puerta OR . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.4. Cálculo de la tabla de probabilidad . . . . . . . . . . . . . . . . . . 29
2.4. Construcción de Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . 31
2.4.1. Información estructural de la red . . . . . . . . . . . . . . . . . . . . 31
2.4.2. Fuentes de Información numérica . . . . . . . . . . . . . . . . . . . 32
2.4.3. Aplicación de la puerta OR en redes bayesianas médicas . . . . . . 32
2.4.4. Contraindicaciones de la puerta OR . . . . . . . . . . . . . . . . . . 33
2.5. Separación en grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5.1. U-Separación: Separación en grafos no dirigidos . . . . . . . . . . . 33
2.5.2. Caminos de tres nodos . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5.3. Grafos múltiplemente conexos . . . . . . . . . . . . . . . . . . . . . 34
2.5.4. D-separación: Separación en grafos dirigidos . . . . . . . . . . . . . 35
2.5.5. Caminos de tres nodos . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.5.6. Antepasados y descendientes . . . . . . . . . . . . . . . . . . . . . . 36
2.5.7. Grafos múltiplemente conexos . . . . . . . . . . . . . . . . . . . . . 37
2.5.8. Camino activo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3. Teorı́a de la decisión 41
3.1. Introducción a la Teorı́a de la decisión . . . . . . . . . . . . . . . . . . . . . 41
3.2. Árboles de decisión y diagramas de influencia . . . . . . . . . . . . . . . . 41
3.3. Construcción de diagramas de influencia en Medicina . . . . . . . . . . . . 41
4. Fundamentos probabilistas de la inferencia estadı́stica 43

4.1. Población y muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4
4.2. Primer ejemplo. Planteamiento del problema . . . . . . . . . . . . . . . . . 43

4.3. Contraste de hipótesis para el primer ejemplo . . . . . . . . . . . . . . . . . 43
4.4. Contraste de hipótesis: Resumen . . . . . . . . . . . . . . . . . . . . . . . . 43
4.5. Contraste de hipótesis para una distribución normal . . . . . . . . . . . . . 43
4.6. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5
6
Capı́tulo 1
Teorı́a de la probabilidad
1.1. Introducción a la probabilidad

Se repasarán conceptos fundamentales sobre la teorı́a de la Probabilidad.
1.1.1. Variable Aleatoria
Definición 1.1 Variable Aleatoria
Una variable aleatoria es aquella que toma valores que, a priori, no conocemos con
certeza.
Los valores que toma una variable han de ser exclusivos y exhaustivos:
Valores exclusivos implica que dos de ellos no pueden ser ciertos simultáneamente.
Valores exhaustivos implica que el conjunto de todos los valores cubre todas las po-
sibilidades.
Se puede cuantificar las variables bien de forma numérica o bien por intervalos. También
se pueden aplicar las variables de forma cualitativa.
7
1.1.2. Concepto de Probabilidad
Definición 1.2 P( x ) es un valor numérico. Es una función que asigna un valor a la

variable X dentro del intervalo x.
Existen varias formas de asignar la probabilidad:
Suponer que los valores son equiprobables.
Mediante estudios estadı́sticos.
Hay que ser muy cuidadoso a la hora de definir variables. Cuando decimos que la pro-
babilidad de sufrir un infarto de miocardio es del 0.005/1, ¿qué queremos decir?.
Unos estudiantes de doctorado estaban construyendo una red Bayesiana para el diagnósti-
co de enfermedades infantiles. Una variable que tenı́an era la mononucleosis, pero esta-
ban pensando en la probabilidad de que el paciente tuviera mononucleosis en ese mo-
mento en concreto. El médico les estaba dando sin embargo la probabilidad de que el
paciente hubiese tenido mononucleosis a lo largo de su vida.
1.1.3. Probabilidad Conjunta y Probabilidad Marginal
Definición 1.3 Probabilidad Conjunta P( x1 , x2 , . . . , xn ) = P( X1 = x1 &X2 = x2 & . . . &Xn =

xn )
La variable xi tiene que tomar un cierto valor concreto. Para la Probabilidad conjunta
de una serie de variables, se tienen que cumplir todas y cada una de las condiciones
especificadas en la expresión anterior.
Se calcula dividiendo el número de valores que cumple dicha probabilidad conjunta (por
ejemplo mujeres de entre 18 y 65 años) entre el total de la población estudiada.
Definición 1.4 Probabilidad Marginal
La Probabilidad Marginal se corresponden a la suma de probabilidades conjuntas con

respecto a una cierta condición.
1.1.4. Propiedades básicas de las Probabilidades
Suma de Probabilidades: La suma de las probabilidades de todos los valores x de la

variable X ha de ser la unidad:
∑ P( x ) = 1 (1.1)
x
8
Si tenemos lo mismo para una variable Y:
∑ P(y) = 1 (1.2)
y
La Probabilidad Marginal de X se define a partir de la probabilidad conjunta P( x, y)

sumando sobre los valores de la variable Y.
En otras palabras para calcular la Probabilidad Marginal, se ha de conservar la variable
que se quiere obtener sumando sobre las otras variables:
P( x ) = ∑ P(x, y) (1.3)
y
P(y) = ∑ P(x, y) (1.4)

x
(1.5)
Para una probabilidad conjunta se ha de cumplir que ∑ x ∑y P( x, y) = 1 porque ∑ x ∑y P( x, y) =

∑ x P( x ) = 1 (ı́dem para y).
1.1.5. Probabilidad Condicional
Tras haber introducido los conceptos de probabilidad conjunta y probabilidad marginal,

se explica concepto de Probabilidad Condicional.
Definición 1.5 Probabilidad Condicional La forma clásica es la siguiente:
P( x, y)
P( x |y) = (1.6)
P(y)
Dada una probabilidad conjunta en las variables x e y y la probabilidad marginal de

y, obtenida a partir de la probabilidad conjunta; la probabilidad condicional de x dado
y es el cociente de la probabilidad conjunta en x e y entre la probabilidad marginal de
y.
La interpretación podrı́a ser el número de datos que cumplan las condiciones de x e y

entre la condición y. Se puede visualizar que de los datos que cumplen las condiciones x
e y, cuántos datos cumplen también las condiciones de x solamente. La combinación de
probabilidades condicionadas ha de ser la unidad.
Las variables pueden estar correlacionadas si una cierta probabilidad condicional es ma-
9
yor que el resto.
1.1.6. Teorema de la probabilidad total
A partir de la definición de la probabilidad condicional:
P( x, y) = P( x |y) · P(y) (1.7)
La probabilidad de una variable se puede obtener a partir de la probabilidad conjunta,

por lo que a partir de la ecuación anterior se tiene:
P( x ) = ∑ P( x |y) · P(y) (1.8)

y
El mejor ejemplo es que la probabilidad de ser mayor de 65 años es la suma de la proba-

bilidad de ser mayor de 65 años y varón por la probabilidad de ser varón, más la proba-
bilidad de ser mujer mayor de 65 años por la probabilidad de ser mujer. En este caso, la
probabilidad de ser varón o mujer se podrı́a considerar como factores de ponderación.
Estratificación, se dividen en dos grupos. Es el método de las encuestas.
Definición 1.6 Teorema de la probabilidad total
El Teorema de la Probabilidad Total sirve para, a partir de las probabilidades de cada

uno de los grupos, a partir de cada uno de los estratos, calcular el conjunto de la
población.
1.2. Independencia y correlación

1.2.1. Independencia probabilı́stica
Dos valores x e y son independientes en sentido probabilista si:
P( x, y) = P( x ) · P(y) (1.9)
Cuando P(y) = 0 esto equivale a:
P( x |y) = P( x ) (1.10)
Es decir, la información Y = y no altera la probabilidad de x.

Dos variables X e Y son independientes en sentido probabilista cuando se cumple la con-
10
dición anterior para todo x y todo y.

Esto significa que conocer el valor de Y no modifica la probabilidad de X y viceversa.
1.2.2. Correlación
Lo contrario a la independencia es la correlación.

Entre dos valores x e y hay correlación positiva cuando:
P( x |y) > P( x ) (1.11)
Es decir, la información Y = y aumenta la probabilidad de x.

Entre dos valores x e y hay correlación negativa cuando:
P( x |y) < P( x ) (1.12)
Es decir, la información Y = y disminuye la probabilidad de x.

Entre dos variables ordinales X e Y hay correlación positiva cuando hay correlación positi-
va entre los valores altos de X y los valores altos de Y, y viceversa.
1.2.3. Independencia condicional
Definición 1.7 Dos valores x e y son condicionalmente independientes dado z si:
P( x, y|z) = P( x |z) · P(y|z) (1.13)
Cuando P(y|z) = 0 esto equivale a:
P( x |y, z) = P( x |z) (1.14)
Es decir, cuando sabemos que Z = z, la información Y = y no altera la probabilidad de x.

Dos variables X e Y son condicionalmente independientes dado Z cuando:
P( x, y|z) = P( x |z) · P(y|z), ∀ x, ∀y, ∀z (1.15)
1.3. Teorema de Bayes

Se sabe, a partir de las definiciones de Probabilidad condicional, de P(y| x ) y del Teorema
de la probabilidad total que:
11
P( x, y)
P( x |y) = (1.16)
P(y)
P( x, y) = P( x ) · P(y| x ) (1.17)
P(y) = ∑ P(y| x ) · P( x ) (1.18)
x
Combinando estos resultados, se obtiene P( x |y) a partir de P( x ) y P(y| x ):
P( x, y) P( x ) · P(y| x ) P( x ) · P(y| x )
P( x |y) = = = (1.19)
P(y) P(y) ∑ x0 P( x 0 ) · P(y| x 0 )
Lo que nos darı́a la fórmula del Teorema de Bayes como:
P( x ) · P(y| x )
P( x |y) = (1.20)
∑ x0 P( x 0 ) · P(y| x 0 )
Definición 1.8 Sea A1 , A2 , . . . , Ai , . . . , An un conjunto de sucesos mutuamente ex-

cluyentes y exhaustivos, y tales que la probabilidad de cada uno de ellos es distinta de
cero.
Sea B un suceso cualquiera del que se conocen las probabilidades condicionales P( B| Ai ).
Entonces, la probabilidad P( Ai | B) viene dada por la expresión:
P ( B | Ai ) P ( Ai )
P ( Ai | B ) = (1.21)
P( B)
donde:
P( Ai ) son las probabilidades a priori.
P( B| Ai ) es la probabilidad de B en la hipótesis Ai .
P( Ai | B) son las probabilidades a posteriori.
Thomas Bayes, 1763
1.3.1. Ejemplo
La enfermedad pediátrica A tiene una prevalencia del 3 %. El 80 % de las personas adultas

que padecieron A en su infancia desarrollan la enfermedad B.
Solamente el 1 % de las personas que no padecieron A en su infancia desarrollan B.
12
Tenemos un paciente que presenta la enfermedad B. ¿Cuál es la probabilidad de que

padeciera A en su infancia?:
Solución
P(+b) = P(+b| + a) · P(+ a) + P(+b|¬ a) · P(¬ a) = (1.22)

= 0.80 · 0.03 + 0.01 · 0.97 = 0.024 + 0.0097 = 0.0337
P(+ a) · P(+b| + a)
P(+ a| + b) = = (1.23)
P(+b)
0.03 · 0.8
= = 0.7122
0.0337
1.3.2. Conceptos básicos en Medicina
Se denomina a E como una enfermedad, y a H como hallazgo, que puede ser desde un
sı́ntoma hasta una prueba de laboratorio.
Definición 1.9 Prevalencia
Se denomina prevalencia a la proporción de individuos de un grupo o una población

(en medicina, persona) que presentan una caracterı́stica o evento determinado (en
medicina, enfermedades).
Se denota como P(+e). La probabilidad de que una persona de la que no sabemos nada
tenga la enfermedad. Es el número de personas dentro de la población que padece la
enfermedad E.
Definición 1.10 Sensibilidad
Es la probabilidad de clasificar correctamente a un individuo enfermo, es decir, la

probabilidad de que para un sujeto enfermo se obtenga en la prueba un resultado
positivo.
Es la capacidad del test para detectar la enfermedad.
Se denota como P(+h| + e). Es la probabilidad de que presente el sı́ntoma H una
persona que este enferma.
Definición 1.11 Especificidad
Es la probabilidad de clasificar correctamente a un individuo sano, es decir, la proba-
13
bilidad de que para un sujeto sano se obtenga un resultado negativo.

En resumen es la capacidad de detectar a los sanos.
Se denota como P(¬h|¬e). Es la probabilidad de que una persona que esté sana no
presente sı́ntoma H.
Definición 1.12 Incidencia absoluta
Es la probabilidad de clasificar correctamente a un individuo enfermo, es decir, la

probabilidad de que para un sujeto enfermo se obtenga en la prueba un resultado
positivo.
Se calcula como el número de nuevos casos entre el perı́odo de tiempo de medición.
Por ejemplo, tres nuevos casos al año.
Definición 1.13 Incidencia relativa
Se calcula como el número de nuevos casos entre la multiplicación del perı́odo de

tiempo de medición por el número de habitantes. Por ejemplo, tres nuevos casos al año
por cada 10.000 habitantes.
En situaciones estables, la prevalencia de una enfermedad es igual a la incidencia relativa

de la enfermedad por la duración media de la enfermedad.
Esto se duda que sea ası́, porque a mayor número de casos nuevos, mayor será la pre-
valencia. Pero también cuanto mayor sea la duración media de la enfermedad también
mayor será la prevalencia.
Cuando se tiene una epidemia, una enfermedad que está apareciendo, que está aumen-
tando de incidencia respecto del pasado, en este caso la prevalencia va a ser menor que la
incidencia relativa por la duración de la enfermedad. Prevalencia baja porque no existı́a
la enfermedad en el pasado.
1.3.3. Valor predictivo de un hallazgo
Lo ideal serı́a tener una prueba con un 100 % tanto de sensibilidad como de especificidad,
de modo que cuando la prueba dé positivo sabemos con certeza que la persona está en-
ferma y viceversa cuando da negativo.
Sin embargo, la mayor parte de las pruebas que existen en medicina, por no decir todas,
tienen falsos positivos y falsos negativos. Y por dicha razón es necesario el concepto del
valor predictivo de un hallazgo:
14
El valor predictivo positivo se define como P(+e| + h). Según el teorema de Bayes
se toma como:
P(+e) · P(+h| + e)
P(+e| + h) = (1.24)
P(+e) · P(+h| + e) + P(¬e) · P(+h|¬e)
Que se puede definir a partir de los conceptos anteriores como:
Prevalencia · Sensibilidad
VPP = (1.25)
Prevalencia · Sensibilidad + (1 − Prevalencia) · (1 − Especi f icidad)
El valor predictivo negativo se define como P(¬e|¬h). Según el teorema de Bayes

se toma como:
P(¬e) · P(¬h|¬e)
P(¬e|¬h) = (1.26)
P(+e) · P(¬h| + e) + P(¬e) · P(¬h|¬e)
Que se puede definir a partir de los conceptos anteriores como:
(1 − Prevalencia) · Especi f icidad

VPN = (1.27)
Prevalencia · (1 − Sensibilidad) + (1 − Prevalencia) · Especi f icidad
1.3.4. PRECAUCIÓN
¡Hay que tener muchı́simo cuidado al hablar de la fiabilidad de un test!

Como ejemplo, el siguiente:
La prevalencia de X es del 1 por mil: P(+ x ) = 0.001.
La sensibilidad de Y es del 98 por ciento: P(+ x ) = 0.98.
La especificidad de Y es del 96 por ciento: P(+ x ) = 0.96.
Por tanto, la fiabilidad de Y es:
F = P(+ x, +y) + P(¬ x, ¬y) = (1.28)

= P(+y| + x ) · P(+ x ) + P(¬ x |¬y) cot P(¬ x ) = (1.29)
= 0.98 · 0.001 + 0.96 · 0.999 = 0.96002
Es decir, la prueba Y determina el valor correcto de X en el 96 % de los casos.
15
Sin embargo, un resultado positivo en Y no significa que el paciente tenga un 96 %

de probabilidad de padecer X.
De hecho, VPP = P(+ x | + y) = 0.024 = 2.4 % 6= 96 %
1.3.5. Forma Racional del Teorema de Bayes
Es otra forma, más cómoda, de aplicar el teorema de Bayes:
P(+e)· P(h|+e)
cP(+e|h) = P(+e)· P(h|+e)+ P(¬e)· P(h|¬e)
P(¬e)· P(h|¬e) } (1.30)
P(¬e|h) = P(+e)· P(h|+e)+ P(¬e)· P(h|¬e)
P(+e|h) P(+e) P(h| + e)
→ = · (1.31)
P(¬e|h) P(¬e) P(h|¬e)
P(+e) P(+e|h) P(h| + e)

RPprev ≡ RPpost ≡ RV ≡ (1.32)
P(¬e) ¬e|h P(h|¬e)
RP es la Razón de probabilidad, mientras que RV es la Razón de verosimilitud:
RPpost = RPpre = RV (1.33)
1.4. Método Bayesiano clásico

Con el método bayesiano para la medicina, se tienen di diagnósticos y Hi posibles hallaz-
gos, cada uno con sus posibles variables exclusivas y exhaustivas, que pueden ser tanto
cualitativas como cuantitativas.
1.4.1. Fundamentos del método bayesiano clásico
Como punto de partida se tienen n diagnósticos y m hallazgos.

Con los parámetros, se tienen 2n probabilidades a priori, según el número de diagnósti-
cos:
P ( d1 , . . . , d n )
Y se tienen 2n+m probabilidades condicionadas:
P ( h1 , . . . , h m | d1 , . . . , d n )
16
El Teorema de Bayes para este problema tendrı́a la siguiente forma:
P ( h1 , . . . , h m | d1 , . . . , d n ) · P ( d1 , . . . , d n )
P ( d1 , . . . , d n | h1 , . . . , h m ) = (1.34)
∑ P(h1 , . . . , hm |d10 , . . . , d0n ) · P(d10 , . . . , d0n )
d10 ,...,d0n
De esta forma, suponiendo 3 diagnósticos y 10 hallazgos, se llega a la nada desdeñable

cifra de 8191 parámetros.
1.4.2. 1a hipótesis: diagnósticos exclusivos y exhaustivos
Los diagnósticos exclusivos implicarı́an que el paciente sólo tiene una enfermedad.
Los diagnósticos exhaustivos cubren todas las posibilidades.
El resultado de ambos tipos de diagnósticos es la variable D que representa los diagnósti-
cos posibles.
Con respecto a los parámetros, existen n probabilidades a priori:
P ( di )
Y 2m · n probabilidades condicionadas:
P ( h1 , . . . , h m | d i )
El teorema de Bayes se reduce a:
P ( h1 , . . . , h m | d i ) · P ( d i )
P ( d i | h1 , . . . , h m ) = (1.35)
∑ j P ( h1 , . . . , h m | d j ) · P ( d j )
En comparación con el caso anterior, para el mismo número de diagnósticos y paráme-

tros, esto se reduce a 4095 parámetros.
1.4.3. 2a hipótesis: independencia condicional
En este caso se supone que para cada diagnóstico, los hallazgos son condicionalmente
independientes entre sı́:
P ( h1 , . . . h m | d i ) = P ( h1 | d i ) · · · · · P ( h m | d i )
17
Con respecto a los parámetros, existen n probabilidades a priori:
P ( di )
Y m · n probabilidades condicionadas:
P ( h j | di )
El teorema de Bayes se reduce a:
P ( h1 , d i ) · · · · · P ( h m | d i ) · P ( d i )
P ( d i | h1 , . . . , h m ) = (1.36)
∑ j P ( h1 | d i ) · · · · · P ( h m | d i ) · P ( d j )
En comparación con los casos anteriores, para el mismo número de diagnósticos y paráme-
tros, esto se reduce a 43 parámetros.
1.4.4. Ejemplos
La comparación entre dos diagnósticos se da mediante la forma racional del Teorema de

Bayes en:
P ( d i | h1 , . . . , h m ) P ( d i ) P ( h1 | d i ) P ( h m | di )
= · ····· (1.37)
P ( d j | h1 , . . . , h m ) P ( d j ) P ( h1 | d j ) P( hm |d j )
Habrı́a que comparar P(en f ermedad − 1) frente a P(en f ermedad − 2), lo que implicarı́a
también comparar P(+e) frente a P(¬e):
RPpost = RPpre · RV1 · . . . RVm (1.38)
Ejemplo: Diagnóstico de una patologı́a
Se quiere estudiar una enfermedad E con una prevalencia P(+e) = 0.002.

Tenemos un sı́ntoma S con una sensibilidad P(+s| + e) = 0.93 y una especificidad P(¬s|¬e) =
0.93
0.99. La razón de verosimilitud positiva es RV+s = 1−0.99 = 93.00 y la razón de verosimi-
1−0.93
litud negativa es RV¬s = = 0.0707.
0.99
Tenemos una prueba analı́tica A con una sensibilidad P(+ a| + e) = 0.995 y especificidad
P(¬ a|¬e) = 0.997. La razón de verosimilitud positiva es RV+a = 1−0.995
0.997 = 331.6 mientras
1−0.995
que la razón de verosimilitud negativa es RV+a = 0.997 = 0.005.
18
Evid RPpre RVS RVA RPpost P(+e| Evid)

− 0.002 1 1 0.0002 0.002
+s 0.002 93.000 1 0.1860 0.157
¬s 0.002 0.0707 1 1.41 · 10−4 1.41 · 10−4
+a 0.002 1 331.6 0.6632 0.399
¬a 0.002 1 0.005 1.00 · 10−5 1.00 · 10−5
+s, + a 0.002 93.000 331.6 61.678 0.984
+s, ¬ a 0.002 93.000 0.005 0.00093 0.00093
¬s, + a 0.002 0.0707 331.6 0.047 0.045
¬s, ¬ a 0.002 0.0707 0.005 7.10 · 10−7 7.10 · 10−7
La probabilidad del diagnóstico se calcuları́a mediante el Teorema de Bayes:
P(s| + e) · P( a| + e) · P(+e)
P(+e|s, a) = (1.39)
P(s| + e) · P( a| + e) · P(+e) + P(s|¬e) · P( a|¬e) · P(¬e)
La razón de probabilidad a posteriori viene dada por:
RPpost = RPpre · RVS · RVA (1.40)
Los resultados de este diagnóstico son los siguientes:
1.4.5. Inconvenientes del método bayesiano clásico
Para el caso de hipótesis de diagnósticos exclusivos se supone que el paciente sólo tiene
una enfermedad, mientras que para la hipótesis de independencia condicional se presu-
pone que la infección bacteriana afecta a un organismo u otro, genera un sı́ntoma y se
puede comprobar en una prueba clı́nica; pero todas de forma independiente.
1.4.6. Cuándo se puede aplicar el método bayesiano clásico
En el caso de diagnósticos exclusivos se utiliza para diagnosticar una única enfermedad

(si está presente o ausente), o cuando se realizan varios diagnósticos pero es muy impro-
bable que una persona tenga dos enfermedades simultáneamente.
En el caso de independencia condicional, se estudian varios efectos de una enfermedad
con mecanismos causales independientes.
19
20
Capı́tulo 2
Redes Bayesianas
2.1. Fundamentos de Redes Bayesianas

2.1.1. Origen histórico
Los antecedentes de las redes bayesianas se remontan a S. Wright, que estudiaba la genéti-
ca en 1921 y las aplicó.
Su desarrollo se realizó durante la década de los 80 con los siguientes referentes:
J. Pearl, que estudiaba la inteligencia artificial en UCLA (1982-1992)
S. Lauritzen y D. Spiegelhalter estudiaban probabilidad y estadı́stica en las Univer-

sidades de Oxford y Aalborg respectivamente en 1988.
R. Howard y J. Matheson, junto con R. Shachter eran economistas que estudiaron la

teorı́a de la decisión, de la Universidad de Stanford (1984-1986)
La expansión de la teorı́a de Redes Bayesianas se realizó durante la década de los 90 en

distintas universidades, como la de Stanford, el MIT, AAlborg, Granada, Almerı́a, Mála-
ga, UNED (con este profesor en concreto), y también en distintas empresas privadas,
como Microsoft, IBM, Rockwell, Lumina...
2.1.2. Punto de partida: Teorı́a de grafos
El concepto de grafo viene de un conjunto de nodos y enlaces, y por tanto pueden haber
tanto grafos dirigidos como no dirigidos. Existe un predecesor, un sucesor un ascendien-
21
te, un descendiente, o bien que los caminos estén cerrados o abiertos.
B C
Figura 1: Grafo no dirigido
B C
Figura 2: Grafo dirigido
Una red bayesiana se define a partir de un grafo dirigido acı́clico.
Definición 2.1 (Grafo) Un grafo es un conjunto de nodos y enlaces. Cuando se tie-

ne un enlace no dirigido, es decir, simétrico, se representa mediante una lı́nea (Enlace
A-C es igual C-A). Un enlace dirigido, asimétrico, implicarı́a que un enlace A-B serı́a
distinto que el enlace B-A.
El concepto de predecesor y sucesor implica que cuando hay una flecha de A a B. A es

predecesor o padre de B y B es sucesor o hijo de A. Cuando A es padre de B y B padre
de D, entonces se dice que D es descendiente de A o que A es ascendiente de D. (vamos
como un árbol genealógico).
Camino cerrado es aquel que parte a un nodo y llega hasta el mismo nodo, pero camino
abierto es entre nodos distintos.
Un ciclo es un grafo dirigido que se puede recorrer de tal forma que se llega al punto de
partida. Es un camino cerrado que se puede recorrer según las flechas:
22
B C
Figura 3: Ciclo
Un bucle es un camino cerrado en un grafo dirigido pero con la particularidad que no se

puede llegar al punto de partida:
B C
Figura 4: Bucle
Las redes bayesianas y los diagramas de influencia pueden tener bucles pero no ciclos.
Grafos Dirigidos acı́clicos
A B
C D
E F
Figura 5: Grafo dirigido acı́clico
A B
C D
E F
Figura 6: Poliárbol: grafo dirigido acı́clico sin bucles.
23
B C
D E
Figura 7: Árbol: cada nodo tiene sólo un predecesor, salvo la raı́z, sin padres.
2.1.3. Definición de Red Bayesiana
Una Red Bayesiana tiene un conjunto de variables aleatorias. Tendremos un grafo dirigi-
do acı́clico en donde cada nodo del grafo representa una variable Xi .
Se tendrá una distribución de probabilidad condicional (una tabla) para cada variable:
P( xi | pa( xi )). Ira en función de la probabilidad de los predecesores, porque para un nodo
sin padres, se tiene que P( xi | pa( xi )) = P( xi ). Valores de la variable hija por cada valor de
la variable padre.
Se obtiene una probabilidad conjunta para la red, que es el resultado de:
n
P ( x1 , . . . , x n ) = ∏ P(xi | pa(xi )) (2.1)
i =1
Las Redes Bayesianas cumplen la propiedad de Markov:
Definición 2.2 (Propiedad de Markov) Dado un conjunto de variables Yj tales

que ninguna Yj es descendiente de Xi en el grafo, se cumple que:
P( xi | pa( xi ), y1 , . . . , yn ) = P( xi | pa( xi )) (2.2)
2.2. Ejemplos de Redes Bayesianas

2.2.1. Ejemplo: Teorema de Bayes 2 variables
Se tienen dos variables:
Enfermedad (E): presente (+e), ausente (¬e)
Sı́ntoma (S): presente (+s), ausente (¬s)
El grafo es dirigido acı́clico con la siguiente forma:
24
Las probabilidades condicionadas son las siguientes:
P(+e) = 0.002
P(+s| + e) = 0.93
P(+s|¬e) = 0.01
La probabilidad conjunta tendrá cuatro valores, en función de los dos valores para cada
variable:
P(e, s) = P(e) · P(s|e) (2.3)
2.2.2. Ejemplo: Método bayesiano clásico
Se tienen dos variables:
Enfermedad (E): presente (+e), ausente (¬e)
Sı́ntoma (S): presente (+s), ausente (¬s)
Prueba analı́tica (A): presente (+ a), ausente (¬ a)
A S
P(+e) = 0.002
P(+s| + e) = 0.93
P(+s|¬e) = 0.01
P(+ a| + e) = 0.995
25
P(+ a|¬e) = 0.003
La probabilidad conjunta tendrá tres variables a tratar, en función de las probabilidades

condicionadas, serı́an 8 probabilidades en total:
P(e, s, a) = P(e) · P(s|e) · P( a|e) (2.4)
2.2.3. Ejemplo: Paludismo
Se tienen cinco variables:
Paludismo (X): presente (+ x), ausente (¬ x)
Zona de Origen (U1 ): alto riesgo (u1+ ), medio riesgo (u01 ), bajo riesgo (u1− )
Tipo sanguı́neo (U2 ): mayor inmunidad (u2+ ), menor inmunidad (u2− )
Gota gruesa (Y1 ): positivo (+y1 ), negativo (¬y1 )
Fiebre (Y2 ): presente (+y2 ), ausente (¬y2 )
U1 U2
Y1 Y2
En cuanto a la zona de origen:
cP(u1+ ) = 0.10
{ P(u01 ) = 0.10 (2.5)
P(u1− ) = 0.80
En cuanto al tipo sanguı́neo:

cP(u2+ ) = 0.60
{ (2.6)
P(u2− ) = 0.40
26
P(+ x |u1 , u2 ) u1+ u01 u1−

u2+ 0.015 0.003 0.0003
u2− 0.022 0.012 0.0008
Para el paludismo en sı́:
Para la aparición de gota gruesa:
cP(+y1 | + x ) = 0.992
{ (2.7)
P(+y1 |¬ x ) = 0.006
Para la aparición de fiebre:
cP(+y2 | + x ) = 0.98
{ (2.8)
P(+y2 |¬ x ) = 0.017
La probabilidad conjunta tendrá cinco variables a tratar, en función de las probabilidades

condicionadas:
P(u1 , u2 , x, y1 , y2 ) = P(u1 ) · P(u2 ) · P( x |u1 , u2 ) · P(y1 | x ) · P(y2 | x ) (2.9)
Para calcularla, se emplea pura fuerza bruta para cada una de las posibilidades condicio-
nadas, a partir de la fórmula anterior. Como ejemplo se calcula P(+ x |u01 , u2− , ¬y1 , +y2 ) a
partir de determinadas probabilidades conjuntas:
P(u01 , u2− , + x, ¬y1 , +y2 ) = P(u01 ) · P(u2− ) · P(+ x |u01 , u2− ) · P(¬y1 | + x ) · P(+y2 | + x ) =
(2.10)
= 0.10 · 0.40 · 0.12 · 0.008 · 0.98 = 0.0000376
P(u01 , u2− , ¬ x, ¬y1 , +y2 ) = P(u01 ) · P(u2− ) · P(¬ x |u01 , u2− ) · P(¬y1 |¬ x ) · P(+y2 |¬ x ) =
(2.11)
= 0.10 · 0.40 · 0.88 · 0.994 · 0.017 = 0.0005948
P(u01 , u2− , ¬y1 , +y2 ) = 0.0000376 + 0.0005948 = 0.0006234
27
Por tanto:
P(u01 , u2− , + x, ¬y1 , +y2 ) 0.0000376
P(+ x |u01 , u2− , ¬y1 , +y2 ) = 0 − = = 0.056 (2.12)
P ( u1 , u2 , ¬ y1 , + y2 ) 0.000632
y ası́ sucesivamente un trabajo de chinos. Estos cálculos se automatizarı́an con programas

como Elvira o OpenMarkov.
2.3. La puerta OR
2.3.1. Axiomas
1. Cada una de las causas, por sı́ misma, es capaz de producir el efecto.
2. Basta que una de las causas produzca el efecto para que el efecto esté presente.
3. Cuando todas las causas están ausentes, el efecto está ausente.
4. No hay interacción entre las causas: es decir, la probabilidad del efecto es la proba-
bilidad de que la primera causa lo produzca más la probabilidad de que la segunda
causa lo produzca cuando no lo ha producido la primera más ...
2.3.2. Comparación de la puerta OR
Se compara la puerta OR con el modelo general teniendo en cuenta que:
Para el modelo general, se tiene una tabla de probabilidad con cada probabilidad
conjunta P(y| x1 , . . . , xn ), con factores que influyen en la probabilidad de Y.
Sexo Obesidad Edad Tabaquismo
HTA
Para la puerta OR, se tiene la eficiencia de cada enlace ci con causas que pueden
producir X.
Paludismo Gripe Neumonı́a Meningitis
Fiebre
28
2.3.3. Ejemplo de Puerta OR
U1 U2
V X
Z Y2 Y1
En donde se tiene que P(+v) = 0.002.

Y que las eficiencias de los enlaces son:
c x = P(+y2 | + x, ¬v, ¬z) = 0.979654 (2.13)

cv = P(+y2 |¬ x, +v, ¬z) = 0.978245 (2.14)
c∗ = P(+y2 |¬ x, ¬v) = 0.015073 (2.15)
(2.16)
2.3.4. Cálculo de la tabla de probabilidad
El objetivo es calcular P(y2 | x, v), para todo y2 , x y v (∀y2 ; ∀ x; ∀v).

Mediante el axioma 3 se tiene de la puerta OR:
P(+y2 |¬ x, ¬v, ¬z) = 0 (2.17)
Mediante el axioma 4:
29
P(+y2 | + x, +v, ¬z) = P(+y2 | + x, ¬v, ¬z) + P(¬y2 | + x, ¬v, ¬z) · P(+y2 |¬ x, +v, ¬z) =
(2.18)
= 0.979654 + 0.020346 · 0.978245 = 0.999557
P(+y2 | + x, +v) = P(+y2 | + x, +v, ¬z) + P(¬y2 | + x, +v, ¬z) · P(+y2 |¬ x, ¬v) =
(2.19)
= 0.999557 + 0.000443 · 0.015073 = 0.999564
P(+y2 | + x, ¬v) = P(+y2 | + x, ¬v, ¬z) + P(¬y2 | + x, ¬v, ¬z) · P(+y2 |¬ x, ¬v) =
(2.20)
= 0.979654 + 0.020346 · 0.015073 = 0.979961
P(+y2 |¬ x, +v) = P(+y2 |¬ x, +v, ¬z) + P(¬y2 |¬ x, +v, ¬z) · P(+y2 |¬ x, ¬v) =
(2.21)
= 0.978245 + 0.021755 · 0.015073 = 0.978573
Se llega a la conclusión que:
P(+y2 | x, v) +x ¬x
v 0.999564 0.978573
¬v 0.979961 0.015073
Los resultados del diagnóstico diferencial son:
X V
Y1 Y2
30
Y2 Y1 P(+ x |e) P(+v|e)

– 0.003 0.002
– + y1 0.833 0.002
¬ y1 2.40 · 10−4 0.002
– 0.148 0.098
+ y2 + y1 0.966 0.0024
¬ y1 0.0014 0.1150
– 9.18 · 10−5 4.36 · 10−5
¬ y2 + y1 0.01 4.36 · 10−5
¬ y1 4.93 · 10−7 4.36 · 10−5
2.4. Construcción de Redes Bayesianas

Existen dos formas de construir redes bayesianas:
A partir de una base de datos, se necesitarı́a un algoritmo que transformara dicha

base de datos en una red bayesiana.
Hay muchos algoritmos, y siguen apareciendo otros nuevos.
Para construirlas existe una semejanza con la aplicación de métodos estadı́sticos y
de inteligencia artificial.
Con la ayuda de un experto, éste estudiará los mecanismos causales, realizando un

modelado de los mismos en un grafo causal cuyas probabilidades se añaden a la
red bayesiana.
Se necesita conocimiento causal para garantizar las relaciones de independencia.
También se pueden combinar ambos métodos para un método mixto.
2.4.1. Información estructural de la red
Se necesitan seguir los siguientes pasos:
1. Escoger las variables:
Datos personales: sexo, edad...
Antecedentes
Sı́ntomas y signos
31
Pruebas complementarias: ECG, analı́tica, radiografı́a, ultrasonidos, RMN, ra-

dioisótopos, etc.
2. Determinar los valores de cada variable:
Intervalos para discretizar las variables numéricas.
El problema de la granularidad
3. Establecer los enlaces causales
Dependencias, representas explı́citamente
Independencias, representadas implı́citamente.
2.4.2. Fuentes de Información numérica
Para obtener la información numérica, se pueden utilizar estudios epidemiológicos, con

las ventajas de que se obtiene información directa de los datos buscados; pero el incon-
veniente del tiempo y coste y de que se produzcan sesgos.
También se puede utilizar literatura médica (libros y revistas). Estas presentan las ven-
tajas de su fiabilidad y su escaso coste. Sus desventajas son que se encuentran muchos
datos cualitativos, pero muy pocos cuantitativos; pocas probabilidades directas, diferen-
tes criterios, variabilidad de la población; y sesgos.
Las bases de datos presentan las ventajas de que son rápidas y baratas pero los problemas
son el tamaño de las mismas, los datos filtrados; los sesgos de hospital.
Las estimaciones subjetivas presentan un coste relativamente bajo, pero la desventaja de
sesgos de hospital, sesgos psicológicos...
2.4.3. Aplicación de la puerta OR en redes bayesianas médicas
Las ventajas de utilizar la puerta OR son:
Es más fácil de construir, porque necesita menos parámetros. Si se trabaja con una
base de datos, hay más casos para estimar para cada parámetro. Si se trabaja con un
experto humano, se tienen menos parámetros y más intuitivos.
El cálculo de la probabilidad es más eficiente, más rápido.
Permite explicar el razonamiento con un diagnóstico diferencial.
32
Existen dos formas de detectar la puerta OR, bien a partir de un estudio estadı́stico o bien
conociendo los mecanismos causales.
2.4.4. Contraindicaciones de la puerta OR
No se puede utilizar la puerta OR cuando:
Cuando los padres representan factores de riesgo. (tabaquismo, hipercolesterole-

mia, estrés, etc)
Cuando alguno de los padres no representa valores ordinales (edad, sexo, paı́s (zo-
na de origen), etc)
No conviene utilizar la puerta OR cuando hay una sola causa explı́cita: La Sensibilidad
se tomarı́a como P(+y| + x ) y la Especificidad como P(¬y|¬ x ) = 1 − P(+y|¬ x )
2.5. Separación en grafos

Se va a ver la separación en grafos de una red bayesiana.
2.5.1. U-Separación: Separación en grafos no dirigidos
Un par de nodos: Separación no direccional
”u-” significa ”undirected graph” (grafo no dirigido).
I significa ”separados” o ”independientes”.
El subı́ndice G indica a que grafo nos referimos.
En Ausencia de enlace se tienen dos nodos que están u-separados, ¬ IG ( A, B):
A B
En Enlace se tienen dos nodos que están u-conectados, IG ( A, B):
A B
33
2.5.2. Caminos de tres nodos
A B C
Figura 8: Camino activo: ¬ IG ( A, C )
A B C
Figura 9: Camino bloqueado: ¬ IG ( A, C | B)
2.5.3. Grafos múltiplemente conexos
IG ( A, B) si y sólo si no hay ningún camino activo entre A y B.
IG ( A, B|C ) si y sólo si no hay ningún camino activo entre A y B. Los caminos activos
han sido bloqueados por los nodos de C.
A B
C D
E F
Ejemplos para el grafo anterior:
IG ( A, B), A y B son independientes al no estar conectados.
¬ IG ( A, C ), A y C no son independientes al estar conectados.
IG (C, B), C y B son independientes al no estar conectados.
¬ IG ( B, D ), B y D no son independientes al estar conectados.
¬ IG ( D, E), D y E no son independientes al estar conectados.
¬ IG ( B, E), B y E no son independientes al estar conectados a través de D.
¬ IG ( E, F ), E y F no son independientes al estar conectados a través de D.
¬ IG ( B, F ), B y F no son independientes al estar conectados.
34
IG ( A, B| D ), A y B son independientes dado D al no estar conectados, con indepen-

dencia de D, al no existir camino.
¬ IG ( A, C | D ), A y C no son independientes dado D al estar conectados.
IG (C, B| D ), C y B son independientes dado D al no estar conectados.
IG ( B, E| D ), B y E son independientes dado D al no estar conectados por que el

camino lo ha bloqueado D.
¬ IG ( E, F | D ), E y F son independientes dado D al no estar conectados a través de la

barrera de D.
¬ IG ( B, F | D ), B y F dado D no son independientes al estar conectados, sin embargo

un camino está activo y el otro bloqueado.
2.5.4. D-separación: Separación en grafos dirigidos
Un par de nodos: Separación direccional
”d-” significa ”undirected graph” (grafo no dirigido).
I significa ”separados” o ”independientes”.
El subı́ndice G indica a que grafo nos referimos.
En Ausencia de enlace se tienen dos nodos que están d-separados, ¬ IG ( A, B):
A B
En Enlace se tienen dos nodos que están u-conectados, IG ( A, B):
A B
2.5.5. Caminos de tres nodos
A B C
A B C
Figura 10: Camino activo: ¬ IG ( A, B) lleva a Camino bloqueado: IG ( A, B|C )
35
A B
A B
Figura 11: Camino activo, Cola Cola: ¬ IG ( A, B) lleva a Camino bloqueado: IG ( A, B|C )
A B
A B
Figura 12: Camino inactivo Cabeza Cabeza: IG ( A, B) lleva a Camino activado:

¬ IG ( A, B|C )
En un camino Cola Cola se transmite la información.

En un camino Cabeza Cabeza implica que no se transmite información.
2.5.6. Antepasados y descendientes
A B
En este primer ejemplo, tanto C como sus descendientes D activan el camino A → C → B,

lo que implica que ¬ IG ( A, B|C ) ≡ activado y ¬ IG ( A, B| D ) ≡ activado.
36
A B
En el segundo ejemplo, C bloquea el camino A ← C → B por lo que IG ( A, B|C ) ≡

bloqueado. Pero sus antepasados no lo bloquean, por lo que ¬ IG ( A, B| D ) ≡ activado.
2.5.7. Grafos múltiplemente conexos
IG ( A, B) si y sólo si no hay ningún camino activo entre A y B.
IG ( A, B|C ) si y sólo si no hay ningún camino activo entre A y B ni hay caminos

entre A y B activados por los nodos de C.
A B
C D
E F
Ejemplos para el grafo anterior:
¬ IG ( A, D ), A y D están conectados porque existe un enlace entre ellos.
¬ IG ( D, F ), D y F están conectados porque existe un enlace entre ellos. Tiene dos

caminos
IG ( A, B), A y B están separados, el camino está inactivo por los descendientes.
IG (C, B), C y B están separados, el camino está inactivo por los descendientes.
¬ IG ( E, F ), E y F están conectados porque existe un enlace entre ellos, un camino

activo.
¬ IG ( A, E), A y E están conectados porque existe un enlace entre ellos, un camino

activo.
37
¬ IG ( A, F ), A y F están conectados porque existe un enlace entre ellos, un camino

activo.
¬ IG (C, F ), C y F están conectados porque existe un enlace entre ellos, un camino

activo.
IG ( A, E| D ), A y E son independientes dada D porque, pese a existir un camino, éste

está bloqueado por D.
IG ( E, F | D ), E y F son independientes dado D porque, pese a existir dos caminos,

éstos están bloqueado por D.
¬ IG ( A, B| D ), A y B están conectados dado D porque, pese a estar bajo un camino

inactivo, el camino se ha activado al poner a D como variable relevante a la derecha
de la barra. El otro camino posible está bloqueado por D e inactivo por F.
¬ IG (C, B| D ), C y B están conectados dado D porque, pese a estar bajo un camino

inactivo, el camino se ha activado al poner a D como variable relevante a la derecha
de la barra. El otro camino posible está bloqueado por D e inactivo por F.
¬ IG ( A, B| E), A y B dado E: Están conectadas. Para A y B existen dos caminos uno

que pasa por D y otro que pasa por D y por F y llega hasta B. El primero de ellos ha
sido activado porque tenemos a la derecha de la barra un descendiente de D, y por
eso el camino está activado. Pero con el segundo no es suficiente.
IG (C, F | A, D ), C y F dado A y D: Están separadas. Entre C y F existen dos caminos:

uno a través de A, D y luego F; y el otro pasa por A, por D por B hasta F. Los dos
caminos están bloqueados por A, las dos variables están separadas.
¬ IG ( E, F | A, B), E y F dado A y B: Están conectadas. Entre E y F existen dos caminos:

uno a través de D, y luego F; y el otro pasa por D y por B hasta F. El primer camino
está activo, y el segundo está bloqueado en B. La variable A no influye.
¬ IG ( A, F | D ), A y F dado D: Están conectadas. Inicialmente entre A y F habı́a dos

caminos. El primero de ellos estaba activo mientras que el segundo estaba inactivo
porque no se conocı́a D (o por que no estaba a la derecha de la barra). Cuando
conocemos D, el primer camino pasa a estar bloqueado, mientras que el segundo,
que estaba inactivo pasa a estar activado y por tanto también están conectados.
38
2.5.8. Camino activo
La definición de camino activo se hace distinguiendo dos casos: los grafos no dirigidos y
los grafos dirigidos:
Definición 2.3 (Camino activo en un grafo no dirigido) Sea un grafo no diri-

gido G con dos nodos A y B de G y un subconjunto de nodos de G tal que ni A ni B
pertenecen a C:
Un camino de dos nodos, es decir, A − B (un solo enlace), siempre está activo.
Un camino de n nodos, es decir A − X1 − · · · − Xn−2 − B está activo cuando

ningún nodo entre A y B pertenece a C, es decir, X1 , . . . , Xn−2 ∩ C = ∅; si
algún Xi pertenece a C se dice que el camino está inactivo.
Definición 2.4 (Camino activo en un grafo dirigido) Sea un grafo dirigido G con
dos nodos A y B de G y un subconjunto de nodos de G tal que ni A ni B pertenecen
a C:
Un camino de dos nodos, es decir, A → B o B → A (un solo enlace), siempre

está activo.
Un camino de tres nodos puede ser de varios tipos:
• A → X → B, B → X → A o A ← X → B: Estos están activos si X no

pertenece a C. Cuando X pertenece a C se dice que el camino está inactivo
porque ha sido bloqueado por X.
• A → X ← B: Este camino está activo si X o alguno de sus descendientes

pertenece a C. En este caso se dice que el camino ha sido activado por el
nodo que pertenece a C. Cuando ni X ni sus descendientes pertenecen a C,
el camino está inactivo.
Un camino de n nodos está activo si cada par de enlaces consecutivos forma un

enlace activo.
39
40
Capı́tulo 3
Teorı́a de la decisión
3.1. Introducción a la Teorı́a de la decisión
3.2. Árboles de decisión y diagramas de influencia
3.3. Construcción de diagramas de influencia en Medicina
41
42
Capı́tulo 4
Fundamentos probabilistas de la
inferencia estadı́stica
4.1. Población y muestra
4.2. Primer ejemplo. Planteamiento del problema
4.3. Contraste de hipótesis para el primer ejemplo
4.4. Contraste de hipótesis: Resumen
4.5. Contraste de hipótesis para una distribución normal
4.6. Intervalos de confianza
43

Apuntes ADM

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes ADM

Cargado por

Copyright:

Formatos disponibles

U NIVERSIDAD N ACIONAL DE E DUCACI ÓN A

A N ÁLISIS Y T OMA DE DECISIONES EN M EDICINA

M ÁSTER EN F ÍSICA M ÉDICA

4. Fundamentos probabilistas de la inferencia estadı́stica 43

4.2. Primer ejemplo. Planteamiento del problema . . . . . . . . . . . . . . . . . 43

1.1. Introducción a la probabilidad

1.1.1. Variable Aleatoria

Definición 1.1 Variable Aleatoria

1.1.2. Concepto de Probabilidad

Definición 1.2 P( x ) es un valor numérico. Es una función que asigna un valor a la

Existen varias formas de asignar la probabilidad:

Suponer que los valores son equiprobables.

Mediante estudios estadı́sticos.

1.1.3. Probabilidad Conjunta y Probabilidad Marginal

Definición 1.3 Probabilidad Conjunta P( x1 , x2 , . . . , xn ) = P( X1 = x1 &X2 = x2 & . . . &Xn =

Definición 1.4 Probabilidad Marginal

La Probabilidad Marginal se corresponden a la suma de probabilidades conjuntas con

1.1.4. Propiedades básicas de las Probabilidades

Suma de Probabilidades: La suma de las probabilidades de todos los valores x de la

Si tenemos lo mismo para una variable Y:

La Probabilidad Marginal de X se define a partir de la probabilidad conjunta P( x, y)

P(y) = ∑ P(x, y) (1.4)

Para una probabilidad conjunta se ha de cumplir que ∑ x ∑y P( x, y) = 1 porque ∑ x ∑y P( x, y) =

1.1.5. Probabilidad Condicional

Tras haber introducido los conceptos de probabilidad conjunta y probabilidad marginal,

Definición 1.5 Probabilidad Condicional La forma clásica es la siguiente:

Dada una probabilidad conjunta en las variables x e y y la probabilidad marginal de

La interpretación podrı́a ser el número de datos que cumplan las condiciones de x e y

yor que el resto.

1.1.6. Teorema de la probabilidad total

A partir de la definición de la probabilidad condicional:

P( x, y) = P( x |y) · P(y) (1.7)

La probabilidad de una variable se puede obtener a partir de la probabilidad conjunta,

P( x ) = ∑ P( x |y) · P(y) (1.8)

El mejor ejemplo es que la probabilidad de ser mayor de 65 años es la suma de la proba-

Definición 1.6 Teorema de la probabilidad total

El Teorema de la Probabilidad Total sirve para, a partir de las probabilidades de cada

1.2. Independencia y correlación

Dos valores x e y son independientes en sentido probabilista si:

Cuando P(y) = 0 esto equivale a:

Es decir, la información Y = y no altera la probabilidad de x.

dición anterior para todo x y todo y.

Lo contrario a la independencia es la correlación.

P( x |y) > P( x ) (1.11)

Es decir, la información Y = y aumenta la probabilidad de x.

P( x |y) < P( x ) (1.12)

Es decir, la información Y = y disminuye la probabilidad de x.

1.2.3. Independencia condicional

Definición 1.7 Dos valores x e y son condicionalmente independientes dado z si:

P( x, y|z) = P( x |z) · P(y|z) (1.13)

Cuando P(y|z) = 0 esto equivale a:

P( x |y, z) = P( x |z) (1.14)

Es decir, cuando sabemos que Z = z, la información Y = y no altera la probabilidad de x.

P( x, y|z) = P( x |z) · P(y|z), ∀ x, ∀y, ∀z (1.15)

1.3. Teorema de Bayes

Combinando estos resultados, se obtiene P( x |y) a partir de P( x ) y P(y| x ):

Lo que nos darı́a la fórmula del Teorema de Bayes como:

Definición 1.8 Sea A1 , A2 , . . . , Ai , . . . , An un conjunto de sucesos mutuamente ex-

P( Ai ) son las probabilidades a priori.

P( Ai | B) son las probabilidades a posteriori.

Thomas Bayes, 1763

La enfermedad pediátrica A tiene una prevalencia del 3 %. El 80 % de las personas adultas

Tenemos un paciente que presenta la enfermedad B. ¿Cuál es la probabilidad de que