Documentos de Académico
Documentos de Profesional
Documentos de Cultura
BIOMÉDICA.
Métodos de ayuda al diagnóstico
clínico.
Tema 2: Probabilidad y estadística
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
1
Objetivos del tema
Dar a conocer los conocimientos mínimos de probabilidad/estadística necesarios
para aplicar procedimientos estadísticos a un conjunto de datos, sin incurrir en los
errores más comunes. NO ES UN RESUMEN DE BIOESTADÍSTICA NI SE VA A
DEMOSTRAR NADA
Conocer las ventajas y limitaciones que tienen estos métodos frente a otros más
avanzados (redes neuronales, árboles de decisión, etc).
Conocer las implicaciones del Teorema de Bayes en clínica (¡¡ se suele utilizar a
menudo !!)
Conocer las condiciones que se tienen que cumplir para realizar un determinado
contraste de hipótesis.
2
Probabilidad.
orias y Procesos Aleatorios
La Teoría de la Probabilidad analiza lo que se conoce como experimentos aleatorios;
íaexperimentos
Básica de Probabilidad
cuyo resultado no se conoce a priori pero que está limitado a un
a determinado
de Probabilidadconjunto
trata con de
fenómenos
resultadosque conocido
pueden sercomo
modelados por experi-
espacio muestral. Este espacio
cuyos
puederesultados están ogobernados
ser discreto continuo. por el azar (se denominan experimentos
os). Estos experimentos aleatorios están caracterizados por
experimentos son repetibles bajo idénticas condiciones
Otra definición importante es la de evento o suceso que es un subconjunto del espacio
sultado de un experimento es impredecible
muestral. se realiza un gran número de veces, el resultado exhibe un cierta
experimento
aridad estadística (se observa un comportamiento promedio).
Destacar que la frecuencia relativa de los resultados de los experimentos aleatorios,
namoscuando
eventosea uno
realizan un granresultados
de los posibles número dedeun éstos en lasaleatorio.
experimento mismasSeacondiciones, sí es
ntopredecible;
y supongamosésteque
es el
enpunto deque
n veces apoyo para los
se realiza ingenieros. el evento A
el experimento,
N n ( A) veces. La frecuencia relativa asociada al evento A es el cociente
Esta frecuencia relativa
de un evento A es lo que Donde N (A) es el número de veces que ocurre el evento a
se conoce intuitivamente n
N ( A ) sobre n experimentos. Evidentemente este cociente tiene como
y viene definida por la n límites 0 (no ocurre nunca el suceso A) y 1 (ocurre siempre)
icasiguiente expresión.
N n ( A)
Cuando se considera 0que ! el número! 1 de experimentos tiende a ∞ y la frecuencia
relativa, en ese caso convergen a un valor; dicho valor se conoce como probabilidad del
evento A.
nto A no ocurre nunca, entonces N n ( A) n = 0 , en tanto que si ocurre las n
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
3
Probabilidad.
Un ejemplo sería el lanzamiento de un dado; el espacio muestral sería ⎨1,2,3,4,5,6⎬; a
priori no se conoce el resultado del lanzamiento pero si se lanza muchas veces el dado
la probabilidad de aparición de cualquier número es 1/6.
Estudiar un evento no tiene mucho sentido práctico; se analiza su frecuencia relativa y se
determina si se le puede asignar una probabilidad; algo más practico (¡¡¡ y divertido!!!!) es
considerar la probabilidad de la combinación de varios eventos diferentes.
Unión de dos eventos. Es el evento que consiste en todos los resultados contenidos en uno
de esos dos eventos. Se representa por ∪.
Intersección de dos eventos. Es el evento que consiste en todos los resultados contenidos en
los dos eventos. Se representa por ∩.
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
4
Probabilidad.
Otra definición importante es el de eventos mutuamente exclusivos. Dos eventos
son mutuamente exclusivos si no se pueden dar a la vez. En el lanzamiento de un
dado los eventos A= {1,3,5} y B={2,4} son mutuamente exclusivos.
Lo comentado hasta ahora nos acerca a conceptos de la teoría de conjuntos. De
hecho es inmediato comprobar que dos eventos son mutuamente exclusivos si su
intersección es cero. Existe una aproximación matemática a la probabilidad que no
haría uso de las frecuencias relativas.
Axiomas de Probabilidad.
Una medida de probabilidad P[.] es una función que mapea eventos en un espacio
muestral (S) a números reales cumpliéndose los siguientes axiomas.
Axioma 1. Para cualquier evento A, 0≤P[A]≤1.
Axioma 2. P[S]=1.
Axioma 3. Si se tienen dos eventos, A y B, mutuamente exclusivos
entonces P(A ∪ B)=P(A)+P(B)
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
5
Probabilidad.
Los axiomas anteriormente mencionados son muy simples pero, a la vez muy
potentes; a partir de ellos se puede demostrar lo siguiente
P[∅]=0; P[A(c)]=1-P(A)
P[A∪B]=P[A]+P[B]-P[A∩B]
6
h die we will be rolling. is then the mixture p1 /2 + p2 /2. The mixture model c
Independencia. of which die we will be rolling.
Se dice que dos eventos son independientes cuando la probabilidad conjunta es igual al
Independence
producto de las probabilidades de cada2.6
uno deIndependence
ellos. De manera intuitiva dos procesos
son independientes
probability spacecuando
(Ω, F ,laPocurrencia,
), twoGiven o no, Fde and
events uno de G ellos
are no influyetoen el otro.
defined
a probability space (Ω, F , P ), two events F
Esto es, if P (F ∩ G) = P (F )P (G).
pendent be A collection
independent if Pof(Fevents P (F; )P
∩ G) = {F i=(G). A collect i
, k − 1} is said to be independent or 0, 1,mutually
. . . , k − 1}independent
is said to be independent
if for anyor mutually
subcollection {Fli ; i = 0, 1, . . . , mdistinct
− 1}, subcollection
lm ≤ k, we{F li ; i =
have 0, 1, . . . , m − 1}, lm ≤
that
Generalizando esta definición se dice que una #m−1 % m−1
#m−1 % m−1 $ &
colección de eventos es$mutuamente & independiente si, P Fl i = P (Fli ) .
Fli de=esa colección
para cualquier Psubconjunto P (Fli ) . de i=0 i=0
eventos, se cumple i=0 i=0
In words: the probability of the intersection of any sub
s: the probability of the intersection of any
events subcollection
equals the product ofofthe
the given
probabilities of the
'(s
quals
Hay the
que product of the
tener especial probabilities
cuidado con el of the
concepto
tunately it'isseparate
de events.
notindependencia,
enough
) *to simply Unfor-
en primerthat
require lugar
P el ki
hecho que se cumpla la igualdad anterior para (
todo la colección de eventos no significa
as
y it is not enough to simply require that P this does not
k−1 imply
F i =a similar
k−1
Presult
(F i ) for all poss
que se cumpla para un subconjunto. events, whichi=0 i=0
is what will be needed. For example,
does not imply a similar result case for where
all possible
P (F ∩ G ∩subcollections
H) = P (F )P (G)P of(H) for thre
which
NO esislowhat
mismowill be needed.
el concepto Foryetexample,
de eventos consider
it is not true
mutuamente the
that P (F
exclusivos following
G) = P (F )P (G)¡no es
o∩independientes;
erelo Pmismo!.
(F ∩ G ∩ H) = P (F )P (G)P (H) for three events F , G, and H,
1
not true that P (F ∩ G) = P (F )P (G) P (F ) = P (G) = P (H) =
3
1 P (F ∩ Emilio Soria, Antonio José Serrano1y José David Martín Dpto Ingeniería Electrónica, ETSE
G ∩ H)Sistemas=de Ayuda a la Decisión = PClínica,
(F )P Curso(G)P
2009-2010(H)
P (F ) = P (G) = P (H) = 27
3 7
Probabilidad condicionada. Teorema de Bayes.
En el mundo real existen muchas interacciones entre variables que forman un determinado
modelo, sea este mecánico, eléctrico, electrónico, etc. Esto supone que la observación de un
determinado fenómeno puede ayudar a predecir mas fácilmente el resultado de otro. Esta
“prediccion más sencilla” refleja que la observación del primer fenómeno modifica o
condiciona la probabilidad del segundo. P ( A " B)
P(A | B) =
P(B)P ( A " B)
Sean dos eventos A y B definimos la probabilidad de A dado queP(A el | B) =
P(B)P A " B
evento B ocurrió como P[A|B]; esta probabilidad se denomina
P(A | B) =
( )
probabilidad condicional de A dado que B ocurrió. P(A "Otra B) = P ( A | B) # P(B)P(B) = P (B |
denominación es probabilidad de A condicionada a!B. P(A " B) = P ( A | B) # P(B) =
!
De la última expresión se puede obtener el Teorema de Bayes,P ( A | B) = (
B | A") "B)
P P(A = P ( A | B) # P
P(A)
! ! P ( B | A) " P(A)
P(B)
fundamental a la hora de inferir probabilidades; su expresión P ( A | B) =
! P(B)
viene dada por: P ( B | A) " P
P ( A | B) =
La generalización de este teorema viene dado por la ! P ( A | Es ) " P(EsP(B)
)
P ( E s | A) =
siguiente expresión; aquí los Ek son eventos !
! # P (Ek ) " P( A | Ek )
mutuamente exclusivos y exhaustivos (U Ek=S). k
!
EL DENOMINADOR DE LA ÚLTIMA EXPRESIÓN HAY QUE ANALIZARLO CON
DETENIMIENTO.......MUY IMPORTANTE!!!!!!
!
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
8
Ejemplos de lo comentado
Menopausia
TOTAL Aquí nos encontramos con algo
SI NO
típico; hemos recogidos datos
Normales 1750 1350 3200 en una población lo
suficientemente grande y
Trastorno A 165 35 200 representativa sobre la
aparición de determinados
Trastorno B 45 55 100
trastornos en mujeres; algunas
TOTAL 1960 1440 3500 preguntas.......
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
9
Ejemplos de lo comentado ¿Probabilidad de padecer el
trastorno A ó el trastorno B
Menopausia
TOTAL (recordemos que si se da uno no
SI NO
se da el otro)?
Normales 1750 1350 3200 =(200/3500)+(100/3500)=0.085
¿Probabilidad de padecer el
Trastorno A 165 35 200 trastorno A o ser menopaúsica
(CUIDADO)?
Trastorno B 45 55 100
=(200/3500)+(1960/3500)-
TOTAL 1960 1440 3500 (165/3500)=0.57
10
Ejemplo del Teorema de Bayes.
Se escoge una muestra de 1000 personas de las que el 65% son enfermos. De los enfermos hay
un 85% de casos que tienen un cierto síntoma y de los no enfermos el porcentaje de casos de
personas que presentan síntomas es del 5%.
Enfermo No Enfermo
85% 15% 5%
95%
11
Ejemplo del Teorema de Bayes. Pruebas clínicas
1-P POBLACION P
SANO ENFERMO
P1
1-P1 Especificidad P2 1-P2
Sensibilidad
SI NO SI NO
RESULTADO DE LA PRUEBA
En este esquema tenemos que P es la probabilidad de tener una cierta enfermedad; P1 es la probabilidad que,
estando sano, la prueba acierte, este parámetro se conoce como especificidad, por el contrario P2 es la
probabilidad que estando enfermo la prueba diagnóstica acierte; este parámetro se conoce como sensibilidad.
Ejemplo: tomemos p=0.02; p1=0.05 y p2=0.97; con estos valores me realizo la prueba y sale positivo,
¿cúal es la probabilidad que esté enfermo?. S=Sí; N=No.
P(S)= [P(S|Enf)·P(Enf)]+ [P(S|Sano)·P(Sano)]=0.97·0.02+(1-0.05)·(1-0.02)=0.95
P(Enf|S)=[P(S|Enf)·P(Enf)]/P(S)=[0.97·0.02]/0.95=0.02 (¡¡¡¡¡¡CUIDADO PORQUE EL P2=0.97 NOS PUEDE
CONDUCIR A ERRORES!!!!!!)
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
12
Ejemplo del Teorema de Bayes. Modelos(I)
Supongamos que nos plantean un problema en el que Si nos preocupamos de la capacidad
tenemos que establecer un modelo que prediga si un de predicción del modelo aparecen
paciente tiene, o no, una determinada enfermedad. dos cantidades importantes; que
Dicho modelo se aplica sobre la muestra que se tiene son los valores predictivos (positivo
obteniéndose lo siguiente: y negativo).
Sensibilidad=P(S|Enf)=25/30=0.833 VPP=[0.833·0.260]/0.304=0.71
VPN=[0.88·0.739]/0.695=0.93
Especificidad=P(N|Sano)=75/85=0.88
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
13
Ejemplo del Teorema de Bayes. Modelos(II)
La siguiente tabla
da todos los Enfermedad
parámetros de
las tablas 2x2. Si No
+ A B
Test
- C D
Sensibilidad A/(A+C)
Especificidad D/(B+D)
14
Variable aleatoria. #1 #2
"
2. FX (x) is nondecreasing: FX (x
Emilio Soria, 1) ≤
Antonio
FX (x2 )y José
José Serrano
x1 ≤Martín
if David x2 .Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
15
las propiedadesEs
de claro
las variables
que aleatorias se necesita dar
esta probabilidad esunaFdescripción
(x2 ) −
función de
laXvariabl
=
de las mismas. ! x2
Variableésta
aleatoria.
como la función de densidad de probabilidad
FX (x) = P (ω ∈ Ω : X(ω) ≤ acu
=
x)
fX (x
ariable aleatoria
Se define y considérese
la función la probabilidad
de distribución decan
which
del evento X ! x . Esta x1
la variable
be simply written as
se denota:
aleatoria X aquella definida de la siguiente forma! (P
In casePof( X discrete
! x)
F X
x =
FX (x)
or mixed random variables, the pdf
0
=PP (X
X x) x
≤! ( ) ( ) i
denota probabilidad). x)
The cdf has the following properties:
esta probabilidad of
es pdf
función are de listed
o simplemente funciónla below:
variable de
muda distribución
x. Se define entonces de la
a variable a
1. 0 ≤ FX (x) ≤ 1. . 0
unción de densidad
Esta función continua o acumulada FX ( x ) :
puededeserprobabilidad
discreta, dependiendo1.defcomo
X (x)sea ≥el0. 2. FX (x) is nondecreasing: FX (x1) ≤ FX (x2) if x1 ≤ x2.
Una Fdescripción
(!x ) =∞P ( Xtiene alternativa
! x)
de la probabilidad de un
espacio muestral. Esta X función
usando la derivada
una serie de propiedades importantes
2. f (x)dx
de FX x para obtener la función
3. FX (−∞) = 0 and FX (+∞) = 1.
= 1.
( )
e función X
como son:de distribución
(pdf) de la de variable
−∞
la variable4.aleatoria
aleatoria
P (a < X ≤X.b)X.
= FX (b) − FX (a).
! 0
!
ión alternativa de la probabilidad de una variable aleatoria X se logra x)
Relacionada
rivada para3.
de FX ( x )con estaIn función
obtener general, de P (X
la función ∈Cuando
A) = ladevariable
de densidad fX (x)dx. dFX x
aleatoria
probabilidad
( ) ( )
A sep Xutiliza
x.0
distribución se
riable aleatoria X. encuentra la función es discreta
University of Saskatchewan =otra
densidad de probabilidad definida de función conocida como dx
For discrete random variables, it is more common to d
la siguiente forma. dFX ( x ) función de probabilidad
p X (x ) = definida como sepdebe
Elpmf,
nombrewhich is
densidad
dx definedde as {p
probabilidad
i } where i = Pa(X = la
que xipro
).
"
obtiene
pi como:
= 1. ! 0
nsidad de probabilidad se debe a que la probabilidad
Emilio de queJoséxSerrano
Soria, Antonio 1 X David
!y José x2 se
! Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
: i
16
Figure 2.5: The pmf and cdf for the Bernoulli random varia
x)
Variable aleatoria.A Bernoulli
Ejemplos (I).
random variable is a good model for a binary data gener
30
Lanzamiento de un dado. Enbinary estedata
caso Binomial.
is transmitted overVariable aleatoria channel,
a communication que da some
el número
bits are
habría que determinar el valor de P(x=k)25 si an de
We can model eventos
error que suceden
by a modulo-2 additionenofuna
a 1 secuencia
to the inputdebit,n t
estamos interesados en la función densidad; independientes pruebasrandom de variable
Bernouilli.
into a 1 and20a 1 into a 0. Therefore, a Bernoulli can be em
tenemos entonces 1/6 para todo k; o bien, si Ejemplos número de caras tras n lanzamientos
estamos interesados en la the channel de
función 15
errors.
de una moneda; número de personas que
distribución se tendría F(1)=1/6; F(2)=1/3;
Binomial Random Variable.una
padecerán This is a discrete
enfermedad si random
se tienevariable that
una cierta
of 1’s in a 10
F(3)=1/2; F(4)=2/3; F(5)=5/6 y F(6)=1. sequenceprobabilidad de aparición.
of n independent Bernoulli trials. The pmf is given by
$ %
05 n k
p (1 − p)n−k , 0 ≤ k ≤ n
P (X = k) = k
Bernouilli. Variable aleatoria que toma dos EE456.3 Digital Communications, Fall 2004 0, otherwise
Ha H. Nguy
0 2 4 6 8 10
valores con probabilidades p y 1-p. Ejemplos
where the binomial coefficient
f X (x ) is defined as
lanzamiento de una moneda asignando 1 a 0.30 $ %
n n!
cara y 0 a cruz; que un determinado =
456.3 Digital Communications, Fall 2004 x )
Ha H. Nguyen 0.25 k k!(n − k)! x)
tratamiento médico vaya bien.
0.20
f X (x ) FXThis
(x ) random variable models, for example, the total number of bits receiv
a sequence of n bits is transmitted over a channel with cross1bit-error pro
0.15
1
0.10
p example of the pmf for a binomial random variable is shown in Figure 2.6
1! p 1! p a 0.05
Uniform Random Variable. This is a continuous random variable tha
x
x 0 2 4 6 8 10 12
0 1 tween
0 a1 and b xwith equal probabilities over intervals of equal length. The
Figure 2.6: Thexpmf for the binomial random variable.
x)
is
Figure 2.5: The pmf and cdf for the Bernoulli randomgiven
variable.by
a 0
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
b Sistemas de&Ayuda a la Decisión Clínica, Cursoa2009-20100
x) 1 x)
This is a model for continuous random variables ,whose a< x<
range b
is known, but nothing 17 el
A Bernoulli random variable is a good model for a binary data generator. Also, when
Variable aleatoria.
This randomEjemplos
variable models, (II).
for example, the total number of bit
Poisson. Variable aleatoria que esof nuna
a sequence bits is Uniforme.
transmitted over aaleatoria
Variable channelcon
with cross1bit-er
densidad de
aproximacion de la binomial cuando n es probabilidad constante en un intervalo.
example of
grande (n>30) y el valor de p es pequeñothe pmf for a binomial random variable is shown in Fig
a Típica en problemas donde no se tiene un
(p<0.1). Es la que manejanUniformcompañías de
Random Variable.
conocimientoThis“ais priori”
a continuous random del
del resultado varia
seguros (sucesos raros con una población experimento; como veremos siempre la
relativamente alta). tween a and b with equal probabilities over intervals of equal lengt
utilizamos de forma
x “encubierta”
isk given by
µ a a
P[ X = k ] = e " µ # k = 0,1, 2.. 0 b & 1 0
k! , a<x<b
fX (x) = b−a
0, otherwise
University of Saskatchewan
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
18
Variable aleatoria. Ejemplos (III).
Normal. Es la “reina” de las variables aleatorias a
causa del Teorema del Límite Central. Este
teorema viene a decir que, la suma de un
conjunto de
munications, Fall sucesos
2004 aleatorios sigue una Ha H. Nguyen
distribución normal. Su densidad de
probabilidad
sity function es
! 2
"
1 (x − µ)
fX (x) = √ exp − (2.16)
2πσ 2 2σ 2
e two parameters who’s meaning will be described later. A Gaussian pdf
µ and σ 2 is usually denoted as N (µ, σ 2 ). The Gaussian random variable
t frequently
t and de Student. Variable
encountered aleatoria
random variable in communications. The
parecida
al noise, en is
which forma a la normal
the major sourcey of
que se in communication systems,
noise
utiliza muy a menudo en los
bution. The properties
contrastes of Gaussian
de hipótesis de noise
tipo will be investigated in more
paramétrico.
hapter. Existe
The pdf and unaparámetro
cdf of en
Gaussian random variable are illustrated
su función de densidad que es el
número de grados de libertad, ν,
denotándose dicha variable Fpor(xt)ν Statistics and Data with R; An Applied Approach Through Examples, Wiley 2008
X
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
1 19
! y(n) = A " cos! 2 " # "
( fs ± k " fm ) " n $ ( fs ± k
& y(n) =A )
Variable aleatoria. Momentos. % fm ( " cos& 2 " # "
% f
[ ]
Hasta ahora se tiene una serie de experimentos
E ( X " mx )
n
$ f s " n '
Otros parámetros y(n)
importantes son
= A " cos& 2 " #E" ( X " m) x ) n = $ ( x " m x ) n # f x (x) # dx
los momentos centrales de orden n % ! [
f mE ((X " m ) n = ( x " m ) n # f (x) # dx ]
[ x ] $ x x
20
Significado de algunos momentos.
VALOR ESPERADO; da idea de la tendencia central VARiANZA; da idea de la dispersión de la variable
de la variable aleatoria de acuerdo a su aleatoria (refleja la anchura de la distribución). Un
distribución de probabilidades. parámetro que se utiliza mucho más que la
varianza es la DESVIACIÓN ESTÁNDAR, σ, que es la
raíz cuadrada de la varianza.
21
Estadística.
Hasta ahora hemos analizado las características y los parámetros que definen una magnitud que
procede de un experimento aleatorio; esa aleatoriedad puede ayudarnos a explicar diferentes
comportamientos en situaciones reales. Podríamos definir la estadística como aquella parte de
conocimiento que analiza procesos donde existe un determinado grado de aleatoriedad
Estas son las etapas clásicas de cualquier
Planteamos hipótesis análisis estadístico.El problema que nos
encontraremos en muchas ocasiones es
que la toma de datos o muestreo, que es
Recopilamos datos una etapa esencial en el desarrollo de
(muestreo) modelos, se realiza sin ningún control de
tal forma que se tienen los datos que el
clínico ha recopilado a lo largo del
Análisis de datos tiempo pero no se ha diseñado una
toma de muestras. Debemos empezar a
tener en cuenta que una cosa es lo ideal
Obtención de conclusiones y otra cosa lo que nos vamos a
encontrar.....
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
22
Estadística. Definiciones.
Población; conjunto sobre el que estamos interesados en obtener
conclusiones, en la mayoría de las ocasiones es demasiado grande para
poder analizarlo.
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
23
Contraste de hipótesis. CLASE DE ERROR
24
Contraste de hipótesis. La pregunta evidente es; ¿qué umbral
ponemos para aceptar/rechazar la
hipótesis nula?. Ese umbral denotado
por α, se conoce como umbral de
significación y, normalmente, se toma
igual a 0.05. Si se quiere mayor
seguridad de cumplimiento se puedo
reducir ese umbral, otras elecciones
son tomarlo igual a 0.01 o a 0.001
25
Esta parte se conoce como
Contraste de hipótesis. muestreo y existen muchas
formas de hacer dicha recogida.
Establecemos hipótesis de Es la etapa crítica ya que los
trabajo datos tienen que ser
suficientemente representativos
de lo que se quiere determinar.
Recogemos los datos necesarios Lo que uno se encuentra, en
muchas ocasiones es la base de
datos que se tiene de la práctica
diaria (la teoría está bien
Fijamos H0 pero......)
26
Contraste deindicating
Flow charts hipótesis. Resumen.
appropriate techniques in different circumstances*
Flow chart for hypothesis tests
I I
, , ,
I
I I
I 1 I I I
One-sample
,
Chi-squared
t-test (19) Paired Independent Independent 1 group 2 groups > 2 groups test (25)
Sign test (19)
I
I i
Paired t-test (20)
I
Wilcoxon signedl
Unpaired
t-test (2"
One-way
ANOVA (22) I z test for a
I I Chi-squared
test (25)
ranks test (20)
Sign test (19)
Wicoxon rank
sum test (21)
Kroskal-Wallis
test (22)
proponion (23)
Sign test (23)
II paid ,
Independent Chi-squared
trend test (25)
Chi-squared
McNemar's
Longitudinal
studies
1 Additional
topics
1
Systematic reviews and Agreement -
kappa (36)
Survival analysis (41) Emilio Soria, Antonio José Serrano
meta-analyses y José David Martín
(38) Dpto Ingeniería
Bayesian methods Electrónica,
(42) ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
27
Análisis de supervivencia. Variable 1 Variable 2
Días antes
del suceso
En un análisis de supervivencia
estamos interesados en dos 1,2 -0,3 4
variables; por una parte la
ocurrencia, o no, de un determinado
suceso y, por otra parte, el tiempo 0,6 2,4 2
que transcurre hasta que se produce
dicho suceso. 2,2 1,1 1
Tiene aplicaciones en un gran
número de campos, por ejemplo, en
0,2 -0,7 5
la industria se utiliza para evaluar el
tiempo de funcionamiento de los
componentes. En clínica lo podemos
Usando estas
usar para determinar el tiempo de variables
recuperación usando un
determinado fármaco, el tiempo que
¡ PREDECIMOS EL
el paciente sobrevive tras un TIEMPO!
determinado trasplante, etc.
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
28
Survival function
Survival function
Análisis de supervivencia.
Definimos una función de supervivencia que da Aquí nos encontramos con dos
ility that an individual survives at least t
la probabilidad que un determinado individuo no problemas importantes de cara a
= P(T > t) Probability that an individualunsurvives análisis estadístico; at least portuna
tenga la ocurrencia del suceso antes del tiempo t
efinition, S(0) = 1 and S(∞)=0 parte el tiempo no sigue una
• S(t) = P(T > t) distribución normal y, por otra
mated by (# survivors at t / total patients)
100 • By definition, S(0) = 1 and parte, S(∞)=0
existirán sujetos que saldrán
fuera del tiempo de estudio y, por
• Estimated by (# survivors tanto, at no t /setotal conocerá patients)el tiempo en
Survival el que se produce el suceso. Estos
(%)
100
sujetos se conocen como sujetos
censurados. En este grupo están
también los que son apartados del
Survival time
estudio por alguna razón o,
0
S(0)=0 y S(∞)=1. Una(%)manera de obtenerla a simplemente abandonan el
partir de los datos es mediante la estimación estudio. Normalmente se asume
que estos sujetos se comportan
S(t)=N(t)/Ntotal igual que los sujetos al final del
Donde N(t) es el número de sujetos en los que estudio.
time
0
no se ha producido el suceso en el tiempo t (ni
anteriormente) Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
29
Some other definitions
• h(t) is instantaneous
Análisis de supervivencia. Se define failure rate
# patients
la función dying inothe
de riesgo, int
tasa de
• Estimated
Otra función relacionada con la funciónby de fallo, h(t) • , como la tasa
So can beinstantánea
estimated deb
# patients
supervivencia, que denotamos pordying
F(t), esinlathefallo
interval/(survivors
en el instante t. Seatcalcula
t *interval_w
como
que da la probabilidad• deSo
ocurrencia del
can be estimated by # patients dying per unit i
suceso• transcurrido
Just like S(t) is “cumulative”
un tiempo t; es survival,
h(t) =F(t) is
f(t)/S(t) h
# patients dying per unit interval/survivors at t
cumulative
inmediato death probability
obtener
h(t) = f(t)/S(t) h(t) = -S’(t)/S(t) = -d log S(t)/dt
• S(t) = 1 – F(t)
Está claro que=F(t)
• f(t) y S(t) tienen un
- S’(t) Podemos intentar determinar alguna
significado de funciones de de las funciones anteriormente
distribución de probabilidad. mencionadas mediante dos
Obtendremos ahora una función aproximaciones; paramétrica
densidad de probabilidad de (asumimos una determinada forma
ocurrencia del suceso, f(t), a partir de para la función y determinamos sus
F(t) como parámetros) o bien podemos plantear
f(t)=lim∆t→0 (N(t+∆t)/∆t)=F’(t) una aproximación no paramétrica (no
se asume ningún modelo y son los
Donde N(t+∆t) es el número de
propios datos quienes definen dichas
sucesos que ocurren en el intervalo de
funciones).
tiempo t y t+∆t y F’(t) es la derivada
de la función F(t) Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
30
• f(t)
Análisis de =
supervivencia. λe-λt k $t'
k*1 $ t 'k
*& )
%"(
En relación a las aproximaciones paramétricas f (t) = # & ) #e
se tienen los•modelos
S(t) =quee consideran la
-λt " %"(
Parametric
exponencial y su estimation
• h(t) = λ la distribución
generalización,
$ t ' k*1
*& )
%"( k t$ ' k*1
32
Estadísticos (II) Con estos índices se puede tener una idea de
la tendencia central (los tres primeros), de la
Estadístico Se calcula como dispersión (varianza y desviación estándar) y
de la forma (sesgo y curtosis)en cuanto a la
distribución de la variable.
Valor medio
Es el valor central que queda tras Todos estos índices, se pueden entender a
Mediana ordenar los valores; (semisuma si través del histograma. La variable se divide en
tengo un número par de valores) intervalos regulares y se representa el
número de casos en cada intervalo.
Moda Es el valor que más aparece
Varianza
Desviación
estándar
Sesgo
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
33
Estadísticos (III)
Principles of Medical
Estadístico Se calcula como Statistics, Chapman &
Hall, 2002
(a) (b)
300 Diferencia entre el valor 600
Rango máximo y mínimo
250 500
200 400
Rango Intercuartil Diferencia entre el tercer
Nº patrones
Nº patrones
(IQR)
150 cuartil y el primero 300
OUTLIERS
100 200
Con estos parámetros, junto con el
histograma,
50
se pueden determinar los outliers, 100
valores!40 atípicos
!3
y que,
!2 !1
en0 la mayoría
1 2
de
3 4
0
!4 !2 0 2 4 6 8 10 12 14
aplicaciones, se eliminan.
Valor Valor
34
Valor medio y proporción
De todos N Alos estadísticos destacamos, por su importancia para nosotros, NA
p = medio y la proporción
el valor
NTotal p =
NA . Esta proporción se entiende como el número p =
de veces que se da una determinada posibilidad frente al total.
NTotal NTotal
NA
p Un= conceptoN importante es el de N% intervalo de confianza para algún estadístico p; es un
pN=Total A intervalo errorCen el que
" (1# errorseC )se tiene un P% de probabilidad de contener a p.
N
errorC ±Total zN " error C " (1# errorC )
El valor medio error sigue
C ± zuna
N " Ndistribución En el caso de una proporción podemos, en principio, err
asimilar esta variable a una funciónerror C ± zN "
errorC " (1# errorC )
!normal
error " se conoce la desviaciónN
C ± z N si de distribución
estándar$errorde la
error
población'
N C " (1# errorC )
y una t-Student binomial. Se sabe que, !
si en una distribución binomial el
Cp±" z(1#N " p)
si N & p,que estimar $ )dicha Np ' número de elementos de la muestra es alto se puede
$hay
& p " (1# N '
pN)& p, )
p " (1# desviación.
)) El
intervalo
N & p,
! % de confianza
&) ( Nviene)definido considerar una distribución N normal . conn$ esta distribución '
& $
por
% lo
N & p,
N %(
que
p " (se
1#
)
p ) '
conoce
) como ( error podemos p=
establecer NTotal
A
un intervalo de
N confianza
& p,
p "de1#( la )
p
)
estandar
& de N la media
) (SEM). Si siguiente forma (aquí !error(n) es la &%proporción).N )
% (
consideramos un intervalo de confianza (
[ m[ "1.96 # SEM, m +1.96 # SEM ]
m "1.96 # SEM, m +1.96 # SEM ] errorC " (1# errorC )
! del[ m95%
"1.96 se #tiene:
SEM, m +1.96 # SEM ] errorC ± z N "
! N
SEM [ m " " # SEM, m +1.96 # SEM ]
"1.96
= =
SEM N "
NSEM = Confianza % $ 80 90 ' [
95m "1.96 99 # SEM, m
" N N & p,
p
!" (1# p ) )
!SEM = & )
[ m " t 0.05 # SEM, N m + t 0.05 # SEM ] ! N
zN % 1,28 1,64 ( 1,96 2,58
[ m " t 0.05 # SEM, m + t0.05 # SEM ]
[ m " t 0.05 # SEM, m + t 0.05 # SEM ] "
! [ m " t # SEM, m + t N # SEM ] ¿Qué relación hay entre este intervalo SEM
y el =
definido para el
S0.05 1 0.05
SEM = "S= $ % ( x k # m)
N
2
[ m "1.96 valor
!# SEM, medio? m +1.96 # SEM ] N
N N #1 !
S 1
k=1 2
SEM = "S= S
N"
%
$ N ( x k1# m)N
2
!
SEM =
NSSEM =
"S= N
1#1S =
%
$ ( xNk ##1
k=1 m) $ 2 % ( x k # m )
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
SEM =
" de Ayuda a la Decisión Clínica, Curso 2009-2010
Sistemas
m " t # SEM,35m
N #1
Valor medio (II)
Con estos tres ejemplos gráficos se intenta mostrar lo que supone tomar una muestra y calcular
su correspondiente valor medio; una cosa es la población y su valor medio como parámetro y otra
son la muestra y su estadístico
Statistics for Environmental Engineers,
Lewis Publishers
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
36
Variables cualitativas (I)
Ahora cabe preguntarse, ¿qué podemos hacer con las variables cualitativas?. Aquí podemos plantear
dos tipos de pruebas; la de homogeneidad e independencia. En la de homogeniedad se busca
determinar si los datos que se tienen son los mismos respecto de la categorización establecida. En
la segunda buscamos conocer si las categorías de las filas son indepenedientes de las categorías de
las columnas cuando los datos se dispoenen en tablas.
Este tipo de análisis se basa en Este estadístico
obtener un estadístico definido sigue una
por la siguiente cantidad distribución de tipo
chi-cuadrado. Este
tipo de distribución
queda caracterizada
por un parámetro,
Estas cantidades de observado/
ν, conocido como
esperado hacen referencia a los
grados de libertad
que uno observa (los datos que
que es igual a su
se tienen) y a lo que se tendría
valor medio. La
si se cumplieran las condiciones
varianza de esta
de homogeneidad o de Statistics and Data with R; An Applied distribución es el
independencia que se intentan Approach Through Examples,Wiley 2008
doble de dicho
comprobar con este tipo de
parámetro.
análisis.
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
37
Variables cualitativas (II) El valor esperado de hombres con el
síntoma 1 sería de de 30; tenemos
¿Existe diferencia en cuanto a hombres para los dos
síntomas que se tienen (homogeneidad)?. Es decir en 60/100=proporción de hombres, este valor
muestra muestra tenemos 32/50 para el síntoma 1 y 28/50 se multiplica por 50 (número de personas
para el síntoma 2; ¿esta diferencia la tengo para la con problemas). El resto de términos se
población? calcula igual. Tendríamos entonces la
siguiente tabla de valores esperados.
Sintoma 1 Sintoma 2
Sintoma 1 Sintoma 2
Hombres 32 28
Hombres 30 30
Mujeres 18 22
Mujeres 20 20
TOTAL 50 50
El siguiente paso sería calcular el estadístico TOTAL 50 50
comentado en la anterior transparencia El término X2 queda 0.666; ahora queda por
determinar el número de grados de libertad que
viene definido por el factor (c-1)⋅(f-1) donde f y c
(o-e) (o-e)2 (o-e)2/e son el número de filas y de columnas de nuestra
tabla. En nuestro caso es una tabla 2x2 por lo que
H-1 2 4 0,133 tenemos que el número de grados de libertad es igual
M-1 -2 4 0,200 a 1. Para 1 grado de libertad y un intervalo de
confianza al 95% este valor debería ser mayor que
H-2 -2 4 0,133 3.841; no podemos rechazar entonces que las dos
M-2 2 4 0,200 relaciones son iguales.
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
38
Variables cualitativas (III)
En el siguiente ejemplo estamos Hacemos otra tabla igual suponiendo que el lugar de
interesados en conocer si el lugar donde partido no influye en el resultado, por ejemplo en el
se juega interviene en el resultado de un caso de Ganador-Casa tendríamos, por una parte
partido (problema de independencia). que, la proporción de los que se ganan es de
166/291; si este factor se multiplica por los que se
Casa Fuera TOTAL juegan en casa (139) se tendría 79.3. Si nos fijamos en
Ganador 97 69 166 ganador-fuera tendríamos 166/291 multiplicado por
152 se tendría 86.7. Si nos fijamos en lo perdido se
Perdedor 42 83 125 tendría que tenemos una proporción de 125/291;
TOTAL 139 152 291 esta proporción hay que multiplicar por los partidos
jugados en casa y fuera para acabar la tabla.
El siguiente paso sería calcular el estadístico
Casa Fuera
Ganador 79,3 86,7
Perdedor 59,7 65,3
(o-e) (o-e)2 (o-e)2/e
G-C 17,7 316,3 3,99 El término X2 queda 17.78; el número de grados de
libertad es igual a 1. Para 1 grado de libertad y un
P-C -17,7 316,3 5,30 intervalo de confianza al 95% este valor debería ser
G-F -17,7 316,3 3,65 mayor que 3.841; EXISTE evidencia que la posibilidad de
victoria depende del lugar del partido.
P-F 17,7 316,3 4,84
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
39
Variables cualitativas (IV)
Hemos visto dos ejemplos para tablas 2x2; se
puede generalizar dicho resultado para tablas
mayores. En el siguiente ejemplo se intenta
determinar si los miembros de 3 partidos están
de acuerdo con la importancia de la tasas
(problema de homogeneidad).
40
Representaciones gráficas (I).
El uso de estadísticos y de representaciones gráficas para la obtención de conclusiones sobre los
datos se conoce como Análisis Exploratorio de los Datos (EDA). A continuación se verán gráficas
poco conocidas pero que proporcionan mucha información sobre los datos. En prácticas
repasaremos todas las representaciones gráficas (diagramas de barras, sectores, líneas, etc).
Histograma,
proporciona
información
gráfica sobre la
distribución de
los datos, los
outliers quedan
rápidamente
identificados. Al
dividir por el
número total de
datos cada uno
de los diferentes
intervalos
tenemos un
“estimador
gráfico” de la
función
densidad de Applied Statistics and Probability for Engineers,
John Wiley & Sons, 2003
probabilidad.
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
41
Representaciones gráficas (II).
Boxplot; proporciona información visual sobre los 3 cuartiles y los valores máximo y mínimo. Estos
son los 5 números que describen completamente un conjunto de datos.
Experimental Design and Data Analysis for Biologist, Cambridge University Press
En muchos paquetes informáticos no se representan los valores máximo y mínimo sino que se
representan valores por encima/por debajo 1.5 veces el rango intercuartil a partir del tercer y
primer cuartil respectivamente. Esto se hace así para evitar problemas cuando existen outliers
ya que estos valores podrían provocar que los intervalos fueran muy grandes y poco
representativos.
Este tipo de representación es muy útil en problemas de clasificación donde queremos
ver si existen diferencias entre dos grupos (especialmente indicado cuando queremos
relacionar variables cualitativas con cuantitativas).
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
42
Representaciones gráficas (III). 40000
Q-Q Plot Salario Actual
Los gráficos de probabilidad se usan para visualizar si unos datos
siguen, o no, una distribución de probabilidad. Los más 30000
30
,8
,8
20 ,5
,5
,3 ,3
10
0,0
0,0 ,3 ,5 ,8 1,0 0,0
0,0 ,3 ,5 ,8 1,0
Observed Cum Prob
0
0 10 20 30
Observed Cum Prob
Observed Value
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
43
MASTER DE INGENIERÍA
BIOMÉDICA.
Métodos de ayuda al diagnóstico
clínico.
Tema 2: Probabilidad y estadística
Emilio Soria, Antonio José Serrano y José David Martín Dpto Ingeniería Electrónica, ETSE
Sistemas de Ayuda a la Decisión Clínica, Curso 2009-2010
44