Documentos de Académico
Documentos de Profesional
Documentos de Cultura
on
Introduccion Introducci
on
Introduccion Un ejemplo
Un cardi
ologo, que investiga un nuevo f
armaco para rebajar el colesterol,
desea conocer el consumo de grasas en varones adultos mayores de 40
a
nos. C
omo debe proceder?
Supongamos que los distintos valores que puede tomar la variable son:
En la ultima hora han acudido al servicio de urgencias de un hospital ocho c1 , c2 , . . . , cm .
pacientes, cuyos datos de ingreso se encuentran resumidos en la siguiente tabla.
Frecuencia absoluta: Se denota por ni y representa el n
umero de veces que
Clasifica las variables recogidas (sexo, peso, estatura, temperatura, n
umero de
ocurre el resultado ci .
visitas previas al servicio de urgencias y dolor).
Frecuencia relativa: Se denota por fi y representa la proporci
on de datos en
cada una de las clases,
Sexo Peso (kg.) Estatura (m.) Temperatura (o C) Visitas Dolor ni
fi =
M 63 1.74 38 0 Leve n
M 58 1.63 36.5 2 Intenso Frecuencia absoluta acumulada. Es el n umero de veces que se ha observado el
H 84 1.86 37.2 0 Intenso resultado ci o valores anteriores. La denotamos por
M 47 1.53 38.3 0 Moderado X
M 70 1.75 37.1 1 Intenso Ni = nj
cj ci
M 57 1.68 36.8 0 Leve
H 87 1.82 38.4 1 Leve Frecuencia relativa acumulada. Es la frecuencia absoluta acumulada dividida
M 55 1.46 36.6 1 Intenso por el tama
no muestral. La denotamos por
Ni X
C
omo resumimos la informaci
on contenida en los datos de la variable Dolor? Fi = = fj
n
cj ci
Descripci
on de variables cualitativas y cuantitativas discretas Descripci
on de variables cualitativas y cuantitativas discretas
Las frecuencias se pueden escribir ordenadamente mediante una tabla de Las frecuencias se pueden escribir ordenadamente mediante una tabla de
frecuencias, que adopta esta forma: frecuencias, que adopta esta forma:
ci ni fi Ni Fi ci ni fi Ni Fi
c1 n1 f1 N1 F1 c1 n1 f1 N1 F1
c2 n2 f2 N2 F2 c2 n2 f2 N2 F2
.. .. .. .. .. .. .. .. .. ..
. . . . . . . . . .
cm nm fm Nm Fm cm nm fm Nm Fm
Propiedades:
Pm
Frecuencias absolutas 0 ni n Pmi=1 ni = n
Frecuencias relativas 0 fi 1 i=1 fi = 1
Frecuencias absolutas acumuladas 0 Ni n Nm = n
Frecuencias relativas acumuladas 0 Fi 1 Fm = 1
Ejemplo Ejemplo
En la ultima hora han acudido al servicio de urgencias de un hospital ocho En la ultima hora han acudido al servicio de urgencias de un hospital ocho
pacientes, cuyos datos de ingreso se encuentran resumidos en la siguiente tabla. pacientes, cuyos datos de ingreso se encuentran resumidos en la siguiente tabla.
Clasifica las variables recogidas (sexo, peso, estatura, temperatura, n
umero de Clasifica las variables recogidas (sexo, peso, estatura, temperatura, n
umero de
visitas previas al servicio de urgencias y dolor). visitas previas al servicio de urgencias y dolor).
Sexo Peso (kg.) Estatura (m.) Temperatura (o C) Visitas Dolor Sexo Peso (kg.) Estatura (m.) Temperatura (o C) Visitas Dolor
M 63 1.74 38 0 Leve M 63 1.74 38 0 Leve
M 58 1.63 36.5 2 Intenso M 58 1.63 36.5 2 Intenso
H 84 1.86 37.2 0 Intenso H 84 1.86 37.2 0 Intenso
M 47 1.53 38.3 0 Moderado M 47 1.53 38.3 0 Moderado
M 70 1.75 37.1 1 Intenso M 70 1.75 37.1 1 Intenso
M 57 1.68 36.8 0 Leve M 57 1.68 36.8 0 Leve
H 87 1.82 38.4 1 Leve H 87 1.82 38.4 1 Leve
M 55 1.46 36.6 1 Intenso M 55 1.46 36.6 1 Intenso
C
omo resumimos la informaci
on contenida en los datos de la variable Visitas? C
omo resumimos la informaci
on contenida en los datos de la variable Peso?
La representaci
on grafica de la informaci on contenida en una tabla estadstica
es una manera de obtener una informaci on visual clara y evidente de los valores
asignados a la variable estadstica. Existen multitud de graficos adecuados a
cada situaci
on. Unos se emplean con variables cualitativas y otros con variables
cuantitativas.
Diagrama de sectores: Se obtiene dividiendo un crculo en tantos sectores Diagrama de barras: Representa frecuencias absolutas o relativas
como modalidades tome la variable. La amplitud de cada sector debe ser Diagrama de frecuencias acumuladas o diagrama escalonado: Representa
proporcional a la frecuencia del valor correspondiente. frecuencias acumuladas absolutas o relativas
Medidas caractersticas: Medidas de posicion, de dispersion y de forma Medidas caractersticas: Medidas de posici
on, de dispersion y de forma
Por medida entendemos un n umero que se calcula sobre la muestra y que Por medida entendemos un n umero que se calcula sobre la muestra y que
refleja cierta cualidad de la misma. Parece claro que el c
alculo de estas medidas refleja cierta cualidad de la misma. Parece claro que el c
alculo de estas medidas
requiere la posibilidad de efectuar operaciones con los valores que toma la requiere la posibilidad de efectuar operaciones con los valores que toma la
variable. Por este motivo, en lo que resta del tema tratamos s olo con variables variable. Por este motivo, en lo que resta del tema tratamos s olo con variables
cuantitativas. cuantitativas.
Medidas de posici
on: son medidas que nos indican la posici
on que ocupa la
muestra
Medidas de dispersi
on: se utilizan para describir la variabilidad o
esparcimiento de los datos de la muestra respecto a la posici on central
Medidas de forma: tratan de medir el grado de simetra y apuntamiento en
los datos
Recorrido o rango
Recorrido intercuartlico
ax xi mn xi .
R = m
Varianza
Desviaci
on tpica
Coeficiente de variaci
on
Hay situaciones en las que tenemos que comparar poblaciones en las que
Sean x1 , x2 , . . . , xn un conjunto de n observaciones de la variable X . Se define las unidades de medida son distintas
la desviaci
on tpica como: Ejemplo:
v Peso de hormigas en gramos: (s = 2,41 gramos)
r u
(x1 x)2 + (x2 x)2 + . . . + (xn x)2 u 1 X n 8.180881 10.503650 8.210198 13.096271 9.259044
s= =t (xi x)2 15.540982 7.854185 12.010111 8.725924 11.712810
n1 n 1 i=1
Peso de elefantes en kg: (s = 320,0495 kilos)
5100.636 4987.702 5035.441 5321.591 5502.833
4737.402 4537.105 4731.434 4742.981 4444.282
Hay situaciones en las que tenemos que comparar poblaciones en las que Hay situaciones en las que tenemos que comparar poblaciones en las que
o que a
un teniendo la misma unidad de medida difieren en sus magnitudes. las unidades de medida son distintas, o que a
un teniendo la misma unidad
de medida difieren en sus magnitudes. Para estos casos necesitamos una
medida de la dispersi
on en la que no influyan las unidades, sera
conveniente tener una medida adimensional.
Si queremos una medida de dispersi on que no dependa de la escala y que,
por tanto, permita una comparaci on de las dispersiones relativas de varias
muestras, podemos utilizar el coeficiente de variaci
on, que se define as:
s
CV = .
x
Por supuesto, para que se pueda definir esta medida es preciso que la
media no sea cero.
Beatriz Pateiro L
opez
Introduccion Introduccion
Vinculada inicialmente a los juegos de azar, la probabilidad aparece siempre que Vinculada inicialmente a los juegos de azar, la probabilidad aparece siempre que
queremos saber si algo va a ocurrir o no: queremos saber si algo va a ocurrir o no:
Cu
al es la probabilidad de que salga un seis en una tirada de dado? Cu
al es la probabilidad de que salga un seis en una tirada de dado?
Cu
al es la probabilidad de acertar los seis n
umeros de la lotera primitiva?
Introduccion Introduccion
Vinculada inicialmente a los juegos de azar, la probabilidad aparece siempre que Vinculada inicialmente a los juegos de azar, la probabilidad aparece siempre que
queremos saber si algo va a ocurrir o no: queremos saber si algo va a ocurrir o no:
Cu
al es la probabilidad de que salga un seis en una tirada de dado? Cu
al es la probabilidad de que salga un seis en una tirada de dado?
Cu
al es la probabilidad de acertar los seis n
umeros de la lotera primitiva? Cu
al es la probabilidad de acertar los seis n
umeros de la lotera primitiva?
Cual es la probabilidad de que me caiga en el examen un tema de los que Cual es la probabilidad de que me caiga en el examen un tema de los que
tengo preparados? tengo preparados?
Cu
al es la probabilidad de que un paciente sobreviva a una determinada
operaci
on de trasplante?
Vinculada inicialmente a los juegos de azar, la probabilidad aparece siempre que La mayora de la gente tiene una noci
on de lo que significa la probabilidad de
queremos saber si algo va a ocurrir o no: que algo ocurra:
Cu
al es la probabilidad de que salga un seis en una tirada de dado?
Cu
al es la probabilidad de acertar los seis n
umeros de la lotera primitiva?
Cual es la probabilidad de que me caiga en el examen un tema de los que
tengo preparados?
Cu
al es la probabilidad de que un paciente sobreviva a una determinada
operaci
on de trasplante?
Y si el paciente sobrevive a la operaci
on, cu
al es la probabilidad de que su
cuerpo rechace el trasplante en menos de un mes?
Sucesos Sucesos
Definici
on de probabilidad Definici
on clasica o de Laplace
Un ejemplo Definici
on axiomatica de Kolmogorov
Sea el espacio muestral, y sea P() el conjunto formado por todos los
sucesos. Se define la probabilidad como una aplicaci
on P : P() [0, 1] que
cumple las siguientes condiciones:
1 Una clase de primaria esta formada por 60 ninas y 40 ni
nos. Se observa
que 26 ninas y 14 ni
nos usan gafas. Si un estudiante es elegido al azar, P() = 1
cu
al es la probabilidad de que use gafas? La probabilidad del suceso seguro es 1.
A B = P(A B) = P(A) + P(B)
Si A y B son sucesos incompatibles, entonces la probabilidad de su uni
on
es la suma de sus probabilidades.
P(A B) = P(A) P(B/A) = P(B) P(A/B) Cuadro: Color de ojos y el color del pelo (Fisher, 1940)
La regla del producto es muy util en experimentos aleatorios que tienen varias
etapas. Las diversas etapas y alternativas se suelen representar en un diagrama
de
arbol tal como se muestra en el siguiente ejemplo.
1/2 R
1/2
A
La regla del producto es muy util en experimentos aleatorios que tienen varias
etapas. Las diversas etapas y alternativas se suelen representar en un diagrama
de
arbol tal como se muestra en el siguiente ejemplo.
Ejemplo: En la urna de la figura se extraen (sin reemplazamiento) dos bolas. La regla del producto. Si tenemos los sucesos A1 , A2 , . . . , An tales que
Calcula la probabilidad de que las dos sean rojas P(A1 A2 . . . An ) 6= 0, entonces se cumple
a a
1 2 P(A1 A2 . . .An ) = P(A1 )P(A2 /A1 )P(A3 /A1 A2 ) P(An /A1 A2 . . .An1 )
4/9
R
1/2 R
5/9 A
5/9
R
1/2
A
4/9 A
La ley de las probabilidades totales considera todas las ramas que llegan al A menudo, la probabilidad de ocurrencia de un suceso B se calcula m as
resultado final observado. facilmente en terminos de probabilidades condicionadas. La idea es encontrar
una sucesion de sucesos mutuamente excluyentes como se indica a
continuaci
on.
Ejemplo: Calcula la probabilidad de al extraer dos bolas (sin reemplazamiento)
la segunda sea roja Sistema completo de sucesos. Es una partici on del espacio muestral, esto es,
a a es una colecci
on de sucesos A1 , A2 , . . . , An (subconjuntos del espacio muestral)
1 2
verificando
4/9 A1 A2 . . . An = (son exhaustivos, cubren todo el espacio muestral)
R
1/2 R son incompatibles dos a dos (si se verifica uno de ellos, no puede a la vez
A ocurrir ninguno de los otros).
5/9
5/9
R Ley de las probabilidades totales. Sea A1 , A2 , . . . , An un sistema completo de
1/2 sucesos. Entonces se cumple que:
A
4/9 A P(B) = P(A1 ) P(B/A1 ) + P(A2 ) P(B/A2 ) + + P(An ) P(B/An )
1 La probabilidad de que una unidad de sangre proceda de un donante Ejemplo: Si la segunda bola es roja, cu
al es la probabilidad de que la primera
a a
remunerado es 0.67. Si el donante es remunerado, la probabilidad de que tambien sea roja? 1 2
la unidad contenga el suero de la hepatitis es 0.0144. Si el donante es
desinteresado, esta probabilidad es 0.0012. Un paciente recibe una unidad 4/9
R
de sangre. Cual es la probabilidad de que contraiga hepatitis como
1/2 R
consecuencia de ello?
5/9 A
5/9
R
1/2
A
4/9 A
Consideremos un experimento que se realiza en dos etapas: Consideremos un experimento que se realiza en dos etapas:
en la primera, tenemos un sistema completo de sucesos A1 , A2 , . . . , An con en la primera, tenemos un sistema completo de sucesos A1 , A2 , . . . , An con
probabilidades P(Ai ) que denominamos probabilidades a priori. probabilidades P(Ai ) que denominamos probabilidades a priori.
En una segunda etapa, ha ocurrido el suceso B y se conocen las En una segunda etapa, ha ocurrido el suceso B y se conocen las
probabilidades condicionadas P(B/Ai ) de obtener en la segunda etapa el probabilidades condicionadas P(B/Ai ) de obtener en la segunda etapa el
suceso B cuando en la primera etapa se obtuvo el suceso Ai , i = 1, . . . , n. suceso B cuando en la primera etapa se obtuvo el suceso Ai , i = 1, . . . , n.
Teorema de Bayes. En las condiciones anteriores, Teorema de Bayes. En las condiciones anteriores,
P(Ai ) P(B/Ai ) P(Ai ) P(B/Ai )
P(Ai /B) = P(Ai /B) =
P(B) P(B)
Adem
as, aplicando en el denominador la ley de probabilidades totales:
P(Ai ) P(B/Ai )
P(Ai /B) =
P(A1 ) P(B/A1 ) + P(A2 ) P(B/A2 ) + + P(An ) P(B/An )
Este teorema resulta de aplicar en el numerador la regla del producto y en el
denominador la ley de probabilidades totales.
Un ejemplo en medicina del Teorema de Bayes Pruebas diagnosticas: Sensibilidad y especificidad. Prevalencia e incidencia.
1 Volvemos al ejemplo de la transfusion de sangre. Un paciente recibe una Las leyes de probabilidad que hemos visto hasta ahora son fundamentales
unidad de sangre y contrae hepatitis. Cu al es la probabilidad de que la en el campo de ciencias de la salud, en la evaluaci
on de pruebas
unidad de sangre utilizada en la transfusi
on proceda de un paciente diagnosticas.
remunerado?
Pruebas diagnosticas: Sensibilidad y especificidad. Prevalencia e incidencia. Pruebas diagnosticas: Sensibilidad y especificidad. Prevalencia e incidencia.
A los medicos les interesa tener mayor capacidad para determinar sin Para evaluar la utilidad de los resultados de una prueba, debemos contestar a
equivocarse la presencia o ausencia de una enfermedad en un paciente a las siguientes preguntas:
partir de los resultados (positivos o negativos) de pruebas o de los
sntomas (presentes o ausentes) que se manifiestan.
1 Dado que un individuo tiene la enfermedad, que probabilidad existe de
que la prueba resulte positiva?
Es importante tener en cuenta que las pruebas de detecci on no siempre
son infalibles y que los procedimientos pueden dar falsos positivos o
2 Dado que un individuo no tiene la enfermedad, que probabilidad existe de
falsos negativos. que la prueba resulte negativa?
3 Dada un resultado positivo de una prueba de detecci
on, que probabilidad
Un falso positivo resulta cuando una prueba indica que el estado es existe de que el individuo tenga la enfermedad?
positivo, cuando en realidad el paciente no est
a enfermo. 4 Dada un resultado negativo de una prueba de detecci
on, que probabilidad
Un falso negativo resulta cuando una prueba indica que el estado es existe de que el individuo no tenga la enfermedad?
negativo, cuando en realidad el paciente est
a enfermo.
Pruebas diagnosticas: Sensibilidad y especificidad. Prevalencia e incidencia. Dado que un individuo tiene la enfermedad, que probabilidad existe de que
la prueba resulte positiva?
Relacionando estas ideas con los conceptos de probabilidad que hemos visto
anteriormente, definiremos los siguientes sucesos: Sensibilidad: La sensibilidad de una prueba es la probabilidad de un resultado
positivo de la prueba dada la presencia de la enfermedad. Se
+ = El resultado de la prueba diagn
ostica es positivo.
trata, por lo tanto, de una probabilidad condicionada, la de que
= El resultado de la prueba diagn
ostica es negativo. el resultado de la prueba sea positivo condicionada a que el
E = El paciente tiene la enfermedad. paciente sufre la enfermedad.
S = El paciente no tiene la enfermedad.
Sensibilidad = P(+/E )
La sensibilidad de un determinado test de anticuerpos del VIH es del 95 %. La sensibilidad de un determinado test de anticuerpos del VIH es del 95 %.
Dado que un individuo no tiene la enfermedad, que probabilidad existe de Especificidad de una prueba diagnostica
que la prueba resulte negativa?
P(/S) = 0.99
Especificidad = P(/S)
Especificidad de una prueba diagnostica Dado un resultado positivo de una prueba de detecci
on, que probabilidad
existe de que el individuo tenga la enfermedad?
P(/S) = 0.99
Si X es una variable discreta, su distribuci on viene dada por los valores que
puede tomar y las probabilidades de que aparezcan. Si x1 < x2 < .. < xn son los
posibles valores de la variable X , las diferentes probabilidades de que ocurran Ejemplo: Los servicios medicos de un equipo de f utbol establecen un perodo
estos sucesos, de entre 7 y 9 das de baja para un futbolista que ha sufrido una fuerte
contusi
on en el trceps sural. Adem
as se estima que
p1 = P (X = x1 ) ,
La probabilidad de que el perodo de baja sea de 7 das es 0.4.
p2 = P (X = x2 ) ,
La probabilidad de que el perodo de baja sea de 8 das es 0.5.
... La probabilidad de que de que el perodo de baja sea de 9 da es 0.1.
pn = P (X = xn ) . Comprueba que se trata efectivamente de una distribuci
on de probabilidad y a
representala.
constituyen la distribuci on se denomina funci
on de X . Esta funci on de
probabilidad o funci on de masa. La funci on de probabilidad se puede
representar an
alogamente al diagrama de barras.
Variables aleatorias discretas. Funcion de distribucion Medidas caractersticas de una variable aleatoria.
F (x1 ) = P (X x1 ) = P (X = x1 )
F (x2 ) = P (X x2 ) = P (X = x1 ) + P (X = x2 ) Los conceptos que permiten resumir una distribuci on de frecuencias
.. utilizando valores numericos pueden utilizarse tambien para describir la
.
distribuci
on de probabilidad de una variable aleatoria.
F (xn ) = P (X xn ) = P (X = x1 ) + ... + P (X = xn ) = 1
La funci
on de distribuci
on es siempre no decreciente y verifica que,
F () = 0,
F (+) = 1.
Media y Varianza poblacional de una variable aleatoria discreta. Propiedades de la media y varianza de una variable aleatoria discreta.
C
omo definiras la varianza de la variable X ?
X
Var(X ) = 2 = (xi )2 pi = (77,7)2 0,5+(87,7)2 0,5+(97,7)2 0,1 = 0,41
i
Propiedades de la media y varianza de una variable aleatoria discreta. Principales modelos de distribuciones discretas
Lo u
nico que hay que conocer es la probabilidad de exito, p, ya que los valores Lo u
nico que hay que conocer es la probabilidad de exito, p, ya que los valores
de X son siempre los mismos y la probabilidad de fracaso es q = 1 p. Un de X son siempre los mismos y la probabilidad de fracaso es q = 1 p. Un
experimento de este tipo se llama experimento de Bernoulli Be(p). experimento de este tipo se llama experimento de Bernoulli Be(p).
Calcula la funci
on de masa y la funci
on de distribuci
on de una Be(p).
Si X Be(p), entonces:
=p
2 = p(1 p)
Principales modelos de distribuciones discretas: Variable Binomial Principales modelos de distribuciones discretas: Variable Binomial
Variable Binomial
Ejemplo: Una pareja descubre que la probabilidad de que un hijo de la pareja Empezando con una prueba de Bernoulli con probabilidad de exito p, vamos a
sufra una determinada enfermedad genetica es 0.6. Si la pareja se plantea tener construir una nueva variable aleatoria al repetir n veces la prueba de Bernoulli.
tres hijos, cu
al es la probabilidad de que exactamente uno de ellos sufra la La variable aleatoria binomial X es el numero de exitos en n repeticiones de
enfermedad genetica? una prueba de Bernoulli con probabilidad de exito p.
Cada hijo es independiente de los dem as y podemos considerarlo como un Debe cumplirse:
ensayo de Bernoulli, donde el exito es estar sano (p = 0,4). Lo que hacemos es Cada prueba individual puede ser un exito o un fracaso
repetir el experimento 3 veces y queremos calcular la probabilidad de que el La probabilidad de exito, p, es la misma en cada prueba
n
umero de exitos sea igual a 2 (es decir, 2 hijos sanos y 1 enfermo)
Las pruebas son independientes. El resultado de una prueba no tiene
influencia sobre los resultados siguientes
Principales modelos de distribuciones discretas: Variable Binomial Principales modelos de distribuciones discretas: Variable Binomial
X = N
umero de exitos en las n pruebas X = N
umero de exitos en las n pruebas
Denotaremos esta variable como Bin(n, p). Denotaremos esta variable como Bin(n, p).
Que valores toma una Bin(n, p)?
Cu
al es su funci
on de masa?
Variable Binomial
La variable aleatoria binomial X es el n
umero de exitos en n repeticiones de El coeficiente binomial
una prueba de Bernoulli con probabilidad de exito p, es decir: n n!
=
k k!(n k)!
X = N
umero de exitos en las n pruebas
representa el numero de subconjuntos diferentes de k elementos que se pueden
La probabilidad de obtener k exitos en n pruebas es definir a partir de un total de n elementos (combinaciones de n elementos
tomados de k en k).
n
P(X = k) = p k (1 p)nk
k
El coeficiente binomial
n n!
=
k k!(n k)!
representa el n
umero de subconjuntos diferentes de k
elementos que se pueden definir a partir de un total de
n elementos (combinaciones de n elementos tomados
de k en k).
El coeficiente binomial
n n!
=
k k!(n k)!
Variable Binomial
representa el numero de subconjuntos diferentes de k elementos que se pueden La variable aleatoria binomial X es el n
umero de exitos en n repeticiones de
definir a partir de un total de n elementos (combinaciones de n elementos una prueba de Bernoulli con probabilidad de exito p, es decir:
tomados de k en k).
X = N
umero de exitos en las n pruebas
Por ejemplo, si para un partido de dobles de la Copa Davis tenemos a tres
jugadores ({Robredo, Feliciano Lopez, Verdasco}), el entrenador tendr
a La media y la varianza de una Bin(n, p) son:
=np
3 3! 2 = n p (1 p)
= =3
2 2!1!
Principales modelos de distribuciones discretas: Poisson Principales modelos de distribuciones discretas: Poisson
Variable Poisson
En muchas circunstancias (llamadas a una centralita telef onica de un on de Poisson de par
Una variable aleatoria X tiene distribuci ametro , y lo
hospital, n
umero de leucocitos en una gota de sangre, . . . ) el n
umero de denotamos X Poisson(), si es discreta y
individuos susceptibles de dar lugar a un exito es muy grande.
k
Para modelizar estas situaciones mediante una distribuci on binomial P(X = k) = e si k {0, 1, 2, 3, . . .}
k!
tendremos problemas al escoger el par ametro n (demasiado grande o
incluso difcil de determinar) y al calcular la distribuci
on de probabilidad La media y la varianza de la Poisson de par
ametro son:
(la f
ormula resulta inviable). =
2 =
Ejemplo
La probabilidad de que una persona se desmaye en un concierto es p = 0,005.
Cual es la probabilidad de que en un concierto al que asisten 3000 personas se
desmayen 18?
Utilizaremos la distribuci
on de Poisson como aproximaci
on de la
distribuci
on binomial cuando n sea grande y p pequeno, en base al lmite
que hemos visto.
Como criterio podremos aproximar cuando n > 50 y p < 0,1.
Principales modelos de distribuciones discretas: Poisson Principales modelos de distribuciones discretas: Poisson
Ejemplo
La probabilidad de que una persona se desmaye en un concierto es p = 0,005.
Cual es la probabilidad de que en un concierto al que asisten 3000 personas se
desmayen 18?
La variable X =N umero de personas que se desmayan en el concierto
Aunque la distribucion de Poisson se ha obtenido como forma lmite de una
sigue una distribuci
on Bin(3000, 0,005). Queremos calcular
distribuci
on Binomial, tiene muchas aplicaciones sin conexion directa con las
distribuciones binomiales. Por ejemplo, la distribuci
on de Poisson puede servir
3000
P(X = 18) = 0,00518 0,9952982 = 0,07071. como modelo del n umero de exitos que ocurren durante un intervalo de tiempo
18
o en una region especfica.
Estos valores est
an fuera de las tablas de la binomial y son difciles de calcular,
por eso es preferible aproximar por una Poisson de par ametro
= np = 3000 0,005 = 15. Entonces:
1518
P(X = 18) P(Poisson(15) = 18) = e 15 = 0,07061.
18!
Principales modelos de distribuciones discretas: Poisson Principales modelos de distribuciones discretas: Poisson
Ejemplo
Definimos el proceso de Poisson como un experimento aleatorio que consiste El n
umero de nacimientos en un hospital constituye un proceso de Poisson con
en contar el numero de ocurrencias de determinado suceso en un intervalo de intensidad de 10 nacimientos por semana. Cual es la probabilidad de que se
tiempo, verificando: produzcan al menos tres nacimientos en una semana?
El n
umero medio de sucesos por unidad de tiempo es constante. A esa
constante la llamamos intensidad del proceso.
Los n
umeros de ocurrencias en subintervalos disjuntos son independientes.
Ejemplo Ejemplo
El n
umero de nacimientos en un hospital constituye un proceso de Poisson con El n
umero de nacimientos en un hospital constituye un proceso de Poisson con
intensidad de 10 nacimientos por semana. Cual es la probabilidad de que se intensidad de 10 nacimientos por semana. Cual es la probabilidad de que se
produzcan al menos tres nacimientos en una semana? produzcan al menos tres nacimientos en una semana?
P(X 3) = 1 P(X < 3) = 1 [P(X = 0) + P(X = 1) + P(X = 2)] P(X 3) = 1 P(X < 3) = 1 [P(X = 0) + P(X = 1) + P(X = 2)]
100 101 102
= 1 e 10 + e 10 + e 10
0! 1! 2!
Cu
al es la probabilidad de que se produzcan 5 nacimientos un da?
Ejemplo
Ejemplo En un estudio sobre atenci
on a la tercera edad se desea evaluar la edad a la que las
En un estudio sobre atenci
on a la tercera edad se desea evaluar la edad a la que las personas mayores deciden ingresar en un centro geriatrico.
personas mayores deciden ingresar en un centro geriatrico.
Se registra la edad a la que ingresaron los 50 residentes de un determinado
Se registra la edad a la que ingresaron los 50 residentes de un determinado centro gerontologico y se construye el histograma correspondiente.
centro gerontologico y se construye el histograma correspondiente.
Sea A el suceso El residente ingresa con edad entre 70 y 80 a
nos.
Ejemplo
En un estudio sobre atenci
on a la tercera edad se desea evaluar la edad a la que las
personas mayores deciden ingresar en un centro geriatrico.
Idealmente, se registra la edad de todos los residentes de centros gerontol
ogicos Tomando m as observaciones de una variable continua y haciendo m as
y se construye el histograma correspondiente. finas las clases, el histograma tiende a estabilizarse en una curva suave que
describe la distribucion de la variable.
Sea A el suceso El residente ingresa con edad entre 70 y 80 a
nos.
on, f (x) , se llama funci
Esta funci on de densidad de la variable X .
La funci
on de densidad constituye una idealizaci
on de los histogramas de
frecuencia o un modelo del cual suponemos que proceden las
observaciones.
La funcion de densidad cumple dos propiedades b
asicas: es no negativa y
el
area total que contiene es uno.
Ejemplo Ejemplo
Un estudiante va todos los das a la facultad en la lnea 1 del autob
us urbano. Un estudiante va todos los das a la facultad en la lnea 1 del autob
us urbano.
Llega a la parada a las 3 de la tarde y cuenta el tiempo (en minutos) que tiene Llega a la parada a las 3 de la tarde y cuenta el tiempo (en minutos) que tiene
que esperar hasta que llega el autobus. A continuaci on se muestra el que esperar hasta que llega el autobus. A continuaci on se muestra el
histograma correspondiente al tiempo de espera de los u ltimos 1000 das. A la histograma correspondiente al tiempo de espera de los u ltimos 1000 das. A la
vista del histograma, c
omo modelizaras el tiempo de espera? vista del histograma, c
omo modelizaras el tiempo de espera?
Ejemplo Ejemplo
Un estudiante va todos los das a la facultad en la lnea 6 del autob
us urbano. Un estudiante va todos los das a la facultad en la lnea 6 del autob
us urbano.
Llega a la parada a las 3 de la tarde y cuenta el tiempo (en minutos) que tiene Llega a la parada a las 3 de la tarde y cuenta el tiempo (en minutos) que tiene
que esperar hasta que llega el autobus. A continuaci on se muestra el que esperar hasta que llega el autobus. A continuaci on se muestra el
histograma correspondiente al tiempo de espera de los u ltimos 1000 das. A la histograma correspondiente al tiempo de espera de los u ltimos 1000 das. A la
vista del histograma, c
omo modelizaras el tiempo de espera? vista del histograma, c
omo modelizaras el tiempo de espera?
Variables aleatorias continuas: Funcion de densidad Momentos poblacionales de una variable aleatoria continua.
La funci
on de densidad expresa probabilidades por
areas.
La probabilidad de que una variable X sea menor que un determinado
valor x0 se obtiene calculando el area de la funci
on de densidad hasta el Propiedades
punto x0 , es decir, Sea X una variable aleatoria continua con funci
on de densidad f (x). Entonces:
Z x0
E(a + bX )= a + bE(X )
F (x0 ) = P (X x0 ) = f (x) dx,
Var(X )= E(X 2 ) (E(X ))2
La probabilidad de que la variable tome un valor entre x0 y x1 es, Var(a + bX )= b 2 Var (X )
Z x1
P (x0 X x1 ) = f (x) dx.
x0
The palpated cranial rhythmic impulse (CRI): Its normative rate and examiner experience.
International Journal of Osteopathic Medicine (2010)
The spontaneous eye-blink as sleepiness indicator in patients with obstructive sleep apnoea syndrome-a pilot study.
Sleep Medicine 6 (2005) 155-162.
Bioestadstica. Grado en Medicina. Beatriz Pateiro L
opez Captulo 4. Variables aleatorias continuas Bioestadstica. Grado en Medicina. Beatriz Pateiro L
opez Captulo 4. Variables aleatorias continuas
Principales modelos de distribuciones continuas Principales modelos de distribuciones continuas
Modeling potential generation during single and dual electrode stimulation of CA3 axons in hippocampal slice.
Computers in Biology and Medicine (2010)
Hemoglobin A1c Predicts Diabetes but Not Cardiovascular Disease in Nondiabetic Women.
The American Journal of Medicine (2007)
Selenium status of the Swiss population: Assessment and change over a decade.
Journal of Trace Elements in Medicine and Biology (2008)
Principales modelos de distribuciones continuas: Variable Normal Principales modelos de distribuciones continuas: Variable Normal
Ejemplo Ejemplo
Un centro hospitalario dispone de 3 m aquinas de electrocardiograma (maquina Un centro hospitalario dispone de 3 m aquinas de electrocardiograma (maquina
de ECG). A continuaci on se muestra el histograma correspondiente al tiempo de ECG). A continuaci on se muestra el histograma correspondiente al tiempo
(medido en minutos) de 500 registros de la actividad electrica del coraz
on (medido en minutos) de 500 registros de la actividad electrica del coraz
on
producidos con la primera m aquina. A la vista del histograma. como producidos con la primera m aquina. A la vista del histograma. como
modelizaras el tiempo de registro de la primera maquina? modelizaras el tiempo de registro de la primera maquina?
Ejemplo Ejemplo
Un centro hospitalario dispone de 3 m aquinas de electrocardiograma (maquina Un centro hospitalario dispone de 3 m aquinas de electrocardiograma (maquina
de ECG). A continuaci on se muestra el histograma correspondiente al tiempo de ECG). A continuaci on se muestra el histograma correspondiente al tiempo
(medido en minutos) de 500 registros de la actividad electrica del coraz
on (medido en minutos) de 500 registros de la actividad electrica del coraz
on
producidos con la segunda m aquina. A la vista del histograma. c
omo producidos con la segunda m aquina. A la vista del histograma. c
omo
modelizaras el tiempo de registro de la segunda maquina? modelizaras el tiempo de registro de la segunda maquina?
Principales modelos de distribuciones continuas: Variable Normal Principales modelos de distribuciones continuas: Variable Normal
Ejemplo Ejemplo
Un centro hospitalario dispone de 3 m aquinas de electrocardiograma (maquina Un centro hospitalario dispone de 3 m aquinas de electrocardiograma (maquina
de ECG). A continuaci on se muestra el histograma correspondiente al tiempo de ECG). A continuaci on se muestra el histograma correspondiente al tiempo
(medido en minutos) de 500 registros de la actividad electrica del coraz
on (medido en minutos) de 500 registros de la actividad electrica del coraz
on
producidos con la tercera m aquina. A la vista del histograma. como producidos con la tercera m aquina. A la vista del histograma. como
modelizaras el tiempo de registro de la tercera m
aquina? modelizaras el tiempo de registro de la tercera m
aquina?
Principales modelos de distribuciones continuas: Variable Normal Principales modelos de distribuciones continuas: Variable Normal
Ejemplo
Un centro hospitalario dispone de 3 maquinas de electrocardiograma (m aquina
de ECG). Supongamos que modelizamos el tiempo de registro de la tres on normal es la m
La distribuci as importante y de mayor uso de todas las
maquinas mediante las siguientes curvas. Que tienen en comun dichas curvas? distribuciones continuas de probabilidad.
Que las diferencia? Por multiples razones se viene considerando la mas id
onea para modelizar
una gran diversidad de mediciones de la Fsica, Qumica o Biologa.
La normal es una familia de variables que depende de dos par
ametros, la
media y la varianza.
Dado que todas est an relacionadas entre si mediante una transformaci
on
muy sencilla, empezaremos estudiando la denominada normal est andar
para luego definir la familia completa.
Principales modelos de distribuciones continuas: Variable Normal Principales modelos de distribuciones continuas: Variable Normal
Principales modelos de distribuciones continuas: Variable Normal Principales modelos de distribuciones continuas: Variable Normal
Variable Normal
Sea X N(, ). La funci
on de densidad de una N(, ) es
1 (x)2
Variable Normal
f (x) = e 22 , x R
2 2
Efectuando un cambio de localizaci on y escala sobre la normal est
andar,
podemos obtener una distribuci on con la misma forma pero con la media y
desviaci
on tpica que queramos.
Si Z N(0, 1) entonces
X = +Z
tiene distribuci
on normal de media y desviaci
on tpica .
Denotaremos X N(, ).
Si X N(, ) entonces la media de X es y su varianza es 2 .
Principales modelos de distribuciones continuas: Variable Normal Principales modelos de distribuciones continuas: Variable Normal
En la practica s
olo disponemos de la tabla de la distribuci
on normal est andar.
Para efectuar c alculos sobre cualquier distribuci
on normal hacemos la
transformaci on inversa, esto es, le restamos la media y dividimos por la
on tpica. A este proceso le llamamos estandarizaci
desviaci on de una variable
aleatoria.
X
Si X N(, ) entonces Z = N(0, 1).
Principales modelos de distribuciones continuas: Variable Normal Principales modelos de distribuciones continuas: Variable Normal
Ejemplo Ejemplo
Supongamos que X N(5, 2). C
omo calcularas P(X 1)? Supongamos que X N(5, 2). C
omo calcularas P(X 1)?
X 5 15
P(X 1) = P = P (Z 2)
2 2
X 5
donde Z = 2
N(0, 1).
Sensibilidad
13 16 24 13 16 24
1 Cu
al es la sensibilidad y la especificidad de la prueba si el punto de corte es 16mmHg? 1 Cu
al es la sensibilidad y la especificidad de la prueba si el punto de corte es 16mmHg?
2 Cu
al es la probabilidad de falso positivo? Y la de falso negativo? 2 Cu
al es la probabilidad de falso positivo? Y la de falso negativo?
Especificidad
Falso +
13 16 24 13 16 24
1 Cu
al es la sensibilidad y la especificidad de la prueba si el punto de corte es 16mmHg? 1 Cu
al es la sensibilidad y la especificidad de la prueba si el punto de corte es 16mmHg?
2 Cu
al es la probabilidad de falso positivo? Y la de falso negativo? 2 Cu
al es la probabilidad de falso positivo? Y la de falso negativo?
Sanos Glaucomatosos
Falso
13 16 24
1 Cu
al es la sensibilidad y la especificidad de la prueba si el punto de corte es 16mmHg?
2 Cu
al es la probabilidad de falso positivo? Y la de falso negativo?
Introduccion Introducci
on
Captulo 1: conceptos basicos de Estadstica Descriptiva, que nos Captulo 1: conceptos basicos de Estadstica Descriptiva, que nos
proporcionaban herramientas para resumir, ordenar y extraer los aspectos proporcionaban herramientas para resumir, ordenar y extraer los aspectos
mas relevantes de la informacion de la muestra. mas relevantes de la informacion de la muestra.
Captulo 2: bases para trabajar con incertidumbres o probabilidades. Captulo 2: bases para trabajar con incertidumbres o probabilidades.
Captulos 3 y 4: principales modelos de variables aleatorias. Captulos 3 y 4: principales modelos de variables aleatorias.
INFERENCIA ESTADISTICA
Ahora podremos empezar a hacer inferencia sobre la poblaci
on
de interes bas
andonos en lo que observamos en una muestra
Introduccion Introducci
on
Introduccion Introducci
on
En que problema de inferencia enmarcaras las siguientes noticias? Una muestra aleatoria simple de tama
no n est
a formada por n variables
1 El insomnio, que es la falta de sue
no a la hora de dormir, afecta entre un X1 , X2 , , Xn
10 y 20 % de la poblacion general, pero se dispara hasta 32 % en los
mayores de 65 anos. independientes y con la misma distribuci
on que X .
2 El resultado del sndrome de piernas inquietas es una interrupci
on del Llamamos realizaci on muestral a los valores concretos que tomaron las n
sueno que puede dar lugar a insomnio y somnolencia diurna. La variables aleatorias despues de la obtenci
on de la muestra.
prevalencia de este trastorno aumenta con la edad, estim andose que lo Un estadstico es una funci
on de la muestra aleatoria, y por tanto nace
padecen entre un 10 y un 20 % de los mayores de 65 a nos. como resultado de cualquier operacion efectuada sobre la muestra.
3 Seg un un estudio el 25 % de la poblaci on sufre problemas mentales por la Al valor del estadstico obtenido con una realizaci
on muestral concreta se
situaci
on econ omica. El mismo estudio afirma que el 40 % de la poblaci on le llama estimacion.
utiliza el alcohol para evadirse de la situaci
on economica. Sin embargo,
Un estadstico es tambien una variable aleatoria y por ello tendr
a una
hay otros an alisis que dudan de la veracidad de dichas conclusiones.
on, que se denomina distribuci
cierta distribuci on del estadstico en el
muestreo.
Teorema Central del Lmite Ademas del modelo normal, existen otros modelos que desempe nan un papel
Si X1 , X2 , . . . , Xn son variables aleatorias independientes y con la misma importante en la inferencia estadstica. Entre ellos se encuentran
distribucion X , donde X tiene media y varianza 2 , entonces para n grande,
on 2
la distribuci
la variable
X1 + X2 + . . . + Xn la distribuci
on t de Student.
n
es aproximadamente normal con media y varianza 2 /n.
X1 + X2 + . . . + Xn d
N , .
n n
La distribucion 2 La distribuci
on t de Student
2 La distribuci
on Chi-cuadrado es asim
etrica.
Figura : En verde densidad de una t de Student con 2 grados de libertad, en rojo N(0,1) y en
negro densidad de una t de Student con 20 grados de libertad
Propiedades.
Figura : En verde densidad de una t de Student con 2 grados de libertad y en rojo 1 La variable t de Student toma valores en toda la recta real.
densidad de una N(0,1)
2 La distribuci
on t de Student es sim
etrica en torno al origen.
d
3 tk N(0, 1) cuando k .
Bioestadstica. Curso 2012-2013 Estimacion Puntual. Consiste en aventurar un valor, calculado a partir de
Grado en Medicina la muestra, que este lo m
as pr
oximo posible al verdadero par
ametro.
Captulo 6. Estimaci
on puntual e Intervalos de confianza Intervalos de Confianza. Dado que la estimaci on puntual conlleva un
cierto error, construmos un intervalo que con alta probabilidad contenga
al par
ametro. La amplitud del intervalo nos da idea del margen de error de
Beatriz Pateiro L
opez nuestra estimacion.
Contrastes de Hip otesis. Se trata de responder a preguntas muy
concretas sobre la poblacion, y se reducen a un problema de decisi
on sobre
la veracidad de ciertas hip
otesis.
Introduccion Estimaci
on puntual (de una proporci
on)
X1 + X2 + . . . + Xn
p
=
n
Distribuci
on de p
r !
p(1 p)
N
p p,
n
Sea X1 , X2 , . . . , Xn una muestra aleatoria simple con Xi N (, ). Supongamos que queremos estimar un par
ametro desconocido y lo hacemos
mediante el estadstico
Estimaci
on puntual de la media
= X1 + X2 + . . . + Xn
X
n
es insesgado si E()
=
Entonces, Si adem 0 cuando n ,
as Var()
el estimador es consistente
Distribuci
on de X
N
X ,
n
P(L1 L2 ) 1 P(L1 L2 ) 1
Sea X1 , X2 , . . . , Xn una muestra formada por n variables independientes y con la Sea X1 , X2 , . . . , Xn una muestra formada por n variables independientes y con la
misma distribuci on N(, ). Supongamos que 2 es conocida. misma distribuci on N(, ). Supongamos que 2 es conocida.
Sea z/2 el valor tal que P(Z > z/2 ) = /2, Sea z/2 el valor tal que P(Z > z/2 ) = /2,
siendo Z N(0, 1). Entonces: siendo Z N(0, 1). Entonces:
X X
P z/2 z/2 = 1 P z/2 z/2 = 1
/ n / n
1 Equivalentemente, 1
P X z/2 X
+ z/2 =1
n n
z/2 z/2
C
omo estimaras el nivel medio de protena a partir de esta muestra?
Intervalo de confianza de nivel 1 para la media cuando 2 es conocida Nuevas investigaciones determinan que la variable de inter
es es aproximadamente
normal con varianza igual a 45. Construye un intervalo de confianza para el nivel
medio de protena en el cuerpo humano con nivel de confianza del 95 %.
z/2 , X
X + z/2
n n Cu
al sera el intervalo de confianza para un nivel de confianza del 90 %?
2
Intervalo de confianza para la media de una poblacion normal ( on normal ( 2
Intervalo de confianza para la media de una poblaci
desconocida) desconocida)
Sea X1 , X2 , . . . , Xn una muestra formada por n variables independientes y con la Sea X1 , X2 , . . . , Xn una muestra formada por n variables independientes y con la
misma distribuci on N(, ). misma distribuci on N(, ).
En la pr actica no es habitual conocer la varianza de la variable de inter
es. En la pr actica no es habitual conocer la varianza de la variable de inter
es.
Cuando la varianza 2 es desconocida, usaremos como estadstico (pivote) para
construir un intervalo de confianza para la media
X
S/ n
Recuerda que: v
u n
u 1 X
S=t )2
(Xi X
n 1 i=1
Sea X1 , X2 , . . . , Xn una muestra formada por n variables independientes y con la Sea X1 , X2 , . . . , Xn una muestra formada por n variables independientes y con la
misma distribuci on N(, ). misma distribuci on N(, ). Supongamos que 2 es desconocida.
En la pr actica no es habitual conocer la varianza de la variable de inter
es. Sea t/2 el valor tal que P(T > t/2 ) = /2,
donde T es una variable t de Student con n 1
Cuando la varianza 2 es desconocida, usaremos como estadstico (pivote) para
grados de libertad. Entonces:
construir un intervalo de confianza para la media
X
X P t/2 t/2 = 1
S/ n
S/ n
Recuerda que: 1
v
u n
u 1 X
S=t )2
(Xi X
n 1 i=1
t/2 t/2
En este caso:
X
tn1
S/ n
Sea X1 , X2 , . . . , Xn una muestra formada por n variables independientes y con la Sea X1 , X2 , . . . , Xn una muestra formada por n variables independientes y con la
misma distribuci on N(, ). Supongamos que 2 es desconocida. misma distribuci on N(, ). Supongamos que 2 es desconocida.
Sea t/2 el valor tal que P(T > t/2 ) = /2, Sea t/2 el valor tal que P(T > t/2 ) = /2,
donde T es una variable t de Student con n 1 donde T es una variable t de Student con n 1
grados de libertad. Entonces: grados de libertad. Entonces:
X X
P t/2 t/2 = 1 P t/2 t/2 = 1
S/ n S/ n
Equivalentemente, 1 Equivalentemente, 1
P X t/2 S X
+ t/2 S =1 P X t/2 S X
+ t/2 S =1
n n
n n
2
Intervalo de confianza para la media de una poblacion normal ( Intervalo de confianza para la diferencia de medias de poblaciones normales
desconocida)
C
omo estimaras el Volumen Espiratorio Forzado medio?
1 X
(X 2 ) (1 2 )
Construye un intervalo de confianza para el Volumen Espiratorio Forzado medio r N(0, 1)
con nivel de confianza del 95 %. 12 22
n1
+ n2
Cu
al sera el intervalo de confianza para un nivel de confianza del 90 %?
1
El Volumen Espiratorio Forzado es la cantidad de aire expulsado durante el primer segundo de
la espiraci
on m
axima, realizada tras una inspiraci
on maxima
Bioestadstica. Grado en Medicina. Beatriz Pateiro L
opez Captulo 6. Estimaci
on puntual e Intervalos de confianza Bioestadstica. Grado en Medicina. Beatriz Pateiro L
opez Captulo 6. Estimaci
on puntual e Intervalos de confianza
Intervalo de confianza para la diferencia de medias de poblaciones normales Intervalo de confianza para la diferencia de medias de poblaciones normales
Intervalo de confianza para la diferencia de medias de poblaciones normales Intervalo de confianza para la diferencia de medias de poblaciones normales
Intervalo de confianza para la diferencia de medias de poblaciones normales Intervalo de confianza para la diferencia de medias de poblaciones normales
Intervalo de confianza de nivel 1 para la para la Intervalo de confianza de nivel 1 para la para la
diferencia de medias 1 2 . Muestras apareadas diferencia de medias 1 2 . Muestras apareadas
SD
t/2 SD SD
t/2 SD
D , D + t/2 D , D + t/2
n n t con n1 g.l. n n t con n1 g.l.
Ejemplo: Se quiere estudiar los efectos del abandono de la bebida sobre la presi on sist
olica en Ejemplo: Se quiere estudiar los efectos del abandono de la bebida sobre la presi on sist
olica en
individuos alcoh
olicos. Para ello se mide la presi
on sist
olica en 10 individuos alcoh
olicos antes y individuos alcoh
olicos. Para ello se mide la presi
on sist
olica en 10 individuos alcoh
olicos antes y
despues de 2 meses de haber dejado al bebida. Calcula el IC para 1 2 al 95 %. despues de 2 meses de haber dejado al bebida. Calcula el IC para 1 2 al 95 %.
Sujeto 1 2 3 4 5 6 7 8 9 10 Sujeto 1 2 3 4 5 6 7 8 9 10
X1 presi
on antes 140 165 160 160 175 190 170 175 155 160 X1 presi
on antes 140 165 160 160 175 190 170 175 155 160
X2 presi
on despues 145 150 150 160 170 175 160 165 145 170 X2 presi
on despues 145 150 150 160 170 175 160 165 145 170
Diferencias Di 5 15 10 0 5 15 10 10 10 10
Intervalo de confianza de nivel 1 para la para la Intervalo de confianza de nivel 1 para la para la
diferencia de medias 1 2 . Muestras apareadas diferencia de medias 1 2 . Muestras apareadas
SD
t/2 SD SD
t/2 SD
D , D + t/2 D , D + t/2
n n t con n1 g.l. n n t con n1 g.l.
Ejemplo: Se quiere estudiar los efectos del abandono de la bebida sobre la presi on sist
olica en Ejemplo: Se quiere estudiar los efectos del abandono de la bebida sobre la presi on sist
olica en
individuos alcoh
olicos. Para ello se mide la presi
on sist
olica en 10 individuos alcoh
olicos antes y individuos alcoh
olicos. Para ello se mide la presi
on sist
olica en 10 individuos alcoh
olicos antes y
despues de 2 meses de haber dejado al bebida. Calcula el IC para 1 2 al 95 %. despues de 2 meses de haber dejado al bebida. Calcula el IC para 1 2 al 95 %.
Sujeto 1 2 3 4 5 6 7 8 9 10 Sujeto 1 2 3 4 5 6 7 8 9 10
X1 presi
on antes 140 165 160 160 175 190 170 175 155 160 X1 presi
on antes 140 165 160 160 175 190 170 175 155 160
X2 presi
on despues 145 150 150 160 170 175 160 165 145 170 X2 presi
on despues 145 150 150 160 170 175 160 165 145 170
Diferencias Di 5 15 10 0 5 15 10 10 10 10 Diferencias Di 5 15 10 0 5 15 10 10 10 10
Intervalo de confianza para una proporcion p Intervalo de confianza para la diferencia de proporciones p1 p2
2
http://www.pewinternet.org/
Bioestadstica. Grado en Medicina. Beatriz Pateiro L
opez Captulo 6. Estimaci
on puntual e Intervalos de confianza Bioestadstica. Grado en Medicina. Beatriz Pateiro L
opez Captulo 6. Estimaci
on puntual e Intervalos de confianza
Cuando un investigador trata de entender o explicar algo, generalmente Cuando un investigador trata de entender o explicar algo, generalmente
formula su problema de investigaci
on por medio de una hip otesis formula su problema de investigaci
on por medio de una hip otesis
Ejemplo: No se si la edad media que tienen las mujeres gallegas cuando Ejemplo: No se si la edad media que tienen las mujeres gallegas cuando
deciden tener su primer hijo es igual que en el resto de Espa
na (29.3 a
nos) deciden tener su primer hijo es igual que en el resto de Espa
na (29.3 a
nos)
Hip
otesis nula Hip
otesis nula
H0 : = 29.3 H0 : = 29.3
Tomo una muestra de 6 mujeres gallegas embarazadas primerizas Tomo una muestra de 36 mujeres gallegas embarazadas primerizas
= 30.5 a
X nos = 30.5 a
X nos
Existe suficiente evidencia en los datos para rechazar H0 ? Existe suficiente evidencia en los datos para rechazar H0 ?
O la diferencia entre X y el valor hipot
etico de puede ser O la diferencia entre X y el valor hipot
etico de puede ser
debido al azar? debido al azar?
Supongamos un juicio en el que se trata de decidir la culpabilidad o inocencia La probabilidad del error de tipo I se denota por y se denomina nivel de
de un acusado. significaci
on.
Hip
otesis nula: el acusado es inocente (todo acusado es
Nivel de significaci
on
inocente hasta que se demuestre lo contrario).
Hip
otesis alternativa: el acusado es culpable. = P(Rechazar H0 /H0 es cierta)
Juicio: es el procedimiento en el cual se trata de probar la La probabilidad del error de tipo II se denota por
culpabilidad del acusado y la evidencia debe ser muy fuerte
para que se rechace la inocencia (H0 ) en favor de la = P(No rechazar H0 /H0 es falsa)
culpabilidad (Ha ).
Potencia: Es la probabilidad de detectar que una hip
otesis es falsa.
Decisi
on: el veredicto.
Error de tipo I: condenar a un inocente. Potencia
Error de tipo II: absolver a un culpable. Potencia = P(Rechazar H0 /H0 es falsa) = 1
Regi
on crtica. Contrastes bilaterales y unilaterales Regi
on crtica. Contrastes bilaterales y unilaterales
H0 : = 29.3 H0 : 29.3
H1 : 6= 29.3 H1 : > 29.3
Si estamos interesados en determinar si difiere significativamente de Si estamos interesados en determinar si es significativamente mayor
est
29.3, deberamos rechazar H0 si X a lejos de 29.3 en ambas est
que 29.3, deberamos rechazar H0 si X a lejos de 29.3 en una sola
direcciones. direcci
on.
X
X
29.3 29.3
Regi
on de rechazo Regi
on de rechazo Regi
on de rechazo
Puntos de corte Punto de corte
Regi
on crtica. Contrastes bilaterales y unilaterales Contraste de hip
otesis
Las etapas en la resoluci
on de un contraste de hip
otesis son:
Debemos establecer una regla de decisi
on para determinar cuando
rechazamos o no la hip
otesis nula H0 Especificar las hip
otesis nula H0 y alternativa H1 .
Ejemplo: Es la edad media de las madres primerizas en Galicia menor que Elegir un estadstico de contraste apropiado, para medir la discrepancia
la edad media de las madres primerizas en el resto de Espa
na (29.3 a
nos)? entre la hip
otesis y la muestra.
Fijar el nivel de significaci
on en base a como de importante se considere
Contraste unilateral rechazar H0 cuando realmente es cierta.
Al fijar un nivel de significaci
on, , se obtiene implcitamente una divisi
on
H0 : 29.3 en dos regiones del conjunto de posibles valores del estadstico de
H1 : < 29.3 contraste:
La regi
on de rechazo o regi
on crtica que tiene probabilidad (bajo H0 ).
La regi
on de aceptaci
on que tiene probabilidad 1 (bajo H0 ).
Si estamos interesados en determinar si es significativamente menor Si el valor del estadstico cae en la regi
on de rechazo, los datos no son
est
que 29.3, deberamos rechazar H0 si X a lejos de 29.3 en una sola compatibles con H0 y la rechazamos. Entonces se dice que el contraste es
direcci
on. estadsticamente significativo, es decir existe evidencia estadsticamente
significativa a favor de H1 .
X Si el valor del estadstico cae en la regi
on de aceptacion, no existen
29.3
Regi
on de rechazo razones suficientes para rechazar la hip otesis nula con un nivel de
Punto de corte on , y el contraste se dice estadsticamente no significativo,
significaci
es decir no existe evidencia a favor de H1 .
Contraste sobre la media de una poblacion normal con varianza conocida Contraste sobre la media de una poblaci
on normal con varianza conocida
Se sabe que la edad de las madres primerizas en Galicia sigue una distribuci
on normal con
una desviacion tpica = 2 a
nos.
Tomamos una muestra de 36 madres primerizas gallegas. Queremos contrastar si la edad
media de las madres primerizas en Galicia difiere de la edad media de las madres primerizas
Sea X1 , X2 , . . . , Xn una muestra formada por n variables independientes y con la en el resto de Espa na (29.3 a
nos).
misma distribuci on N(, ).
Supongamos que la varianza 2 es conocida
Se desea contrastar una hip
otesis relativa a la media, .
Contraste bilateral
(hip
otesis nula simple)
H0 : = 0
H1 : 6= 0
Contraste sobre la media de una poblacion normal con varianza conocida Contraste sobre la media de una poblaci
on normal con varianza conocida
Se sabe que la edad de las madres primerizas en Galicia sigue una distribuci
on normal con Se sabe que la edad de las madres primerizas en Galicia sigue una distribuci
on normal con
una desviacion tpica = 2 a
nos. una desviacion tpica = 2 a
nos.
Tomamos una muestra de 36 madres primerizas gallegas. Queremos contrastar si la edad Tomamos una muestra de 36 madres primerizas gallegas. Queremos contrastar si la edad
media de las madres primerizas en Galicia difiere de la edad media de las madres primerizas media de las madres primerizas en Galicia difiere de la edad media de las madres primerizas
en el resto de Espa na (29.3 a
nos). en el resto de Espa na (29.3 a
nos).
29.3 c1 29.3 c2
Regi
on de rechazo Regi
on de rechazo
on de X 29.3 es N(0, 1)
Si H0 es cierta, la distribuci on de X 29.3 es N(0, 1)
Si H0 es cierta, la distribuci
0.333 0.333
1 1 1 1
c1 29.3 c2
c1 29.3 c2
Contraste sobre la media de una poblacion normal con varianza conocida Contraste sobre la media de una poblaci
on normal con varianza conocida
Se sabe que la edad de las madres primerizas en Galicia sigue una distribuci on normal con
una desviacion tpica = 2 a
nos.
Tomamos una muestra de 36 madres primerizas gallegas. Queremos contrastar si la edad 0
X
media de las madres primerizas en Galicia difiere de la edad media de las madres primerizas Si H0 es cierta, la distribuci
on de
/ n
es N(0, 1)
en el resto de Espa na (29.3 a
nos).
Observamos que X = 30.5 a
nos. En base a la muestra, podras concluir que la edad media
de las madres primerizas en Galicia difiere de la edad media de las madres primerizas en el
resto de Espana?
Si H0 es cierta, la distribuci es N(29.3, 2/6)
on de X
on de X 29.3 es N(0, 1)
Si H0 es cierta, la distribuci
0.333
1
z/2 0 z/2
1 1
Regi
on de rechazo Regi
on de rechazo
c1 29.3 c2
z/2 0 z/2
Regi
on de rechazo Regi
on de rechazo Regi
on de rechazo Regi
on de rechazo
Rechazamos la hip
otesis nula H0 : = 0 frente a H1 : 6= 0 si
0
X 0
X
Rechazamos la hip
otesis nula H0 : = 29.3 frente a H1 : 6= 29.3 si z/2
o z/2
/ n / n
30.5 29.3 30.5 29.3
z/2
o z/2
0.333 0.333
Relaci
on entre el contraste bilateral y los Intervalos de confianza Contraste sobre la media de una poblaci
on normal con varianza conocida
H 0 : = 0
Si H0 es cierta, la distribuci es N 0 ,
on de X
n
Sea X1 , X2 , . . . , Xn una muestra formada por n variables independientes y con la
misma distribuci on N(, ).
Supongamos que la varianza 2 es conocida
Se desea contrastar una hip
otesis relativa a la media, .
Contraste unilateral
(hip
otesis nula compuesta)
H0 : 0
H1 : > 0
1
0
X
Si H0 es cierta, la distribuci
on de
/ n
es N(0, 1)
Sea X1 , X2 , . . . , Xn una muestra formada por n variables independientes y con la
misma distribuci on N(, ).
Supongamos que la varianza 2 es conocida
Se desea contrastar una hip
otesis relativa a la media, .
Contraste unilateral
(hip
otesis nula compuesta)
1
H0 : 0
H1 : < 0
0 z
Regi
on de rechazo
El sentido comun nos aconseja rechazar la hip
otesis nula de que la media
poblacional es 0 cuando la media muestral X sea considerablemente menor
Rechazamos la hip
otesis nula H0 : 0 frente a H1 : > 0 si que 0 .
0
X
z
/ n
Contraste sobre la media de una poblacion normal con varianza conocida El p-valor
0
X
Si H0 es cierta, la distribuci
on de
/ n
es N(0, 1)
Rechazamos la hip
otesis nula H0 : 0 frente a H1 : < 0 si
0
X
z
/ n
Contraste sobre la media de una poblacion normal con varianza desconocida Contraste sobre la media de una poblaci
on normal con varianza desconocida
Rechazamos la hip
otesis nula H0 : = 0 frente a H1 : 6= 0 si
t con n 1 g.l.
H0 : 1 = 2 Rechazamos la hip
otesis nula H0 : 1 = 2 frente a H1 : 1 6= 2 si
H1 : 1 6= 2
1 X
X 2 1 X
X 2
r z/2
o r z/2
12 22 12 22
El sentido com
un nos aconseja rechazar la hip
otesis nula de que 1 = 2 cuando n1
+ n2 n1
+ n2
1 X
X 2 sea muy distinta de 0.
Contrastes referidos a las medias de dos poblaciones normales Contrastes referidos a las medias de dos poblaciones normales
Contrastes referidos a las medias de dos poblaciones normales Contrastes referidos a las medias de dos poblaciones normales
Rechazamos la hip
otesis nula H0 : 1 = 2 frente a H1 : 1 6= 2 si
1 X
X 2 1 X
X 2
r t/2
o r t/2
Sp2 Sp2 Sp2 Sp2
n1
+ n2 n1
+ n2
Rechazamos la hip
otesis nula H0 : 1 2 frente a H1 : 1 < 2 si
1 X
X 2
r t
Sp2 Sp2
n1
+ n2
t con n1 + n2 2 g.l.
Rechazamos la hip
otesis nula H0 : 1 = 2 frente a H1 : 1 6= 2 si Rechazamos la hip
otesis nula H0 : p = p0 frente a H1 : p 6= p0 si
D D p0
p p0
p
t/2
o t/2 q z/2
o q z/2
SD / n SD / n p0 (1p0 ) p0 (1p0 )
n n
Rechazamos la hip
otesis nula H0 : 1 2 frente a H1 : 1 > 2 si
Rechazamos la hip
otesis nula H0 : p p0 frente a H1 : p > p0 si
D
t p0
p
SD / n q z
p0 (1p0 )
n
Rechazamos la hip
otesis nula H0 : 1 2 frente a H1 : 1 < 2 si
Rechazamos la hip
otesis nula H0 : p p0 frente a H1 : p < p0 si
D
t
SD / n p0
p
q z
p0 (1p0 )
n
t con n 1 g.l.
Los datos categoricos son datos que provienen de experimentos cuyos resultados
son de tipo categ
orico, es decir, se presentan en diferentes categoras que pueden
Bioestadstica. Curso 2012-2013 o no estar ordenadas.
Grado en Medicina Ejemplo: Se hizo un estudio consistente en experimentar la efectividad de dos
tratamientos analg esicos para la reducci
on del dolor en 165 pacientes con cefalea.
Captulo 9. Contrastes para datos categ
oricos Se registro el tipo de dolor (ausente, leve, moderado o intenso) que manifestaron
sufrir los pacientes sometidos a cada tratamiento.
De los 83 pacientes sometidos al tratamiento A:
Beatriz Pateiro L
opez 12 manifestaron no sufrir dolor de cabeza,
24 dolor leve,
31 dolor moderado y
16 dolor intenso.
De los 82 pacientes sometidos al tratamiento B,
20 manifestaron no sufrir dolor de cabeza,
18 dolor leve,
30 dolor moderado y
14 dolor intenso.
Test Chi-cuadrado de independencia en tablas de contingencia 2 2 Test Chi-cuadrado de independencia en tablas de contingencia 2 2
Comparamos ahora los datos observados con los datos esperados (entre
parentesis). Si dichos valores son considerablemente distintos, deberamos
rechazar la hip otesis nula de independencia.
Deberemos rechazar H0 cuando el valor de 2 sea grande. Deberemos rechazar H0 cuando el valor de 2 sea grande.
Bajo H0 , el estadstico se distribuyen aproximadamente seg
un una distribuci
on
Chi-cuadrado.
Para una tabla r s: Distribuci
on Chi-cuadrado con (r 1)(s 1) g.l.
Para una tabla 2 2: Distribuci
on Chi-cuadrado con 1 g.l.
Test Chi-cuadrado de independencia en tablas de contingencia 2 2 Test Chi-cuadrado de independencia en tablas de contingencia 2 2
Rechazamos la hip
otesis nula H0 : X e Y son independientes en tablas 2 2 si
X (observados esperados)2
2 = Para que la aproximacion por la distribuci
on Chi-cuadrado sea buena, es
todas las celdas
esperados
conveniente que las frecuencias esperadas sean grandes.
donde es el punto que deja a su derecha una probabili-
En tablas 2 2 se pide que todos los valores esperados sean mayores que 5.
dad en una distribuci
on Chi-cuadrado con 1 grado de libertad
Aun as, en tablas 2 2 la aproximaci on a la Chi-cuadrado puede no ser
buena y, por eso, se suele aplicar la llamada correccion por continuidad
de Yates.
Test Chi-cuadrado de independencia en tablas de contingencia r s Test Chi-cuadrado de independencia en tablas de contingencia r s
Ejemplo estado de salud y capacidad de pago de servicios sanitarios Ejemplo estado de salud y capacidad de pago de servicios sanitarios
Rechazamos la hip
otesis nula H0 : X e Y son independientes en tablas r s si
X (observados esperados)2
2 =
El estadstico del contraste es: todas las celdas
esperados
X (observados esperados)2 donde es el punto que deja a su derecha una probabilidad en
2 = .
esperados on Chi-cuadrado con (r 1)(s 1) grados de libertad
una distribuci
todas las celdas
Estatura 134 138 142 146 150 154 158 162 166 170 174 178
VEF 1.7 1.9 2.0 2.1 2.2 2.5 2.7 3.0 3.1 3.4 3.8 3.9
La representaci
on gr
afica m
as u
til de dos variables continuas es el La representaci
on gr
afica m
as u
til de dos variables continuas es el
diagrama de dispersi on. diagrama de dispersi on.
Consiste en representar en un eje de coordenadas los pares de Consiste en representar en un eje de coordenadas los pares de
observaciones (xi , yi ). observaciones (xi , yi ).
La nube as dibujada refleja la posible relaci
on entre las variables. La nube as dibujada refleja la posible relaci
on entre las variables.
A mayor relaci
on entre las variables m
as estrecha y alargada ser
a la nube. A mayor relaci
on entre las variables m
as estrecha y alargada ser
a la nube.
Estatura 134 138 142 146 150 154 158 162 166 170 174 178
VEF 1.7 1.9 2.0 2.1 2.2 2.5 2.7 3.0 3.1 3.4 3.8 3.9
3.5
3.0
VEF
2.5
2.0
Estatura
4.0
20
unidimensional (como por ejemplo la media) pueden extenderse al caso
3.5
10
bidimensional.
3.0
y
0
2.5
10
Covarianza entre X e Y
2.0
n
0.0 0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6 0.8
1 X
x x Cov(X , Y ) = sxy = (xi x)(yi y ).
n 1 i=1
200
5
150
y
y
100
50
0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6 0.8 1.0
x x
Covarianza Covarianza
La mayora de las medidas caractersticas estudiadas en el caso La mayora de las medidas caractersticas estudiadas en el caso
unidimensional (como por ejemplo la media) pueden extenderse al caso unidimensional (como por ejemplo la media) pueden extenderse al caso
bidimensional. bidimensional.
Ademas, en el contexto bidimensional surgen nuevas medidas que nos Ademas, en el contexto bidimensional surgen nuevas medidas que nos
permiten cuantificar la dispersi
on conjunta de dos variables estadsticas. permiten cuantificar la dispersi
on conjunta de dos variables estadsticas.
Covarianza entre X e Y
n
1 X
Cov(X , Y ) = sxy = (xi x)(yi y ).
n 1 i=1
La covarianza cambia si modificamos las unidades de medida de las variables. La covarianza cambia si modificamos las unidades de medida de las variables.
Esto es un inconveniente porque no nos permite comparar la relaci
on entre Esto es un inconveniente porque no nos permite comparar la relaci
on entre
distintos pares de variables medidas en diferentes unidades. distintos pares de variables medidas en diferentes unidades.
on es utilizar el coeficiente de correlaci
La soluci on lineal on es utilizar el coeficiente de correlaci
La soluci on lineal
Coeficiente de correlaci
on lineal entre X e Y Coeficiente de correlaci
on lineal entre X e Y
sxy sxy
rxy = . rxy = .
sx sy sx sy
La covarianza cambia si modificamos las unidades de medida de las variables. La covarianza cambia si modificamos las unidades de medida de las variables.
Esto es un inconveniente porque no nos permite comparar la relaci
on entre Esto es un inconveniente porque no nos permite comparar la relaci
on entre
distintos pares de variables medidas en diferentes unidades. distintos pares de variables medidas en diferentes unidades.
on es utilizar el coeficiente de correlaci
La soluci on lineal on es utilizar el coeficiente de correlaci
La soluci on lineal
Coeficiente de correlaci
on lineal entre X e Y Coeficiente de correlaci
on lineal entre X e Y
sxy sxy
rxy = . rxy = .
sx sy sx sy
Para los datos del ejemplo sobre el VEF y la estatura se obtiene que: Para los datos del ejemplo sobre el VEF y la estatura se obtiene que:
La desviaci
on tpica de la estatura es sx = 14.422 centmetros.
La desviaci
on tpica del VEF es sy = 0.748 litros.
El coeficiente de correlaci
on lineal entre X e Y ser
a
10.672
rxy = = 0.9881
14.422 0.7488
La correlaci
on es proxima a 1 y por lo tanto la relaci
on entre ambas
variables es directa.
Recta de regresi
on
Y = 0 + 1 X + .
El tipo de relaci
on m
as sencilla que se establece entre un par de variables es la
relaci
on lineal Y = 0 + 1 X
Dada una muestra (x1 ,y1 ),. . . ,(xn ,yn ) de la variable bidimensional (X , Y ),
Sin embargo, este modelo supone que una vez determinados los valores de los Cu
al es la recta que mejor ajusta los datos?
par
ametros 0 y 1 es posible predecir exactamente la respuesta Y dado
cualquier valor de la variable de entrada X .
3.0
2.5
Recta de regresi
on
1.0
0.5
Y = 0 + 1 X + .
0.0
El m
etodo de mnimos cuadrados
3.0
n n
1X 2 1X
2.5
(yi (0 + 1 xi ))2 .
M(0 , 1 ) = i =
n i=1 n i=1
2.0
1.5
3.0
1.0
2.5
0.5
2.0
0.0
Recta de regresi
on de Y sobre X
1.0
0.5
y = 0 + 1 x
0.0
Para los datos del ejemplo sobre el VEF y la estatura se obtiene que: Para los datos del ejemplo sobre el VEF y la estatura se obtiene que:
1 = 10.6722 = 0.0513
14.422
y = 0 + 1 x = 5.312 + 0.0513x
3.5
3.0
VEF
2.5
2.0
Estatura
Descomposici
on de la variabilidad
VT = VE + VNE.
Ejemplo Volumen Expiratorio Forzado y estatura: coeficiente de Ejemplo Volumen Expiratorio Forzado y estatura: coeficiente de
determinacion determinaci
on
Para los datos del ejemplo sobre el VEF y la estatura se obtiene que: Para los datos del ejemplo sobre el VEF y la estatura se obtiene que:
R 2 = 0.98812 = 0.976
Con el modelo de regresi on lineal simple hallado, la variable X es capaz de
explicar el 97.6 % de la variaci
on de Y .
3.5
3.0
VEF
2.5
2.0
Estatura
Curso 2012-2013
Boletn de ejercicios
Captulo 2: Probabilidad
1. Un hospital clasica a cada paciente segn disponga o no de seguro mdico y segn su estado
de salud, que puede ser catalogado como bueno, aceptable, serio o crtico. El administrador
c) Indica cul es el suceso de que el paciente est en estado serio o crtico y no tiene seguro.
el estado del 72 % de aquellas personas sobre las que se aplica, no produce efecto alguno en
un 10 % y empeora el estado en el resto. Se trata a un paciente que sufre depresin por estos
medios.
3. El 4 % de las personas de una poblacin son daltnicas, el 18 % son hipertensas y el 0.5 % son
madre como para la del hijo. Entre las embarazadas diabticas se presentan toxemias en un
se dan otras complicaciones. Supongamos que no fuera posible que dos de estas complicaciones
= ftoxemia, hidroamnios, deterioro fetal, otros, normalg
a) Cul es la probabilidad de que exista algn tipo de complicacin?
5. Los pacientes que llegan a una clnica pueden seleccionar entre una de tres secciones para ser
atendidos. Supongamos que los mdicos se asignan al azar a las secciones y que los pacientes
no tienen preferencia especial por ninguna de las secciones. Tres pacientes llegan a la clnica y
6. El 60 % de los individuos de una poblacin estn vacunados contra una cierta enfermedad.
Durante una epidemia se sabe que el 20 % la ha contrado y que 2 de cada 100 individuos estn
8. Segn datos de un estudio sobre la calidad del sistema sanitario a nivel mundial, en un deter-
minado pas el 61 % de las personas recibe asistencia sanitaria pblica, el 24 % de las personas
c) Son independientes los sucesos recibir asistencia sanitaria pblica y contratar asistencia
sanitaria privada?
9. Sninsky y otros realizaron un estudio para evaluar la ecacia y seguridad de una preparacin
moderada de colitis ulcerosa. En la siguiente tabla se muestran los resultados del tratamiento
Grupo en tratamiento
Resultado Placebo Mesalamina 1.6 g/da Mesalamina 2.4 g/da
En remisin 2 6 6
Mejorado 8 13 15
Estable 12 11 14
Empeorado 22 14 8
b) Cul es la probabilidad de que un paciente que recibe placebo logre la remisin al nal de
que recibieron dosis de 2.4 g/da o est en la lista de pacientes mejorados, o posea ambas
condiciones?
11. Estamos interesados en saber cul de dos anlisis A y B es mejor para el diagnstico de una
12. Elegido un individuo al azar y observado por rayos X, se diagnostic que estaba tuberculoso. La
probabilidad de que en la poblacin de la que se eligi el individuo, uno de ellos sea tuberculoso
Cul es la probabilidad de que el individuo sea tuberculoso, habindolo diagnosticado como tal
por rayos X?
13. Una enfermedad puede estar producida por tres virus A,B y C. en el laboratorio hay 3 tubos de
ensayo con el virus A, 2 tubos con el virus B y 5 tubos con el virus C. La probabilidad de que
14. Los estudios epidemiolgicos indican que el 20 % de los ancianos sufre un deterioro neuropsi-
colgico. Sabemos que la tomografa axial computerizada (TAC) es capaz de detectar este
trastorno en el 80 % de los que lo sufren, pero tambin da un 3 % de falsos positivos entre las
15. Una ambulancia en la plaza Roja, al trasladarse hacia el hospital, puede hacerlo por la calle Fray
Rosendo Salvado, Repblica del Salvador o San Pedro de Mezonzo, con probabilidades 0.2 , 0.7
y 0.1, respectivamente. La probabilidad de que la ambulancia sufra un atasco por la calle Fray
Rosendo Salvado es 0.5, por la calle Repblica del Salvador es 0.6 y por la calle San Pedro de
Mezonzo es 0.4.
16. Con el objeto de diagnosticar la colelietasis se usan ultrasonidos. Tal tcnica tiene una sensi-
bilidad del 91 % y una especidad del 98 %. En la poblacin que nos ocupa la probabilidad de
colelietasis es de 0.2.
17. Una poblacin est formada por tres grupos tnicos: A (30 %), B (10 %) y C (60 %). Los
elegido al azar tiene los ojos claros, a qu grupo es ms probable que pertenezca?
pacientes con esa enfermedad, 744 pacientes presentaron el sntoma. En una muestra aleatoria
b) Qu es un falso negativo?
g) Calcular los valores que predicen la positividad y la negatividad del sntoma para las si-
h) Con base en los resultados obtenidos en el apartado g), qu se puede concluir acerca de
1. Sea X la variable aleatoria que expresa el nmero de pacientes con enfermedades articulares en
centros de salud con las siguientes probabilidades:
x 0 1 2 3 4 5 6 7
p
i
4. La probabilidad de que un paciente que acude a una consulta de atencin primaria sea derivado
a otra consulta es 0.2. Si a una consulta de atencin primaria acuden 5 pacientes calcula:
a) La probabilidad de que sean derivados exactamente 3 pacientes.
b) La probabilidad de que sean derivados exactamente 5 pacientes.
c ) La probabilidad de que sean derivados menos de 5 pacientes.
d ) Calcula el nmero medio de pacientes derivados a otra consulta, la varianza y la desviacin
tpica.
5. En un hospital, el nmero medio de pancreatitis agudas atendidas al da es 0.9. Calcula la
probabilidad de que un da determinado sean atendidas 3 pancreatitis agudas en dicho hospital.
8. Un estudio sobre salud laboral establece que el 9 % de los profesores que imparten clase en
centros de Primaria y Secundaria se da de baja por sufrir alguna patologa psiquitrica, siendo
la ms comn la depresin, aunque tambin hay casos de estrs o neurosis.
a) Supongamos que un determinado centro de primaria cuenta con 7 docentes. cul es la
probabilidad de que ninguno de ellos solicite la baja por alguna patologa psiquitrica?
b) cul es la probabilidad que ningn docente solicite la baja por alguna patologa psiquitrica
en un centro con 60 docentes?
9. El gerente de un centro de atencin primaria sabe, por experiencia, que el 20 % de las personas
que solicitan cita previa no asisten a la consulta. Si el centro da 10 citas pero solo puede atender
a 8 pacientes, cul es la probabilidad de que todas las personas que acuden con cita previa a
la consulta sean atendidas?
10. Diez individuos entran en contacto con un portador de tuberculosis. La probabilidad de que la
enfermedad se contagie del portador a un sujeto cualquiera es de 0.1.Cuntos individuos se
espera que contraigan la enfermedad?
11. Sea X una variable con distribucin binomial, con media 2 y varianza 4/3.
a) Determina la funcin de distribucin de X y represntala grcamente.
b) Calcula la media y varianza de Y=4X+3.
b) P (Z 2)
c ) P ( 0:5 Z 2:65)
d ) El valor de z (z > 0) de manera que el rea encerrada entre 0 y z sea 0.2.
e ) El valor de z tal que la probabilidad de obtener un valor mayor que z sea 0.1.
3. Los errores en el peso proporcionado por la bscula de un ambulatorio son normales de media 0
y desviacin 1 kg. Calcula la probabilidad de que la diferencia entre el peso real de un paciente
y el proporcionado por la bscula no supere los 500 gr. (bien por exceso o bien por defecto).
4. La capacidad vital es la cantidad de aire que es posible expulsar de los pulmones despus de
haber inspirado completamente. Hemos calculado la capacidad vital estandarizada CVE en una
poblacin infantil (la CVE se calcula como la capacidad vital corregida adecuadamente mediante
la media y desviacin tpica). Se asume que la capacidad vital estandarizada se distribuye como
una normal N (0; 1).
a) Si se considera que la salud pulmonar de un nio es dbil cuando su capacidad vital estan-
darizada es menor que -1.5, qu porcentaje de la poblacin estudiada presenta una salud
pulmonar dbil?
b) Un nio tiene un crecimiento pulmonar normal si su capacidad vital estandarizada est entre
-1.5 y 1.5. Qu porcentaje de la poblacin presenta un crecimiento pulmonar normal?
c ) Completa las siguiente frases:
1) Segn el modelo, el 90 % de la poblacin infantil tiene una capacidad vital estandari-
zada menor que aproximadamente .
2) Segn el modelo, el 20 % de la poblacin infantil con mayor capacidad pulmonar
estandarizada tiene una CVE mayor que aproximadamente .
5. Los valores de sodio srico en adultos sanos se distribuye como una variable normal de media
141mM y varianza 9 mM2 . Asumiendo dicha distribucin:
6. El nivel de colesterol en la sangre se mide de acuerdo a un ndice llamado LDL. Para el caso
de personas adultas, la distribucin del colesterol en la sangre es aproximadamente normal y
en el caso de los hombres tiene una media de 4.8 unidades LDL con una desviacin estndar
igual a 0.6 unidades. El nivel normal (o riesgo normal) de colesterol se considera aquel que
queda entre los lmites en unidades LDL. Una persona con ms de + pero menos de
+ 2 unidades LDL tiene un nivel de riesgo moderado. Si tiene un nivel de + 2 o superior
se considera de alto riesgo y se hace propenso a sufrir un infarto. Por otra parte, si el nivel de
colesterol en la sangre de un adulto est por debajo de ? unidades, se considera de riesgo
bajo.
a) Cules son los porcentajes de poblacin de hombres adultos que estn incluidos en cada
uno de los 4 niveles de riesgo descritos?
b) A partir de qu nivel de colesterol se encuentra el 10 % de la poblacin de hombres adultos
con mayor riesgo?
7. Dada una variable X 2 N (; )
a) Qu porcentaje del rea encerrada bajo la funcin de densidad est contenida entre
y + ?
b) Qu porcentaje del rea encerrada bajo la funcin de densidad est contenida entre 2
y + 2 ?
c ) Qu porcentaje del rea encerrada bajo la funcin de densidad est contenida entre 3
y + 3 ?
8. La presin arterial sistlica corresponde al valor mximo de la tensin arterial en sstole. Se
asume que la presin sistlica se distribuye como una variable normal, donde el valor medio y la
desviacin tpica dependen de la edad. Se muestra a continuacin la media y desviacin tpica
para 3 grupos de edad.
12. El coeciente intelectual de una poblacin sigue una distribucin normal de media 100 y des-
viacin tpica 15. Cul de las siguientes armaciones es correcta?
a) El 95 % central de los individuos de la poblacin estarn situados entre 85 y 115.
b) El 95 % central de los individuos de la poblacin estarn situados entre 50 y 150.
13. Queremos estudiar la capacidad diagnstica de una prueba de glucemia. En base a la experiencia
se determina que el nivel de glucosa en sangre de pacientes sanos se distribuye como una normal
de media 80 mg/dl y desviacin tpica 10 mg/dl. Tambin se sabe que el nivel de glucosa en
sangre de pacientes diabticos se distribuye como una normal de media 160 mg/dl y desviacin
tpica 31.4 mg/dl.
a) Si la prueba de glucemia establece que un individuo est enfermo cuando su nivel de glucosa
es superior a 100 mg/dl, Cul es la sensibilidad y especicidad de la prueba diagnstica?
b) Cul es la sensibilidad y especicidad de la prueba diagnstica si el punto de corte se
establece en 90 mg/dl.?
1. La exostosis auditiva externa (EAE) es una anomala sea del canal auditivo externo. Esta lesin
est asociada a una prolongada inmersin en agua fra y aparece con frecuencia en individuos
que participan en actividades acuticas. Un estudio publicado en una revista especializada en
Otorrinolaringologa pretende determinar la prevalencia de EAE en una poblacin de surstas.
Para ello se someti a 307 surstas profesionales a un cuestionario.
a ) De los 307 surstas encuestados, 132 armaron haber necesitado tratamiento mdico
para infecciones de odo en alguna ocasin. Cmo estimaras la proporcin de surstas
que sufren infecciones de odo en base a la muestra? Calcula el intervalo de conanza
para la proporcin de surstas que sufren algn tipo de infeccin de odo con un nivel de
conanza del 95 %. Calcula el intervalo de conanza para la proporcin de surstas que
sufren algn tipo de infeccin de odo con un nivel de conanza del 90 %.
b ) Los surstas encuestados en este estudio surfean fundamentalmente en aguas fras (por
debajo de 12o C). Se cree que la prevalencia de EAE es distinta en surstas de aguas
templadas. Supongamos que de los 307 surstas examinados 230 fueron diagnosticados
de EAE y que en otro estudio realizado a 75 surstas de aguas templadas, 30 fueron
diagnosticados de EAE. Construye un intervalo de conanza al 90 % para la diferencia de
prevalencias de EAE entre surstas de aguas fras y surstas de aguas templadas.
Los datos del apartado a) estn tomados del artculo Prevalence of external auditory canal
2. Una empresa de tecnologa que elabora productos para el cuidado de la salud comercializa
electrodos adhesivos redondos. Estamos interesados en determinar el dimetro medio de dichos
electrodos. Se sabe que el proceso de produccin sigue una distribucin normal y padece una
desviacin tpica de 0.1 cm. Construye un intervalo de conanza para el dimetro medio de los
electrodos al 95 % utilizando que en una muestra de 25 electrodos fabricados por la empresa el
dimetro medio fue de 3.5 cm.
3. Supongamos que la proporcin real de fumadores en una determinada comunidad se conoce y
es igual a 0.4. Si queremos estimar dicha proporcin de fumadores a partir de una muestra de
tamao n = 100, cul es la probabilidad de que la proporcin estimada sea correcta salvo un
error de 3 %? Y si se realiza la estimacin con una muestra de tamao n = 200?
4. Cierta empresa se ha propuesto comercializar un aparato para analizar la concentracin de
glucosa en sangre. Los fabricantes son conocedores de que su mtodo presenta un error de
medicin cuya desviacin tpica es de 2.4 mg/l. Sin embargo, dado que desconocen la media, se
han decidido a tomar una muestra que les permita estimarla. A continuacin consta tal muestra
de los errores de medicin (en mg/l):
Elabora una estimacin del error medio y construye un intervalo de conanza a un nivel del
99 %, suponiendo que los errores siguen una distribucin normal.
5. Se pretende conocer la media y la varianza del tiempo de eliminacin de un medicamento. Para
ello se han observado los tiempos en una muestra de pacientes obtenindose los siguientes datos
(en horas):
Supn que los datos proceden de una distribucin normal y, en base a ello, confecciona estima-
ciones para la media y la varianza. Calcula el intervalo de conanza a un nivel del 90 % para el
tiempo medio de eliminacin del medicamento.
6. Para estudiar si la presin ejercida en la parte superior del brazo aumenta o no el tiempo de
hemorragia, 29 personas fueron sometidas a una presin de 40 mmHg y a continuacin se les
practic una puncin digital obtenindose un tiempo medio de hemorragia de 2.192 minutos
con una desviacin estndar de 0.765 minutos. Otras 33 personas actuaron como controles,
no se les aplic presin y su tiempo medio de hemorragia al pincharles un dedo fue de 1.407
minutos con una desviacin estndar de 0.588 minutos. Determina con un nivel de conanza
de 95 % un intervalo de conanza para la diferencia de los tiempos medios de hemorragia entre
los tratados y los controles. Se asume que los tiempos de hemorragia en ambos grupos son
normales y con la misma varianza.
7. En un estudio sobre nutricin se analiz la ganancia de peso de 16 nios sometidos a una dieta
especial durante un periodo de 3 meses. Se observ una ganancia media de peso 2.49 kg. Un
grupo de control formado por 16 nios de constitucin fsica similar fue sometido a una dieta
normal durante el mismo periodo de tiempo, observndose una ganancia media de peso de 2.05
kg. Se supone que la desviacin estndar para la ganancia de peso es 2 kg.
8. Un investigador est planeando hacer un estudio sobre el nivel medio de presin sistlica en
pacientes con hipertensin. Algunos resultados previos indican que la presin sistlica es apro-
ximadamente normal con una desviacin tpica de 15 mmHg.
a ) Si el investigador desea obtener un intervalo de conanza para el nivel medio de presin
sistlica de longitud 4 mmHg con una conanza de 95 %, cuntos pacientes hipertensos
tendran que ser incluidos en el estudio?
b ) Si el investigador decide mantener el nivel de conanza en el 95 % pero desea que el
intervalo obtenido para el nivel medio de presin sistlica sea ms pequeo, tendr que
aumentar o disminuir el tamao de la muestra? Calcula el nmero de pacientes que debe
considerar para tener un intervalo de longitud 3mmHg con conanza 95 %.
Sujeto 1 2 3 4 5 6 7 8 9 10 11
Previo 68 77 94 73 37 131 77 24 99 629 116
Posterior 95 90 86 58 47 121 136 65 131 630 104
1. Segn fuentes estadsticas, en la actualidad la edad media de las madres primerizas en Espaa
es de 29.3 aos.
a) Tomamos una muestra de 36 madres primerizas gallegas y observamos que la edad media
de dichas mujeres es 30.5 aos. Asumimos que la edad de las madres primerizas en Galicia
sigue una distribucin normal con una desviacin tpica de 2 aos. Para una signicacin
del 5 %, podemos concluir que la edad media de las madres primerizas en Galicia diere
de la de Espaa?
b) Se considera ahora una muestra de 10 madres primerizas de Portugal. Sus edades son:
30 28 27 28 28 28 24 23 31 30
Asumimos que la edad de las madres primerizas en Portugal tambin sigue una distribucin
normal con una desviacin tpica de 2 aos.
1) Para una signicacin del 5 %, podemos concluir que la edad media de las madres
primerizas en Portugal diere de la de Espaa?
2) Calcula el p-valor del contraste.
3) Para una signicacin del 1 %, podemos concluir que la edad media de las madres
primerizas en Portugal diere de la de Espaa?
2. Segn datos de 2003, el 62.68 % de los jvenes espaoles de entre 18 y 29 aos arman
utilizar preservativo siempre que mantienen relaciones sexuales con parejas ocasionales. Tras una
campaa preventiva sobre el uso del preservativo llevada a cabo en los ltimos aos, se realiz
encuesta a 3150 jvenes de entre 18 y 29 aos. De ellos, 2047 armaron utilizar preservativo
siempre que mantienen relaciones sexuales con parejas ocasionales. Se puede concluir que la
campaa preventiva ha sido efectiva para una signicacin del 5 %?
Puedes encontrar datos sobre salud en Espaa en la web del Instituto Nacional de Estadstica:
http://www.ine.es/inebmenu/mnu_salud.htm
a) Es el error medio signicativamente distinto de cero para una signicacin 0.1? Cmo
contestaras a la pregunta utilizando el intervalo de conanza construido en el boletn 6?
4. Para conocer el uso que hombres y mujeres hacen de los servicios sanitarios es necesario realizar
estudios que permitan conocer mejor los factores que intervienen en sus decisiones y en las del
personal sanitario. Segn la Encuesta Nacional de Salud de 2003, un 17 % de las mujeres acuden
a consulta mdica con frecuencia. Se lleva a cabo un estudio en el que participan 2150 hombres.
Del total de los hombres, 275 arman haber acudido a consulta mdica durante las dos semanas
anteriores al momento de la encuesta. Se puede concluir que el uso de los servicios sanitarios
por parte de los hombres es menor que el de las mujeres?
En la Encuesta Nacional de Salud se analizan las diferencias entre hombres y mujeres en el estado de
salud o en los hbitos de consulta. Algunos estudios apuntan, para explicar el diferente uso de los
conductas de riesgo por parte de los hombres, sobre todo en edades tempranas.
http://www.msps.es/organizacion/sns/planCalidadSNS/e02_t05.htm
5. Para estudiar si la presin ejercida en la parte superior del brazo aumenta o no el tiempo de
hemorragia, 29 personas fueron sometidas a una presin de 40 mmHg y a continuacin se les
practic una puncin digital obtenindose un tiempo medio de hemorragia de 2.192 minutos con
una desviacin estndar de 0.765 minutos. Otras 33 personas actuaron como controles, no se
les aplic presin y su tiempo medio de hemorragia al pincharles un dedo fue de 1.407 minutos
con una desviacin estndar de 0.588 minutos. Se asume que los tiempos de hemorragia en
ambos grupos son normales y con la misma varianza.
a) Se puede concluir que el tiempo medio de hemorragia es signicativamente distinto al
ejercer presin en la parte superior del brazo que al no ejercer presin? (signicacin 0.05).
b) Se puede concluir que el tiempo medio de hemorragia es signicativamente mayor al
ejercer presin en la parte superior del brazo? (signicacin 0.05).
6. Para estudiar el efecto del ejercicio fsico sobre el nivel de triglicrido, se ha realizado el siguiente
experimento con 11 individuos: previo al ejercicio se tomaron muestras de sangre para determinar
el nivel de triglicrido por 100 mililitros de sangre de cada sujeto. Despus los individuos fueron
sometidos a un programa de ejercicios que se centraba diariamente en carreras y marchas. Al nal
del periodo de ejercicios, se tomaron nuevamente muestras de sangre y se obtuvo una segunda
lectura del nivel de triglicrido. De este modo, se dispone de dos conjuntos de observaciones
del nivel de triglicrido por 100 mililitros de sangre de los sujetos:
Sujeto 1 2 3 4 5 6 7 8 9 10 11
Previo 68 77 94 73 37 131 77 24 99 629 116
Posterior 95 90 86 58 47 121 136 65 131 630 104
Suponiendo normalidad en el nivel de triglicrido, hay pruebas sucientes para armar que el
ejercicio fsico produce cambios en el nivel de triglicrido?
7. En un estudio sobre nutricin se analiz la ganancia de peso de 16 nios sometidos a una dieta
especial durante un periodo de 3 meses. Se observ una ganancia media de peso 3.05 kg. Un
a) Se puede concluir que la ganancia media de peso es signicativamente mayor en los nios
sometidos a la dieta especial? (signicacin 0.05)
b) Calcula el p -valor del contraste.
8. Se trata de estudiar el efecto de un tratamiento dirigido a elevar el colesterol HDL. Para ello se
ha medido el colesterol HDL de 10 pacientes. A continuacin se les ha sometido al tratamiento
y se ha vuelto a medir el colesterol HDL. Los datos se muestran a continuacin. Determinar si
hay suciente evidencia estadstica, a nivel 0.01, para armar que el tratamiento es efectivo.
9. Una compaa farmacutica arma que cierto medicamento elimina el dolor de cabeza en un
cuarto de hora en el 90 % de los casos. Tomada una muestra de 200 pacientes a los que se les
administr el medicamento, se observ la desaparicin del dolor en 170 de ellos. Contrastar la
hiptesis de la compaa para un nivel de signicacin del 5 %.
10. Registramos los niveles en plasma de determinado cido graso en 30 pacientes de Retinitis
Pigmentosa (RP) y en 32 voluntarios sanos (S), y los resultados fueron los siguientes:
a) Suponiendo que las poblaciones son normales y a la vista de los resultados obtenidos,
podemos concluir que la media es signicativamente ms baja en los pacientes de RP?
b) Estimar mediante un intervalo de conanza del 95 % el valor medio en personas sanas.
A la vista de los datos, puede decirse que los enfermos han mejorado signicativamente?
(Existe mejora si la puntuacin es mayor de 4. Utilizar un nivel de signicacin de 0.01.)
2. Para evaluar el efecto de la exposicin a asbesto sobre el riesgo de fallecer por cncer de pulmn,
un estudio compar un grupo de 6.245 trabajadores expuestos a este agente con otro grupo
de 7.895 trabajadores sin exposicin a este factor. A lo largo de 22 aos de seguimiento, en
el primer grupo se presentaron 76 defunciones por cncer en el aparato respiratorio, en tanto
que en el grupo no expuesto el nmero de defunciones por esta causa fue 28. Construye la
tabla de contingencia correspondiente y determina si existe una asociacin signicativa entre la
exposicin a asbesto y el riesgo de fallecer por cncer de pulmn.
5. En un estudio sobre VIH se pretende determinar si existe asociacin signicativa entre la edad
del paciente y el nivel de linfocitos CD4. Para ello se determina el nivel de linfocitos CD4 (<200,
200-500, >500) en pacientes de 3 grupos de edad. Se puede concluir que existe una relacin
estadsticamente signicativa entre el nivel de linfocitos y la edad del paciente?
Edad
Nivel de linfocitos 30 aos 31 40 aos 41 aos
<200 6 30 6
200-500 20 72 21
>500 19 49 12
6. Se quiere estudiar la posible asociacin entre la presencia de infeccin postoperatoria (IPO) y
la diabetes (DIAB) en una poblacin de operados. En una muestra de 1337 personas de edad
< 65 aos y en otra de 892 de edad 65 aos se obtuvieron los siguientes resultados. Existe
asociacin signicativa entre IPO y diabetes en cada grupo de edad?
1. Se lleva a cabo un estudio, por medio de detectores radioactivos, sobre la capacidad corporal
para absorber hierro y plomo. En el estudio participaron 6 personas y despus de 10 das se
obtuvieron los siguientes resultados.
2. Para tener valores comparables del gasto cardaco entre distintos sujetos se utiliza un deter-
minado ndice cardaco. Se ha medido dicho ndice cardaco (Y ) en 7 pacientes de diferentes
edades.
X = Edad 15 20 30 40 50 60 70
Y = ndice cardaco 6.5 5.6 5.4 6 4.6 1.4 0.1
X Y
8 0.12
50 0.71
81 1.09
102 1.38
140 1.95
181 2.50
Das transcurridos 1 5 10 15 20 25 35
Creatinina (mg/dl) 5.7 5.2 4.8 4.5 4.2 4 3.8
= 110
x y = 2:5 s x = 10 s y = 0:5