Documentos de Académico
Documentos de Profesional
Documentos de Cultura
UN
z.
Bioestadı́stica
ére
Curso 2009-2010
aP
rcı́
Ga
so
E
Los dos siguientes Problemas corresponden a la Evaluación de la asignatura
Bioestadı́stica.
UN
Las soluciones debe enviarlas a agar-per@ccia.uned.es antes del 15 de
Mayo si quiere ser evaluado en la convocatoria de Junio, o antes del 1 de
Septiembre si quiere se evaluado en la convocatoria de Septiembre.
Para resolverlos, el alumno debe analizar estadı́sticamente el problema,
resolverlo con la ayuda, si lo desea, de algún Paquete estadı́stico y obtener
finalmente las conclusiones adecuadas.
z.
ére
aP
rcı́
Ga
so
on
Al f
D
Alfonso Garcı́a Pérez 3
E
Problema 1
La warfarina es un medicamento anticoagulante oral que alarga el tiempo
UN
que la sangre tarda en coagular evitando, de forma preventiva, que se pro-
duzcan trombosis y embolias. No obstante, demasiada warfarina puede causar
hemorragias graves, por lo que esta sustancia tiene un estrecho margen te-
rapéutico y la calibración de la dosis a administrar es un problema importante.
Además, se piensa que la pertenencia a uno u otro grupo étnico influye en
el tiempo de coagulación de este medicamento. Para analizar esta hipótesis
z.
se eligieron al azar 18 individuos Caucásicos y 18 Asio-Americanos en los que
se obtuvieron los siguientes tiempos (en horas) de calibración de la dosis de
ére
warfarina:
Caucásicos: 2 , 4 , 6 , 7 , 8 , 9 , 10 , 10 , 12 , 14 , 16 , 19 , 21 , 24 , 26 , 30 , 35 , 44
Asio-Americanos: 2 , 2 , 3 , 3 , 4 , 5 , 5 , 6 , 6 , 6 , 7 , 7 , 8 , 9 , 10 , 12 , 19 , 32
aP
Analizar si hay diferencias significativas entre los dos grupos étnicos en cuanto
al tiempo de calibración, mediante
a) El test de la t de Student analizando la suposición de normalidad y de
homocedasticidad.
rcı́
b) El test de Wilcoxon-Mann-Whitney.
Ga
Problema 2
so
E
Problema 1
a) Para ejecutar el test de la t de Student de comparación de dos poblacio-
UN
nes necesitamos que ambas sean de tipo normal y luego comprobar si puede
aceptarse o no que las varianzas de ambas poblaciones puedan considerarse
iguales (CB-sección 7.6). No obstante, al ser n1 ≃ n2 y n1 + n2 = 36 > 30, no
necesitamos estos requisitos para comparar las poblaciones (CB-sección 7.7)
aunque los analizaremos porque lo solicita el enunciado.
z.
Normal Q−Q Plot Normal Q−Q Plot
ére
30
40
25
30
Sample Quantiles
Sample Quantiles
aP
20
15
20
10
10
rcı́ 5
−2 −1 0 1 2 −2 −1 0 1 2
Ga
> Cauca<-c(2,4,6,7,8,9,10,10,12,14,16,19,21,24,26,30,35,44)
> Asiame<-c(2,2,3,3,4,5,5,6,6,6,7,7,8,9,10,12,19,32)
> par(mfrow=c(1,2))
> qqnorm(Cauca)
> qqnorm(Asiame)
Al f
E
> mean(Cauca)
[1] 16.5
UN
> sd(Cauca)
[1] 11.53129
> mean(Asiame)
[1] 8.111111
> sd(Asiame)
[1] 7.226494
z.
N (16′ 5, 11′ 53) y los de los individuos Asio-Americanos a una N (8′ 11, 7′ 23).
Para ello (EAR-sección 8.3) ejecutamos las siguientes sentencias,
ére
> ks.test(Cauca,"pnorm",16.5,11.53)
data: Cauca aP
D = 0.158, p-value = 0.76 (1)
alternative hypothesis: two-sided
Warning message:
In ks.test(Cauca, "pnorm", 16.5, 11.53) :
cannot compute correct p-values with ties
rcı́
> ks.test(Asiame,"pnorm",8.11,7.23)
data: Asiame
D = 0.2302, p-value = 0.2958 (2)
alternative hypothesis: two-sided
Warning message:
In ks.test(Asiame, "pnorm", 8.11, 7.23) :
so
cuando sea,
S12
∈ [ Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 ].
S22
Habı́amos obtenido más arriba que es x1 = 16′ 5 , S12 = (11′ 53)2 , x2 =
8′ 11 , S22 = (7′ 23)2 , por lo que es S12 /S22 = 132′ 94/52′ 27 = 2′ 54.
D
6 Bioestadı́stica
E
Si consideramos un nivel de significación α = 0′ 02, será, a partir de la
Tabla 6 de la F de Snedecor, o directamente utilizando R (EAR-sección 3.5.3),
UN
qf(0.01,17,17) = 0′ 3084582 y qf(0.99,17,17) = 3′ 24193 , con lo que la
región de aceptación, a nivel α = 0′ 02, es [0′ 31 , 3′ 24] , que contendrá al valor
del estadı́stico por lo que se aceptará la hipótesis nula de ser iguales ambas
varianzas poblacionales, a ese nivel de significación.
De hecho, con R podemos obtener el p-valor ejecutando
z.
> 2*(1-pf(2.54,17,17))
[1] 0.06267927
ére
valor, aunque no contundente, lo suficientemente grande como para confirmar
la igualdad de las varianzas poblacionales.
Si quisiéramos ejecutar este test directamente con R deberı́amos ejecutar
(3), (EAR-sección 4.2.3), observando que aquı́ se analiza si la región de acep-
aP
tación
" #
S12 /S22 S12 /S22
2′ 54 2′ 54
, = , = [0′ 78 , 8′ 19]
Fn1 −1,n2 −1; α2 Fn1 −1,n2 −1;1− α2 3′ 24 0′ 31
rcı́
2.546245
Como dijimos al comienzo, dado que los tamaños muestrales son grandes,
el test para contrastar la igualdad de las medias poblacionales; es decir, para
Al f
|x − x2 |
s1 ≤ zα/2 .
S12 S22
+
n1 n2
D
Alfonso Garcı́a Pérez 7
E
Como es
UN
|x − x2 | |16′ 5 − 8′ 11|
s1 =r = 2′ 6153
2 2 ′
132 94 52 27 ′
S1 S +
+ 2 18 18
n1 n2
y, a partir de la Tabla 3 de la Normal, vemos que es P {Z > 2′ 6153} < 0′ 0045,
con lo que podemos rechazar la hipótesis nula de igualdad de las medias, con
z.
un p-valor menor que 0′ 009, es decir, con suficiente confianza.
Este test de igualdad de medias se puede resolver con R ejecutando (6)
(véase EAR-sección 4.2.4), en donde consideramos las varianzas poblacionales
ére
como iguales. Como el 0 no está incluido en la región de aceptación dada en
(7), rechazaremos la hipótesis nula de igualdad de los tiempos de calibración
en ambas razas. El p-valor 0′ 0132 aparece en (8) (aunque está calculado con
una t de Student; de ahı́ la pequeña diferencia con el calculado más arriba
aP
utilizando la normal) y sugiere el rechazo de H0 .
> t.test(Cauca,Asiame,var.equal=T) (6)
sample estimates:
mean of x mean of y
16.500000 8.111111
ambas muestras ordenadas, en donde los de la segunda muestra que son iguales
a los de la primera los hemos situado detrás para hacer más simple el recuento,
2, 2, 2, 3, 3, 4, 4, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8, 8, 9, 9, 10, 10, 10
12, 12, 14, 16, 19, 19, 21, 24, 26, 30, 32, 35, 44.
D
8 Bioestadı́stica
E
Ahora, para calcular el valor de U nos fijamos en cada valor de la primera
muestra (es decir, cada valor no subrayado) y vemos cuantos valores de la
UN
segunda muestra (es decir, cuántos valores subrayados) le preceden. Es decir,
miramos el 2 (primer valor no subrayado) vemos que no hay ningún valor
subrayado que lo preceda, por lo que el primer sumando de U es 0. El segundo
valor no subrayado es 4, al que le preceden 4 valores subrayados, lo que hace
que el segundo valor de U sea 4, y ası́ sucesivamente; vemos que U toma el
valor,
z.
U = 0+4+7+10+12+13+14+14+15+16+16+16+17+17+17+17+18+18 = 241.
ére
En la determinación del punto crı́tico y el p-valor utilizaremos la aproxima-
ción normal ya que los tamaños muestrales son mayores que 5. En concreto,
si el nivel de significación es α = 0′ 02, será
aP
um,n;α/2 = u18,18;0′ 01 =
18 · 18
+ 2′ 325
r
18 · 18 · (18 + 18 + 1)
= 235′ 49
2 12
y la región de aceptación,
rcı́
18 · 18(18 + 18 + 1)/12
que indica rechazar con confianza la hipótesis nula de igualdad.
Para resolver este ejercicio con R, deberı́amos ejecutar (9) (EAR-sección
on
8.4.1) si queremos utilizar las mismas opciones que las que acabamos de em-
plear. Los resultados son un poco distintos porque R promedia entre los valores
iguales en el cálculo de U . No obstante, el p-valor, dado en (10), también es
indicativo del rechazo de la hipótesis nula de igualdad de ambas poblaciones.
Al f
E
Problema 2
UN
Resolveremos el problema con R. Para ello, primero deberemos incorporar
los datos ejecutando (1).
> WCGS2<-read.table("a:\\WCGS2.txt",header=T) (1)
z.
una manera equivalente a utilizar el número de la columna.
> x<-WCGS2[,c("Peso")] (2)
ére
> y<-WCGS2[,c("PSS")] (3)
> resultado<-lm(y~x) (4)
> resultado
Call: aP
lm(formula = y ~ x)
Coefficients:
(Intercept) x
97.7888 0.1815
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
D
10 Bioestadı́stica
E
UN
220
200
180
z.
y
160
140
ére
120
100
100
aP 150 200
x
250 300
Coefficients:
Estimate Std. Error t value Pr(>|t|)
Ga
> plot(x,y,pch=16,col=2)
> abline(resultado,col=4)
parece indicarnos que hay demasiados puntos como para que la regresión sea
válida. Hay que tomarla con mucho cuidado. De hecho, el coeficiente de co-
rrelación lineal de Pearson es bajı́simo, r = 0′ 253, lo que de nuevo manifiesta
precauciones en las conclusiones.
D
Alfonso Garcı́a Pérez 11
E
Normal Q−Q Plot Histogram of resid(resultado)
UN
100
1000
80
800
60
z.
Sample Quantiles
600
Frequency
40
ére
400
20
0
200
aP
−20
−2 0 2 −20 0 20 40 60 80 100
> cor(x,y)
[1] 0.2532496
> par(mfrow=c(1,2))
> qqnorm(resid(resultado))
> hist(resid(resultado))
on
E
UN
z.
ére
Histogram of y Histogram of x
0.025
aP
0.015
0.020
0.015
0.010
Density
Density
rcı́
0.010
0.005
0.005
Ga
0.000
0.000
y x