Bioestad Istica: Alfonso Garc Ia P Erez

E D
UN
z.
Bioestadı́stica
ére
Curso 2009-2010
aP
rcı́
Ga
so
Alfonso Garcı́a Pérez

on
Universidad Nacional de Educación a Distancia

Al f
D
2 Bioestadı́stica
E
Los dos siguientes Problemas corresponden a la Evaluación de la asignatura
Bioestadı́stica.
UN
Las soluciones debe enviarlas a agar-per@ccia.uned.es antes del 15 de
Mayo si quiere ser evaluado en la convocatoria de Junio, o antes del 1 de
Septiembre si quiere se evaluado en la convocatoria de Septiembre.
Para resolverlos, el alumno debe analizar estadı́sticamente el problema,
resolverlo con la ayuda, si lo desea, de algún Paquete estadı́stico y obtener
finalmente las conclusiones adecuadas.
z.
ére
aP
rcı́
Ga
so
on
Al f
D
Alfonso Garcı́a Pérez 3
E
Problema 1
La warfarina es un medicamento anticoagulante oral que alarga el tiempo
UN
que la sangre tarda en coagular evitando, de forma preventiva, que se pro-
duzcan trombosis y embolias. No obstante, demasiada warfarina puede causar
hemorragias graves, por lo que esta sustancia tiene un estrecho margen te-
rapéutico y la calibración de la dosis a administrar es un problema importante.
Además, se piensa que la pertenencia a uno u otro grupo étnico influye en
el tiempo de coagulación de este medicamento. Para analizar esta hipótesis
z.
se eligieron al azar 18 individuos Caucásicos y 18 Asio-Americanos en los que
se obtuvieron los siguientes tiempos (en horas) de calibración de la dosis de
ére
warfarina:
Caucásicos: 2 , 4 , 6 , 7 , 8 , 9 , 10 , 10 , 12 , 14 , 16 , 19 , 21 , 24 , 26 , 30 , 35 , 44
Asio-Americanos: 2 , 2 , 3 , 3 , 4 , 5 , 5 , 6 , 6 , 6 , 7 , 7 , 8 , 9 , 10 , 12 , 19 , 32
aP
Analizar si hay diferencias significativas entre los dos grupos étnicos en cuanto
al tiempo de calibración, mediante
a) El test de la t de Student analizando la suposición de normalidad y de
homocedasticidad.
rcı́
b) El test de Wilcoxon-Mann-Whitney.
Ga
Problema 2
so
El Western Collaborative Group Study fue un estudio epidemiológico de

gran tamaño (véase Rosenman et al., 1964) diseñado para investigar la asocia-
ción del denominado en el estudio “tipo A” de comportamiento y las enferme-
on
dades coronarias. Una parte de ese estudio aparece en el fichero WCGS2.txt

en el que se recogen los valores observados en 3154 personas de las variables
Peso Corporal en libras (Peso) y Presión Sanguı́nea Sistólica en mmHg (PSS).
Se pide,
Al f
a) Determinar la recta de mı́nimos cuadrados en donde figure como variable

dependiente PSS. ¿Qué presión sistólica cabrı́a esperar en una persona de 73
kilos?
b) Contrastar si la recta determinada en el apartado anterior es significativa
para explicar la regresión lineal entre ambas variables y analizar la normalidad
de los residuos.
D
4 Bioestadı́stica
E
Problema 1
a) Para ejecutar el test de la t de Student de comparación de dos poblacio-
UN
nes necesitamos que ambas sean de tipo normal y luego comprobar si puede
aceptarse o no que las varianzas de ambas poblaciones puedan considerarse
iguales (CB-sección 7.6). No obstante, al ser n1 ≃ n2 y n1 + n2 = 36 > 30, no
necesitamos estos requisitos para comparar las poblaciones (CB-sección 7.7)
aunque los analizaremos porque lo solicita el enunciado.
z.
Normal Q−Q Plot Normal Q−Q Plot
ére
30
40
25
30
Sample Quantiles
Sample Quantiles
aP
20
15
20
10
10
rcı́ 5
−2 −1 0 1 2 −2 −1 0 1 2
Ga
Theoretical Quantiles Theoretical Quantiles
Figura 0.1 Gráficos de normalidad de ambas muestras

so
Si hacemos un gráfico de normalidad de ambas muestras ejecutando (véase

EAR-sección 5.2.1)
on
> Cauca<-c(2,4,6,7,8,9,10,10,12,14,16,19,21,24,26,30,35,44)
> Asiame<-c(2,2,3,3,4,5,5,6,6,6,7,7,8,9,10,12,19,32)
> par(mfrow=c(1,2))
> qqnorm(Cauca)
> qqnorm(Asiame)
Al f
obtenemos la Figura 0.1. Ambos gráficos sugieren simetrı́a y normalidad de

los datos. De hecho, podemos ejecutar un test de Kolmogorov-Smirnov para
contrastar la hipótesis nula de que los datos de ambas poblaciones siguen
distribuciones normales. Como las medias y desviaciones tı́picas suministradas
por los datos son, ejecutando las siguientes instrucciones,
D
E
> mean(Cauca)
[1] 16.5
UN
> sd(Cauca)
[1] 11.53129
> mean(Asiame)
[1] 8.111111
> sd(Asiame)
[1] 7.226494
es razonable contrastar si los datos de los Caucásicos se ajusta a una normal
z.
N (16′ 5, 11′ 53) y los de los individuos Asio-Americanos a una N (8′ 11, 7′ 23).
Para ello (EAR-sección 8.3) ejecutamos las siguientes sentencias,
ére
> ks.test(Cauca,"pnorm",16.5,11.53)
One-sample Kolmogorov-Smirnov test
data: Cauca aP
D = 0.158, p-value = 0.76 (1)
alternative hypothesis: two-sided
Warning message:
In ks.test(Cauca, "pnorm", 16.5, 11.53) :
cannot compute correct p-values with ties
rcı́
> ks.test(Asiame,"pnorm",8.11,7.23)
One-sample Kolmogorov-Smirnov test

Ga
data: Asiame
D = 0.2302, p-value = 0.2958 (2)
alternative hypothesis: two-sided
Warning message:
In ks.test(Asiame, "pnorm", 8.11, 7.23) :
so
cannot compute correct p-values with ties
obteniéndose unos p-valores en (1) y (2) que conducen a aceptar la normali-

dad de ambas muestras.
on
Sobre la homocedasticidad, contrastaremos la hipótesis nula H0 : σ12 = σ22

frente a la alternativa de ser distintas (CB-sección 7.5), contraste basado en
el estadı́stico S12 /S22 . De hecho, aceptaremos esta hipótesis nula cuando y sólo
Al f
cuando sea,
S12
∈ [ Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 ].
S22
Habı́amos obtenido más arriba que es x1 = 16′ 5 , S12 = (11′ 53)2 , x2 =
8′ 11 , S22 = (7′ 23)2 , por lo que es S12 /S22 = 132′ 94/52′ 27 = 2′ 54.
D
6 Bioestadı́stica
E
Si consideramos un nivel de significación α = 0′ 02, será, a partir de la
Tabla 6 de la F de Snedecor, o directamente utilizando R (EAR-sección 3.5.3),
UN
qf(0.01,17,17) = 0′ 3084582 y qf(0.99,17,17) = 3′ 24193 , con lo que la
región de aceptación, a nivel α = 0′ 02, es [0′ 31 , 3′ 24] , que contendrá al valor
del estadı́stico por lo que se aceptará la hipótesis nula de ser iguales ambas
varianzas poblacionales, a ese nivel de significación.
De hecho, con R podemos obtener el p-valor ejecutando
z.
> 2*(1-pf(2.54,17,17))
[1] 0.06267927
ére
valor, aunque no contundente, lo suficientemente grande como para confirmar
la igualdad de las varianzas poblacionales.
Si quisiéramos ejecutar este test directamente con R deberı́amos ejecutar
(3), (EAR-sección 4.2.3), observando que aquı́ se analiza si la región de acep-
aP
tación
" #
S12 /S22 S12 /S22

2′ 54 2′ 54
, = , = [0′ 78 , 8′ 19]
Fn1 −1,n2 −1; α2 Fn1 −1,n2 −1;1− α2 3′ 24 0′ 31
rcı́
cociente, contiene o no al 1. La región de aceptación se observa en (4) y el

p-valor de este test, igual lógicamente al anterior, aparece en (5).
Ga
> var.test(Cauca,Asiame,conf.level=0.98) (3)
F test to compare two variances
data: Cauca and Asiame

F = 2.5462, num df = 17, denom df = 17, p-value = 0.06201 (5)
alternative hypothesis: true ratio of variances is not equal to 1
so
98 percent confidence interval:

0.7854103 8.2547491 (4)
sample estimates:
ratio of variances
on
2.546245
Como dijimos al comienzo, dado que los tamaños muestrales son grandes,
el test para contrastar la igualdad de las medias poblacionales; es decir, para
Al f
contrastar la hipótesis nula H0 : µ1 = µ2 frente a la alternativa H1 : µ1 6= µ2

será el que acepte H0 cuando y sólo cuando sea
|x − x2 |
s1 ≤ zα/2 .
S12 S22
+
n1 n2
D
E
Como es
UN
|x − x2 | |16′ 5 − 8′ 11|
s1 =r = 2′ 6153
2 2 ′
132 94 52 27 ′
S1 S +
+ 2 18 18
n1 n2
y, a partir de la Tabla 3 de la Normal, vemos que es P {Z > 2′ 6153} < 0′ 0045,
con lo que podemos rechazar la hipótesis nula de igualdad de las medias, con
z.
un p-valor menor que 0′ 009, es decir, con suficiente confianza.
Este test de igualdad de medias se puede resolver con R ejecutando (6)
(véase EAR-sección 4.2.4), en donde consideramos las varianzas poblacionales
ére
como iguales. Como el 0 no está incluido en la región de aceptación dada en
(7), rechazaremos la hipótesis nula de igualdad de los tiempos de calibración
en ambas razas. El p-valor 0′ 0132 aparece en (8) (aunque está calculado con
una t de Student; de ahı́ la pequeña diferencia con el calculado más arriba
aP
utilizando la normal) y sugiere el rechazo de H0 .
> t.test(Cauca,Asiame,var.equal=T) (6)
Two Sample t-test

rcı́
t = 2.6153, df = 34, p-value = 0.01320 (8)

alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
1.870327 14.907450 (7)
Ga
sample estimates:
mean of x mean of y
16.500000 8.111111
b) Para utilizar el test de Wilcoxon-Mann-Whitney, CB-sección 13.4.1, las

hipótesis a contrastar harán referencia a las medianas poblacionales M1 y M2
y serán H0 : M1 = M2 frente a la alternativa H1 : M1 6= M2 , aceptándose H0
so
cuando y sólo cuando sea
m · n − um,n;α/2 < U < um,n;α/2

on
siendo U el número de valores de la segunda muestra que preceden estricta-

mente a cada valor fijo de la primera muestra.
Si subrayamos los valores de la segunda muestra en la siguiente unión de
Al f
ambas muestras ordenadas, en donde los de la segunda muestra que son iguales
a los de la primera los hemos situado detrás para hacer más simple el recuento,
2, 2, 2, 3, 3, 4, 4, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8, 8, 9, 9, 10, 10, 10
12, 12, 14, 16, 19, 19, 21, 24, 26, 30, 32, 35, 44.
D
8 Bioestadı́stica
E
Ahora, para calcular el valor de U nos fijamos en cada valor de la primera
muestra (es decir, cada valor no subrayado) y vemos cuantos valores de la
UN
segunda muestra (es decir, cuántos valores subrayados) le preceden. Es decir,
miramos el 2 (primer valor no subrayado) vemos que no hay ningún valor
subrayado que lo preceda, por lo que el primer sumando de U es 0. El segundo
valor no subrayado es 4, al que le preceden 4 valores subrayados, lo que hace
que el segundo valor de U sea 4, y ası́ sucesivamente; vemos que U toma el
valor,
z.
U = 0+4+7+10+12+13+14+14+15+16+16+16+17+17+17+17+18+18 = 241.
ére
En la determinación del punto crı́tico y el p-valor utilizaremos la aproxima-
ción normal ya que los tamaños muestrales son mayores que 5. En concreto,
si el nivel de significación es α = 0′ 02, será
aP
um,n;α/2 = u18,18;0′ 01 =
18 · 18
+ 2′ 325
r
18 · 18 · (18 + 18 + 1)
= 235′ 49
2 12
y la región de aceptación,
rcı́
(m · n − um,n;α/2 , um,n;α/2 ) = (18 · 18 − 235′ 49 , 235′ 49) = (88′ 51 , 235′ 49).

Como U = 241 no pertenece a ella, deberemos rechazar la hipótesis nula de
igualdad de ambas poblaciones, con un p-valor menor que el nivel de signifi-
Ga
cación 0′ 02. En concreto, el p-valor (aproximado por utilizar la aproximación

normal) será, utilizando la cola superior, al ser el p-valor el menor nivel de
significación para el que se rechaza la hipótesis nula,
( )
241 − 18 · 18/2
2 × P {U > 241} ≈ 2 × P Z> p = 2 × P {Z > 2′ 5} = 0′ 0124
so
18 · 18(18 + 18 + 1)/12
que indica rechazar con confianza la hipótesis nula de igualdad.
Para resolver este ejercicio con R, deberı́amos ejecutar (9) (EAR-sección
on
8.4.1) si queremos utilizar las mismas opciones que las que acabamos de em-
plear. Los resultados son un poco distintos porque R promedia entre los valores
iguales en el cálculo de U . No obstante, el p-valor, dado en (10), también es
indicativo del rechazo de la hipótesis nula de igualdad de ambas poblaciones.
Al f
> wilcox.test(Cauca,Asiame,exac=F,correct=F) (9)
Wilcoxon rank sum test

W = 248, p-value = 0.00641 (10)
alternative hypothesis: true location shift is not equal to 0
D
E
Problema 2
UN
Resolveremos el problema con R. Para ello, primero deberemos incorporar
los datos ejecutando (1).
> WCGS2<-read.table("a:\\WCGS2.txt",header=T) (1)
a) La recta de mı́nimos cuadrados la obtenemos ejecutado (4). Antes hemos

extraı́do de los datos las dos variables de la regresión ejecutando (2) y (3) de
z.
una manera equivalente a utilizar el número de la columna.
> x<-WCGS2[,c("Peso")] (2)
ére
> y<-WCGS2[,c("PSS")] (3)
> resultado<-lm(y~x) (4)
> resultado
Call: aP
lm(formula = y ~ x)
Coefficients:
(Intercept) x
97.7888 0.1815
La recta buscada será, por tanto,

rcı́
PSS = 97′ 789 + 0′ 1815 Peso

Como 73 kilos son 160′ 937 libras, la presión sistólica esperada en una per-
Ga
sona de 73 kilos serı́a
PSS—73 = 97′ 789 + 0′ 1815 · 160′ 937 = 127

es decir, la que solemos medir como 12′ 7.
b) Para contrastar si la recta de regresión obtenida es significativa para
so
explicar y predecir la variable dependiente en función de la independiente, es

decir, si por ejemplo la predicción 11′ 1 es fiable, contrastaremos la hipótesis
nula H0 :las variables Peso y PSS no están relacionadas linealmente, frente
on
a la alternativa H1 de que sı́ lo están, deberemos formar la tabla de Análi-

sis de la Varianza para la Regresión, CB-sección 9.3.1. Con R la obtenemos
inmediatamente ejecutando (5), o ejecutando >anova(resultado).
Al f
> summary(resultado) (5)
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
D
10 Bioestadı́stica
E
UN
220
200
180
z.
y
160
140
ére
120
100
100
aP 150 200
x
250 300
Figura 0.2 Nube de puntos y recta ajustada

rcı́
-29.549 -10.097 -2.456 7.724 99.544
Coefficients:
Estimate Std. Error t value Pr(>|t|)
Ga
(Intercept) 97.78884 2.11473 46.24 <2e-16 ***

x 0.18148 0.01235 14.70 <2e-16 *** (6)
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 14.63 on 3152 degrees of freedom

so
Multiple R-squared: 0.06414, Adjusted R-squared: 0.06384

F-statistic: 216 on 1 and 3152 DF, p-value: < 2.2e-16
El p-valor observado en (6) indica que se rechace la hipótesis nula planteada

on
y que se concluya con que la recta de regresión determinada es válida para

explicar la regresión lineal. No obstante, el gráfico de la nube de puntos y la
recta ajustada, dados por la Figura 0.2 y obtenidos ejecutando los comandos
Al f
> plot(x,y,pch=16,col=2)
> abline(resultado,col=4)
parece indicarnos que hay demasiados puntos como para que la regresión sea
válida. Hay que tomarla con mucho cuidado. De hecho, el coeficiente de co-
rrelación lineal de Pearson es bajı́simo, r = 0′ 253, lo que de nuevo manifiesta
precauciones en las conclusiones.
D
E
Normal Q−Q Plot Histogram of resid(resultado)
UN
100
1000
80
800
60
z.
Sample Quantiles
600
Frequency
40
ére
400
20
0
200
aP
−20
−2 0 2 −20 0 20 40 60 80 100
Theoretical Quantiles resid(resultado)

rcı́
Figura 0.3 Gráfico de normalidad e Histograma de los residuos

Ga
> cor(x,y)
[1] 0.2532496
Por último, la normalidad de los residuos la podemos analizar ejecutando

los siguientes comandos que proporcionan la Figura 0.3
so
> par(mfrow=c(1,2))
> qqnorm(resid(resultado))
> hist(resid(resultado))
on
los cuales indican una asimetrı́a a la derecha y, en consecuencia, una no nor-

malidad de los datos. De hecho, si representamos los histogramas de ambas
variables, vemos en la Figura 0.4 que la variable PSS es muy asimétrica a la
derecha. El Peso sı́ parece de tipo normal.
Al f
D
12 Bioestadı́stica
E
UN
z.
ére
Histogram of y Histogram of x
0.025
aP
0.015
0.020
0.015
0.010
Density
Density
rcı́
0.010
0.005
0.005
Ga
0.000
0.000
100 140 180 220 50 100 150 200 250 300

so
y x
Figura 0.4 Histogramas de PSS y Peso

on
Al f

Bioestad Istica: Alfonso Garc Ia P Erez

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bioestad Istica: Alfonso Garc Ia P Erez

Cargado por

Copyright:

Formatos disponibles

E D

Alfonso Garcı́a Pérez

Universidad Nacional de Educación a Distancia

El Western Collaborative Group Study fue un estudio epidemiológico de

dades coronarias. Una parte de ese estudio aparece en el fichero WCGS2.txt

a) Determinar la recta de mı́nimos cuadrados en donde figure como variable

Theoretical Quantiles Theoretical Quantiles

Figura 0.1 Gráficos de normalidad de ambas muestras

Si hacemos un gráfico de normalidad de ambas muestras ejecutando (véase

obtenemos la Figura 0.1. Ambos gráficos sugieren simetrı́a y normalidad de

es razonable contrastar si los datos de los Caucásicos se ajusta a una normal

One-sample Kolmogorov-Smirnov test

One-sample Kolmogorov-Smirnov test

cannot compute correct p-values with ties

obteniéndose unos p-valores en (1) y (2) que conducen a aceptar la normali-

Sobre la homocedasticidad, contrastaremos la hipótesis nula H0 : σ12 = σ22

cociente, contiene o no al 1. La región de aceptación se observa en (4) y el

> var.test(Cauca,Asiame,conf.level=0.98) (3)

F test to compare two variances

data: Cauca and Asiame

98 percent confidence interval:

contrastar la hipótesis nula H0 : µ1 = µ2 frente a la alternativa H1 : µ1 6= µ2

Two Sample t-test

data: Cauca and Asiame

t = 2.6153, df = 34, p-value = 0.01320 (8)

b) Para utilizar el test de Wilcoxon-Mann-Whitney, CB-sección 13.4.1, las

cuando y sólo cuando sea

m · n − um,n;α/2 < U < um,n;α/2

siendo U el número de valores de la segunda muestra que preceden estricta-

(m · n − um,n;α/2 , um,n;α/2 ) = (18 · 18 − 235′ 49 , 235′ 49) = (88′ 51 , 235′ 49).

cación 0′ 02. En concreto, el p-valor (aproximado por utilizar la aproximación

> wilcox.test(Cauca,Asiame,exac=F,correct=F) (9)

Wilcoxon rank sum test

data: Cauca and Asiame

a) La recta de mı́nimos cuadrados la obtenemos ejecutado (4). Antes hemos

La recta buscada será, por tanto,

PSS = 97′ 789 + 0′ 1815 Peso

sona de 73 kilos serı́a

PSS—73 = 97′ 789 + 0′ 1815 · 160′ 937 = 127

explicar y predecir la variable dependiente en función de la independiente, es

a la alternativa H1 de que sı́ lo están, deberemos formar la tabla de Análi-

> summary(resultado) (5)

Figura 0.2 Nube de puntos y recta ajustada

-29.549 -10.097 -2.456 7.724 99.544

(Intercept) 97.78884 2.11473 46.24 <2e-16 ***

Residual standard error: 14.63 on 3152 degrees of freedom

Multiple R-squared: 0.06414, Adjusted R-squared: 0.06384

El p-valor observado en (6) indica que se rechace la hipótesis nula planteada

y que se concluya con que la recta de regresión determinada es válida para

Theoretical Quantiles resid(resultado)

Figura 0.3 Gráfico de normalidad e Histograma de los residuos

Por último, la normalidad de los residuos la podemos analizar ejecutando

los cuales indican una asimetrı́a a la derecha y, en consecuencia, una no nor-

100 140 180 220 50 100 150 200 250 300

Figura 0.4 Histogramas de PSS y Peso

También podría gustarte