Está en la página 1de 12

E D

UN
z.
Bioestadı́stica

ére
Curso 2009-2010
aP
rcı́
Ga
so

Alfonso Garcı́a Pérez


on

Universidad Nacional de Educación a Distancia


Al f
D
2 Bioestadı́stica

E
Los dos siguientes Problemas corresponden a la Evaluación de la asignatura
Bioestadı́stica.

UN
Las soluciones debe enviarlas a agar-per@ccia.uned.es antes del 15 de
Mayo si quiere ser evaluado en la convocatoria de Junio, o antes del 1 de
Septiembre si quiere se evaluado en la convocatoria de Septiembre.
Para resolverlos, el alumno debe analizar estadı́sticamente el problema,
resolverlo con la ayuda, si lo desea, de algún Paquete estadı́stico y obtener
finalmente las conclusiones adecuadas.

z.
ére
aP
rcı́
Ga
so
on
Al f
D
Alfonso Garcı́a Pérez 3

E
Problema 1
La warfarina es un medicamento anticoagulante oral que alarga el tiempo

UN
que la sangre tarda en coagular evitando, de forma preventiva, que se pro-
duzcan trombosis y embolias. No obstante, demasiada warfarina puede causar
hemorragias graves, por lo que esta sustancia tiene un estrecho margen te-
rapéutico y la calibración de la dosis a administrar es un problema importante.
Además, se piensa que la pertenencia a uno u otro grupo étnico influye en
el tiempo de coagulación de este medicamento. Para analizar esta hipótesis

z.
se eligieron al azar 18 individuos Caucásicos y 18 Asio-Americanos en los que
se obtuvieron los siguientes tiempos (en horas) de calibración de la dosis de

ére
warfarina:

Caucásicos: 2 , 4 , 6 , 7 , 8 , 9 , 10 , 10 , 12 , 14 , 16 , 19 , 21 , 24 , 26 , 30 , 35 , 44

Asio-Americanos: 2 , 2 , 3 , 3 , 4 , 5 , 5 , 6 , 6 , 6 , 7 , 7 , 8 , 9 , 10 , 12 , 19 , 32
aP
Analizar si hay diferencias significativas entre los dos grupos étnicos en cuanto
al tiempo de calibración, mediante
a) El test de la t de Student analizando la suposición de normalidad y de
homocedasticidad.
rcı́

b) El test de Wilcoxon-Mann-Whitney.
Ga

Problema 2
so

El Western Collaborative Group Study fue un estudio epidemiológico de


gran tamaño (véase Rosenman et al., 1964) diseñado para investigar la asocia-
ción del denominado en el estudio “tipo A” de comportamiento y las enferme-
on

dades coronarias. Una parte de ese estudio aparece en el fichero WCGS2.txt


en el que se recogen los valores observados en 3154 personas de las variables
Peso Corporal en libras (Peso) y Presión Sanguı́nea Sistólica en mmHg (PSS).
Se pide,
Al f

a) Determinar la recta de mı́nimos cuadrados en donde figure como variable


dependiente PSS. ¿Qué presión sistólica cabrı́a esperar en una persona de 73
kilos?
b) Contrastar si la recta determinada en el apartado anterior es significativa
para explicar la regresión lineal entre ambas variables y analizar la normalidad
de los residuos.
D
4 Bioestadı́stica

E
Problema 1
a) Para ejecutar el test de la t de Student de comparación de dos poblacio-

UN
nes necesitamos que ambas sean de tipo normal y luego comprobar si puede
aceptarse o no que las varianzas de ambas poblaciones puedan considerarse
iguales (CB-sección 7.6). No obstante, al ser n1 ≃ n2 y n1 + n2 = 36 > 30, no
necesitamos estos requisitos para comparar las poblaciones (CB-sección 7.7)
aunque los analizaremos porque lo solicita el enunciado.

z.
Normal Q−Q Plot Normal Q−Q Plot

ére
30
40

25
30
Sample Quantiles

Sample Quantiles

aP
20
15
20

10
10

rcı́ 5

−2 −1 0 1 2 −2 −1 0 1 2
Ga

Theoretical Quantiles Theoretical Quantiles

Figura 0.1 Gráficos de normalidad de ambas muestras


so

Si hacemos un gráfico de normalidad de ambas muestras ejecutando (véase


EAR-sección 5.2.1)
on

> Cauca<-c(2,4,6,7,8,9,10,10,12,14,16,19,21,24,26,30,35,44)
> Asiame<-c(2,2,3,3,4,5,5,6,6,6,7,7,8,9,10,12,19,32)
> par(mfrow=c(1,2))
> qqnorm(Cauca)
> qqnorm(Asiame)
Al f

obtenemos la Figura 0.1. Ambos gráficos sugieren simetrı́a y normalidad de


los datos. De hecho, podemos ejecutar un test de Kolmogorov-Smirnov para
contrastar la hipótesis nula de que los datos de ambas poblaciones siguen
distribuciones normales. Como las medias y desviaciones tı́picas suministradas
por los datos son, ejecutando las siguientes instrucciones,
D
Alfonso Garcı́a Pérez 5

E
> mean(Cauca)
[1] 16.5

UN
> sd(Cauca)
[1] 11.53129
> mean(Asiame)
[1] 8.111111
> sd(Asiame)
[1] 7.226494

es razonable contrastar si los datos de los Caucásicos se ajusta a una normal

z.
N (16′ 5, 11′ 53) y los de los individuos Asio-Americanos a una N (8′ 11, 7′ 23).
Para ello (EAR-sección 8.3) ejecutamos las siguientes sentencias,

ére
> ks.test(Cauca,"pnorm",16.5,11.53)

One-sample Kolmogorov-Smirnov test

data: Cauca aP
D = 0.158, p-value = 0.76 (1)
alternative hypothesis: two-sided

Warning message:
In ks.test(Cauca, "pnorm", 16.5, 11.53) :
cannot compute correct p-values with ties
rcı́

> ks.test(Asiame,"pnorm",8.11,7.23)

One-sample Kolmogorov-Smirnov test


Ga

data: Asiame
D = 0.2302, p-value = 0.2958 (2)
alternative hypothesis: two-sided

Warning message:
In ks.test(Asiame, "pnorm", 8.11, 7.23) :
so

cannot compute correct p-values with ties

obteniéndose unos p-valores en (1) y (2) que conducen a aceptar la normali-


dad de ambas muestras.
on

Sobre la homocedasticidad, contrastaremos la hipótesis nula H0 : σ12 = σ22


frente a la alternativa de ser distintas (CB-sección 7.5), contraste basado en
el estadı́stico S12 /S22 . De hecho, aceptaremos esta hipótesis nula cuando y sólo
Al f

cuando sea,

S12
∈ [ Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 ].
S22
Habı́amos obtenido más arriba que es x1 = 16′ 5 , S12 = (11′ 53)2 , x2 =
8′ 11 , S22 = (7′ 23)2 , por lo que es S12 /S22 = 132′ 94/52′ 27 = 2′ 54.
D
6 Bioestadı́stica

E
Si consideramos un nivel de significación α = 0′ 02, será, a partir de la
Tabla 6 de la F de Snedecor, o directamente utilizando R (EAR-sección 3.5.3),

UN
qf(0.01,17,17) = 0′ 3084582 y qf(0.99,17,17) = 3′ 24193 , con lo que la
región de aceptación, a nivel α = 0′ 02, es [0′ 31 , 3′ 24] , que contendrá al valor
del estadı́stico por lo que se aceptará la hipótesis nula de ser iguales ambas
varianzas poblacionales, a ese nivel de significación.
De hecho, con R podemos obtener el p-valor ejecutando

z.
> 2*(1-pf(2.54,17,17))
[1] 0.06267927

ére
valor, aunque no contundente, lo suficientemente grande como para confirmar
la igualdad de las varianzas poblacionales.
Si quisiéramos ejecutar este test directamente con R deberı́amos ejecutar
(3), (EAR-sección 4.2.3), observando que aquı́ se analiza si la región de acep-
aP
tación

" #
S12 /S22 S12 /S22
 
2′ 54 2′ 54
, = , = [0′ 78 , 8′ 19]
Fn1 −1,n2 −1; α2 Fn1 −1,n2 −1;1− α2 3′ 24 0′ 31
rcı́

cociente, contiene o no al 1. La región de aceptación se observa en (4) y el


p-valor de este test, igual lógicamente al anterior, aparece en (5).
Ga

> var.test(Cauca,Asiame,conf.level=0.98) (3)

F test to compare two variances

data: Cauca and Asiame


F = 2.5462, num df = 17, denom df = 17, p-value = 0.06201 (5)
alternative hypothesis: true ratio of variances is not equal to 1
so

98 percent confidence interval:


0.7854103 8.2547491 (4)
sample estimates:
ratio of variances
on

2.546245

Como dijimos al comienzo, dado que los tamaños muestrales son grandes,
el test para contrastar la igualdad de las medias poblacionales; es decir, para
Al f

contrastar la hipótesis nula H0 : µ1 = µ2 frente a la alternativa H1 : µ1 6= µ2


será el que acepte H0 cuando y sólo cuando sea

|x − x2 |
s1 ≤ zα/2 .
S12 S22
+
n1 n2
D
Alfonso Garcı́a Pérez 7

E
Como es

UN
|x − x2 | |16′ 5 − 8′ 11|
s1 =r = 2′ 6153
2 2 ′
132 94 52 27 ′
S1 S +
+ 2 18 18
n1 n2
y, a partir de la Tabla 3 de la Normal, vemos que es P {Z > 2′ 6153} < 0′ 0045,
con lo que podemos rechazar la hipótesis nula de igualdad de las medias, con

z.
un p-valor menor que 0′ 009, es decir, con suficiente confianza.
Este test de igualdad de medias se puede resolver con R ejecutando (6)
(véase EAR-sección 4.2.4), en donde consideramos las varianzas poblacionales

ére
como iguales. Como el 0 no está incluido en la región de aceptación dada en
(7), rechazaremos la hipótesis nula de igualdad de los tiempos de calibración
en ambas razas. El p-valor 0′ 0132 aparece en (8) (aunque está calculado con
una t de Student; de ahı́ la pequeña diferencia con el calculado más arriba
aP
utilizando la normal) y sugiere el rechazo de H0 .
> t.test(Cauca,Asiame,var.equal=T) (6)

Two Sample t-test

data: Cauca and Asiame


rcı́

t = 2.6153, df = 34, p-value = 0.01320 (8)


alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
1.870327 14.907450 (7)
Ga

sample estimates:
mean of x mean of y
16.500000 8.111111

b) Para utilizar el test de Wilcoxon-Mann-Whitney, CB-sección 13.4.1, las


hipótesis a contrastar harán referencia a las medianas poblacionales M1 y M2
y serán H0 : M1 = M2 frente a la alternativa H1 : M1 6= M2 , aceptándose H0
so

cuando y sólo cuando sea

m · n − um,n;α/2 < U < um,n;α/2


on

siendo U el número de valores de la segunda muestra que preceden estricta-


mente a cada valor fijo de la primera muestra.
Si subrayamos los valores de la segunda muestra en la siguiente unión de
Al f

ambas muestras ordenadas, en donde los de la segunda muestra que son iguales
a los de la primera los hemos situado detrás para hacer más simple el recuento,

2, 2, 2, 3, 3, 4, 4, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8, 8, 9, 9, 10, 10, 10

12, 12, 14, 16, 19, 19, 21, 24, 26, 30, 32, 35, 44.
D
8 Bioestadı́stica

E
Ahora, para calcular el valor de U nos fijamos en cada valor de la primera
muestra (es decir, cada valor no subrayado) y vemos cuantos valores de la

UN
segunda muestra (es decir, cuántos valores subrayados) le preceden. Es decir,
miramos el 2 (primer valor no subrayado) vemos que no hay ningún valor
subrayado que lo preceda, por lo que el primer sumando de U es 0. El segundo
valor no subrayado es 4, al que le preceden 4 valores subrayados, lo que hace
que el segundo valor de U sea 4, y ası́ sucesivamente; vemos que U toma el
valor,

z.
U = 0+4+7+10+12+13+14+14+15+16+16+16+17+17+17+17+18+18 = 241.

ére
En la determinación del punto crı́tico y el p-valor utilizaremos la aproxima-
ción normal ya que los tamaños muestrales son mayores que 5. En concreto,
si el nivel de significación es α = 0′ 02, será
aP
um,n;α/2 = u18,18;0′ 01 =
18 · 18
+ 2′ 325
r
18 · 18 · (18 + 18 + 1)
= 235′ 49
2 12
y la región de aceptación,
rcı́

(m · n − um,n;α/2 , um,n;α/2 ) = (18 · 18 − 235′ 49 , 235′ 49) = (88′ 51 , 235′ 49).


Como U = 241 no pertenece a ella, deberemos rechazar la hipótesis nula de
igualdad de ambas poblaciones, con un p-valor menor que el nivel de signifi-
Ga

cación 0′ 02. En concreto, el p-valor (aproximado por utilizar la aproximación


normal) será, utilizando la cola superior, al ser el p-valor el menor nivel de
significación para el que se rechaza la hipótesis nula,
( )
241 − 18 · 18/2
2 × P {U > 241} ≈ 2 × P Z> p = 2 × P {Z > 2′ 5} = 0′ 0124
so

18 · 18(18 + 18 + 1)/12
que indica rechazar con confianza la hipótesis nula de igualdad.
Para resolver este ejercicio con R, deberı́amos ejecutar (9) (EAR-sección
on

8.4.1) si queremos utilizar las mismas opciones que las que acabamos de em-
plear. Los resultados son un poco distintos porque R promedia entre los valores
iguales en el cálculo de U . No obstante, el p-valor, dado en (10), también es
indicativo del rechazo de la hipótesis nula de igualdad de ambas poblaciones.
Al f

> wilcox.test(Cauca,Asiame,exac=F,correct=F) (9)

Wilcoxon rank sum test

data: Cauca and Asiame


W = 248, p-value = 0.00641 (10)
alternative hypothesis: true location shift is not equal to 0
D
Alfonso Garcı́a Pérez 9

E
Problema 2

UN
Resolveremos el problema con R. Para ello, primero deberemos incorporar
los datos ejecutando (1).
> WCGS2<-read.table("a:\\WCGS2.txt",header=T) (1)

a) La recta de mı́nimos cuadrados la obtenemos ejecutado (4). Antes hemos


extraı́do de los datos las dos variables de la regresión ejecutando (2) y (3) de

z.
una manera equivalente a utilizar el número de la columna.
> x<-WCGS2[,c("Peso")] (2)

ére
> y<-WCGS2[,c("PSS")] (3)
> resultado<-lm(y~x) (4)
> resultado

Call: aP
lm(formula = y ~ x)

Coefficients:
(Intercept) x
97.7888 0.1815

La recta buscada será, por tanto,


rcı́

PSS = 97′ 789 + 0′ 1815 Peso


Como 73 kilos son 160′ 937 libras, la presión sistólica esperada en una per-
Ga

sona de 73 kilos serı́a

PSS—73 = 97′ 789 + 0′ 1815 · 160′ 937 = 127


es decir, la que solemos medir como 12′ 7.
b) Para contrastar si la recta de regresión obtenida es significativa para
so

explicar y predecir la variable dependiente en función de la independiente, es


decir, si por ejemplo la predicción 11′ 1 es fiable, contrastaremos la hipótesis
nula H0 :las variables Peso y PSS no están relacionadas linealmente, frente
on

a la alternativa H1 de que sı́ lo están, deberemos formar la tabla de Análi-


sis de la Varianza para la Regresión, CB-sección 9.3.1. Con R la obtenemos
inmediatamente ejecutando (5), o ejecutando >anova(resultado).
Al f

> summary(resultado) (5)

Call:
lm(formula = y ~ x)

Residuals:
Min 1Q Median 3Q Max
D
10 Bioestadı́stica

E
UN
220
200
180

z.
y

160
140

ére
120
100

100
aP 150 200

x
250 300

Figura 0.2 Nube de puntos y recta ajustada


rcı́

-29.549 -10.097 -2.456 7.724 99.544

Coefficients:
Estimate Std. Error t value Pr(>|t|)
Ga

(Intercept) 97.78884 2.11473 46.24 <2e-16 ***


x 0.18148 0.01235 14.70 <2e-16 *** (6)
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 14.63 on 3152 degrees of freedom


so

Multiple R-squared: 0.06414, Adjusted R-squared: 0.06384


F-statistic: 216 on 1 and 3152 DF, p-value: < 2.2e-16

El p-valor observado en (6) indica que se rechace la hipótesis nula planteada


on

y que se concluya con que la recta de regresión determinada es válida para


explicar la regresión lineal. No obstante, el gráfico de la nube de puntos y la
recta ajustada, dados por la Figura 0.2 y obtenidos ejecutando los comandos
Al f

> plot(x,y,pch=16,col=2)
> abline(resultado,col=4)

parece indicarnos que hay demasiados puntos como para que la regresión sea
válida. Hay que tomarla con mucho cuidado. De hecho, el coeficiente de co-
rrelación lineal de Pearson es bajı́simo, r = 0′ 253, lo que de nuevo manifiesta
precauciones en las conclusiones.
D
Alfonso Garcı́a Pérez 11

E
Normal Q−Q Plot Histogram of resid(resultado)

UN
100

1000
80

800
60

z.
Sample Quantiles

600
Frequency
40

ére
400
20
0

200

aP
−20

−2 0 2 −20 0 20 40 60 80 100

Theoretical Quantiles resid(resultado)


rcı́

Figura 0.3 Gráfico de normalidad e Histograma de los residuos


Ga

> cor(x,y)
[1] 0.2532496

Por último, la normalidad de los residuos la podemos analizar ejecutando


los siguientes comandos que proporcionan la Figura 0.3
so

> par(mfrow=c(1,2))
> qqnorm(resid(resultado))
> hist(resid(resultado))
on

los cuales indican una asimetrı́a a la derecha y, en consecuencia, una no nor-


malidad de los datos. De hecho, si representamos los histogramas de ambas
variables, vemos en la Figura 0.4 que la variable PSS es muy asimétrica a la
derecha. El Peso sı́ parece de tipo normal.
Al f
D
12 Bioestadı́stica

E
UN
z.
ére
Histogram of y Histogram of x
0.025

aP
0.015
0.020
0.015

0.010
Density

Density

rcı́
0.010

0.005
0.005

Ga
0.000

0.000

100 140 180 220 50 100 150 200 250 300


so

y x

Figura 0.4 Histogramas de PSS y Peso


on
Al f

También podría gustarte