Documentos de Académico
Documentos de Profesional
Documentos de Cultura
UN
z.
Bioestadı́stica
ére
Curso 2016-2017
aP
rcı́
Ga
so
E
Los siguientes Problemas corresponden a la Evaluación de la asignatura
Bioestadı́stica.
UN
Las soluciones debe subirlas en el curso virtual a través del icono “Tareas”
antes del 15 de Mayo si quiere ser evaluado en la convocatoria de Junio, o antes
del 1 de Septiembre si quiere ser evaluado en la convocatoria de Septiembre.
Se ruega utilizar algún formato de fácil lectura como por ejemplo pdf.
Para resolverlos, el alumno debe analizar estadı́sticamente el problema aun-
que puede hacerlo con la ayuda, si lo desea, de algún Paquete estadı́stico, obte-
z.
niendo al final de forma obligatoria las conclusiones que considera adecuadas.
ére
aP
rcı́
Ga
so
on
Al f
D
Alfonso Garcı́a Pérez 3
E
Problema 0.1
Se quiere estimar mediante un intervalo de confianza de coeficiente de confianza
UN
del 95 %, el tiempo medio en dı́as que tardan los alumnos de un determinado
curso a distancia en completar los ejercicios del examen, conociendo por convo-
catorias anteriores que la varianza es de 300.
Para ello se eligieron al azar 10 alumnos que finalizaron dicho curso obteniéndose
los siguientes tiempos en dı́as de finalización del curso:
120 , 179 , 260 , 115 , 222 , 259 , 195 , 200 , 195 , 210
z.
Sabiendo que dichos tiempos siguen una distribución normal, calcular el intervalo
de confianza buscado.
ére
Se trata de la determinación del intervalo de confianza para la media de una
población normal de varianza conocida σ 2 = 300, estudiando en CB-sección
6.2.
Dicho intervalo de confianza tiene como expresión la siguiente:
aP
σ σ
x − zα/2 √ , x + zα/2 √
n n
De las tablas de la normal se obtiene que zα/2 = z0′ 025 = 1′ 96 y de los
datos observados se obtiene una media muestral de x = 195′ 5. Por tanto, el
rcı́
" r r #
σ σ 300 300
Ga
′ ′ ′ ′
x − zα/2 √ , x + zα/2 √ = 195 5 − 1 96 , 195 5 + 1 96 =
n n 10 10
> x<-c(120,179,260,115,222,259,195,200,195,210)
on
> mean(x)
[1] 195.5
Al f
> qnorm(0.95+0.025)
[1] 1.959964
> 195.5-1.96*sqrt(300/10)
[1] 184.7646
> 195.5+1.96*sqrt(300/10)
[1] 206.2354
D
4 Bioestadı́stica
E
UN
Problema 0.2
Se quiere analizar si puede admitirse que los niveles medios de colesterol en
una población determinada se encuentran por debajo de 200 mg/dl. Para ello
se tomó una muestra de 50 personas de dicha población que proporcionó una
media de 196 mg/dl. y una cuasivarianza muestral igual a 90. Calcule el p-valor
del test y diga las conclusiones que obtendrı́a.
z.
Del enunciado se desprende que se quiere contrastar la hipótesis nula H0 :
µ ≥ 200 frente a la alternativa H1 : µ < 200. Estamos en un caso de contrastes
ére
para la media de una población no necesariamente normal y muestras grandes
(CB-sección 7.3) rechazándose la hipótesis nula cuando y sólo cuando sea
x − µ0
aP
√ < z1−α .
S/ n
Dado que no nos dan nivel de significación, vamos a calcular el p-valor del
test. El estadı́stico del contraste toma el valor:
rcı́
x − µ0 196 − 200
√ = p = −2′ 98
S/ n 90/50
Ga
Problema 0.3
Los siguientes datos (Anionwu et al., 1981) corresponden a niveles de hemo-
globina en situación estable de diversos pacientes con tres diferentes tipos de
enfermedad de célula falciforme:
D
Alfonso Garcı́a Pérez 5
E
HB-SS HB-S/talasemia HB-SC
UN
7′ 2 8′ 1 10′ 7
7′ 7 9′ 2 11′ 3
8′ 0 10′ 0 11′ 5
8′ 1 10′ 4 11′ 6
8′ 3 10′ 6 11′ 7
8′ 4 10′ 9 11′ 8
8′ 4 11′ 1 12′ 0
8′ 5 11′ 9 12′ 1
z.
8′ 6 12′ 0 12′ 3
8′ 7 12′ 1 12′ 6
9′ 1 12′ 6
ére
9′ 1 13′ 3
9′ 1 13′ 3
9′ 8 13′ 8
10′ 1 13′ 9
10′ 3
aP
Analizar la igualdad de los niveles medios de hemoglobina de los tres tipos de
enfermedad con una ANOVA, comprobando las suposiciones necesarias para que
dicho test sea válido, es decir, la normalidad y la homocedasticidad de cada una
de las tres poblaciones a comparar.
rcı́
> HB_SS<-c(7.2,7.7,8.0,8.1,8.3,8.4,8.4,8.5,8.6,8.7,9.1,9.1,9.1,9.8,10.1,10.3)
> HB_S_talasemia<-c(8.1,9.2,10.0,10.4,10.6,10.9,11.1,11.9,12.0,12.1)
so
> HB_SC<-c(10.7,11.3,11.5,11.6,11.7,11.8,12.0,12.1,12.3,12.6,12.6,13.3,13.3,13.8,13.9)
> niveles<-c(HB_SS,HB_S_talasemia,HB_SC)
on
> enfermedad<-factor(rep(LETTERS[1:3],c(16,10,15)))
> problema<-data.frame(enfermedad,niveles)
Al f
> par(mfrow=c(1,3))
> qqnorm(HB_SS)
D
6 Bioestadı́stica
E
Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot
14.0
UN
12
10.0
13.5
9.5
13.0
11
9.0
Sample Quantiles
Sample Quantiles
Sample Quantiles
12.5
z.
10
8.5
12.0
ére
8.0
11.5
9
11.0
7.5
aP
−2 −1 0 1 2 −1.5 −0.5 0.5 1.0 1.5 −1 0 1
> qqnorm(HB_S_talasemia)
Ga
> qqnorm(HB_SC)
> shapiro.test(HB_SS)
on
data: HB_SS
W = 0.9636, p-value = 0.7273
Al f
(1)
> shapiro.test(HB_S_talasemia)
data: HB_S_talasemia
W = 0.93305, p-value = 0.4786
D
Alfonso Garcı́a Pérez 7
E
(2)
UN
> shapiro.test(HB_SC)
data: HB_SC
W = 0.95734, p-value = 0.6464
(3)
z.
ére
14
13
aP
12
11
10
rcı́
9
8
Ga
7
A B C
Aunque los tres p-valores (1), (2) y (3) son suficientemente grandes como
para concluir que puede aceptarse la normalidad de los datos, como ası́ hare-
on
mos, en realidad lo que pasa es que no podemos rechazar que los datos vienen
de una distribución normal y, en consecuencia, aceptamos la hipótesis nula de
que vienen de una normal. Esta es la forma de utilizar en general la herra-
Al f
E
> bartlett.test(niveles~enfermedad,problema) (5)
UN
Bartlett test of homogeneity of variances
z.
obteniendo ası́ la Figura 0.2. Como siempre, es mejor ejecutar un test para
analizar algo en lugar de hacerlo a través de un dibujo. Ası́, mediante un
test de Bartlett ejecutado mediante (5) aceptamos dicha suposición al ser el
ére
p-valor (6) grande.
Ya podemos ejecutar el ANOVA mediante (7) obteniendo en (8) un p-
valor tan bajo que podemos concluir con que existen diferencias significativas
entre los niveles medios de hemoglobina de los tres tipos de enfermedad. Co-
aP
mo los tamaños muestrales en cada uno de los tres grupos son distintos, no
podemos hacer algún test de comparaciones múltiples.
(8)
Residuals 38 37.96 1.00
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Ga
Problema 0.4
Los datos temperaturas.txt (Peixoto, 1990) que tiene en el apartado Documentos
del Curso Virtual, corresponden a Temperaturas de Enero, en grados Fahrenheit,
so
E
Resolviéndolo con R, primero incorporamos los datos con (1) y con (2)
determinamos la fórmula del hiperplano de regresión múltiple al que hemos
UN
llamado ajuste1.
Los p-valores obtenidos al ejecutar (3) al final de las lı́neas (4) y (5)
indican aceptar como significativa la covariable Latitud pero rechazar Longitud
al ser su p-valor mayor que 0′ 01 que es el valor indicado en el enunciado como
significativo.
z.
> temperaturas<-read.table("e:\\temperaturas.txt",header=T) (1)
ére
> summary(ajuste1) (3)
Call:
lm(formula = Temperatura ~ Latitud + Longitud, data = temperaturas)
aP
Residuals:
Min 1Q Median 3Q Max
-12.9983 -3.8957 0.5577 3.7330 22.0113
Coefficients:
Estimate Std. Error t value Pr(>|t|)
rcı́
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Call:
lm(formula = Temperatura ~ Latitud, data = temperaturas)
Residuals:
Min 1Q Median 3Q Max
-10.6812 -4.5018 -0.2593 2.2489 25.7434
D
10 Bioestadı́stica
E
Coefficients:
UN
Estimate Std. Error t value Pr(>|t|)
(Intercept) 108.7277 7.0561 15.41 <2e-16 ***
Latitud -2.1096 0.1794 -11.76 <2e-16 ***
(9) (8)
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
z.
Multiple R-squared: 0.7192, Adjusted R-squared: 0.714
F-statistic: 138.3 on 1 and 54 DF, p-value: < 2.2e-16
ére
La ecuación de la que resultó finalmente ser una recta de regresión lineal
simple es que tiene por coeficientes los datos en la columna (9),
Referencias
Ga
Anionwu, E.D., Watford, M., Brozovic, M. y Kirkwood (1981). Sickle cell disease in a British
urban community. British Medical Journal, 282, 283-286.
Peixoto, J.L. (1990). A property of well-formulated polynomial regression models. American
Statistician, 44, 26-30.
CB: Estadı́stica Aplicada: Conceptos Básicos, segunda edición, 2008. Alfonso Garcı́a
so
PREB: Problemas Resueltos de Estadı́stica Básica, 1998. Alfonso Garcı́a Pérez. Edi-
torial UNED, Colección Educación Permanente (código: 84011EP31A01).
EEA: Ejercicios de Estadı́stica Aplicada, 2008. Alfonso Garcı́a Pérez. Editorial UNED,
Colección Cuadernos de la UNED (código: 0135284CU01A01).
Al f
EAR: Estadı́stica Aplicada con R, 2008. Alfonso Garcı́a Pérez. Editorial UNED, Co-
lección Varia (código: 0137352PB01A01).
ADD: Fórmulas y tablas estadı́sticas, 1998. Alfonso Garcı́a Pérez. Editorial UNED,
Colección Addendas (código: 0141206AD01A01).
MR: Métodos Avanzados de Estadı́stica Aplicada. Métodos Robustos y de Re-
muestreo, 2005. Alfonso Garcı́a Pérez. Editorial UNED, Colección Educación Per-
manente (código: 0186080EP03A01).