Bioestad Istica: Alfonso Garc Ia P Erez

E D
UN
z.
Bioestadı́stica
ére
Curso 2016-2017
aP
rcı́
Ga
so
Alfonso Garcı́a Pérez

on
Universidad Nacional de Educación a Distancia

Al f
D
2 Bioestadı́stica
E
Los siguientes Problemas corresponden a la Evaluación de la asignatura
Bioestadı́stica.
UN
Las soluciones debe subirlas en el curso virtual a través del icono “Tareas”
antes del 15 de Mayo si quiere ser evaluado en la convocatoria de Junio, o antes
del 1 de Septiembre si quiere ser evaluado en la convocatoria de Septiembre.
Se ruega utilizar algún formato de fácil lectura como por ejemplo pdf.
Para resolverlos, el alumno debe analizar estadı́sticamente el problema aun-
que puede hacerlo con la ayuda, si lo desea, de algún Paquete estadı́stico, obte-
z.
niendo al final de forma obligatoria las conclusiones que considera adecuadas.
ére
aP
rcı́
Ga
so
on
Al f
D
Alfonso Garcı́a Pérez 3
E
Problema 0.1
Se quiere estimar mediante un intervalo de confianza de coeficiente de confianza
UN
del 95 %, el tiempo medio en dı́as que tardan los alumnos de un determinado
curso a distancia en completar los ejercicios del examen, conociendo por convo-
catorias anteriores que la varianza es de 300.
Para ello se eligieron al azar 10 alumnos que finalizaron dicho curso obteniéndose
los siguientes tiempos en dı́as de finalización del curso:
120 , 179 , 260 , 115 , 222 , 259 , 195 , 200 , 195 , 210
z.
Sabiendo que dichos tiempos siguen una distribución normal, calcular el intervalo
de confianza buscado.
ére
Se trata de la determinación del intervalo de confianza para la media de una
población normal de varianza conocida σ 2 = 300, estudiando en CB-sección
6.2.
Dicho intervalo de confianza tiene como expresión la siguiente:
aP

σ σ
x − zα/2 √ , x + zα/2 √
n n
De las tablas de la normal se obtiene que zα/2 = z0′ 025 = 1′ 96 y de los
datos observados se obtiene una media muestral de x = 195′ 5. Por tanto, el
rcı́
intervalo buscado será
" r r #
σ σ 300 300
Ga
′ ′ ′ ′
x − zα/2 √ , x + zα/2 √ = 195 5 − 1 96 , 195 5 + 1 96 =
n n 10 10
= [184′ 7646 , 206′ 2354].

Con la ayuda del paquete estadı́stico R (o con una calculadora) se podrı́a
so
haber resuelto ejecutando:
> x<-c(120,179,260,115,222,259,195,200,195,210)
on
> mean(x)
[1] 195.5
Al f
> qnorm(0.95+0.025)
[1] 1.959964
> 195.5-1.96*sqrt(300/10)
[1] 184.7646
> 195.5+1.96*sqrt(300/10)
[1] 206.2354
D
4 Bioestadı́stica
E
UN
Problema 0.2
Se quiere analizar si puede admitirse que los niveles medios de colesterol en
una población determinada se encuentran por debajo de 200 mg/dl. Para ello
se tomó una muestra de 50 personas de dicha población que proporcionó una
media de 196 mg/dl. y una cuasivarianza muestral igual a 90. Calcule el p-valor
del test y diga las conclusiones que obtendrı́a.
z.
Del enunciado se desprende que se quiere contrastar la hipótesis nula H0 :
µ ≥ 200 frente a la alternativa H1 : µ < 200. Estamos en un caso de contrastes
ére
para la media de una población no necesariamente normal y muestras grandes
(CB-sección 7.3) rechazándose la hipótesis nula cuando y sólo cuando sea
x − µ0
aP
√ < z1−α .
S/ n
Dado que no nos dan nivel de significación, vamos a calcular el p-valor del
test. El estadı́stico del contraste toma el valor:
rcı́
x − µ0 196 − 200
√ = p = −2′ 98
S/ n 90/50
Ga
y como es un test unilateral con región crı́tica la cola de la izquierda, el p-valor

será, a partir de una tablas de la distribución normal
so
p-valor = P {Z < −2′ 98} = P {Z > 2′ 98} = 0′ 0014

on
pudiendo rechazarse con bastante seguridad la hipótesis nula y concluir que el

nivel medio de colesterol de la población en estudio sı́ puede establecerse en
menos de 200.
Al f
Problema 0.3
Los siguientes datos (Anionwu et al., 1981) corresponden a niveles de hemo-
globina en situación estable de diversos pacientes con tres diferentes tipos de
enfermedad de célula falciforme:
D
E
HB-SS HB-S/talasemia HB-SC
UN
7′ 2 8′ 1 10′ 7
7′ 7 9′ 2 11′ 3
8′ 0 10′ 0 11′ 5
8′ 1 10′ 4 11′ 6
8′ 3 10′ 6 11′ 7
8′ 4 10′ 9 11′ 8
8′ 4 11′ 1 12′ 0
8′ 5 11′ 9 12′ 1
z.
8′ 6 12′ 0 12′ 3
8′ 7 12′ 1 12′ 6
9′ 1 12′ 6
ére
9′ 1 13′ 3
9′ 1 13′ 3
9′ 8 13′ 8
10′ 1 13′ 9
10′ 3
aP
Analizar la igualdad de los niveles medios de hemoglobina de los tres tipos de
enfermedad con una ANOVA, comprobando las suposiciones necesarias para que
dicho test sea válido, es decir, la normalidad y la homocedasticidad de cada una
de las tres poblaciones a comparar.
rcı́
Primero comprobaremos las suposiciones necesarias (normalidad y homo-

cedasticidad) para poder ejecutar un ANOVA. Lo haremos con R aunque
podrı́a realizarse con otro paquete estadı́stico. Para ello incorporamos los da-
tos a R
Ga
> HB_SS<-c(7.2,7.7,8.0,8.1,8.3,8.4,8.4,8.5,8.6,8.7,9.1,9.1,9.1,9.8,10.1,10.3)
> HB_S_talasemia<-c(8.1,9.2,10.0,10.4,10.6,10.9,11.1,11.9,12.0,12.1)
so
> HB_SC<-c(10.7,11.3,11.5,11.6,11.7,11.8,12.0,12.1,12.3,12.6,12.6,13.3,13.3,13.8,13.9)
> niveles<-c(HB_SS,HB_S_talasemia,HB_SC)
on
> enfermedad<-factor(rep(LETTERS[1:3],c(16,10,15)))
> problema<-data.frame(enfermedad,niveles)
Al f
Luego podemos analizar la normalidad con un Gráfico de normalidad ejecu-

tando
> par(mfrow=c(1,3))
> qqnorm(HB_SS)
D
6 Bioestadı́stica
E
Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot
14.0
UN
12
10.0
13.5
9.5
13.0
11
9.0
Sample Quantiles
Sample Quantiles
Sample Quantiles
12.5
z.
10
8.5
12.0
ére
8.0
11.5
9
11.0
7.5
aP
−2 −1 0 1 2 −1.5 −0.5 0.5 1.0 1.5 −1 0 1
Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles
Figura 0.1 : Gráficos de normalidad

rcı́
> qqnorm(HB_S_talasemia)
Ga
> qqnorm(HB_SC)
obteniendo la Figura 0.1.

Como los gráficos son algo dudosos, vamos a ejecutar un test de Shapiro-
Wilk para cada uno de los tres conjuntos de datos.
so
> shapiro.test(HB_SS)
on
Shapiro-Wilk normality test
data: HB_SS
W = 0.9636, p-value = 0.7273
Al f
(1)
> shapiro.test(HB_S_talasemia)
data: HB_S_talasemia
W = 0.93305, p-value = 0.4786
D
E
(2)
UN
> shapiro.test(HB_SC)
data: HB_SC
W = 0.95734, p-value = 0.6464
(3)
z.
ére
14
13
aP
12
11
10
rcı́
9
8
Ga
7
A B C
Figura 0.2 : Gráficos de cajas

so
Aunque los tres p-valores (1), (2) y (3) son suficientemente grandes como
para concluir que puede aceptarse la normalidad de los datos, como ası́ hare-
on
mos, en realidad lo que pasa es que no podemos rechazar que los datos vienen
de una distribución normal y, en consecuencia, aceptamos la hipótesis nula de
que vienen de una normal. Esta es la forma de utilizar en general la herra-
Al f
mienta test de hipótesis: tratar de rechazar la hipótesis nula y medir el error

que ası́ cometemos mediante el p-valor.
Respecto a la homocedasticidad podemos hacer tres diagramas de cajas
ejecutando (4)
> boxplot(niveles~enfermedad,col=4) (4)

D
8 Bioestadı́stica
E
> bartlett.test(niveles~enfermedad,problema) (5)
UN
Bartlett test of homogeneity of variances
data: niveles by enfermedad

Bartlett’s K-squared = 2.1251, df = 2, p-value = 0.3456
(6)
z.
obteniendo ası́ la Figura 0.2. Como siempre, es mejor ejecutar un test para
analizar algo en lugar de hacerlo a través de un dibujo. Ası́, mediante un
test de Bartlett ejecutado mediante (5) aceptamos dicha suposición al ser el
ére
p-valor (6) grande.
Ya podemos ejecutar el ANOVA mediante (7) obteniendo en (8) un p-
valor tan bajo que podemos concluir con que existen diferencias significativas
entre los niveles medios de hemoglobina de los tres tipos de enfermedad. Co-
aP
mo los tamaños muestrales en cada uno de los tres grupos son distintos, no
podemos hacer algún test de comparaciones múltiples.
> summary(aov(niveles~enfermedad,problema)) (7)

Df Sum Sq Mean Sq F value Pr(>F)
enfermedad 2 99.89 49.94 50 2.28e-11 ***
rcı́
(8)
Residuals 38 37.96 1.00
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Ga
Problema 0.4
Los datos temperaturas.txt (Peixoto, 1990) que tiene en el apartado Documentos
del Curso Virtual, corresponden a Temperaturas de Enero, en grados Fahrenheit,
so
de 56 ciudades de Estados Unidos, ası́ como su Latitud y su Longitud.

Analizar mediante una Regresión Lineal Múltiple si las covariables Latitud y
Longitud son significativas para explicar a la variable Temperatura, entendiendo
como significativa aquella para la que su p-valor sea menor que 0′ 01. Si alguna
on
de estas dos covariables no es significativa, quı́tela del modelo y vuelva a ajustar

para obtener una ecuación con la que poder hacer predicciones. Dé finalmente
la ecuación que permite hacer las predicciones.
Al f
La Regresión Lineal Múltiple viene explicada en el Capı́tulo 10 de CB y

su resolución con el paquete estadı́stico R viene detallada a lo largo de este
capı́tulo siendo especialmente útil la sección las páginas 250 y 251.
Resolvemos este ejercicio con el paquete R aunque podrı́a haberse utilizado
cualquier otro. En el texto “Estadı́stica Básica Aplicada con SPSS” viene cómo
resolver con SPSS otro ejercicio parecido.
D
E
Resolviéndolo con R, primero incorporamos los datos con (1) y con (2)
determinamos la fórmula del hiperplano de regresión múltiple al que hemos
UN
llamado ajuste1.
Los p-valores obtenidos al ejecutar (3) al final de las lı́neas (4) y (5)
indican aceptar como significativa la covariable Latitud pero rechazar Longitud
al ser su p-valor mayor que 0′ 01 que es el valor indicado en el enunciado como
significativo.
z.
> temperaturas<-read.table("e:\\temperaturas.txt",header=T) (1)
> ajuste1 <- lm(Temperatura ~ Latitud+Longitud, data=temperaturas) (2)
ére
> summary(ajuste1) (3)
Call:
lm(formula = Temperatura ~ Latitud + Longitud, data = temperaturas)
aP
Residuals:
Min 1Q Median 3Q Max
-12.9983 -3.8957 0.5577 3.7330 22.0113
Coefficients:
Estimate Std. Error t value Pr(>|t|)
rcı́
(Intercept) 98.64523 8.32708 11.846 <2e-16 ***

Latitud -2.16355 0.17570 -12.314 <2e-16 *** (4)
Longitud 0.13396 0.06314 2.122 0.0386 * (5)
---
Ga
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 6.935 on 53 degrees of freedom

Multiple R-squared: 0.7411, Adjusted R-squared: 0.7314
F-statistic: 75.88 on 2 and 53 DF, p-value: 2.792e-16
so
Es necesario por tanto volver a realizar el ajuste, ejecutando (6) y analizar

éste con (7), observando en (8) un p-valor suficientemente pequeño como para
indicar que la covariable Latitud es definitivamente significativa para explicar
on
a la variable dependiente Temperatura.
> ajuste2 <- lm(Temperatura ~ Latitud, data=temperaturas) (6)

Al f
> summary(ajuste2) (7)
Call:
lm(formula = Temperatura ~ Latitud, data = temperaturas)
Residuals:
Min 1Q Median 3Q Max
-10.6812 -4.5018 -0.2593 2.2489 25.7434
D
10 Bioestadı́stica
E
Coefficients:
UN
Estimate Std. Error t value Pr(>|t|)
(Intercept) 108.7277 7.0561 15.41 <2e-16 ***
Latitud -2.1096 0.1794 -11.76 <2e-16 ***
(9) (8)
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 7.156 on 54 degrees of freedom
z.
Multiple R-squared: 0.7192, Adjusted R-squared: 0.714
F-statistic: 138.3 on 1 and 54 DF, p-value: < 2.2e-16
ére
La ecuación de la que resultó finalmente ser una recta de regresión lineal
simple es que tiene por coeficientes los datos en la columna (9),
Temperatura = 108′ 7277 − 2′ 1096 Latitud.

aP
Ası́ por ejemplo, la Temperatura que cabe esperar en una ciudad americana
de Latitud 35 es
Temperatura = 108′ 7277 − 2′ 1096 · 35 = 34′ 8917

grados Fahrenheit.
rcı́
Referencias
Ga
Anionwu, E.D., Watford, M., Brozovic, M. y Kirkwood (1981). Sickle cell disease in a British
urban community. British Medical Journal, 282, 283-286.
Peixoto, J.L. (1990). A property of well-formulated polynomial regression models. American
Statistician, 44, 26-30.
CB: Estadı́stica Aplicada: Conceptos Básicos, segunda edición, 2008. Alfonso Garcı́a
so
Pérez. Editorial UNED, Colección Educación Permanente (código: 0184011EP01A02).

ID: La Interpretación de los Datos. Una Introducción a la Estadı́stica Aplicada,
2014. Alfonso Garcı́a Pérez. Editorial UNED (código: 0105008CT01A01).
on
PREB: Problemas Resueltos de Estadı́stica Básica, 1998. Alfonso Garcı́a Pérez. Edi-
torial UNED, Colección Educación Permanente (código: 84011EP31A01).
EEA: Ejercicios de Estadı́stica Aplicada, 2008. Alfonso Garcı́a Pérez. Editorial UNED,
Colección Cuadernos de la UNED (código: 0135284CU01A01).
Al f
EAR: Estadı́stica Aplicada con R, 2008. Alfonso Garcı́a Pérez. Editorial UNED, Co-
lección Varia (código: 0137352PB01A01).
ADD: Fórmulas y tablas estadı́sticas, 1998. Alfonso Garcı́a Pérez. Editorial UNED,
Colección Addendas (código: 0141206AD01A01).
MR: Métodos Avanzados de Estadı́stica Aplicada. Métodos Robustos y de Re-
muestreo, 2005. Alfonso Garcı́a Pérez. Editorial UNED, Colección Educación Per-
manente (código: 0186080EP03A01).

Bioestad Istica: Alfonso Garc Ia P Erez

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bioestad Istica: Alfonso Garc Ia P Erez

Cargado por

Copyright:

Formatos disponibles

E D

Alfonso Garcı́a Pérez

Universidad Nacional de Educación a Distancia

intervalo buscado será

= [184′ 7646 , 206′ 2354].

haber resuelto ejecutando:

y como es un test unilateral con región crı́tica la cola de la izquierda, el p-valor

p-valor = P {Z < −2′ 98} = P {Z > 2′ 98} = 0′ 0014

pudiendo rechazarse con bastante seguridad la hipótesis nula y concluir que el

Primero comprobaremos las suposiciones necesarias (normalidad y homo-

Luego podemos analizar la normalidad con un Gráfico de normalidad ejecu-

Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles

Figura 0.1 : Gráficos de normalidad

obteniendo la Figura 0.1.

Shapiro-Wilk normality test

Shapiro-Wilk normality test

Shapiro-Wilk normality test

Figura 0.2 : Gráficos de cajas

mienta test de hipótesis: tratar de rechazar la hipótesis nula y medir el error

> boxplot(niveles~enfermedad,col=4) (4)

data: niveles by enfermedad

> summary(aov(niveles~enfermedad,problema)) (7)

de 56 ciudades de Estados Unidos, ası́ como su Latitud y su Longitud.

de estas dos covariables no es significativa, quı́tela del modelo y vuelva a ajustar

La Regresión Lineal Múltiple viene explicada en el Capı́tulo 10 de CB y

> ajuste1 <- lm(Temperatura ~ Latitud+Longitud, data=temperaturas) (2)

(Intercept) 98.64523 8.32708 11.846 <2e-16 ***

Residual standard error: 6.935 on 53 degrees of freedom

Es necesario por tanto volver a realizar el ajuste, ejecutando (6) y analizar

a la variable dependiente Temperatura.

> ajuste2 <- lm(Temperatura ~ Latitud, data=temperaturas) (6)

> summary(ajuste2) (7)

Residual standard error: 7.156 on 54 degrees of freedom

Temperatura = 108′ 7277 − 2′ 1096 Latitud.

Temperatura = 108′ 7277 − 2′ 1096 · 35 = 34′ 8917

Pérez. Editorial UNED, Colección Educación Permanente (código: 0184011EP01A02).

También podría gustarte