Está en la página 1de 10

E D

UN
z.
Bioestadı́stica

ére
Curso 2016-2017
aP
rcı́
Ga
so

Alfonso Garcı́a Pérez


on

Universidad Nacional de Educación a Distancia


Al f
D
2 Bioestadı́stica

E
Los siguientes Problemas corresponden a la Evaluación de la asignatura
Bioestadı́stica.

UN
Las soluciones debe subirlas en el curso virtual a través del icono “Tareas”
antes del 15 de Mayo si quiere ser evaluado en la convocatoria de Junio, o antes
del 1 de Septiembre si quiere ser evaluado en la convocatoria de Septiembre.
Se ruega utilizar algún formato de fácil lectura como por ejemplo pdf.
Para resolverlos, el alumno debe analizar estadı́sticamente el problema aun-
que puede hacerlo con la ayuda, si lo desea, de algún Paquete estadı́stico, obte-

z.
niendo al final de forma obligatoria las conclusiones que considera adecuadas.

ére
aP
rcı́
Ga
so
on
Al f
D
Alfonso Garcı́a Pérez 3

E
Problema 0.1
Se quiere estimar mediante un intervalo de confianza de coeficiente de confianza

UN
del 95 %, el tiempo medio en dı́as que tardan los alumnos de un determinado
curso a distancia en completar los ejercicios del examen, conociendo por convo-
catorias anteriores que la varianza es de 300.
Para ello se eligieron al azar 10 alumnos que finalizaron dicho curso obteniéndose
los siguientes tiempos en dı́as de finalización del curso:

120 , 179 , 260 , 115 , 222 , 259 , 195 , 200 , 195 , 210

z.
Sabiendo que dichos tiempos siguen una distribución normal, calcular el intervalo
de confianza buscado.

ére
Se trata de la determinación del intervalo de confianza para la media de una
población normal de varianza conocida σ 2 = 300, estudiando en CB-sección
6.2.
Dicho intervalo de confianza tiene como expresión la siguiente:
aP
 
σ σ
x − zα/2 √ , x + zα/2 √
n n
De las tablas de la normal se obtiene que zα/2 = z0′ 025 = 1′ 96 y de los
datos observados se obtiene una media muestral de x = 195′ 5. Por tanto, el
rcı́

intervalo buscado será

  " r r #
σ σ 300 300
Ga

′ ′ ′ ′
x − zα/2 √ , x + zα/2 √ = 195 5 − 1 96 , 195 5 + 1 96 =
n n 10 10

= [184′ 7646 , 206′ 2354].


Con la ayuda del paquete estadı́stico R (o con una calculadora) se podrı́a
so

haber resuelto ejecutando:

> x<-c(120,179,260,115,222,259,195,200,195,210)
on

> mean(x)
[1] 195.5
Al f

> qnorm(0.95+0.025)
[1] 1.959964

> 195.5-1.96*sqrt(300/10)
[1] 184.7646
> 195.5+1.96*sqrt(300/10)
[1] 206.2354
D
4 Bioestadı́stica

E
UN
Problema 0.2
Se quiere analizar si puede admitirse que los niveles medios de colesterol en
una población determinada se encuentran por debajo de 200 mg/dl. Para ello
se tomó una muestra de 50 personas de dicha población que proporcionó una
media de 196 mg/dl. y una cuasivarianza muestral igual a 90. Calcule el p-valor
del test y diga las conclusiones que obtendrı́a.

z.
Del enunciado se desprende que se quiere contrastar la hipótesis nula H0 :
µ ≥ 200 frente a la alternativa H1 : µ < 200. Estamos en un caso de contrastes

ére
para la media de una población no necesariamente normal y muestras grandes
(CB-sección 7.3) rechazándose la hipótesis nula cuando y sólo cuando sea

x − µ0
aP
√ < z1−α .
S/ n

Dado que no nos dan nivel de significación, vamos a calcular el p-valor del
test. El estadı́stico del contraste toma el valor:
rcı́

x − µ0 196 − 200
√ = p = −2′ 98
S/ n 90/50
Ga

y como es un test unilateral con región crı́tica la cola de la izquierda, el p-valor


será, a partir de una tablas de la distribución normal
so

p-valor = P {Z < −2′ 98} = P {Z > 2′ 98} = 0′ 0014


on

pudiendo rechazarse con bastante seguridad la hipótesis nula y concluir que el


nivel medio de colesterol de la población en estudio sı́ puede establecerse en
menos de 200.
Al f

Problema 0.3
Los siguientes datos (Anionwu et al., 1981) corresponden a niveles de hemo-
globina en situación estable de diversos pacientes con tres diferentes tipos de
enfermedad de célula falciforme:
D
Alfonso Garcı́a Pérez 5

E
HB-SS HB-S/talasemia HB-SC

UN
7′ 2 8′ 1 10′ 7
7′ 7 9′ 2 11′ 3
8′ 0 10′ 0 11′ 5
8′ 1 10′ 4 11′ 6
8′ 3 10′ 6 11′ 7
8′ 4 10′ 9 11′ 8
8′ 4 11′ 1 12′ 0
8′ 5 11′ 9 12′ 1

z.
8′ 6 12′ 0 12′ 3
8′ 7 12′ 1 12′ 6
9′ 1 12′ 6

ére
9′ 1 13′ 3
9′ 1 13′ 3
9′ 8 13′ 8
10′ 1 13′ 9
10′ 3
aP
Analizar la igualdad de los niveles medios de hemoglobina de los tres tipos de
enfermedad con una ANOVA, comprobando las suposiciones necesarias para que
dicho test sea válido, es decir, la normalidad y la homocedasticidad de cada una
de las tres poblaciones a comparar.
rcı́

Primero comprobaremos las suposiciones necesarias (normalidad y homo-


cedasticidad) para poder ejecutar un ANOVA. Lo haremos con R aunque
podrı́a realizarse con otro paquete estadı́stico. Para ello incorporamos los da-
tos a R
Ga

> HB_SS<-c(7.2,7.7,8.0,8.1,8.3,8.4,8.4,8.5,8.6,8.7,9.1,9.1,9.1,9.8,10.1,10.3)

> HB_S_talasemia<-c(8.1,9.2,10.0,10.4,10.6,10.9,11.1,11.9,12.0,12.1)
so

> HB_SC<-c(10.7,11.3,11.5,11.6,11.7,11.8,12.0,12.1,12.3,12.6,12.6,13.3,13.3,13.8,13.9)

> niveles<-c(HB_SS,HB_S_talasemia,HB_SC)
on

> enfermedad<-factor(rep(LETTERS[1:3],c(16,10,15)))

> problema<-data.frame(enfermedad,niveles)
Al f

Luego podemos analizar la normalidad con un Gráfico de normalidad ejecu-


tando

> par(mfrow=c(1,3))

> qqnorm(HB_SS)
D
6 Bioestadı́stica

E
Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot

14.0

UN
12
10.0

13.5
9.5

13.0
11
9.0
Sample Quantiles

Sample Quantiles

Sample Quantiles

12.5

z.
10
8.5

12.0

ére
8.0

11.5
9

11.0
7.5

aP
−2 −1 0 1 2 −1.5 −0.5 0.5 1.0 1.5 −1 0 1

Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles

Figura 0.1 : Gráficos de normalidad


rcı́

> qqnorm(HB_S_talasemia)
Ga

> qqnorm(HB_SC)

obteniendo la Figura 0.1.


Como los gráficos son algo dudosos, vamos a ejecutar un test de Shapiro-
Wilk para cada uno de los tres conjuntos de datos.
so

> shapiro.test(HB_SS)
on

Shapiro-Wilk normality test

data: HB_SS
W = 0.9636, p-value = 0.7273
Al f

(1)

> shapiro.test(HB_S_talasemia)

Shapiro-Wilk normality test

data: HB_S_talasemia
W = 0.93305, p-value = 0.4786
D
Alfonso Garcı́a Pérez 7

E
(2)

UN
> shapiro.test(HB_SC)

Shapiro-Wilk normality test

data: HB_SC
W = 0.95734, p-value = 0.6464
(3)

z.
ére
14
13

aP
12
11
10

rcı́
9
8

Ga
7

A B C

Figura 0.2 : Gráficos de cajas


so

Aunque los tres p-valores (1), (2) y (3) son suficientemente grandes como
para concluir que puede aceptarse la normalidad de los datos, como ası́ hare-
on

mos, en realidad lo que pasa es que no podemos rechazar que los datos vienen
de una distribución normal y, en consecuencia, aceptamos la hipótesis nula de
que vienen de una normal. Esta es la forma de utilizar en general la herra-
Al f

mienta test de hipótesis: tratar de rechazar la hipótesis nula y medir el error


que ası́ cometemos mediante el p-valor.
Respecto a la homocedasticidad podemos hacer tres diagramas de cajas
ejecutando (4)

> boxplot(niveles~enfermedad,col=4) (4)


D
8 Bioestadı́stica

E
> bartlett.test(niveles~enfermedad,problema) (5)

UN
Bartlett test of homogeneity of variances

data: niveles by enfermedad


Bartlett’s K-squared = 2.1251, df = 2, p-value = 0.3456
(6)

z.
obteniendo ası́ la Figura 0.2. Como siempre, es mejor ejecutar un test para
analizar algo en lugar de hacerlo a través de un dibujo. Ası́, mediante un
test de Bartlett ejecutado mediante (5) aceptamos dicha suposición al ser el

ére
p-valor (6) grande.
Ya podemos ejecutar el ANOVA mediante (7) obteniendo en (8) un p-
valor tan bajo que podemos concluir con que existen diferencias significativas
entre los niveles medios de hemoglobina de los tres tipos de enfermedad. Co-
aP
mo los tamaños muestrales en cada uno de los tres grupos son distintos, no
podemos hacer algún test de comparaciones múltiples.

> summary(aov(niveles~enfermedad,problema)) (7)


Df Sum Sq Mean Sq F value Pr(>F)
enfermedad 2 99.89 49.94 50 2.28e-11 ***
rcı́

(8)
Residuals 38 37.96 1.00
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Ga

Problema 0.4
Los datos temperaturas.txt (Peixoto, 1990) que tiene en el apartado Documentos
del Curso Virtual, corresponden a Temperaturas de Enero, en grados Fahrenheit,
so

de 56 ciudades de Estados Unidos, ası́ como su Latitud y su Longitud.


Analizar mediante una Regresión Lineal Múltiple si las covariables Latitud y
Longitud son significativas para explicar a la variable Temperatura, entendiendo
como significativa aquella para la que su p-valor sea menor que 0′ 01. Si alguna
on

de estas dos covariables no es significativa, quı́tela del modelo y vuelva a ajustar


para obtener una ecuación con la que poder hacer predicciones. Dé finalmente
la ecuación que permite hacer las predicciones.
Al f

La Regresión Lineal Múltiple viene explicada en el Capı́tulo 10 de CB y


su resolución con el paquete estadı́stico R viene detallada a lo largo de este
capı́tulo siendo especialmente útil la sección las páginas 250 y 251.
Resolvemos este ejercicio con el paquete R aunque podrı́a haberse utilizado
cualquier otro. En el texto “Estadı́stica Básica Aplicada con SPSS” viene cómo
resolver con SPSS otro ejercicio parecido.
D
Alfonso Garcı́a Pérez 9

E
Resolviéndolo con R, primero incorporamos los datos con (1) y con (2)
determinamos la fórmula del hiperplano de regresión múltiple al que hemos

UN
llamado ajuste1.
Los p-valores obtenidos al ejecutar (3) al final de las lı́neas (4) y (5)
indican aceptar como significativa la covariable Latitud pero rechazar Longitud
al ser su p-valor mayor que 0′ 01 que es el valor indicado en el enunciado como
significativo.

z.
> temperaturas<-read.table("e:\\temperaturas.txt",header=T) (1)

> ajuste1 <- lm(Temperatura ~ Latitud+Longitud, data=temperaturas) (2)

ére
> summary(ajuste1) (3)

Call:
lm(formula = Temperatura ~ Latitud + Longitud, data = temperaturas)
aP
Residuals:
Min 1Q Median 3Q Max
-12.9983 -3.8957 0.5577 3.7330 22.0113

Coefficients:
Estimate Std. Error t value Pr(>|t|)
rcı́

(Intercept) 98.64523 8.32708 11.846 <2e-16 ***


Latitud -2.16355 0.17570 -12.314 <2e-16 *** (4)
Longitud 0.13396 0.06314 2.122 0.0386 * (5)
---
Ga

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 6.935 on 53 degrees of freedom


Multiple R-squared: 0.7411, Adjusted R-squared: 0.7314
F-statistic: 75.88 on 2 and 53 DF, p-value: 2.792e-16
so

Es necesario por tanto volver a realizar el ajuste, ejecutando (6) y analizar


éste con (7), observando en (8) un p-valor suficientemente pequeño como para
indicar que la covariable Latitud es definitivamente significativa para explicar
on

a la variable dependiente Temperatura.

> ajuste2 <- lm(Temperatura ~ Latitud, data=temperaturas) (6)


Al f

> summary(ajuste2) (7)

Call:
lm(formula = Temperatura ~ Latitud, data = temperaturas)

Residuals:
Min 1Q Median 3Q Max
-10.6812 -4.5018 -0.2593 2.2489 25.7434
D
10 Bioestadı́stica

E
Coefficients:

UN
Estimate Std. Error t value Pr(>|t|)
(Intercept) 108.7277 7.0561 15.41 <2e-16 ***
Latitud -2.1096 0.1794 -11.76 <2e-16 ***
(9) (8)
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 7.156 on 54 degrees of freedom

z.
Multiple R-squared: 0.7192, Adjusted R-squared: 0.714
F-statistic: 138.3 on 1 and 54 DF, p-value: < 2.2e-16

ére
La ecuación de la que resultó finalmente ser una recta de regresión lineal
simple es que tiene por coeficientes los datos en la columna (9),

Temperatura = 108′ 7277 − 2′ 1096 Latitud.


aP
Ası́ por ejemplo, la Temperatura que cabe esperar en una ciudad americana
de Latitud 35 es

Temperatura = 108′ 7277 − 2′ 1096 · 35 = 34′ 8917


grados Fahrenheit.
rcı́

Referencias
Ga

Anionwu, E.D., Watford, M., Brozovic, M. y Kirkwood (1981). Sickle cell disease in a British
urban community. British Medical Journal, 282, 283-286.
Peixoto, J.L. (1990). A property of well-formulated polynomial regression models. American
Statistician, 44, 26-30.
CB: Estadı́stica Aplicada: Conceptos Básicos, segunda edición, 2008. Alfonso Garcı́a
so

Pérez. Editorial UNED, Colección Educación Permanente (código: 0184011EP01A02).


ID: La Interpretación de los Datos. Una Introducción a la Estadı́stica Aplicada,
2014. Alfonso Garcı́a Pérez. Editorial UNED (código: 0105008CT01A01).
on

PREB: Problemas Resueltos de Estadı́stica Básica, 1998. Alfonso Garcı́a Pérez. Edi-
torial UNED, Colección Educación Permanente (código: 84011EP31A01).
EEA: Ejercicios de Estadı́stica Aplicada, 2008. Alfonso Garcı́a Pérez. Editorial UNED,
Colección Cuadernos de la UNED (código: 0135284CU01A01).
Al f

EAR: Estadı́stica Aplicada con R, 2008. Alfonso Garcı́a Pérez. Editorial UNED, Co-
lección Varia (código: 0137352PB01A01).
ADD: Fórmulas y tablas estadı́sticas, 1998. Alfonso Garcı́a Pérez. Editorial UNED,
Colección Addendas (código: 0141206AD01A01).
MR: Métodos Avanzados de Estadı́stica Aplicada. Métodos Robustos y de Re-
muestreo, 2005. Alfonso Garcı́a Pérez. Editorial UNED, Colección Educación Per-
manente (código: 0186080EP03A01).

También podría gustarte