Regresionboletin

Departamento
UniversidadeVigo de Estatı́stica http://faitic.uvigo.es

e Investigación
Operativa
PROBLEMAS DEL TEMA 5: REGRESIÓN Y CORRELACIÓN

Asignatura: BIOESTADÍSTICA 1 . 1º GRADO EN BIOLOGÍA. CURSO 2020-21
1. Utilizando el software gapminder (http://www.gapminder.org/) busca relaciones entre variables de interés biológico
(con relación directa y con relación inversa) y comenta brevemente su evolución en el tiempo.
2. Extraı́do de Milton (2007). Se realiza un experimento para estudiar la relación entre la altura de la concha (X) y
su longitud (Y ), cada una medida en milı́metros, de Patelloida pygmaea, una lapa pegada a las rocas y conchas a
lo largo de las costas protegidas en el área Indo-Pacı́fica. Los datos son los siguientes:
x y x y x y x y
0.9 3.1 1.9 5 2.1 5.6 2.3 5.8
1.5 3.6 1.9 5.3 2.1 5.7 2.3 6.2
1.6 4.3 1.9 5.7 2.1 5.8 2.3 6.3
1.7 4.7 2.0 4.4 2.2 5.2 2.3 6.4
1.7 5.5 2.0 5.2 2.2 5.3 2.4 6.4
1.8 5.7 2.0 5.3 2.2 5.6 2.4 6.3
1.8 5.2 2.1 5.4 2.2 5.8 2.7 6.3
Representa la nube de puntos tomando como variable explicada la longitud. Calcula la recta de ajuste y el
coeficiente de determinación. ¿Se puede concluir que mediante el modelo lineal se explica una cantidad significativa
de la variabilidad de Y ? Resuelve el ejercicio con R o bien con una hoja de cálculo.
Resolución. Hemos optado por su resolución con R. En la Figura 1 observamos la relación lineal dada por la recta
Longitud = 1.3611 + 1.9963 Altura. De la salida de resultados de R podemos obtener las siguientes conclusiones.
El coeficiente de determinación vale 0.7461. Los contrastes de hipótesis para los parámetros nos indican que ambos
son significativos, con lo que la recta no pasa por el origen y la variable altura influye significativamente en la
longitud de la lapa.
6.5
6.0
5.5
5.0
Y..longitud
4.5
4.0
3.5
3.0
1.0 1.5 2.0 2.5
X..altura
Figura 1: Diagrama de dispersión y ajuste lineal
1 Prof: Estela Sánchez Rodrı́guez, e-mail: esanchez@uvigo.es. La mayor parte de estos ejercicios están pensados para ayudarse de la hoja
de cálculo Excel o bien de otro programa estadı́stico. De forma manual sólo se pedirá el cálculo del ajuste lineal y los coeficientes que miden
la calidad del ajuste para un número reducido de observaciones, si bien hay que conocer los distintos tipos de ajustes (parabólico, logarı́tmico,
exponencial, ...) e interpretar las salidas de resultados correspondientes. En Faitic se encuentra el fichero Excel con los datos listos para
trabajar.
1
RegModel.1 <- lm(longitud~altura, data=Dataset)
summary(RegModel.1)
Call:
lm(formula = longitud ~ altura, data = Dataset)
Residuals:
Min 1Q Median 3Q Max
-0.95365 -0.15374 -0.00347 0.24691 0.74561
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.3611 0.4681 2.907 0.00736 **
altura 1.9963 0.2284 8.742 3.22e-09 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 0.4128 on 26 degrees of freedom

Multiple R-squared: 0.7461,Adjusted R-squared: 0.7364
F-statistic: 76.42 on 1 and 26 DF, p-value: 3.223e-09
En la Figura 2 observamos los gráficos de diagnosis que complementamos con el test de normalidad de Shapiro
Wilk. Como el valor p vale 0.6983, admitimos normalidad de los residuos.
Gráfico qq
2
2
1
1
residuos.estandarizados
Cuantiles en la muestra
0
0
-1
-1
-2
-2
3.5 4.5 5.5 6.5 -2 -1 0 1 2
valores.ajustados Cuantiles teóricos
Figura 2: Gráficos de diagnosis del modelo
Shapiro-Wilk normality test
data: residuos.estandarizados
W = 0.97427, p-value = 0.6983
3. Se pretende establecer una ecuación mediante la cual pueda predecirse la duración de la estación de la crı́a un
ave acuática a partir del conocimiento del fotoperı́odo (número de horas de luz por dı́a) bajo el que se inició la
reproducción, X. Se observó el comportamiento de once Aythya (patos buceadores).
2
X (horas de luz por dı́a) Y (dı́as de la estación de cria)
12.8 110
13.9 54
14.1 98
14.7 50
15.0 67
15.1 58
16.0 52
16.5 50
16.6 43
17.2 15
17.9 28
Calcula la recta de regresión, el coeficiente de determinación y el coeficiente de correlación. Contrasta si el modelo

lineal es adecuado.
Resolución. Veamos a continuación el análisis proporcionado por R. Generamos el modelo lineal y lo representamos.
attach(patos)
RegModel.1 <- lm(Y~X)
plot(Y~X)
abline(RegModel.1,col="blue")
100
80
Y
60
40
20
13 14 15 16 17 18
Figura 3: Nube de puntos y recta de regresión
Observamos que a medida que aumentan las horas de luz por dı́a disminuye los dı́as de la estación de crı́a, con lo
que la relación entre las variables es inversa.
summary(RegModel.1)
Call:
lm(formula = Y ~ X, data = Dataset)
Residuals:
3
-26.034 -9.535 3.699 8.831 20.989
Coefficients:
(Intercept) 290.070 47.971 6.047 0.000191 ***
X -15.111 3.094 -4.884 0.000866 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

La recta estimada es Y = 290.07 − 15.111X. Ambos parámetros son significativos y el porcentaje de variabilidad
explicado es del 72.61 %.
Veamos los gráficos de diagnosis del modelo.
Residuals vs Fitted Normal Q-Q
Standardized residuals
3 3
1
10
Residuals
0
-10
-1
4 4
2
-30
2
-2
20 40 60 80 -1.5 -0.5 0.5 1.5
Fitted values Theoretical Quantiles
Scale-Location Residuals vs Leverage

2
1
3
1.2
3
1 0.5
4
1
0.8
0
0.4
-1
0.5
1
Cook's distance
-2
2
0.0
20 40 60 80 0.0 0.1 0.2 0.3
Fitted values Leverage
Figura 4: Gráficos de diagnosis
4. Hay investigaciones que relacionan la falta de silicona disuelta en el agua de mar con productividad decreciente.
Se lleva a cabo un estudio. Se consideran la distancia en kilómetros a la costa, X, y la concentración de silicona en
microgramos por litro Y . Las medidas se realizan en tomas efectuadas en la plataforma continental del noroeste
africano. Se eligen 6 distancias de la costa y se hacen 4 medidas a cada distancia.
x y x y x y
5 6.1 25 3.7 42 3.4
5 6.2 25 3.7 42 3.6
5 6.1 25 3.8 42 3.5
5 6.0 25 3.9 42 3.2
15 5.2 32 3.9 55 3.7
15 5.0 32 3.8 55 3.9
15 4.9 32 3.9 55 3.6
15 5.1 32 3.7 55 3.8
Representa la nube de puntos, estima la recta de ajuste y calcula el coeficiente de correlación. ¿Cuál es la concen-
tración media de silicona para una muestra situada a 10 km de la costa?
Resolución abreviada. Mostramos el gráfico de dispersión en la Figura 5. Observamos que la concentración de
silicona disminuye al alejarnos de la costa, con lo que la relación es inversa.
4

Falta de silicona disuelta en el agua de mar
7
Concentración de silicona (µg/L)
y = ‐0,0479x + 5,7108
6 R² = 0,694
0
0 10 20 30 40 50 60
Distancia a la costa (km)

Figura 5: Diagrama de dispersión y ajuste lineal
Si x = 10 se espera una concentración de silicona de 5.23 microgramos por litro.

5. En un grupo de 8 personas se miden las variables X = edad en años e Y = peso en kilos, obteniéndose los siguientes
resultados:
X 8 X8 X 8 8
X X8
Xi = 79, Xi2 = 823, Yi = 389, Yi2 = 19303, Xi Yi = 3963
i=1 i=1 i=1 i=1 i=1
a) ¿Existe una relación lineal importante entre ambas variables? Calcula la recta de regresión de la edad en
función del peso y la del peso en función de la edad. Calcula la bondad del ajuste.
b) ¿En qué medida, por término medio, varı́a el peso cada año?
Resolución.
a) Calculamos las medidas necesarias
x̄ = 9.875, ȳ = 48.625, S 2 (x) = 5.359, S 2 (y) = 48.484, S(x, y) = 15.203, r(x, y) = 0.943, R2 = 0.889. Sı́, hay
una relación directa y alta, a más edad más peso.
Calculamos la recta de regresión peso en función de la edad:
S(x, y)
βˆ1 = 2 = 2.837, βˆ0 = ȳ − βˆ1 x̄ = 20.612
S (x)
Y la recta de la edad en función del peso:
S(x, y)
βˆ10 = 2 = 0.314, βˆ00 = x̄ − βˆ10 ȳ = −5.372
S (y)
Ambas rectas aparecen representadas en la Figura 6. Observamos que se cortan en el vector de medias. El
código de R para generar dicho gráfico es el siguiente:
curve(20.612+2.837*x,0,20, col="blue",ylab="Peso",xlab="Edad")
curve((x+5.3722204)*1/0.31356752,0, 20,add=TRUE,col="red")
text(9.875,48.625,"(9.875,48.625)")
text(5,60,"Peso=20.612+2.837 Edad",col="blue")
text(10,30,"Edad=-5.372 +0.313 Peso",col="red")
b) Por cada año el peso aumenta, en media, la pendiente de la recta de ajuste del peso en función de la edad, que
en nuestro caso es 2.837 kg. Podrı́amos también complementar el ejercicio dando un intervalo de confianza
para la pendiente.
5
70
60
Peso=20.612+2.837 Edad
Peso
50
(9.875,48.625)
40
30
20 Edad=-5.372 +0.313 Peso
0 5 10 15 20
Edad
Figura 6: Rectas de regresión.
6. Extrae toda la información que puedas de las siguientes salidas de resultados de R en la que se estudian dos
variables CL (longitud caparazón en mm) y CW (anchura del caparazón en mm) en el cangrejo Leptograpsus
variegatus.
sex
F
M
50
frequency
45
20
40
10 20 30 40 50
35
cangrejos$CL
CL
30
25
20
20 40
frequency
15
20 30 40 50
CW 20 30 40 50
cangrejos$CW
a) Shapiro-Wilk normality test
data: cangrejos$CL
W = 0.9921, p-value = 0.3527
data: cangrejos$CW
W = 0.9911, p-value = 0.2542
Se ha efectuado el test de Shapiro-Wilk para ver si se acepta normalidad de las variables CL y CW. Dado que
la significación o valor-p es mayor que α, no hay razones estadı́sticas significativas para rechazar la normalidad
(véanse también los histogramas de las correspondientes variables).
6
b) lm(formula = CW ~ CL, data = cangrejos)
Residuals:
-1.7683 -0.6088 0.1075 0.5394 1.8092
Coefficients:
(Intercept) 1.089919 0.257490 4.233 3.53e-05 ***
CL 1.100266 0.007831 140.504 < 2e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

F-statistic: 1.974e+04 on 1 and 198 DF, p-value: < 2.2e-16
En la salida de resultados se observa la regresión lineal tomando como variable dependiente CW y como
independiente CL. El modelo ajustado es muy bueno. La variabilidad de CW es explicada en un 99 % a
través de CL. La recta de ajuste es CW = 1.0899 + 1.1CL. Los contrastes de hipótesis sobre los parámetros
indican que la variable CL influye sobre CW y que la recta de ajuste claramente no pasa por el origen de
coordenadas.
c) Welch Two Sample t-test
data: CL by sex
t = -1.4854, df = 195.714, p-value = 0.06952
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
-Inf 0.1678542
sample estimates:
mean in group F mean in group M
31.360 32.851
La última salida de resultados efectúa un contraste de hipótesis para ver si la media de CL es menor en el
grupo de las hembras que en el grupo de los machos. El valor p de 0.06952 es mayor que α = 0.05 con lo que
no hay razones estadı́sticas significativas tomando α = 0.05 de que la media sea menor en el grupo de las
hembras que en el de los machos. También se presenta el intervalo de confianza unilateral, con lo que también
podrı́amos llegar a la misma conclusión dado que 0 ∈ IC.
7. De tres especies de la flor Iris, Figura 7. Este conjunto de datos se conoce como los datos de Fisher ó de Anderson
y consta de medidas en cm de las variables longitud y anchuras de pétalos y sépalos de tres especies de iris,
concretamente setosa, versicolor y virginica.
Figura 7: Flor Iris con sus tres especies. Foto tomada de PalAss
a) Extrae información de interés de la siguiente salida de resultados.
7
8.0
2.5
7.5
2.0
7.0
6.5
Sepal.Length
1.5
Petal.Width
6.0
1.0
5.5
5.0
0.5
4.5
1 2 3 4 5 6 7 2.0 2.5 3.0 3.5 4.0
Petal.Length Sepal.Width
Figura 8: Gáficos de dispersión del Ejercicio 7
Species
setosa
versicolor
virginica
8.0
7.5
7.0
6.5
Sepal.Length
6.0
5.5
5.0
4.5
2.0 2.5 3.0 3.5 4.0
Sepal.Width
Figura 9: Gráfico de dispersión por especie del Ejercicio 7
8
lm(formula = Sepal.Length ~ Sepal.Width, data = iris)
Residuals:
-1.5561 -0.6333 -0.1120 0.5579 2.2226
Coefficients:
(Intercept) 6.5262 0.4789 13.63 <2e-16 ***
Sepal.Width -0.2234 0.1551 -1.44 0.152
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

F-statistic: 2.074 on 1 and 148 DF, p-value: 0.1519
b) Si conocemos que la covarianza entre las variables Sepal.Width y Sepal.Length, para la especie Setosa es de
0.097, y además nos dan la información:
Variable: Sepal.Length
mean (media) sd (desviacion estandar) n
setosa 5.006 0.3524897 50
versicolor 5.936 0.5161711 50
virginica 6.588 0.6358796 50
Variable: Sepal.Width
mean sd n
setosa 3.428 0.3790644 50
versicolor 2.770 0.3137983 50
virginica 2.974 0.3224966 50
Calcula la recta de regresión que explique la variable Sepal.Length en función de Sepal.Width para la especie
Setosa. ¿Es alguna de las representadas anteriormente? ¿Es bueno el ajuste de esta recta?
Resolución abreviada Puedes comprobar que βˆ1 = S(x,y) 2 = 0.097 2 = 0.675, βˆ0 = ȳ − βˆ1 x̄ = 2.6921,
S (x) (0.379)
S(x,y) 0.097
ŷ = 2.6921 + 0.675x, y r(x, y) = S(x)S(y) = 0.3524×0.3790 = 0.726.
8. Se dispone de la siguiente información de 10 alumnos de una escuela en relación a las variables edad (años),
estatura (cm) y peso (Kg).
Niño 1 2 3 4 5 6 7 8 9 10
Edad 9 8 9 8 9 10 7 8 8 10
Estatura 127 125 131 135 125 157 130 123 127 135
Peso 32 35 36 38 30 39 31 30 32 35
a) ¿Existe relación lineal entre Estatura y Peso?

b) Obtén la recta de regresión lineal tomando como variable explicada el peso y como variable explicativa la
estatura.
c) ¿Cuántas rectas de regresión lineal distintas se podrı́an calcular con las tres variables de interés? ¿Entre qué
par de variables existe una relación lineal más fuerte?
9. Extrae información de interés de las siguientes salidas de resultados de R. Un paleontólogo estudió 10 gasterópodos
y midió su altura, la altura de la última vuelta de la espiral del caracol (Alturavuelta), la altura de la boca
(Alturaboca) y la anchura. Además se desconocı́a la altura de un ejemplar que tenı́a la punta rota, cuyas medidas
de las otras variables eran: Alturavuelta= 1.923; Alturaboca= 1.466; Anchura= 1.544.
9
a) > summary(RegModel.1)
lm(formula = Altura ~ Alturaboca + Alturavuelta + Anchura, data = Caracoles)
Residuals:
-0.041617 -0.015528 -0.002016 0.010143 0.057027
Coefficients:
(Intercept) 0.02919 0.07542 0.387 0.712052
Alturaboca -0.31722 0.29382 -1.080 0.321779
Alturavuelta 1.39524 0.19451 7.173 0.000371 ***
Anchura 0.13916 0.27789 0.501 0.634376
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

F-statistic: 382 on 3 and 6 DF, p-value: 3.084e-07
b) > summary(RegModel.2)
Call:
lm(formula = Altura ~ Alturavuelta, data = Caracoles)
Residuals:
-0.055616 -0.012865 0.000653 0.009638 0.058099
Coefficients:
(Intercept) 0.02993 0.06820 0.439 0.672
Alturavuelta 1.26713 0.03554 35.651 4.2e-10 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

F-statistic: 1271 on 1 and 8 DF, p-value: 4.196e-10
c) ¿Cuál es la altura estimada del caracol que tenı́a la punta rota?
Resolución. En el primer apartado se plantea un modelo de regresión lineal múltiple para explicar la altura del
caracol en función de las variables: altura de la boca, altura de la vuelta y de la anchura. El coeficiente de
determinación del modelo vale 0.9948. Se aprecia como la variable significativa es la altura de la vuelta y el resto
no son significativas, para ello, basta observar los valores p asociados a los coeficientes. En el segundo apartado se
ha construido un modelo de regresión lineal simple para explicar la altura del caracol en función de la altura de la
vuelta. Se explica el 99.37 % de la variabilidad de la altura utilizando la altura de la vuelta. Además de que dicha
variable es significativa, vemos que se podrı́a construir un modelo que pasara por el origen, observando el valor p
del coeficiente β0 que vale 0.672. En base a la información del apartado b) podemos estimar la altura del caracol
que tenı́a la punta rota de la siguiente forma:
Altura = 0.02993 + 1.26713 × 1.923 = 2.466.
10. Considera la siguiente salida de resultados en la que se estudia la tasa de mortalidad de una variedad de lombriz de
tierra en función del nivel de humedad. El ajuste polinómico se ha realizado con R2 . Los datos son los siguientes:
2 En R Commander podrı́as utilizar el módulo Estadı́sticos + Ajustes de modelos + Modelo Lineal.
10
x y x y
0 0.5 0.632 0
0 0.4 0.947 0.1
0 0.5 0.947 0.2
0.316 0.2 0.947 0.1
0.316 0.3 1.26 0.6
0.316 0.3 1.26 0.5
0.632 0 1.26 0.4
0.632 0.1
LinearModel.2 <- lm(Y..tasa.de.mortalidad ~ X..nivel.de.humedad +

+ I(X..nivel.de.humedad^2), data=Ajustes)
summary(LinearModel.2)
Call:
lm(formula = Y..tasa.de.mortalidad ~ X..nivel.de.humedad +
I(X..nivel.de.humedad^2), data = Ajustes)
Residuals:
-0.10311 -0.06998 -0.00311 0.03002 0.12442
Coefficients:
(Intercept) 0.50311 0.04503 11.174 1.07e-07 ***
X..nivel.de.humedad -1.35173 0.16931 -7.984 3.84e-06 ***
I(X..nivel.de.humedad^2) 1.05546 0.12887 8.190 2.95e-06 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

F-statistic: 33.64 on 2 and 12 DF, p-value: 1.202e-05
Interpreta los resultados obtenidos. ¿Cuál es la ecuación matemática del ajuste? Realiza alguna predicción expli-
cando su significado.
Resolución. Observamos que el modelo ajusta considerablemente bien los datos (el coeficiente de determinación
vale 0.8487). La ecuación del polinomio de grado 2 es la siguiente:
Y = 0.50311 − 1.35173X + 1.05546X 2 .
Para realizar predicciones tenemos que sustituir en la ecuación el valor del nivel de humedad para el que queramos
saber su tasa de mortalidad. La nube de puntos ya nos muestra que un ajuste lineal no va a ser adecuado (véase
Figura).
0.6
0.5
0.4
0.3
Y
0.2
0.1
0.0
0.0 0.2 0.4 0.6 0.8 1.0 1.2
Figura 10: Nube de puntos.
11

Regresionboletin

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresionboletin

Cargado por

Copyright:

Formatos disponibles

Departamento

UniversidadeVigo de Estatı́stica http://faitic.uvigo.es

PROBLEMAS DEL TEMA 5: REGRESIÓN Y CORRELACIÓN

1.0 1.5 2.0 2.5

Figura 1: Diagrama de dispersión y ajuste lineal

Residual standard error: 0.4128 on 26 degrees of freedom

3.5 4.5 5.5 6.5 -2 -1 0 1 2

valores.ajustados Cuantiles teóricos

Figura 2: Gráficos de diagnosis del modelo

Shapiro-Wilk normality test

Calcula la recta de regresión, el coeficiente de determinación y el coeficiente de correlación. Contrasta si el modelo

Figura 3: Nube de puntos y recta de regresión

Residual standard error: 15.13 on 9 degrees of freedom

Residuals vs Fitted Normal Q-Q

Fitted values Theoretical Quantiles

Scale-Location Residuals vs Leverage

20 40 60 80 0.0 0.1 0.2 0.3

Fitted values Leverage

Figura 4: Gráficos de diagnosis

Figura 5: Diagrama de dispersión y ajuste lineal

Si x = 10 se espera una concentración de silicona de 5.23 microgramos por litro.

Figura 6: Rectas de regresión.

a) Shapiro-Wilk normality test

Residual standard error: 0.7864 on 198 degrees of freedom

a) Extrae información de interés de la siguiente salida de resultados.

Figura 8: Gáficos de dispersión del Ejercicio 7

2.0 2.5 3.0 3.5 4.0

Figura 9: Gráfico de dispersión por especie del Ejercicio 7

Residual standard error: 0.8251 on 148 degrees of freedom

a) ¿Existe relación lineal entre Estatura y Peso?

Residual standard error: 0.03319 on 6 degrees of freedom

Residual standard error: 0.0315 on 8 degrees of freedom

c) ¿Cuál es la altura estimada del caracol que tenı́a la punta rota?

Altura = 0.02993 + 1.26713 × 1.923 = 2.466.

LinearModel.2 <- lm(Y..tasa.de.mortalidad ~ X..nivel.de.humedad +

Residual standard error: 0.08283 on 12 degrees of freedom

Y = 0.50311 − 1.35173X + 1.05546X 2 .

0.0 0.2 0.4 0.6 0.8 1.0 1.2

Figura 10: Nube de puntos.

También podría gustarte