Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Pedro Walter
Gamarra Leiva
Ejercicio 1. Se tiene los siguientes datos
peso altura
74 168
92 196
63 170
72 175
58 162
78 169
85 190
85 186
73 176
62 170
80 176
72 179
Se solicita trabajar en R y RStudio lo siguiente:
a) Almacenar los datos en vectores
b) Graficar los datos
c) Realizar la regresión lineal simple y mostrar el modelo
d) Realice la interpretación de los parámetros del modelo
e) Realice el contraste de hipótesis de los parámetros de regresión
Ejercicio 2. Una nueva medición sobre los mismos 12 individuos del ejemplo 1 nos
permite conocer ahora datos sobre su contorno de cintura (en cm.) y su edad
peso altura cintura edad
74 168 62 25
92 196 75 31
63 170 60 29
72 175 71 64
58 162 66 44
78 169 62 41
85 190 79 37
85 186 74 35
73 176 70 34
62 170 66 29
80 176 71 19
72 179 69 50
Se solicita trabajar en R y RStudio lo siguiente:
a) Ajustar un nuevo modelo de regresión lineal que incorpore la información de estas
nuevas variables.
b) Realice el análisis del nuevo modelo de regresión lineal simple
c) Aplique la función method indica el método que se va a utilizar para calcular el
coeficiente de correlación lineal. Las posibles opciones son: pearson (método que
se considera por defecto), kendall y spearman. Puedes encontrar más información
sobre estos 3 métodos de cálculo del coeficiente de correlación lineal en el
siguiente enlace: http://www.napce.org/documents/research-design-
yount/22_correlation_4th.pdf
SOLUCION:
> cintura <- c(62, 75, 60, 71, 66, 62, 79, 74, 70, 66, 71, 69)
> edad <- c(25, 31, 29, 64, 44, 41, 37, 35, 34, 29, 19, 50)
Y vamos a ajustra un modelo de regresión lineal (cintura en función de la edad):
> reg_lin <- lm(cintura ~ edad )
> reg_lin
Call:
lm(formula = cintura ~ edad)
Coefficients:
(Intercept) edad
66.50997 0.06137
> summary(reg_lin)
Call:
lm(formula = cintura ~ edad)
Residuals:
Min 1Q Median 3Q Max
-8.2897 -3.9188 -0.0081 3.8285 10.2193
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 66.50997 5.73594 11.60 4.03e-07 ***
edad 0.06137 0.14981 0.41 0.691
—
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.002 on 10 degrees of freedom
Multiple R-squared: 0.01651, Adjusted R-squared: -0.08184
F-statistic: 0.1678 on 1 and 10 DF, p-value: 0.6907
cinturai=66.50997+0.06137edadi
Expresión 5: Modelo pedido
Correlación lineal
Luego Para poder calcular el coeficiente de correlación lineal entre dos variables
en R se utiliza la orden cor, cuya sintaxis es la siguiente:
>cor (‘x’ en este caso es la cintura, ´ y ´ que es la edad, method = c(“pearson” “kendall”,
“spearman”))
donde
Ahora para poder calcular el coeficiente de correlación lineal de Pearson entre las
variables peso y altura:
> cor(datos)
peso altura cintura edad
peso 1.0000000 0.85370507 0.6740509 -0.16523717
altura 0.8537051 1.00000000 0.8380164 -0.04509011
cintura 0.6740509 0.83801636 1.0000000 0.12847242
edad -0.1652372 -0.04509011 0.1284724 1.00000000
En este caso, en lugar de un único valor numérico, la función cor devuelve una matriz
simétrica con las correlaciones entre las variables.
Habitualmente, se está interesado en contrastar si la correlación lineal entre pares de
variables puede considerarse 0 o no. Es decir, se quiere resolver el contraste
H0≡ρ=0
H1≡ρ≠0
Expresión 6: Contraste sobre la correlación lineal
donde
El p-valor asociado a este contraste es de 0.0004106 < 0.05, por lo que rechazamos la
hipótesis de que la correlación lineal entre estas dos variables sea 0.
a) Crea 4 vectores numéricos, de manera que cada uno contenga los datos de una
columna y un data frame llamado Notas con los 4 vectores que acabas de crear
b) Representa el diagrama de dispersión de la nota en estadística y la nota en química
c) Escribe la recta de regresión lineal que surge de considerar la nota en estadística
como variable dependiente y la nota en química como variable independiente
d) ¿Son significativos los dos parámetros anteriores? ¿Qué puede decirse del ajuste del
modelo a los datos?
e) ¿Cuál sería la recta de regresión en el caso de que se considere un modelo de
regresión lineal simple sin constante?
f) Calcula el coeficiente de correlación lineal de Pearson entre ambas variables. ¿Es
significativa esta correlación?
g) ¿Cuál sería la recta de regresión lineal si se incluye la nota en geología como variable
independiente?
SOLUCION:
a) Crea 4 vectores numéricos, de manera que cada uno contenga los datos de una
columna y un data frame llamado Notas con los 4 vectores que acabas de crear
> Est <- c(9,2,5,10,6,4,7,6)
> Qui <- c(8.5, 5,7,10,1,3,6,8)
> Geo <- c(10,4,7,7,3,7,8,7)
> Horas <- c(5,0.2,2,5.5,1.5,1.5,3,2.5)
> Notas <- data.frame(Est, Qui, Geo, Horas)
> Notas
Est Qui Geo Horas
1 9 8.5 10 5.0
2 2 5.0 4 0.2
3 5 7.0 7 2.0
4 10 10.0 7 5.5
5 6 1.0 3 1.5
6 4 3.0 7 1.5
7 7 6.0 8 3.0
8 6 8.0 7 2.5
b) Representa el diagrama de dispersión de la nota en estadística y la nota en
química
> plot(Notas$Est, Notas$Qui)
Figura 7:
Diagrama de Dispersión
c) Escribe la recta de regresión lineal que surge de considerar la nota en estadística
como variable dependiente y la nota en química como variable independiente.
> reg_lin <- lm(Est ~ Qui, data = Notas)
> reg_lin
Call:
lm(formula = Est ~ Qui, data = Notas)
Coefficients:
(Intercept) Qui
2.9643 0.5213
Esti=2.9643+0.5212Quii
Expresión 10: Expresión de la recta de regresión
d) ¿Son significativos los dos parámetros anteriores? ¿Qué puede decirse del ajuste
del modelo a los datos?
> summary(reg_lin)
Call:
lm(formula = Est ~ Qui, data = Notas)
Residuals:
Min 1Q Median 3Q Max
-3.5711 -1.2548 0.1896 1.6587 2.5143
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.9643 1.8906 1.568 0.168
Qui 0.5213 0.2833 1.840 0.115
Residual standard error: 2.235 on 6 degrees of freedom
Multiple R-squared: 0.3608, Adjusted R-squared: 0.2542
F-statistic: 3.386 on 1 and 6 DF, p-value: 0.1153
Puesto que los p-valores asociados al contraste t de Student para ambos parámetros
(0.168 y 0.115) son mayores que 0.05, podemos considerar que ambos parámetros no
son significativamente distintos de 0.
Por otra parte, el valor de R2 (0.3608) nos lleva a concluir que el ajuste del modelo a
los datos es bastante pobre.
e) ¿Cuál sería la recta de regresión en el caso de que se considere un modelo de
regresión lineal simple sin constante?
> reg_lin2 <- lm(Est ~ 0 + Qui, data = Notas)
> reg_lin2
Call:
lm(formula = Est ~ 0 + Qui, data = Notas)
Coefficients:
Qui
0.9249
Esti=0.9249Quii
f) Calcula el coeficiente de correlación lineal de Pearson entre ambas variables.
¿Es significativa esta correlación?
> cor(Notas$Est, Notas$Qui)
[1] 0.6006425
Puesto que el p-valor del contraste es de 0.1153 y, por lo tanto, mayor que 0.05,
podemos concluir que la correlación no es significativa, y podría considerarse 0.
Esti=1.7276+0.3535Quii+0.3403Geoi
Expresión 11: Recta de regresión lineal múltiple
SOLUCION:
a) Crear un data frame de nombre Cerezos que almacene los datos de los árboles
> Cerezos
diam alt vol
1 8.3 70 10.3
2 8.6 65 10.3
3 8.8 63 10.2
4 10.5 72 16.4
5 10.5 81 18.8
6 10.8 83 19.7
7 11.0 66 15.6
8 11.0 75 16.3
b) Dibujar el diagrama de dispersión de las variables altura y volumen y
determinar si puede existir una cierta relación lineal entre ambas
Diagrama de
dispersión de las variables altura frente al volumen
En el gráfico se aprecia un cierto patrón lineal entre las variables, aunque esto debe
confirmarse mediante métodos analíticos.
alti=48.336+1.601voli
Expresión 13: Recta de regresión de la altura en función del volumen
Los dos parámetros de la recta se interpretan del siguiente modo: 48.336 es la altura
esperada para un cerezo que tiene un volumen de 0 pies cúbicos. Por otra parte, por cada
pie cúbico de incremento en el volumen del tronco del cerezo, se espera un aumento en
su altura de 1.601 pies.
d) ¿Son significativos estos parámetros? ¿Qué puede decirse del ajuste del modelo
a los datos?
Para responder a estas preguntas, necesitamos la información adicional sobre el modelo
que nos proporciona la función summary.
Call:
lm(formula = alt ~ vol, data = Cerezos)
Residuals:
Min 1Q Median 3Q Max
-7.3161 -1.9013 0.3668 2.6995 5.1706
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 48.3363 6.1662 7.839 0.000228 ***
vol 1.6013 0.4071 3.934 0.007680 **
—
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.211 on 6 degrees of freedom
Multiple R-squared: 0.7206, Adjusted R-squared: 0.674
F-statistic: 15.47 on 1 and 6 DF, p-value: 0.00768
El ajuste del modelo a los datos es aceptable, ya que el valor de R2 es de 0.7206.
e) ¿Cuál es la correlación lineal de Pearson entre ambas variables? ¿Es
significativa?
alti=85.340+3.231voli–6.135diami
Expresión 14: Recta de regresión lineal múltiple
Ejercicio 5. La siguiente tabla incluye información acerca del peso (en kg.), la altura
(en cm.), contorno de cintura (en cm.) y la edad de 12 individuos.
peso altura cintura edad
74 168 62 25
92 196 75 31
63 170 60 29
72 175 71 64
58 162 66 44
78 169 62 41
85 190 79 37
85 186 74 35
73 176 70 34
62 170 66 29
80 176 71 19
72 179 69 50
SOLUCION
Vamos a ajustar un nuevo modelo de regresión lineal (múltiple, en este caso) que
incorpore la información de todas las variables. En primer lugar, vamos a crear cuatro
vectores numéricos, uno para cada variable
> peso <- c(74, 92, 63, 72, 58, 78, 85, 85, 73, 62, 80, 72)
> altura <- c(168, 196, 170, 175, 162, 169, 190, 186, 176, 170, 176, 179)
> cintura <- c(62, 75, 60, 71, 66, 62, 79, 74, 70, 66, 71, 69)
> edad <- c(25, 31, 29, 64, 44, 41, 37, 35, 34, 29, 19, 50)
Y vamos a agrupar la información relativa a las 4 variables de las que disponemos en un
data frame al que pondremos por nombre datos:
> datos <- data.frame(peso, altura, cintura, edad)
> datos
peso altura cintura edad
1 74 168 62 25
2 92 196 75 31
3 63 170 60 29
4 72 175 71 64
5 58 162 66 44
6 78 169 62 41
7 85 190 79 37
8 85 186 74 35
9 73 176 70 34
10 62 170 66 29
11 80 176 71 19
12 72 179 69 50
pesoi=−78.03017+0.93629alturai–0.13261cinturai–0.09672edadi
Expresión 20: Modelo pedido