Está en la página 1de 11

Universidad Autónoma Chapingo

Experimentación Pecuaria
5°A Zootecnia
Tarea 3
Citlali Sanjuana Hortelano Tovar
Matrícula 2011137-9
6 de septiembre de 2022
Problema 1

Nelson (1964) investigó la relación lineal entre la humedad (% relative humidity) y la pérdida
de agua (water loss en mg) para nueve lotes de mantenidos a diferentes humedades relativas
(rango de 0 a 93%) por un período de seis días. Los datos se presentan en el archivo anexo
(nelson.csv).

a) Realice un gráfico de x vs y. Utilice la pérdida de agua como variable dependiente.


Interprete el gráfico, ¿considera usted que existe una relación lineal entre la humedad y
la pérdida de agua? Justifique su respuesta.

y = nelson$WEIGHTLOSS
x = nelson$HUMIDITY
library(ggplot2)
ggplot(aes(x = HUMIDITY, y = WEIGHTLOSS), data = nelson) +
geom_point() +
labs(x = "Porcentaje relativo de humedad",
y = "Perdida de agua (mg)")

No existe una relación lineal entre la humedad y la pérdida de agua, ya que la razón de
cambio entre ambas variables no es constante.

b) Planteé un modelo lineal para los datos, después ajuste el modelo obteniendo los valores
de los parámetros. Puede utilizar R, Excel o hacerlo a mano.
Modelo de regression lineal: Pérdida de agua=β0+βi(Humedad)+ϵi

En R:
modelo = lm(WEIGHTLOSS~HUMIDITY, data = nelson)
summary(modelo)

Resultados:
summary(modelo)

Call:
lm(formula = WEIGHTLOSS ~ HUMIDITY, data = nelson)

Residuals:
Min 1Q Median 3Q Max
-0.46397 -0.03437 0.01675 0.07464 0.45236

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.704027 0.191565 45.44 6.54e-10 ***
HUMIDITY-0.053222 0.003256 -16.35 7.82e-07 ***
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2967 on 7 degrees of freedom


Multiple R-squared: 0.9745, Adjusted R-squared: 0.9708
F-statistic: 267.2 on 1 and 7 DF, p-value: 7.816e-07

c) Escriba el modelo ajustado e interprete βˆ1.

̂
𝑃é𝑟𝑑𝑖𝑑𝑎 𝑑𝑒 𝑎𝑔𝑢𝑎 = 8.704027 − 0.053222(ℎ𝑢𝑚𝑒𝑑𝑎𝑑)

Interpretación: Por cada unidad que aumenta la humedad, disminuye en 0.053222


unidades la pérdida de agua.

d) Resuma en una Tabla ANOVA sus resultados y realice el juego de hipótesis siguiente:
H0 : β1 = 0 vs β1 =
̸ 0. Use un valor para la probabilidad de cometer error tipo I de
0.06. ¿Cuál es su conclusión?

Modelo anova en R:

> anova(modelo)
Analysis of Variance Table

Response: WEIGHTLOSS
Df Sum Sq Mean Sq F value Pr(>F)
HUMIDITY 1 23.5145 23.515 267.18 7.816e-07 ***
Residuals 7 0.6161 0.088
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Prueba de hipótesis
Ho : β1 = 0
Ha : β1 =
̸ 0

Utilizando el valor P proporcionado en la tabla ANOVA se concluye lo siguiente:


Dado que P = 7.816e-07 < α = 0.06 se rechaza la hipótesis nula (Ho) en favor de la
hipótesis alternativa (Ha).
Problema 2

La tabla mortalidadInfantil.csv que se anexa a la presente tarea presenta los datos de un


índice de calidad de vida (x) y la tasa de mortalidad infantil (y) registrada en un
determinado periodo de tiempo en cada uno de 13 diferentes estados de la India.

a) Realice una gráfica de x contra y.

y = mortalidadInfantil$y
x = mortalidadInfantil$x
library(ggplot2)
ggplot(aes(x = x, y = y), data = mortalidadInfantil) +
geom_point() +
labs(x = "Ìndice de calidad de vida",
y = "Tasa de mortalidad infantl")

b) ¿Existe evidencia de asociación lineal entre ambas variables? Justifique su respuesta.

No existe evidencia de una relación lineal entre ambas variables, pues el cambio entre
ellas no es constante.

c) Ajuste un modelo lineal y escriba explícitamente el modelo ajustado.


Modelo de regresión lineal:
Tasa de mortalidad infantil=β0+βi(Ìndice de calidad de vida)+ϵi

En R:
summary(modelo)

Call:
lm(formula = y ~ x, data = mortalidadInfantil)

Residuals:
Min 1Q Median 3Q Max
-21.553 -6.710 -1.944 3.361 21.066

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 172.5715 8.9331 19.318 7.75e-10 ***
x -1.4619 0.1873 -7.807 8.23e-06 ***
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 13.17 on 11 degrees of freedom


Multiple R-squared: 0.8471, Adjusted R-squared: 0.8332
F-statistic: 60.95 on 1 and 11 DF, p-value: 8.233e-06

Modelo ajustado:
̂
𝑇𝑎𝑠𝑎 𝑑𝑒 𝑚𝑜𝑟𝑡𝑎𝑙𝑖𝑑𝑎𝑑 𝑖𝑛𝑓𝑎𝑛𝑡𝑖𝑙 = 172.5715 − 1.4619(ì𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑐𝑎𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑣𝑖𝑑𝑎)

d) Interprete el valor de βˆ1.

Por cada unidad que aumenta el índice de calidad de vida disminuye en 1.4619 la
tasa de mortalidad.

e) Realice una gráfica de x contra y como en el inciso a, pero ahora añada la recta de
regresión ajustada.

beta0 <- 172.5715


beta1 <- -1.4619
plot(mortalidadInfantil$x, mortalidadInfantil$y, xlab = 'Ìndice de calidad de vida',
ylab = 'Tasa de mortalidad infantil')
abline(a = beta0, b = beta1, col = "blue", lwd = 4)
f) Resuma en una Tabla ANOVA sus resultados y realice el juego de hipótesis siguiente:
H0 : β1 = 0 vs β1 ≠ 0. Use un valor para la probabilidad de cometer error tipo I de
0.05. ¿Cuál es su conclusión?

anova(modelo)
Analysis of Variance Table

Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x 1 10564.3 10564.3 60.949 8.233e-06 ***
Residuals 11 1906.6 173.3
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Prueba de hipótesis
Ho : β1 = 0
Ha : β1 =
̸ 0

Utilizando el valor P proporcionado en la tabla ANOVA se concluye lo siguiente:


Dado que P = 8.233e-06 < α = 0.05 se rechaza la hipótesis nula (Ho) en favor de la
hipótesis alternativa (Ha).
g) Genere una variable z = log(y) y repita los pasos anteriores, pero ahora haciendo la
regresión de x y z.

Paso 1 generar la gráfica:


z = mortalidadInfantil$z
x = mortalidadInfantil$x
library(ggplot2)
ggplot(aes(x = x, y = z), data = mortalidadInfantil) +
geom_point() +
labs(x = "Ìndice de calidad de vida",
y = "Tasa de mortalidad infantl log")

Paso 2:
No existe relación lineal entre las variables porque el cambio entre ambas no es
constante.

Paso 3:
Modelo de regresión lineal:
Tasa de mortalidad infantil log=β0+βi(Ìndice de calidad de vida)+ϵi

En R:
summary(modelo1)

Call:
lm(formula = z ~ x, data = mortalidadInfantil)

Residuals:
Min 1Q Median 3Q Max
-0.178870 -0.074370 -0.012173 0.007465 0.305643

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.366171 0.098359 54.557 9.67e-15 ***
x -0.016727 0.002062 -8.113 5.72e-06 ***
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.145 on 11 degrees of freedom


Multiple R-squared: 0.8568, Adjusted R-squared: 0.8438
F-statistic: 65.82 on 1 and 11 DF, p-value: 5.715e-06

Modelo ajustado:
̂ 𝑖𝑛𝑓𝑎𝑛𝑡𝑖𝑙 𝑙𝑜𝑔 = 5.366171 − 0.016727(ì𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑐𝑎𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑣𝑖𝑑𝑎)
𝑇𝑎𝑠𝑎 𝑑𝑒 𝑚𝑜𝑟𝑡𝑎𝑙𝑖𝑑𝑎𝑑

Paso 4:
Por cada unidad que aumenta el índice de calidad de vida disminuye en 0.016727 la
tasa de mortalidad.

Paso 5: Realice una gráfica de x contra y como en el inciso a, pero ahora añada la
recta de regresión ajustada.

beta0 <- 5.366171


beta1 <- -0.016727
plot(mortalidadInfantil$x, mortalidadInfantil$z, xlab = 'Ìndice de calidad de vida',
ylab = 'Tasa de mortalidad infantil')
abline(a = beta0, b = beta1, col = "blue", lwd = 4)
Paso 6: Resuma en una Tabla ANOVA sus resultados y realice el juego de hipótesis
siguiente: H0 : β1 = 0 vs β1 ≠ 0. Use un valor para la probabilidad de cometer error
tipo I de 0.05. ¿Cuál es su conclusión?

anova(modelo1)
Analysis of Variance Table

Response: z
Df Sum Sq Mean Sq F value Pr(>F)
x 1 1.38311 1.38311 65.82 5.715e-06 ***
Residuals 11 0.23115 0.02101
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Prueba de hipótesis
Ho : β1 = 0
Ha : β1 =
̸ 0

Utilizando el valor P proporcionado en la tabla ANOVA se concluye lo siguiente:


Dado que P = 5.715e-06 < α = 0.05 se rechaza la hipótesis nula (Ho) en favor de la
hipótesis alternativa (Ha).
h) ¿Qué conclusiones puede obtener de haber ajustado el modelo con los datos
originales y con el dato de y transformado? ¿Cambiaron los valores de la suma de
cuadrados? ¿Por qué?

Tomando en cuenta el valor de R cuadrado ajustado, en el primer modelo se tuvo que


el modelo explica en un 83.32% la variabilidad de los datos, mientras que en el modelo
nuevo con Y ajustada se tuvo que este explica un 84.38% la variabilidad de los datos.
En resumen, el modelo mejoró en 1.06%. Los valores del error también disminuyeron
de 13.17 a 0.145.
Los valores de la suma de cuadrados disminuyeron debido a que disminuyó el error
residual, y por consecuencia, la variabilidad total que se puede atribuir a diferentes
factores que no se explican por el modelo.

Nota: Puede utilizar R o Excel. En R, la forma de transformar una variable es


# asumiendo que su base de datos se llama 'datos'
datos$z <- log(datos$x) # transformación logarítmica
# Recuerde que para poder estimar un modelo lineal en R se usa
lm(y~z, data = datos)

También podría gustarte