Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CIMAT)
Curso: Modelos Estadísticos
Tarea 2 (Modelos lineales)
Tarea donde se piden hacer ejercicios relacionados al tema de modelos de regresión lineal (de los
temas visto en la clase 10 de febrero 2023).
Instrucciones:
1) La tarea se anexa en formato pdf (ya sea escaneando las imágenes y uniéndolas en un solo
archivo, o generar el documento mediante un archivo de word o de latex)
a) 𝐸(𝑌𝑖 ) = 𝛽0 + 𝛽1 𝑋𝑖1
b) 𝑉(𝑌𝑖 ) = 𝜎 2
c) 𝐶𝑜𝑣(𝑌𝑖 , 𝑌𝑗 ) = 0, 𝑖 ≠ 𝑗
Para los incisos b), y c), use las siguientes definiciones de varianza y covarianza:
Ejercicio 2.- En la siguiente tabla tenemos, X=contenido de agua en la nieve durante el mes de abril
en una región de montaña de Wyoming, USA y además Y=el rendimiento de agua de abril a julio en
el rio Snake, que lleva agua proveniente de la nieve, durante 17 años. Ajuste un modelo de regresión
lineal simple y comente si en este caso debemos utilizar un modelo de regresión a través del origen.
X Y X Y
23.1 10.5 37.9 22.8
32.8 16.7 30.5 14.1
31.8 18.2 25.1 12.9
32 17 12.4 8.8
30.4 16.3 35.1 17.4
24 10.5 31.5 14.9
39.5 23.1 21.1 10.5
24.2 12.4 27.7 16.1
52.5 24.9
De acuerdo a la significancia de las variables del modelo ajustado con la función lm(), realizado en
el inciso anterior, formule una prueba anidada usando la función anova() y el estadístico F. ¿Se
rechaza la hipótesis nula asociada a un modelo más simple? Justifica tu respuesta.
Ejercicio 2.- En la siguiente tabla tenemos, X=contenido de agua en la nieve durante el mes de
abril en una región de montaña de Wyoming, USA y además Y=el rendimiento de agua de abril
a julio en el rio Snake, que lleva agua proveniente de la nieve, durante 17 años. Ajuste un
modelo de regresión lineal simple y comente si en este caso debemos utilizar un modelo de
regresión a través del origen.
In [13]: #install.packages("ISLR2")
library(ISLR2)
#------------------------------------------------------------------------
#Cargar los datos
#------------------------------------------------------------------------
datos=data.frame(x=c(23.1,32.8,31.8,32,30.4,24,39.5,24.2,52.5,37.9,30.5,25.1,12.4,35.1
y=c(10.5,16.7,18.2,17,16.3,10.5,23.1,12.4,24.9,22.8,14.1,12.9,8.8,17.4,14.9,10.5,16.1)
Coeficientes=data.frame(cbind(BETA0,BETA1))
colnames(Coeficientes)=c("Beta0","Beta1")
Coeficientes=t(Coeficientes)
colnames(Coeficientes)=c("Valor")
Coeficientes
Modelo_ajustado=BETA0+BETA1*datos$x
datos_ajus=data.frame(cbind(datos,Modelo_ajustado))
names(datos_ajus)[1:3]=c("Contenido de agua","Rendimiento de agua","Rendimiento de agu
head(datos_ajus)
Valor
Beta0 0.7155956
Beta1 0.4983090
Intervalo=data.frame(cbind(Coeficientes,t(cbind(SE_BETA0,SE_BETA1)),t(rbind(itervalo_B
colnames(Intervalo)=c("Coeficiente", "Error STD", "2.5%","97.5%")
Intervalo
#lm=lm(y~x,data = datos)
#summary(lm)
Para este ejercicio, dado que el valor del intercepto se encuentra en el itervalo
[−2.58, 0.392] ; está contenido dentro del intervalo (area bajo la curva). Se puede
interpretar que la ausencia de caida de nieve en la región de la montaña Wyoming, el
rendimiento del nivel de agua en el rio Snake es nulo hasta tener un rendimiento de 4.0122
de unidad de agua.
c) Pruebe la hipótesis H 0
: β
0
= 0 , contra la alternativa H 0
: β
0
≠ 0. Interprete los resultados.
In [27]: T_cal=BETA0/SE_BETA0
alfa <- 0.05
gl <- n-2
T_tab <- qt(1-(alfa/2), gl) #Se contrasta con la T_calculada
P_value=2*pt(abs(T_cal),gl,lower.tail =F) #Se contrasta con un alfa=0.05
Estadisticos=data.frame(cbind(T_cal,T_tab,P_value,alfa))
colnames(Estadisticos)=c("T calculado","T de tabla","P_value"," Alpha")
Estadisticos
Si el valor p es menor o igual que α , existe evidencia suficiente para no rechazar la hipótesis
nula; si el valor p es mayor que α existe evidencia suficiente para rechazar la hipótesis nula.
Como Pvalue = 0.65 > α = 0.05 de acuerdo a la la regla de decisión, existe evidencia
suficiente para rechazar la H0 , ya que Pvalue = 0.65 está en la región de rechazo. Por lo tanto,
no existe una relación lineal significativa entre la cantidad de agua que contiene la nieve con el
rendimiento de agua en el rio Snake. Por otra parte, se puede corroborar con el estadístico de
prueba, donde Tcal = 0.56 < Tn−gl,n−2 = 2.13 ; entonces sí existe evidencia suficiente para
aceptar H ,concluyendo así que el intercepto no tienes significancia para modelar los datos.
0
In [115… Beta1=sum(datos$y*datos$x)/sum(datos$x^2)
Y_ajus_origen=data.frame(Beta1*datos$x)
data.frame(Beta1)
Y_ajus_origen=data.frame(cbind(datos,Y_ajus_origen))
names(Y_ajus_origen)[1:3]=c("Contenido de agua","Rendimiento de agua","Rendimiento de
head(Y_ajus_origen)
Beta1
0.5203178
Varianza=data.frame(rbind(Var_con_interc,Var_sin_interc))
Varianza$Variance=(Varianza[,2])^2
Varianza=cbind(Varianza,R2)
Varianza
Los errores estándar (permiten también construir pruebas de hipótesis relacionadas a los
coeficientes. Se plantea la siguinte pruebas de hipótesis relacionadas al intercepto(regresión al
origen). H0 : Regresión al origen (sin intercepto) → H0 : β
0
= 0, β
1
≠ 0 Ha : Regresión lineal
simple con intercepto → Ha : β
0
≠ 0, β
1
≠ 0 De acuerdo al valor **SE(β^ )** estimado para
1
el modelo sin intercepto es menor que al modelo con intercepto, se puede concluir que está
más a favor de la hipotesis nula. Si β
0
= 0 entonces Y = β
1
∗ X + ei , donde el intercepto es
cero en la relación entre la respuesta (Y ) y el predictor (X). Además, para el modeloi sin
intercepto presenta un valor de R
2
= 0.9892 mayor que le valor de R
2
= 0.8627
Estimacion=rbind(Inter_con_intercepto,Inter_sin_intercepto)
Estimacion<-Estimacion[, c(4,5,1,2,3)]
Estimacion$Diferencia=Estimacion$Superior-Estimacion$Inferior
Estimacion <- Estimacion[order(Estimacion$Futuro),]
Estimacion
El rendimiento del agua en el rio Snake en años futuros sí se logra una caida de nieve en las
montaña de Wyoming de 30 y 50, la predicción de un valor futuro es más precisa para el
modelo sin intercepto. Este modelo es de menor amplitud en su intervalo respecto al modelo
con intercepto, lo que permite explicar mejor el fenómeno y mejorar la predicción en el
rendimiento del agua en el rio Snake.
Ejercicio 3.- El conjunto de datos carbohydrate de la biblioteca en R dobson, muestra los
porcentajes de las calorías totales obtenidas de los carbohidratos complejos, para veinte
hombres diabéticos insulinodependientes que siguieron una dieta alta en carbohidratos
durante seis meses. El cumplimiento del régimen se pensó que estaba relacionado con la edad
(en años), el peso corporal (en relación con el peso "ideal" para la estatura) y otros
componentes de la dieta, como el porcentaje de calorías en forma de proteínas. Considerando
estas 3 variables predictoras, realice lo siguiente:
In [2]: #install.packages("dobson")
library(dobson)
data(carbohydrate)
head(carbohydrate)
33 33 100 14
40 47 92 15
37 49 135 18
27 35 144 12
30 46 140 15
43 52 101 15
In [4]: colnames(carbohydrate)[1:4]=c("Y","X1","X2","X3")
p=3 #Número de predictoras
n=nrow(carbohydrate)
X=as.matrix(cbind(X0=1,carbohydrate[,2:4]))
Y=as.matrix(carbohydrate[,1])
BETA=solve(t(X)%*%X) %*% t(X)%*%Y
colnames(BETA)[1]="Estimadores"
BETA
Estimadores
X0 36.9600559
X1 -0.1136764
X2 -0.2280174
X3 1.9577126
X0 X1 X2 X3
In [6]: SE_BETA2=diag(Var_Cov)
SE_BETA=sqrt(diag(Var_Cov))
Tab_PARAMETROS=cbind(as.matrix(BETA),as.matrix(SE_BETA2),as.matrix(SE_BETA))
colnames(Tab_PARAMETROS)=c("Estimadores","Varianza","Error Std")
Tab_PARAMETROS
b) Usando la información del inciso anterior, construya una tabla de los parámetros estimados
con su correspondiente error estándar. Posteriormente ajuste el modelo usando la función lm()
de R, y compare la salida (estimadores)
TABLA_ESTIMADO=cbind(Tab_PARAMETROS,Tab_ESTIMADOS)
TABLA_ESTIMADO
Estimadores Varianza Error Std Estimate Variance Std. Error
c) De acuerdo a la significancia de las variables del modelo ajustado con la función lm(),
realizado en el inciso anterior, formule una prueba anidada usando la función anova() y el
estadístico F . ¿Se rechaza la hipótesis nula asociada a un modelo más simple? Justifica tu
respuesta.
In [14]: #Prueba F
n=nrow(carbohydrate)
anova=anova(mls_mult1,mls_mult2)
anova
16 567.6629 NA NA NA NA
In [ ]: