Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión Lineal
Profesor : Manuel Ricardo Contento Rubio
manuel.contento@utadeo.edu.co
Oficina: modulo 6 / 501
Ambientación
Introducción- Ejemplo 1
Se desea estudiar la relación entre la nota final de calculo en el
primer semestre basándose en la calificación que el estudiante
obtiene en una prueba de aprovechamiento realizada antes de
que ingrese a la universidad. Se dispone de información acerca
de estas dos variables en una muestra de 10 estudiantes.
yi
yˆ i
ei
xi x
Objetivo-Modelo
Objetivo: estudiar la relación que se presenta entre dos
variables, una llamada dependiente o respuesta (y) y otra
explicativa (x), en un conjunto de n observaciones.
yi xi ei i 1, 2, , n.
: intercepto con el eje Y
: pendiente
Supuestos
Se hacen sobre el error aleatorio y son:
E(ei) = 0
V(ei) = 2
Cov(ei , ej ) = 0 i j
e N( 0 ; 2 )
Violación de supuestos
y
x
Violación de supuestos
y y
x x
x
Violación de supuestos
y
x
Violación de supuestos
y
x
Estimación por mínimos cuadrados
Los estimadores de y son tal que minimicen las
diferencias que se presentan, en conjunto, entre el
valor observado (yi) y el valor estimado (ŷi).
Problema: Hallar y tal que sea mínima la SCE.
n n
SSE ei2 ( yi yˆi )2
i 1 i 1
Estimadores de , y 2
n n
n xi yi
i 1 i 1
x y
i i
n S xy
ˆ b i 1
2
n
S xx
n i x
i 1
i 1
xi
2
n
n n
y i x i
ˆ a i 1
b i 1
y bx
n n
2
n
SSE S yy bS xy n i y
ˆ s S yy yi2 i 1
2 2
n2 n2 i 1 n
Estimación coeficientes con R
> #Modelo de regresión lineal simple
> regresion <- lm(y ~ x)
> summary(regresion)
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-55.782 -29.124 -0.025 21.396 101.877
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 278.2139 35.5082 7.835 3.29e-07 ***
x -2.8324 0.4508 -6.283 6.34e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
b = -2.8324
𝑏
𝑡𝑐 = ~𝑇(𝑛 −2)
𝑒𝑒(𝑏)
𝑦ො
𝑖 = 𝑎 + 𝑏𝑥𝑖
yi yˆi
yi
yˆ i
yˆ i y y
yi y
xi x
Anova en regresión
n n n
i
( y
i 1
y ) 2
i
( ˆ
y y ) 2
i 1
i i
( y ˆ
y ) 2
i 1
Response: mortalidad_y
Df Sum Sq Mean Sq F value Pr(>F)
inmunizacion_x 1 61423 61423 39.479 6.343e-06 ***
Residuals 18 28005 1556
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residuales
Residuales
Análisis de Residuales
#Residuales en función del valor ajustado. e=f(Y_est)
valores.ajustados <- fitted(regresion)
residuos <- rstandard(regresion)
plot(valores.ajustados, residuos)
abline(h=0)
Análisis de Residuales
#Valor ajustado en función del valor observado. Y_est=f(Y)
plot(y, valores.ajustados)
abline(0,1)
Análisis de Residuales
#Gráfico Cuantil-Cuantil para los residuales
qqnorm(residuos)
qqline(residuos)
Análisis de Residuales
#Histograma y función de densidad estimada para los residuales
par(mfrow=c(2,1))
hist(residuos)
plot(density(residuos))
dev.off()
Normalidad de Residuales
> #Pruebas de Normalidad para los residuales
> shapiro.test(residuos) #Prueba de Shapiro-Wilks
Shapiro-Wilk normality test
data: residuos
W = 0.94508, p-value = 0.2985
#Coeficiente de correlación
cor(x,y)
Script
#ANOVA asociado al modelo de regresión lineal
anova(regresion)
#Diagrama de Dispersión del valor ajustado en función del valor observado. Y_est=f(Y)
plot(y, valores.ajustados)
abline(0,1)