EYP1113-07,08 Clase 30

EYP1113 - Probabilidad y Estadı́stica
Capı́tulo 8: Regresión Lineal
Ricardo Aravena - Ricardo Olea - Felipe Ossa

Mauricio Toro
Facultad de Matemáticas
Departamento de Estadı́stica
Pontificia Universidad Católica de Chile
Segundo Semestre 2023

Contenido I
Introducción
Regresión Lineal Simple
Estimación del Modelo
Inferencia
Análisis de la Varianza
Coeficiente de Determinación
Regresión Múltiple
Definición del Modelo
Estimación del modelo
Inferencia en el modelo
Coeficiente de Determinación y Análisis de la Varianza
Selección de Modelo
Multicolinealidad
Independencia
Outliers, Leverage e influyentes
CAP 3 MEJOR PREDICTOR i Ely x̅
ii El Y X Ó
CASO PARTICULAR XY N Tx Y SI
Mx Y
EL Y IX X
Mx
My Syfy
S
My A SE
X
Po Pi
COMO OBTENGO LA RECTA
Val Y X Ey 1 5
de
Introducción
La Inferencia vista anteriormente, puede ser abordada desde el punto

de vista de Modelos Estadı́sticos.
Ası́ por ejemplo, si Y1 , . . . , Yn es una muestra aleatoria de una dis-
tribución Normal con media µ y varianza 2 ambos parámetros des-
conocidos.
Este experimento se puede escribir en términos del siguiente modelo:
Y i = µ + "i i = 1, . . . , n
donde "i tienen distribución normal con media cero y varianza 2.

Introducción
Al permitir que la media de Y varı́e de manera funcional con respecto

a una covariable Xi de la siguiente manera:
Yi = µ (Xi ) + "i i = 1, . . . , n
Obtenemos el modelo de regresión simple.

Introducción
Se llama a
yi = E (Yi | xi ) = µ (xi )
a la curva de regresión de Y sobre x.
Si la relación funcional es lineal en los parámetros, es decir,
µ (Xi ) = 0 + 1 Xi ,
entonces el modelo se llama regresión lineal simple, y la curva de

regresión esta dada por yi = 0 + 1 xi .
En cambio si
1
µ (Xi ) = X
0 i ,
el modelo serı́a de regresión No lineal simple, y la curva de regresión

esta dada por yi = 0 xi 1 .
Consideremos el modelo de regresión lineal simple,
Yi = 0 + 1 Xi + "i i = 1, . . . , n
Supuestos:
1. Linealidad: La media condicional de Y sobre x es lineal
y = E(Y | x) = 0 + 1x
2. Homocedasticidad: La varianza asociada a fY | x (y ) es la misma

para todo x e iguala 2 .
3. Independencia: Las distribuciones condicionales son variables
aleatorias independientes para todo x.
4. Normalidad: fY | x (y ) tiene distribución normal para todo x.
La regresión lineal simple bajo los supuestos anteriores se ilustra en

la siguiente figura:
F I
Interpretación de los parámetros del modelo:

I 0 : intercepto, 0 = E(Y | X = 0).
I 1 : pendiente, corresponde a la variación de E(Y | X = x)
cuando x aumenta en una unidad.
Máxima Verosimilitud
Bajo los supuestos (1) (2) (3) (4) se tiene que Yi | xi tiene
distribución Normal con media E (Yi | xi ) = 0 + 1 xi y varianza 2
y además son independientes, entonces la función de verosimilitud
de la muestra está dada por
n
Y n
indepY
O
1 1 2
L= fY |xi (yi ) = p e 2 2 (yi 0 1 xi )
i=1 i=1
2⇡
( n
)
1 X
= (2 ⇡ 2 ) n/2 exp 2
(yi 0 1 xi )
2
2
i=1
Ipoh
O
ijp.lt jaleo 2
Los estimadores máximos verosı́miles de los parámetros 0, 1 y
están dados por
n
X
xi yi ny x
ˆ1 = i=1 ˆ0 = ȳ ˆ1 x̄
n ,
X
xi2 n (x)2
i=1
1 X⇣ n ⌘2
ˆ2 = yi ˆ0 ˆ1 xi
n
i=1
Mı́nimos Cuadrados
Bajo los supuestos (1) (2) (3), El método de mı́nimos cuadrados
estimará los parámetros tales que minimicen la suma la distancia al
cuadrado entre los valores observados de yi y los asumidos por el
ajuste de regresión, es decir, minimizar la función 2 dada por
n
X
2 2
= (yi 0 1 xi )
i=1
Luego los EMCO (Estimadores de Mı́nimos Cuadrados Ordinarios)

de 0 y 1 , coinciden con los EMV.
Notar que el método de mı́nimos cuadrados no arroja estimación

para 2 .
Sin embargo, se estima a través de sY2 | x , que es un estimador ins-
esgado de 2 dado por
n ⇣
X ⌘2
1 ˆ0 ˆ1 xi
sY2 | x = yi
n 2
i=1
El Syfy LINEA
Propiedades
Por supuestos (1) (2) (3) los EMV y EMCO de 0 y 1 se tienen
las siguientes propiedades:
I Insesgamiento
⇣ ⌘ ⇣ ⌘
E ˆ0 = 0 y E ˆ1 = 1
I Varianza
⇣ ⌘ 2
Pn 2 ⇣ ⌘ 2
x
Var ˆ0 = Pn i=1 i
2
y Var ˆ1 = Pn
n i=1 (xi x̄) i=1 (xi x̄)2
Teorema de Gauss Markov

Dado los supuestos (1) (2) (3) los EMCO de 0 y 1 son los
mejores estimadores lineales y con menor varianza entre los esti-
madores lineales e insesgados.
Si además agregamos el supuesto (4) se tiene que ˆ0 y ˆ1 distribuyen

Normal, por lo tanto
⇣ ⌘
2
Pn
ˆ0 ⇠ Normal 0 , Pn i=1 i 2
n
x 2
(x x̄)
z PoÍo
i
T
i=1
⇣ 2
⌘
ˆ1 ⇠ Normal 1 , Pn (x x̄)2
i=1 i Z R B
Y además, V
I ˆ1 , Ȳ , ˆ 2 son muatuamente independientes.
n
!2 2
X yi ˆ0 ˆ1 xi nˆ 2 (n 2) s Y |x
I = 2 = ⇠ 2
(n 2).
2
i=1
O
Inferencia
HAY REGRESIÓN β
A partir de lo anterior se puede hacer inferencia sobre los parámetros
del modelo, y poder construir IC o realizar test de hipótesis acerca
de ellos.
Sea E(Y | x) = 0 + 1 x el modelo de regresión lineal simple, y
ˆ0 , ˆ1 los EMV de 0 y 1 .
Entonces el estadı́stico,
ˆ1 1
T sY | x
qP
n
x̄)2
⇠ t-Student(n 2)
i=1 (xi
n ⇣
X ⌘2
con sY2 | x = 1
Yi ˆ0 ˆ1 xi , estimador insesgado de 2.
n 2
i=1
HAY REGRESIÓN
Ho β
o vs Ha β
O
SI HO ES CORRECTO ENTONCES
Lem
To
Ha Ho Ha
ii
ITol
VALOR p 2 PC T Tol 2 1
pti Tol dt m a
Si VALOR p α HAY REGRESION
si VALOR p α NO HAY REGRESION

Inferencia
También se tiene que
ˆ0
T pPn 0 ⇠ t-Student(n 2) MUY
2
sY | x
p Pn
i=1 xi POCA
n i=1 (xi x̄)2 IMPORTANCIA
y
(n 2)sY2 | x
2
2
⇠ (n 2)
SUPONGAMOS QUE SI HAY REGRESIOI
QUE TAN BUENA ES
y y
PIPI
x̅ x̅
Io I Xe
X X2
MODELO 1 x̅ si_EEEEE
2
MODELO 2
PIX 54K
1
SYKI DE VARIABILIDAD QUE
57 ES EXPLICADA POR EL MODELO
JEFIECIETEDE
DETERMINACION
AJUSTADO
En un modelo de regresión existen dos fuentes que explican la variación

de los valores observados de Y (variación total)
I Una fuente es debido la regresión, representada por la x,
n
X 2
SCR = yi0 ȳ
i=1
o
β 0
I Otra fuente es la variación de yi que no ha sido explicada en

el modelo por las xi ,
n ⇣
X ⌘2
SCE = yi ˆ0 ˆ1 xi
β o
i=1
De esta manera, la variación total de Y , dada por SCT, puede ser

escrita como
SCT = SCR + SCE

n
X n
X n ⇣
X ⌘2
2
(yi ȳ )2 = yi0 ȳ + yi ˆ0 ˆ1 xi
i=1 i=1 i=1
II Fin trim
Y
F F m 2
xm.iq
SCR
SCD FCI m a
SCE ya
M 2
SCE y
Ho
H
O
BEN
IR
VALOR p 1
pt F df 1 df M 2
EN REGRESION SIMPLE
i F
Tp
VALOR
ii VALOR
Ptp PE
I
ahora modelo
Tabla ANOVA
Fuente gl SC CM F VALOR P
SCR MCR
Regresión 1 SCR 1 MCE
SCE
Error n 2 SCE n 2
Total n 1 SCT
MCR
Con F = MCE ⇠ F (1, n 2)
Coeficiente de Determinación
Coeficiente de determinación R 2 :
Pn
SCR (y 0 ȳ )2 SCE
R2 = = Pi=1 n
i
2
=1
SCT i=1 (yi ȳ ) SCT
Coeficiente de determinación R 2 ajustado:
sY2 | x (n 1) SCE 2
2
r =1 =1 =R
sY2 (n 2) SCT
Ambos se interpretan como la proporción de variación total que es

explicada por el modelo de regresión lineal.
Regresión Múltiple
Definición del Modelo
El modelo de regresión múltiple (MRLM) se define de la siguiente

forma:
Yi = 0 + 1 X1i + 2 X2i + ... + k Xki + "i i = 1, . . . , n
donde Y es la variable dependiente, Xj , j = 1, . . . , k son las covari-

ables del modelo, y los j son coeficientes constantes del modelo, y
las "i son variables aleatorias tales que cumplen con:
Y
E ("i ) = 0
2
Var ("i ) =
Cov ("i , "j ) = 0 8i 6= j
El objetivo es poder predecir E (Y | x1 , . . . , xk ) a partir de k variables

independientes observadas: xj
VAMOS A R
###############################
## EYP1113 - Script Clase 30 ##
###############################
## Regresión Lineal ##
## Ej: Muertes por problemas de salud en la Región Metropolitana

Data <- rio::import("RM_death.xlsx")
Data$no2 <- NULL
## Muestra aleatoria correspondiente al 10% sin valores faltantes

set.seed(1113)
n <- dim(Data)[1]
i <- sample(1:n, 0.1*n)
Data <- na.omit(Data[i,])
rio::export(Data,"RM_death_muestra.xlsx")
Data <- rio::import("RM_death_muestra.xlsx")
head(Data)
dim(Data)
## Regresión Simple: total_death ~ Tmean

par(mfrow = c(1,1), bty = "n", las = 1)
plot(total_death ~ Tmean, data = Data, pch = 20, col = "gray", ylim =
c(50,150), xlim = c(0,30))
modelo1 <- lm(total_death ~ Tmean, data = Data)

summary(modelo1)
## beta1 = -1.5897 --> valor-p < 2e-16 --> Se rachaza H0 --> Hay regresión
## ¿Que tan buena es la regresión? --> Vamos a revisar Adjusted R-squared
## Descrición salida del modelo:

## Residual standard error = sqrt(SCE/(n-k-1)), en este caso k = 1
## Multiple R-squared = R2 = 1 - SCE/SCT
## Adjusted R-squared = r2 = 1 - Sy|x^2 / Sy^2
## F-statistic = Fanova = t-value^2 (pendiente)
## Como r2 = 0.2714 --> La variable "Tmean" explica el 27% de la

## variabilidad de los datos
par(mfrow = c(1,1), bty = "n", las = 1)

plot(total_death ~ Tmean, data = Data, pch = 20, col = "gray", ylim =
c(50,150), xlim = c(0,30))
abline(h = mean(Data$total_death), col = "orange")
abline(modelo1, col = "red")
legend("topright", bty = "n", col = c("orange", "red"), legend =
c("Promedio","Regresión Lineal"), lty = 1)
## Se podrá mejorar?
## Incorporemos al mismo tiempo las variables Hmean y pm25
modelo2 <- lm(total_death ~ Tmean + Hmean + mp25, data = Data)

summary(modelo2)
## Como evaluo el aporte de estas variables?

## (1) De manera individual mirando los valores-p de las pendientes
## (2) De manera conjunta mirando el F-statistic,
## pero aca el modelo de referencia es el promedio.
## (3) Comparar modelo 1 vs modelo 2 mediante una comparacion ANOVA
## Esta comparación tiene sentido cuando modelo 2 está contenido
## en el modelo 2
anova(modelo1,modelo2)
## El valor F permite realizar la siguiente prueba de hipótesis

## en presencia de la variable Tmean:
## H0: beta[Hmean] = beta[mp25] = 0 vs Ha: Al menos uno de ellos es != 0.
## Valor F a mano:
SCE1 <- anova(modelo1)[2,2]
SCE2 <- anova(modelo2)[4,2]
r = 2
k = 1
n = dim(Data)[1]
Fanova <- ((SCE1-SCE2)/r)/(SCE2/(n-k-r-1))
Fanova
## Cuanto mejora el modelo

summary(modelo2) ## Adjusted R-squared: 0.3204
## Seleccion de modelo
## Backward: Parte del modelo completo y empieza a eliminar las variables
## que menos aportan.
modelo3 = step(lm(total_death ~ ., data = Data[,c(3,4,5,6,7,8)]))
summary(modelo3)

EYP1113-07,08 Clase 30

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

EYP1113-07,08 Clase 30

Cargado por

Copyright:

Formatos disponibles

EYP1113 - Probabilidad y Estadı́stica

Capı́tulo 8: Regresión Lineal

Ricardo Aravena - Ricardo Olea - Felipe Ossa

Segundo Semestre 2023

COMO OBTENGO LA RECTA

La Inferencia vista anteriormente, puede ser abordada desde el punto

donde "i tienen distribución normal con media cero y varianza 2.

Al permitir que la media de Y varı́e de manera funcional con respecto

Obtenemos el modelo de regresión simple.

entonces el modelo se llama regresión lineal simple, y la curva de

el modelo serı́a de regresión No lineal simple, y la curva de regresión

Consideremos el modelo de regresión lineal simple,

2. Homocedasticidad: La varianza asociada a fY | x (y ) es la misma

La regresión lineal simple bajo los supuestos anteriores se ilustra en

Interpretación de los parámetros del modelo:

Luego los EMCO (Estimadores de Mı́nimos Cuadrados Ordinarios)

Notar que el método de mı́nimos cuadrados no arroja estimación

Teorema de Gauss Markov

Si además agregamos el supuesto (4) se tiene que ˆ0 y ˆ1 distribuyen

Si VALOR p α HAY REGRESION

si VALOR p α NO HAY REGRESION

También se tiene que

QUE TAN BUENA ES

57 ES EXPLICADA POR EL MODELO

En un modelo de regresión existen dos fuentes que explican la variación

I Otra fuente es la variación de yi que no ha sido explicada en

De esta manera, la variación total de Y , dada por SCT, puede ser

SCT = SCR + SCE

Coeficiente de determinación R 2 ajustado:

Ambos se interpretan como la proporción de variación total que es

El modelo de regresión múltiple (MRLM) se define de la siguiente

Yi = 0 + 1 X1i + 2 X2i + ... + k Xki + "i i = 1, . . . , n

donde Y es la variable dependiente, Xj , j = 1, . . . , k son las covari-

El objetivo es poder predecir E (Y | x1 , . . . , xk ) a partir de k variables

## Ej: Muertes por problemas de salud en la Región Metropolitana

## Muestra aleatoria correspondiente al 10% sin valores faltantes

## Regresión Simple: total_death ~ Tmean

modelo1 <- lm(total_death ~ Tmean, data = Data)

## ¿Que tan buena es la regresión? --> Vamos a revisar Adjusted R-squared

## Descrición salida del modelo:

## Como r2 = 0.2714 --> La variable "Tmean" explica el 27% de la

par(mfrow = c(1,1), bty = "n", las = 1)

modelo2 <- lm(total_death ~ Tmean + Hmean + mp25, data = Data)

## Como evaluo el aporte de estas variables?

## El valor F permite realizar la siguiente prueba de hipótesis

## Cuanto mejora el modelo

También podría gustarte