Está en la página 1de 27

EYP1113 - Probabilidad y Estadı́stica

Capı́tulo 8: Regresión Lineal

Ricardo Aravena - Ricardo Olea - Felipe Ossa


Mauricio Toro

Facultad de Matemáticas
Departamento de Estadı́stica
Pontificia Universidad Católica de Chile

Segundo Semestre 2023


Contenido I
Introducción
Regresión Lineal Simple
Estimación del Modelo
Inferencia
Análisis de la Varianza
Coeficiente de Determinación
Regresión Múltiple
Definición del Modelo
Estimación del modelo
Inferencia en el modelo
Coeficiente de Determinación y Análisis de la Varianza
Selección de Modelo
Multicolinealidad
Independencia
Outliers, Leverage e influyentes
CAP 3 MEJOR PREDICTOR i Ely x̅
ii El Y X Ó

CASO PARTICULAR XY N Tx Y SI
Mx Y

EL Y IX X
Mx
My Syfy

S
My A SE
X
Po Pi

COMO OBTENGO LA RECTA

Val Y X Ey 1 5
de
Introducción

La Inferencia vista anteriormente, puede ser abordada desde el punto


de vista de Modelos Estadı́sticos.
Ası́ por ejemplo, si Y1 , . . . , Yn es una muestra aleatoria de una dis-
tribución Normal con media µ y varianza 2 ambos parámetros des-
conocidos.
Este experimento se puede escribir en términos del siguiente modelo:

Y i = µ + "i i = 1, . . . , n

donde "i tienen distribución normal con media cero y varianza 2.


Introducción

Al permitir que la media de Y varı́e de manera funcional con respecto


a una covariable Xi de la siguiente manera:

Yi = µ (Xi ) + "i i = 1, . . . , n

Obtenemos el modelo de regresión simple.


Introducción

Se llama a
yi = E (Yi | xi ) = µ (xi )
a la curva de regresión de Y sobre x.
Si la relación funcional es lineal en los parámetros, es decir,

µ (Xi ) = 0 + 1 Xi ,

entonces el modelo se llama regresión lineal simple, y la curva de


regresión esta dada por yi = 0 + 1 xi .
En cambio si
1
µ (Xi ) = X
0 i ,

el modelo serı́a de regresión No lineal simple, y la curva de regresión


esta dada por yi = 0 xi 1 .
Regresión Lineal Simple

Consideremos el modelo de regresión lineal simple,

Yi = 0 + 1 Xi + "i i = 1, . . . , n

Supuestos:
1. Linealidad: La media condicional de Y sobre x es lineal

y = E(Y | x) = 0 + 1x

2. Homocedasticidad: La varianza asociada a fY | x (y ) es la misma


para todo x e iguala 2 .
3. Independencia: Las distribuciones condicionales son variables
aleatorias independientes para todo x.
4. Normalidad: fY | x (y ) tiene distribución normal para todo x.
Regresión Lineal Simple

La regresión lineal simple bajo los supuestos anteriores se ilustra en


la siguiente figura:

F I
Regresión Lineal Simple

Interpretación de los parámetros del modelo:


I 0 : intercepto, 0 = E(Y | X = 0).
I 1 : pendiente, corresponde a la variación de E(Y | X = x)
cuando x aumenta en una unidad.
Regresión Lineal Simple
Estimación del Modelo

Máxima Verosimilitud
Bajo los supuestos (1) (2) (3) (4) se tiene que Yi | xi tiene
distribución Normal con media E (Yi | xi ) = 0 + 1 xi y varianza 2
y además son independientes, entonces la función de verosimilitud
de la muestra está dada por
n
Y n
indepY
O
1 1 2
L= fY |xi (yi ) = p e 2 2 (yi 0 1 xi )

i=1 i=1
2⇡
( n
)
1 X
= (2 ⇡ 2 ) n/2 exp 2
(yi 0 1 xi )
2
2
i=1
Regresión Lineal Simple
Estimación del Modelo

Ipoh
O

ijp.lt jaleo 2
Los estimadores máximos verosı́miles de los parámetros 0, 1 y
están dados por
n
X
xi yi ny x
ˆ1 = i=1 ˆ0 = ȳ ˆ1 x̄
n ,
X
xi2 n (x)2
i=1

1 X⇣ n ⌘2
ˆ2 = yi ˆ0 ˆ1 xi
n
i=1
Regresión Lineal Simple
Estimación del Modelo

Mı́nimos Cuadrados
Bajo los supuestos (1) (2) (3), El método de mı́nimos cuadrados
estimará los parámetros tales que minimicen la suma la distancia al
cuadrado entre los valores observados de yi y los asumidos por el
ajuste de regresión, es decir, minimizar la función 2 dada por
n
X
2 2
= (yi 0 1 xi )
i=1

Luego los EMCO (Estimadores de Mı́nimos Cuadrados Ordinarios)


de 0 y 1 , coinciden con los EMV.
Regresión Lineal Simple
Estimación del Modelo

Notar que el método de mı́nimos cuadrados no arroja estimación


para 2 .
Sin embargo, se estima a través de sY2 | x , que es un estimador ins-
esgado de 2 dado por
n ⇣
X ⌘2
1 ˆ0 ˆ1 xi
sY2 | x = yi
n 2
i=1

El Syfy LINEA
Regresión Lineal Simple
Estimación del Modelo
Propiedades
Por supuestos (1) (2) (3) los EMV y EMCO de 0 y 1 se tienen
las siguientes propiedades:
I Insesgamiento
⇣ ⌘ ⇣ ⌘
E ˆ0 = 0 y E ˆ1 = 1

I Varianza
⇣ ⌘ 2
Pn 2 ⇣ ⌘ 2
x
Var ˆ0 = Pn i=1 i
2
y Var ˆ1 = Pn
n i=1 (xi x̄) i=1 (xi x̄)2

Teorema de Gauss Markov


Dado los supuestos (1) (2) (3) los EMCO de 0 y 1 son los
mejores estimadores lineales y con menor varianza entre los esti-
madores lineales e insesgados.
Regresión Lineal Simple
Estimación del Modelo

Si además agregamos el supuesto (4) se tiene que ˆ0 y ˆ1 distribuyen


Normal, por lo tanto
⇣ ⌘
2
Pn
ˆ0 ⇠ Normal 0 , Pn i=1 i 2
n
x 2

(x x̄)
z PoÍo
i

T
i=1

⇣ 2

ˆ1 ⇠ Normal 1 , Pn (x x̄)2
i=1 i Z R B

Y además, V
I ˆ1 , Ȳ , ˆ 2 son muatuamente independientes.
n
!2 2
X yi ˆ0 ˆ1 xi nˆ 2 (n 2) s Y |x
I = 2 = ⇠ 2
(n 2).
2
i=1
Regresión Lineal Simple
O
Inferencia
HAY REGRESIÓN β
A partir de lo anterior se puede hacer inferencia sobre los parámetros
del modelo, y poder construir IC o realizar test de hipótesis acerca
de ellos.
Sea E(Y | x) = 0 + 1 x el modelo de regresión lineal simple, y
ˆ0 , ˆ1 los EMV de 0 y 1 .

Entonces el estadı́stico,
ˆ1 1
T sY | x
qP
n
x̄)2
⇠ t-Student(n 2)
i=1 (xi

n ⇣
X ⌘2
con sY2 | x = 1
Yi ˆ0 ˆ1 xi , estimador insesgado de 2.
n 2
i=1
HAY REGRESIÓN

Ho β
o vs Ha β
O

SI HO ES CORRECTO ENTONCES

Lem
To

Ha Ho Ha
ii

ITol

VALOR p 2 PC T Tol 2 1
pti Tol dt m a

Si VALOR p α HAY REGRESION

si VALOR p α NO HAY REGRESION


Regresión Lineal Simple
Inferencia

También se tiene que

ˆ0
T pPn 0 ⇠ t-Student(n 2) MUY
2
sY | x
p Pn
i=1 xi POCA
n i=1 (xi x̄)2 IMPORTANCIA
y
(n 2)sY2 | x
2
2
⇠ (n 2)
SUPONGAMOS QUE SI HAY REGRESIOI

QUE TAN BUENA ES

y y
PIPI
x̅ x̅
Io I Xe
X X2

MODELO 1 x̅ si_EEEEE
2
MODELO 2
PIX 54K
1
SYKI DE VARIABILIDAD QUE

57 ES EXPLICADA POR EL MODELO

JEFIECIETEDE
DETERMINACION
AJUSTADO
Regresión Lineal Simple
Análisis de la Varianza

En un modelo de regresión existen dos fuentes que explican la variación


de los valores observados de Y (variación total)
I Una fuente es debido la regresión, representada por la x,
n
X 2
SCR = yi0 ȳ
i=1
o
β 0

I Otra fuente es la variación de yi que no ha sido explicada en


el modelo por las xi ,
n ⇣
X ⌘2
SCE = yi ˆ0 ˆ1 xi
β o
i=1
Regresión Lineal Simple
Análisis de la Varianza

De esta manera, la variación total de Y , dada por SCT, puede ser


escrita como

SCT = SCR + SCE


n
X n
X n ⇣
X ⌘2
2
(yi ȳ )2 = yi0 ȳ + yi ˆ0 ˆ1 xi
i=1 i=1 i=1

II Fin trim
Y
F F m 2

xm.iq
SCR
SCD FCI m a

SCE ya
M 2
SCE y

Ho
H
O
BEN

IR
VALOR p 1
pt F df 1 df M 2

EN REGRESION SIMPLE

i F
Tp
VALOR
ii VALOR
Ptp PE
I
Regresión Lineal Simple
Análisis de la Varianza

ahora modelo
Tabla ANOVA

Fuente gl SC CM F VALOR P
SCR MCR
Regresión 1 SCR 1 MCE

SCE
Error n 2 SCE n 2

Total n 1 SCT

MCR
Con F = MCE ⇠ F (1, n 2)
Regresión Lineal Simple
Coeficiente de Determinación

Coeficiente de determinación R 2 :
Pn
SCR (y 0 ȳ )2 SCE
R2 = = Pi=1 n
i
2
=1
SCT i=1 (yi ȳ ) SCT

Coeficiente de determinación R 2 ajustado:

sY2 | x (n 1) SCE 2
2
r =1 =1 =R
sY2 (n 2) SCT

Ambos se interpretan como la proporción de variación total que es


explicada por el modelo de regresión lineal.
Regresión Múltiple
Definición del Modelo

El modelo de regresión múltiple (MRLM) se define de la siguiente


forma:

Yi = 0 + 1 X1i + 2 X2i + ... + k Xki + "i i = 1, . . . , n

donde Y es la variable dependiente, Xj , j = 1, . . . , k son las covari-


ables del modelo, y los j son coeficientes constantes del modelo, y
las "i son variables aleatorias tales que cumplen con:
Y
E ("i ) = 0
2
Var ("i ) =
Cov ("i , "j ) = 0 8i 6= j

El objetivo es poder predecir E (Y | x1 , . . . , xk ) a partir de k variables


inde- pendientes observadas: xj

VAMOS A R
###############################
## EYP1113 - Script Clase 30 ##
###############################

## Regresión Lineal ##

## Ej: Muertes por problemas de salud en la Región Metropolitana


Data <- rio::import("RM_death.xlsx")
Data$no2 <- NULL

## Muestra aleatoria correspondiente al 10% sin valores faltantes


set.seed(1113)
n <- dim(Data)[1]
i <- sample(1:n, 0.1*n)
Data <- na.omit(Data[i,])
rio::export(Data,"RM_death_muestra.xlsx")
Data <- rio::import("RM_death_muestra.xlsx")
head(Data)
dim(Data)

## Regresión Simple: total_death ~ Tmean


par(mfrow = c(1,1), bty = "n", las = 1)
plot(total_death ~ Tmean, data = Data, pch = 20, col = "gray", ylim =
c(50,150), xlim = c(0,30))

modelo1 <- lm(total_death ~ Tmean, data = Data)


summary(modelo1)

## beta1 = -1.5897 --> valor-p < 2e-16 --> Se rachaza H0 --> Hay regresión

## ¿Que tan buena es la regresión? --> Vamos a revisar Adjusted R-squared

## Descrición salida del modelo:


## Residual standard error = sqrt(SCE/(n-k-1)), en este caso k = 1
## Multiple R-squared = R2 = 1 - SCE/SCT
## Adjusted R-squared = r2 = 1 - Sy|x^2 / Sy^2
## F-statistic = Fanova = t-value^2 (pendiente)

## Como r2 = 0.2714 --> La variable "Tmean" explica el 27% de la


## variabilidad de los datos

par(mfrow = c(1,1), bty = "n", las = 1)


plot(total_death ~ Tmean, data = Data, pch = 20, col = "gray", ylim =
c(50,150), xlim = c(0,30))
abline(h = mean(Data$total_death), col = "orange")
abline(modelo1, col = "red")
legend("topright", bty = "n", col = c("orange", "red"), legend =
c("Promedio","Regresión Lineal"), lty = 1)

## Se podrá mejorar?
## Incorporemos al mismo tiempo las variables Hmean y pm25

modelo2 <- lm(total_death ~ Tmean + Hmean + mp25, data = Data)


summary(modelo2)

## Como evaluo el aporte de estas variables?


## (1) De manera individual mirando los valores-p de las pendientes
## (2) De manera conjunta mirando el F-statistic,
## pero aca el modelo de referencia es el promedio.
## (3) Comparar modelo 1 vs modelo 2 mediante una comparacion ANOVA
## Esta comparación tiene sentido cuando modelo 2 está contenido
## en el modelo 2
anova(modelo1,modelo2)

## El valor F permite realizar la siguiente prueba de hipótesis


## en presencia de la variable Tmean:
## H0: beta[Hmean] = beta[mp25] = 0 vs Ha: Al menos uno de ellos es != 0.

## Valor F a mano:
SCE1 <- anova(modelo1)[2,2]
SCE2 <- anova(modelo2)[4,2]
r = 2
k = 1
n = dim(Data)[1]
Fanova <- ((SCE1-SCE2)/r)/(SCE2/(n-k-r-1))
Fanova

## Cuanto mejora el modelo


summary(modelo2) ## Adjusted R-squared: 0.3204

## Seleccion de modelo
## Backward: Parte del modelo completo y empieza a eliminar las variables
## que menos aportan.
modelo3 = step(lm(total_death ~ ., data = Data[,c(3,4,5,6,7,8)]))
summary(modelo3)

También podría gustarte