Está en la página 1de 52

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA

Departamento Académico de Estadı́stica e Informática


Estadı́stica Aplicada a la economı́a y los negocios II

Capı́tulo II
Análisis de regresión múltiple - parte1

Mg. Sc. Juan C. Orosco G.


Docente DAEI - UNALM
CONTENIDO

1 Introducción - Regresión lineal simple


2 Modelo de regresión
3 Estimación
4 Supuestos
5 Multicolinealidad
6 Predicción
LOGRO DE CLASE

1 Identifica los conceptos básicos del análisis de regresión lineal


2 Analiza e interpreta los coeficientes estimados
3 Resuelve ejercicios aplicativos
Regresión lineal simple

Es el estudio de la relación funcional del tipo lineal existente entre


una variable aleatoria en estudio Y , llamada dependiente,
explicada o respuesta y otra X llamada variable independiente,
explicativa, predictora o regresora.
Regresión lineal simple

Clasificación de variables
• Tipo de método Dependencia
• Objetivos
Estudia la relación entre una variable dependiente Y y la
variable independiente X .
• Tipo de variables
Variable dependiente: cuantitativa
Variables independiente: cuantitativa
Regresión lineal simple

Objetivos
• Predicción: Predicción de la variables dependiente a partir de
una o varias variables independientes
• Explicación: Evaluar el grado y carácter de la relación entre
las variables dependientes e independientes
Regresión lineal simple

Diagrama de Dispersión
Regresión lineal simple

Diagrama de Dispersión
Regresión lineal simple

Diagrama de Dispersión
Regresión lineal simple

Modelo de regresión
Para el estudio del análisis de regresión lineal simple se considera el
siguiente modelo estadı́stico:

Y = β0 + β1 X + ε

donde:

β0 y β1 son parámetros desconocidos


β0 es el coeficiente de intersección poblacional β1 es el coeficiente
de regresión porblacional ε es una variable aleatoria no observable,
llamada comúnmente error, distribuida con media cero y variancia
común σ 2
Regresión lineal simple

Modelo de regresión
Si se denota: µY ,X = E [Y /X ] = β0 + β1 X
entonces, Y = µY ,X + ε
Regresión lineal simple

Modelo de regresión

β0 : al valor de µYX cuando X = 0 Entonces β0 tiene interpretación


cuando cero es un valor posible de X y β0 un valor posible Y .
Cuando β0 tiene interpretación, este se interpretar como la media
de Y cuando X = 0.
β1 = ∂µ YX
∂X : este valor se interpreta como el cambio promedio que
sufre Y cuando X se incrementa en una unidad.
Regresión lineal simple

Supuestos del modelo


• Linealidad
• Aleatoriedad Los valores de Y para cada valor de X, se
obtienen aleatoriamente
• Independencia εi son independientes
• Normalidad : ε ∼ N(0, σ 2 )
• Homocedasticidad: Var (ε) = σ 2 = cte
Regresión lineal simple
Estimación
Para estimar los parámetros se utiliza el método de los mı́nimos
cuadrados. Este método consiste en obtener los valores de β0 y β1 ,
los cuales serán denotados por b0 y b1 , respectivamente, que
minimizan la suma de cuadrados de los errores obtenidos de una
muestra aleatoria.
Yi = β0 + β1 Xi + εi , i = 1, 2, ..., n
εi = Yi − β0 − β1 Xi , i = 1, 2, ..., n
n
X n
X
Q= ε2i = (Yi − β0 − β1 Xi )2
i=1 i=1

n
∂Q X
=2 (Yi − β0 − β1 Xi )(−1) = 0
∂β0
i=1
n
∂Q X
=2 (Yi − β0 − β1 Xi )(−Xi ) = 0
∂β1
i=1
Regresión lineal simple

Estimación

b0 = Ȳ − b1 X̄
Pn
i=1 Xi Yi − nX̄ Ȳ SP(X , Y )
b1 = P n 2 2
=
i=1 Xi − nX̄ SC (X )
Regresión lineal simple

Modelo de regresión estimado


Dada una muestra aleatoria de n observaciones bivariadas (X,Y), el
modelo estimado es el siguiente:

Yi = b0 + b1 Xi + ei

Donde: b0 y b1 son los coeficientes de regresión estimados de los


parámetros β0 y β1 , y ei es el residual de la i-ésima observación.
La ecuación de regresión estimada se define a continuación:

Ŷi = b̂0 + b̂1 Xi


i = 1, ..., n
Regresión lineal simple

Propiedades
Estimadores:
• Insesgados
• Consistentes
Regresión lineal simple
Ejemplo
Se llevó a cabo un estudio para determinar la relación entre el
número de años de experiencia y el salario anual para una profesión
en particular en una región geográfica dada. Se seleccionó una
muestra aleatoria de 17 personas, las cuales ejercen esta profesión,
y se obtuvo la información siguiente:

setwd("D:/UNALM/2021-2/Aplicada II/Regresión múltiple/regresion")


## Error in setwd("D:/UNALM/2021-2/Aplicada II/Regresión múltiple/regresion"): no es posible
cambiar el directorio de trabajo

library(readxl)
datos1<-read_xlsx("datos2.xlsx")
head(datos1)

## # A tibble: 6 x 2
## experiencia salario
## <dbl> <dbl>
## 1 13 26.1
## 2 16 33.2
## 3 30 36.1
## 4 2 16.5
## 5 8 26.4
## 6 31 36.4
Regresión lineal simple
summary(datos1$experiencia)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 1.00 7.00 13.00 14.53 20.00 31.00

summary(datos1$salario)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 16.50 21.40 31.00 28.34 36.00 36.50

par(mfrow=c(1,2))
hist(datos1$experiencia)
hist(datos1$salario)

Histogram of datos1$experiencia Histogram of datos1$salario


4

5
4
3
Frequency

Frequency

3
2

2
1

1
0

0 5 10 15 20 25 30 35 15 20 25 30 35 40

datos1$experiencia datos1$salario
Regresión lineal simple
Ejemplo

plot(salario~experiencia,data=datos1,main="Diagrama de dispersión")

Diagrama de dispersión
35
30
salario

25
20

0 5 10 15 20 25 30

experiencia
Regresión lineal simple
Ejemplo

plot(salario~experiencia,data=datos1,main="Diagrama de dispersión")
abline(lm(salario~experiencia,data=datos1),col="red")

Diagrama de dispersión
35
30
salario

25
20

0 5 10 15 20 25 30

experiencia
Regresión lineal simple
Ejemplo

modelo1<-lm(salario~experiencia,data=datos1)
summary(modelo1)

##
## Call:
## lm(formula = salario ~ experiencia, data = datos1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.8030 -1.6869 -0.9485 2.3256 4.2229
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 17.86631 1.27477 14.015 5.04e-10 ***
## experiencia 0.72054 0.07385 9.756 6.91e-08 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 2.838 on 15 degrees of freedom
## Multiple R-squared: 0.8639,Adjusted R-squared: 0.8548
## F-statistic: 95.19 on 1 and 15 DF, p-value: 6.905e-08
Regresión lineal simple
Residuales

residuales<-modelo1$residuals
residuales

## 1 2 3 4 5 6 7
## -1.1332961 3.8050924 -3.3824275 -2.8073876 2.7693895 -3.8029646 2.2434810
## 8 9 10 11 12 13 14
## 4.2229439 -1.6868505 -0.9484619 -1.3208161 0.6202582 -1.5100733 2.3256296
## 15 16 17
## 4.1667039 -3.0895362 -0.4716847
Regresión lineal simple
Residuales

ajustados<-modelo1$fitted.values
ajustados

## 1 2 3 4 5 6 7 8
## 27.23330 29.39491 39.48243 19.30739 23.63061 40.20296 31.55652 32.27706
## 9 10 11 12 13 14 15 16
## 18.58685 20.74846 37.32082 35.87974 22.91007 28.67437 27.23330 22.18954
## 17
## 25.07168
Regresión lineal simple
Residuales - supuesto de normalidad

hist(residuales)

Histogram of residuales
4
3
Frequency

2
1
0

−4 −2 0 2 4

residuales
Regresión lineal simple
Residuales - supuesto de normalidad
Gráfico de probabilidad Normal

Gráficas de probabilidad normal: a) ideal; b) distribución de colas


pesadas; c) distribución de colas delgadas; d) asimetrı́a positiva; e)
asimetrı́a negativa
Regresión lineal simple
Residuales - supuesto de normalidad

qqnorm(residuales)
qqline(residuales)

Normal Q−Q Plot


4
2
Sample Quantiles

0
−2
−4

−2 −1 0 1 2

Theoretical Quantiles
Regresión lineal simple

Residuales - supuesto de normalidad


Prueba de hipótesis de normalidad
H0 : Los residuales siguen una distribución normal
H1 : Los residuales no siguen una distribución normal
α = 0,05
p − valor ≤ α entonces se rechaza la hipótesis nula
p − valor > α entonces no se rechaza la hipótesis nula
Prueba de Shapiro - Wilk, uso para muestras menores a 30. Prueba
de Anderson Darling, uso para muestras mayores a 30.
Regresión lineal simple
Residuales - supuesto de normalidad

shapiro.test(residuales)

##
## Shapiro-Wilk normality test
##
## data: residuales
## W = 0.91445, p-value = 0.119

library(nortest)
ad.test(residuales)

##
## Anderson-Darling normality test
##
## data: residuales
## A = 0.53107, p-value = 0.1491
Regresión lineal simple

Residuales - supuesto de homocedasticidad


Gráfico de Residuales VS Valores Ajustados

Patrones en las gráficas de residuales: a) no correlación de residuos


(satisfactorio), b) heterocedasticidad (en embudo), c)
heterocedasticidad (en doble arco) y d) no linealidad
Regresión lineal simple

Residuales - supuesto de homocedasticidad


Prueba de hipótesis
H0 : La varianza de los residuales es homocedástica
H1 : La varianza de los residuales no es homocedástica
α = 0,05
p − valor ≤ α entonces se rechaza la hipótesis nula
p − valor > α entonces no se rechaza la hipótesis nula
Prueba de Breusch - Pagan
Regresión lineal simple
Residuales - supuesto de independencia

plot(residuales~ajustados)
abline(h=0,col="red")
4
2
residuales

0
−2
−4

20 25 30 35 40

ajustados
Regresión lineal simple
Residuales - supuesto de independencia

library(lmtest)
bptest(modelo1)

##
## studentized Breusch-Pagan test
##
## data: modelo1
## BP = 1.3044, df = 1, p-value = 0.2534
Regresión lineal simple

Residuales - supuesto de independencia


Funciones de autocorrelación
Regresión lineal simple

Residuales - supuesto de independencia


Prueba de no autocorrelación
H0 : Los residuales no están autocorrelacionados
H1 : Los residuales están autocorrelacionados
α = 0,05
p − valor ≤ α entonces se rechaza la hipótesis nula
p − valor > α entonces no se rechaza la hipótesis nula
Prueba de Durwin - Watson
Regresión lineal simple
Residuales - supuesto de independencia

par(mfrow=c(1,2))
acf(residuales)
pacf(residuales)

Series residuales Series residuales


1.0

0.4
0.2
0.5

Partial ACF
ACF

0.0
0.0

−0.2
−0.4
−0.5

0 2 4 6 8 10 12 2 4 6 8 10 12

Lag Lag
Regresión lineal simple
Residuales - supuesto de independencia

dwtest(modelo1)

##
## Durbin-Watson test
##
## data: modelo1
## DW = 2.5889, p-value = 0.8933
## alternative hypothesis: true autocorrelation is greater than 0
Regresión lineal simple

Análisis de Varianza (ANVA)


Consiste en descomponer la variación total en sus fuentes de
variación:
Regresión lineal simple
Análisis de Varianza (ANVA)

Yi − Ȳ = (Yi − Ŷ1 ) + (Ŷi − Ȳ )


Regresión lineal simple
Análisis de Varianza (ANVA)

Yi − Ȳ = (Yi − Ŷ1 ) + (Ŷi − Ȳ )


n
X n
X n
X
(Yi − Ȳ )2 = (Yi − Ŷ1 )2 + (Ŷi − Ȳ )2
i=1 i=1 i=1

SCTotal = SCReg + SCError


Regresión lineal simple

Grados de libertad
Se puede demostrar que el número de grados de libertad asociado
a la SCTotal es n − 1, debido a que se pierde 1 grado de libertad
por el cálculo de Ȳ . La SCReg tiene un solo grado de libertad
debido a que es función de b1 , ya que SC (X ) es conocido. Por
último, SCError tiene n − 2 grados de libertad, pierde dos grados
de libertad por el cálculo de b0 y b1 .
Regresión lineal simple

Cuadrado medio
Se define como el cociente entre la suma de cuadrados y el
correspondiente número de grados de libertad. Ası́,
SCReg
CMReg =
GLReg
SCError
CMError =
GLError
Regresión lineal simple

Contraste de Regresión F - Prueba Global


H0 : β1 = 0
H1 : β1 ̸= 0
Nivel de significación α
Estadı́stico de prueba:

CMReg
Fcal = ∼ F(k,n−2)
CMError
Criterio de Decisión: Ftab = Fcrit = F(1−α,k,n−2)
Si Fcalc > F(1−α,k,n−2) se rechaza H0
Si Fcalc ≤ F(1−α,k,n−2) no se rechaza H0
Regresión lineal simple

ANOVA
Regresión lineal simple
ANVA

anova(modelo1)

## Analysis of Variance Table


##
## Response: salario
## Df Sum Sq Mean Sq F value Pr(>F)
## experiencia 1 766.42 766.42 95.187 6.905e-08 ***
## Residuals 15 120.78 8.05
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Regresión lineal simple

Contraste t - Prueba de coeficiente individual


H0 : β1 = 0
H1 : β1 ̸= 0
Nivel de significación α
Estadı́stico de prueba:

b2
tc2 = ∼ t(n−2)
sb2
Regresión lineal simple
Contraste t - Prueba de coeficiente individual

summary(modelo1)

##
## Call:
## lm(formula = salario ~ experiencia, data = datos1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.8030 -1.6869 -0.9485 2.3256 4.2229
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 17.86631 1.27477 14.015 5.04e-10 ***
## experiencia 0.72054 0.07385 9.756 6.91e-08 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 2.838 on 15 degrees of freedom
## Multiple R-squared: 0.8639,Adjusted R-squared: 0.8548
## F-statistic: 95.19 on 1 and 15 DF, p-value: 6.905e-08
Regresión lineal simple
Coeficiente de Correlación
El coeficiente de correlación lineal r mide la fuerza de la relación
lineal entre valores cuantitativos de dos variables. También se le
conoce como coeficiente de correlación de Pearson, en honor a
Karl Pearson quien lo desarrolló originalmente.

SP(XY )
r=p
SC (X )SC (Y )

−1 ≤ r ≤ 1
Regresión lineal simple

Coeficiente de Determinación - Bondad de ajuste


Porcentaje de la variabilidad de Y que es explicado por el modelo
de regresión ajustado.
SCReg
r2 =
SCTotal
0 ≤ r2 ≤ 1
Un valor de r 2 = 0 indica que la proporción total Y no es explicada
por la lı́nea de regresión estimada, mientras que un valor de r 2 = 1
indica que toda la variación total de Y es explicada por el modelo
estimado y que todos los puntos observados se encuentran sobre la
lı́nea de regresión estimada. Esto indica que cuando está próximo a
r 2 = 1, se tendrá un grado ajuste mayor.
Regresión lineal simple

Coeficiente de No Determinación - Bondad de ajuste

SCReg
1 − r2 = 1 −
SCTotal

Expresa la proporción de la variación total Y que no es explicada


por la lı́nea de regresión estimada. Es decir, indica la parte de la
variación total de Y que se debe a otros factores no considerado en
el modelo.
Regresión lineal simple

summary(modelo1)

##
## Call:
## lm(formula = salario ~ experiencia, data = datos1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.8030 -1.6869 -0.9485 2.3256 4.2229
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 17.86631 1.27477 14.015 5.04e-10 ***
## experiencia 0.72054 0.07385 9.756 6.91e-08 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 2.838 on 15 degrees of freedom
## Multiple R-squared: 0.8639,Adjusted R-squared: 0.8548
## F-statistic: 95.19 on 1 and 15 DF, p-value: 6.905e-08
Bibliografı́a

• Uriel, E. y Aldas, J. (2017). Análisis multivariante aplicado


con R. Madrid: Ediciones Paraninfo. Hair, J., et al. (1999)
Análisis Multivariante. Editorial Prentice Hall. España. Favero,
P. et al. (2009). Dados modelagem multivariada para tomada
de decisões. Elsevier. Brasil.
• Foster, P., Fawcett, T. (2013). Data Science for Business:
What you need to know about data mining and data-analytic
thinking. O’Reilly Media.

También podría gustarte