Regresion

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadı́stica e Informática

Estadı́stica Aplicada a la economı́a y los negocios II
Capı́tulo II
Análisis de regresión múltiple - parte1
Mg. Sc. Juan C. Orosco G.

Docente DAEI - UNALM
CONTENIDO
1 Introducción - Regresión lineal simple

2 Modelo de regresión
3 Estimación
4 Supuestos
5 Multicolinealidad
6 Predicción
LOGRO DE CLASE
1 Identifica los conceptos básicos del análisis de regresión lineal

2 Analiza e interpreta los coeficientes estimados
3 Resuelve ejercicios aplicativos
Regresión lineal simple
Es el estudio de la relación funcional del tipo lineal existente entre

una variable aleatoria en estudio Y , llamada dependiente,
explicada o respuesta y otra X llamada variable independiente,
explicativa, predictora o regresora.
Clasificación de variables
• Tipo de método Dependencia
• Objetivos
Estudia la relación entre una variable dependiente Y y la
variable independiente X .
• Tipo de variables
Variable dependiente: cuantitativa
Variables independiente: cuantitativa
Objetivos
• Predicción: Predicción de la variables dependiente a partir de
una o varias variables independientes
• Explicación: Evaluar el grado y carácter de la relación entre
las variables dependientes e independientes
Diagrama de Dispersión
Modelo de regresión
Para el estudio del análisis de regresión lineal simple se considera el
siguiente modelo estadı́stico:
Y = β0 + β1 X + ε
donde:
β0 y β1 son parámetros desconocidos

β0 es el coeficiente de intersección poblacional β1 es el coeficiente
de regresión porblacional ε es una variable aleatoria no observable,
llamada comúnmente error, distribuida con media cero y variancia
común σ 2
Si se denota: µY ,X = E [Y /X ] = β0 + β1 X
entonces, Y = µY ,X + ε
β0 : al valor de µYX cuando X = 0 Entonces β0 tiene interpretación

cuando cero es un valor posible de X y β0 un valor posible Y .
Cuando β0 tiene interpretación, este se interpretar como la media
de Y cuando X = 0.
β1 = ∂µ YX
∂X : este valor se interpreta como el cambio promedio que
sufre Y cuando X se incrementa en una unidad.
Supuestos del modelo

• Linealidad
• Aleatoriedad Los valores de Y para cada valor de X, se
obtienen aleatoriamente
• Independencia εi son independientes
• Normalidad : ε ∼ N(0, σ 2 )
• Homocedasticidad: Var (ε) = σ 2 = cte
Estimación
Para estimar los parámetros se utiliza el método de los mı́nimos
cuadrados. Este método consiste en obtener los valores de β0 y β1 ,
los cuales serán denotados por b0 y b1 , respectivamente, que
minimizan la suma de cuadrados de los errores obtenidos de una
muestra aleatoria.
Yi = β0 + β1 Xi + εi , i = 1, 2, ..., n
εi = Yi − β0 − β1 Xi , i = 1, 2, ..., n
n
X n
X
Q= ε2i = (Yi − β0 − β1 Xi )2
i=1 i=1
n
∂Q X
=2 (Yi − β0 − β1 Xi )(−1) = 0
∂β0
i=1
n
∂Q X
=2 (Yi − β0 − β1 Xi )(−Xi ) = 0
∂β1
i=1
Estimación
b0 = Ȳ − b1 X̄
Pn
i=1 Xi Yi − nX̄ Ȳ SP(X , Y )
b1 = P n 2 2
=
i=1 Xi − nX̄ SC (X )
Modelo de regresión estimado

Dada una muestra aleatoria de n observaciones bivariadas (X,Y), el
modelo estimado es el siguiente:
Yi = b0 + b1 Xi + ei
Donde: b0 y b1 son los coeficientes de regresión estimados de los

parámetros β0 y β1 , y ei es el residual de la i-ésima observación.
La ecuación de regresión estimada se define a continuación:
Ŷi = b̂0 + b̂1 Xi

i = 1, ..., n
Propiedades
Estimadores:
• Insesgados
• Consistentes
Ejemplo
Se llevó a cabo un estudio para determinar la relación entre el
número de años de experiencia y el salario anual para una profesión
en particular en una región geográfica dada. Se seleccionó una
muestra aleatoria de 17 personas, las cuales ejercen esta profesión,
y se obtuvo la información siguiente:
setwd("D:/UNALM/2021-2/Aplicada II/Regresión múltiple/regresion")

## Error in setwd("D:/UNALM/2021-2/Aplicada II/Regresión múltiple/regresion"): no es posible
cambiar el directorio de trabajo
library(readxl)
datos1<-read_xlsx("datos2.xlsx")
head(datos1)
## # A tibble: 6 x 2
## experiencia salario
## <dbl> <dbl>
## 1 13 26.1
## 2 16 33.2
## 3 30 36.1
## 4 2 16.5
## 5 8 26.4
## 6 31 36.4
summary(datos1$experiencia)
## Min. 1st Qu. Median Mean 3rd Qu. Max.

## 1.00 7.00 13.00 14.53 20.00 31.00
summary(datos1$salario)
## Min. 1st Qu. Median Mean 3rd Qu. Max.

## 16.50 21.40 31.00 28.34 36.00 36.50
par(mfrow=c(1,2))
hist(datos1$experiencia)
hist(datos1$salario)
Histogram of datos1$experiencia Histogram of datos1$salario

4
5
4
3
Frequency
Frequency
3
2
2
1
1
0
0 5 10 15 20 25 30 35 15 20 25 30 35 40
datos1$experiencia datos1$salario
Ejemplo
plot(salario~experiencia,data=datos1,main="Diagrama de dispersión")
Diagrama de dispersión
35
30
salario
25
20
0 5 10 15 20 25 30
experiencia
Ejemplo
plot(salario~experiencia,data=datos1,main="Diagrama de dispersión")
abline(lm(salario~experiencia,data=datos1),col="red")
Diagrama de dispersión
35
30
salario
25
20
0 5 10 15 20 25 30
experiencia
Ejemplo
modelo1<-lm(salario~experiencia,data=datos1)
summary(modelo1)
##
## Call:
## lm(formula = salario ~ experiencia, data = datos1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.8030 -1.6869 -0.9485 2.3256 4.2229
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 17.86631 1.27477 14.015 5.04e-10 ***
## experiencia 0.72054 0.07385 9.756 6.91e-08 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 2.838 on 15 degrees of freedom
## Multiple R-squared: 0.8639,Adjusted R-squared: 0.8548
## F-statistic: 95.19 on 1 and 15 DF, p-value: 6.905e-08
Residuales
residuales<-modelo1$residuals
residuales
## 1 2 3 4 5 6 7
## -1.1332961 3.8050924 -3.3824275 -2.8073876 2.7693895 -3.8029646 2.2434810
## 8 9 10 11 12 13 14
## 4.2229439 -1.6868505 -0.9484619 -1.3208161 0.6202582 -1.5100733 2.3256296
## 15 16 17
## 4.1667039 -3.0895362 -0.4716847
Residuales
ajustados<-modelo1$fitted.values
ajustados
## 1 2 3 4 5 6 7 8
## 27.23330 29.39491 39.48243 19.30739 23.63061 40.20296 31.55652 32.27706
## 9 10 11 12 13 14 15 16
## 18.58685 20.74846 37.32082 35.87974 22.91007 28.67437 27.23330 22.18954
## 17
## 25.07168
Residuales - supuesto de normalidad
hist(residuales)
Histogram of residuales
4
3
Frequency
2
1
0
−4 −2 0 2 4
residuales
Gráfico de probabilidad Normal
Gráficas de probabilidad normal: a) ideal; b) distribución de colas

pesadas; c) distribución de colas delgadas; d) asimetrı́a positiva; e)
asimetrı́a negativa
qqnorm(residuales)
qqline(residuales)
Normal Q−Q Plot

4
2
Sample Quantiles
0
−2
−4
−2 −1 0 1 2
Theoretical Quantiles

Prueba de hipótesis de normalidad
H0 : Los residuales siguen una distribución normal
H1 : Los residuales no siguen una distribución normal
α = 0,05
p − valor ≤ α entonces se rechaza la hipótesis nula
p − valor > α entonces no se rechaza la hipótesis nula
Prueba de Shapiro - Wilk, uso para muestras menores a 30. Prueba
de Anderson Darling, uso para muestras mayores a 30.
shapiro.test(residuales)
##
## Shapiro-Wilk normality test
##
## data: residuales
## W = 0.91445, p-value = 0.119
library(nortest)
ad.test(residuales)
##
## Anderson-Darling normality test
##
## data: residuales
## A = 0.53107, p-value = 0.1491
Residuales - supuesto de homocedasticidad

Gráfico de Residuales VS Valores Ajustados
Patrones en las gráficas de residuales: a) no correlación de residuos

(satisfactorio), b) heterocedasticidad (en embudo), c)
heterocedasticidad (en doble arco) y d) no linealidad
Residuales - supuesto de homocedasticidad

Prueba de hipótesis
H0 : La varianza de los residuales es homocedástica
H1 : La varianza de los residuales no es homocedástica
α = 0,05
Prueba de Breusch - Pagan
Residuales - supuesto de independencia
plot(residuales~ajustados)
abline(h=0,col="red")
4
2
residuales
0
−2
−4
20 25 30 35 40
ajustados
library(lmtest)
bptest(modelo1)
##
## studentized Breusch-Pagan test
##
## data: modelo1
## BP = 1.3044, df = 1, p-value = 0.2534

Funciones de autocorrelación

Prueba de no autocorrelación
H0 : Los residuales no están autocorrelacionados
H1 : Los residuales están autocorrelacionados
α = 0,05
Prueba de Durwin - Watson
par(mfrow=c(1,2))
acf(residuales)
pacf(residuales)
Series residuales Series residuales

1.0
0.4
0.2
0.5
Partial ACF
ACF
0.0
0.0
−0.2
−0.4
−0.5
0 2 4 6 8 10 12 2 4 6 8 10 12
Lag Lag
dwtest(modelo1)
##
## Durbin-Watson test
##
## data: modelo1
## DW = 2.5889, p-value = 0.8933
## alternative hypothesis: true autocorrelation is greater than 0
Análisis de Varianza (ANVA)

Consiste en descomponer la variación total en sus fuentes de
variación:
Yi − Ȳ = (Yi − Ŷ1 ) + (Ŷi − Ȳ )

Yi − Ȳ = (Yi − Ŷ1 ) + (Ŷi − Ȳ )

n
X n
X n
X
(Yi − Ȳ )2 = (Yi − Ŷ1 )2 + (Ŷi − Ȳ )2
i=1 i=1 i=1
SCTotal = SCReg + SCError

Grados de libertad
Se puede demostrar que el número de grados de libertad asociado
a la SCTotal es n − 1, debido a que se pierde 1 grado de libertad
por el cálculo de Ȳ . La SCReg tiene un solo grado de libertad
debido a que es función de b1 , ya que SC (X ) es conocido. Por
último, SCError tiene n − 2 grados de libertad, pierde dos grados
de libertad por el cálculo de b0 y b1 .
Cuadrado medio
Se define como el cociente entre la suma de cuadrados y el
correspondiente número de grados de libertad. Ası́,
SCReg
CMReg =
GLReg
SCError
CMError =
GLError
Contraste de Regresión F - Prueba Global

H0 : β1 = 0
H1 : β1 ̸= 0
Nivel de significación α
Estadı́stico de prueba:
CMReg
Fcal = ∼ F(k,n−2)
CMError
Criterio de Decisión: Ftab = Fcrit = F(1−α,k,n−2)
Si Fcalc > F(1−α,k,n−2) se rechaza H0
Si Fcalc ≤ F(1−α,k,n−2) no se rechaza H0
ANOVA
ANVA
anova(modelo1)
## Analysis of Variance Table

##
## Response: salario
## Df Sum Sq Mean Sq F value Pr(>F)
## experiencia 1 766.42 766.42 95.187 6.905e-08 ***
## Residuals 15 120.78 8.05
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Contraste t - Prueba de coeficiente individual

H0 : β1 = 0
H1 : β1 ̸= 0
Nivel de significación α
Estadı́stico de prueba:
b2
tc2 = ∼ t(n−2)
sb2
Contraste t - Prueba de coeficiente individual
summary(modelo1)
##
## Call:
##
## Residuals:
## -3.8030 -1.6869 -0.9485 2.3256 4.2229
##
## Coefficients:
## (Intercept) 17.86631 1.27477 14.015 5.04e-10 ***
## experiencia 0.72054 0.07385 9.756 6.91e-08 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
Coeficiente de Correlación
El coeficiente de correlación lineal r mide la fuerza de la relación
lineal entre valores cuantitativos de dos variables. También se le
conoce como coeficiente de correlación de Pearson, en honor a
Karl Pearson quien lo desarrolló originalmente.
SP(XY )
r=p
SC (X )SC (Y )
−1 ≤ r ≤ 1
Coeficiente de Determinación - Bondad de ajuste

Porcentaje de la variabilidad de Y que es explicado por el modelo
de regresión ajustado.
SCReg
r2 =
SCTotal
0 ≤ r2 ≤ 1
Un valor de r 2 = 0 indica que la proporción total Y no es explicada
por la lı́nea de regresión estimada, mientras que un valor de r 2 = 1
indica que toda la variación total de Y es explicada por el modelo
estimado y que todos los puntos observados se encuentran sobre la
lı́nea de regresión estimada. Esto indica que cuando está próximo a
r 2 = 1, se tendrá un grado ajuste mayor.
Coeficiente de No Determinación - Bondad de ajuste
SCReg
1 − r2 = 1 −
SCTotal
Expresa la proporción de la variación total Y que no es explicada

por la lı́nea de regresión estimada. Es decir, indica la parte de la
variación total de Y que se debe a otros factores no considerado en
el modelo.
summary(modelo1)
##
## Call:
##
## Residuals:
## -3.8030 -1.6869 -0.9485 2.3256 4.2229
##
## Coefficients:
## (Intercept) 17.86631 1.27477 14.015 5.04e-10 ***
## experiencia 0.72054 0.07385 9.756 6.91e-08 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
Bibliografı́a
• Uriel, E. y Aldas, J. (2017). Análisis multivariante aplicado

con R. Madrid: Ediciones Paraninfo. Hair, J., et al. (1999)
Análisis Multivariante. Editorial Prentice Hall. España. Favero,
P. et al. (2009). Dados modelagem multivariada para tomada
de decisões. Elsevier. Brasil.
• Foster, P., Fawcett, T. (2013). Data Science for Business:
What you need to know about data mining and data-analytic
thinking. O’Reilly Media.

Regresion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA

Departamento Académico de Estadı́stica e Informática

Mg. Sc. Juan C. Orosco G.

1 Introducción - Regresión lineal simple

1 Identifica los conceptos básicos del análisis de regresión lineal

Es el estudio de la relación funcional del tipo lineal existente entre

β0 y β1 son parámetros desconocidos

β0 : al valor de µYX cuando X = 0 Entonces β0 tiene interpretación

Supuestos del modelo

Modelo de regresión estimado

Donde: b0 y b1 son los coeficientes de regresión estimados de los

Ŷi = b̂0 + b̂1 Xi

setwd("D:/UNALM/2021-2/Aplicada II/Regresión múltiple/regresion")

## Min. 1st Qu. Median Mean 3rd Qu. Max.

## Min. 1st Qu. Median Mean 3rd Qu. Max.

Histogram of datos1$experiencia Histogram of datos1$salario

Gráficas de probabilidad normal: a) ideal; b) distribución de colas

Normal Q−Q Plot

Residuales - supuesto de normalidad

Residuales - supuesto de homocedasticidad

Patrones en las gráficas de residuales: a) no correlación de residuos

Residuales - supuesto de homocedasticidad

Residuales - supuesto de independencia

Residuales - supuesto de independencia

Series residuales Series residuales

Análisis de Varianza (ANVA)

Yi − Ȳ = (Yi − Ŷ1 ) + (Ŷi − Ȳ )

Yi − Ȳ = (Yi − Ŷ1 ) + (Ŷi − Ȳ )

SCTotal = SCReg + SCError

Contraste de Regresión F - Prueba Global

## Analysis of Variance Table

Contraste t - Prueba de coeficiente individual

Coeficiente de Determinación - Bondad de ajuste

Coeficiente de No Determinación - Bondad de ajuste

Expresa la proporción de la variación total Y que no es explicada

• Uriel, E. y Aldas, J. (2017). Análisis multivariante aplicado

También podría gustarte