Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Capı́tulo II
Análisis de regresión múltiple - parte1
Clasificación de variables
• Tipo de método Dependencia
• Objetivos
Estudia la relación entre una variable dependiente Y y la
variable independiente X .
• Tipo de variables
Variable dependiente: cuantitativa
Variables independiente: cuantitativa
Regresión lineal simple
Objetivos
• Predicción: Predicción de la variables dependiente a partir de
una o varias variables independientes
• Explicación: Evaluar el grado y carácter de la relación entre
las variables dependientes e independientes
Regresión lineal simple
Diagrama de Dispersión
Regresión lineal simple
Diagrama de Dispersión
Regresión lineal simple
Diagrama de Dispersión
Regresión lineal simple
Modelo de regresión
Para el estudio del análisis de regresión lineal simple se considera el
siguiente modelo estadı́stico:
Y = β0 + β1 X + ε
donde:
Modelo de regresión
Si se denota: µY ,X = E [Y /X ] = β0 + β1 X
entonces, Y = µY ,X + ε
Regresión lineal simple
Modelo de regresión
n
∂Q X
=2 (Yi − β0 − β1 Xi )(−1) = 0
∂β0
i=1
n
∂Q X
=2 (Yi − β0 − β1 Xi )(−Xi ) = 0
∂β1
i=1
Regresión lineal simple
Estimación
b0 = Ȳ − b1 X̄
Pn
i=1 Xi Yi − nX̄ Ȳ SP(X , Y )
b1 = P n 2 2
=
i=1 Xi − nX̄ SC (X )
Regresión lineal simple
Yi = b0 + b1 Xi + ei
Propiedades
Estimadores:
• Insesgados
• Consistentes
Regresión lineal simple
Ejemplo
Se llevó a cabo un estudio para determinar la relación entre el
número de años de experiencia y el salario anual para una profesión
en particular en una región geográfica dada. Se seleccionó una
muestra aleatoria de 17 personas, las cuales ejercen esta profesión,
y se obtuvo la información siguiente:
library(readxl)
datos1<-read_xlsx("datos2.xlsx")
head(datos1)
## # A tibble: 6 x 2
## experiencia salario
## <dbl> <dbl>
## 1 13 26.1
## 2 16 33.2
## 3 30 36.1
## 4 2 16.5
## 5 8 26.4
## 6 31 36.4
Regresión lineal simple
summary(datos1$experiencia)
summary(datos1$salario)
par(mfrow=c(1,2))
hist(datos1$experiencia)
hist(datos1$salario)
5
4
3
Frequency
Frequency
3
2
2
1
1
0
0 5 10 15 20 25 30 35 15 20 25 30 35 40
datos1$experiencia datos1$salario
Regresión lineal simple
Ejemplo
plot(salario~experiencia,data=datos1,main="Diagrama de dispersión")
Diagrama de dispersión
35
30
salario
25
20
0 5 10 15 20 25 30
experiencia
Regresión lineal simple
Ejemplo
plot(salario~experiencia,data=datos1,main="Diagrama de dispersión")
abline(lm(salario~experiencia,data=datos1),col="red")
Diagrama de dispersión
35
30
salario
25
20
0 5 10 15 20 25 30
experiencia
Regresión lineal simple
Ejemplo
modelo1<-lm(salario~experiencia,data=datos1)
summary(modelo1)
##
## Call:
## lm(formula = salario ~ experiencia, data = datos1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.8030 -1.6869 -0.9485 2.3256 4.2229
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 17.86631 1.27477 14.015 5.04e-10 ***
## experiencia 0.72054 0.07385 9.756 6.91e-08 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 2.838 on 15 degrees of freedom
## Multiple R-squared: 0.8639,Adjusted R-squared: 0.8548
## F-statistic: 95.19 on 1 and 15 DF, p-value: 6.905e-08
Regresión lineal simple
Residuales
residuales<-modelo1$residuals
residuales
## 1 2 3 4 5 6 7
## -1.1332961 3.8050924 -3.3824275 -2.8073876 2.7693895 -3.8029646 2.2434810
## 8 9 10 11 12 13 14
## 4.2229439 -1.6868505 -0.9484619 -1.3208161 0.6202582 -1.5100733 2.3256296
## 15 16 17
## 4.1667039 -3.0895362 -0.4716847
Regresión lineal simple
Residuales
ajustados<-modelo1$fitted.values
ajustados
## 1 2 3 4 5 6 7 8
## 27.23330 29.39491 39.48243 19.30739 23.63061 40.20296 31.55652 32.27706
## 9 10 11 12 13 14 15 16
## 18.58685 20.74846 37.32082 35.87974 22.91007 28.67437 27.23330 22.18954
## 17
## 25.07168
Regresión lineal simple
Residuales - supuesto de normalidad
hist(residuales)
Histogram of residuales
4
3
Frequency
2
1
0
−4 −2 0 2 4
residuales
Regresión lineal simple
Residuales - supuesto de normalidad
Gráfico de probabilidad Normal
qqnorm(residuales)
qqline(residuales)
0
−2
−4
−2 −1 0 1 2
Theoretical Quantiles
Regresión lineal simple
shapiro.test(residuales)
##
## Shapiro-Wilk normality test
##
## data: residuales
## W = 0.91445, p-value = 0.119
library(nortest)
ad.test(residuales)
##
## Anderson-Darling normality test
##
## data: residuales
## A = 0.53107, p-value = 0.1491
Regresión lineal simple
plot(residuales~ajustados)
abline(h=0,col="red")
4
2
residuales
0
−2
−4
20 25 30 35 40
ajustados
Regresión lineal simple
Residuales - supuesto de independencia
library(lmtest)
bptest(modelo1)
##
## studentized Breusch-Pagan test
##
## data: modelo1
## BP = 1.3044, df = 1, p-value = 0.2534
Regresión lineal simple
par(mfrow=c(1,2))
acf(residuales)
pacf(residuales)
0.4
0.2
0.5
Partial ACF
ACF
0.0
0.0
−0.2
−0.4
−0.5
0 2 4 6 8 10 12 2 4 6 8 10 12
Lag Lag
Regresión lineal simple
Residuales - supuesto de independencia
dwtest(modelo1)
##
## Durbin-Watson test
##
## data: modelo1
## DW = 2.5889, p-value = 0.8933
## alternative hypothesis: true autocorrelation is greater than 0
Regresión lineal simple
Grados de libertad
Se puede demostrar que el número de grados de libertad asociado
a la SCTotal es n − 1, debido a que se pierde 1 grado de libertad
por el cálculo de Ȳ . La SCReg tiene un solo grado de libertad
debido a que es función de b1 , ya que SC (X ) es conocido. Por
último, SCError tiene n − 2 grados de libertad, pierde dos grados
de libertad por el cálculo de b0 y b1 .
Regresión lineal simple
Cuadrado medio
Se define como el cociente entre la suma de cuadrados y el
correspondiente número de grados de libertad. Ası́,
SCReg
CMReg =
GLReg
SCError
CMError =
GLError
Regresión lineal simple
CMReg
Fcal = ∼ F(k,n−2)
CMError
Criterio de Decisión: Ftab = Fcrit = F(1−α,k,n−2)
Si Fcalc > F(1−α,k,n−2) se rechaza H0
Si Fcalc ≤ F(1−α,k,n−2) no se rechaza H0
Regresión lineal simple
ANOVA
Regresión lineal simple
ANVA
anova(modelo1)
b2
tc2 = ∼ t(n−2)
sb2
Regresión lineal simple
Contraste t - Prueba de coeficiente individual
summary(modelo1)
##
## Call:
## lm(formula = salario ~ experiencia, data = datos1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.8030 -1.6869 -0.9485 2.3256 4.2229
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 17.86631 1.27477 14.015 5.04e-10 ***
## experiencia 0.72054 0.07385 9.756 6.91e-08 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 2.838 on 15 degrees of freedom
## Multiple R-squared: 0.8639,Adjusted R-squared: 0.8548
## F-statistic: 95.19 on 1 and 15 DF, p-value: 6.905e-08
Regresión lineal simple
Coeficiente de Correlación
El coeficiente de correlación lineal r mide la fuerza de la relación
lineal entre valores cuantitativos de dos variables. También se le
conoce como coeficiente de correlación de Pearson, en honor a
Karl Pearson quien lo desarrolló originalmente.
SP(XY )
r=p
SC (X )SC (Y )
−1 ≤ r ≤ 1
Regresión lineal simple
SCReg
1 − r2 = 1 −
SCTotal
summary(modelo1)
##
## Call:
## lm(formula = salario ~ experiencia, data = datos1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.8030 -1.6869 -0.9485 2.3256 4.2229
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 17.86631 1.27477 14.015 5.04e-10 ***
## experiencia 0.72054 0.07385 9.756 6.91e-08 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 2.838 on 15 degrees of freedom
## Multiple R-squared: 0.8639,Adjusted R-squared: 0.8548
## F-statistic: 95.19 on 1 and 15 DF, p-value: 6.905e-08
Bibliografı́a