Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Juan Medina
April 1, 2020
1 Modelo de Regresión Lineal Múltiple
(Estas notas corresponden al capítulo 4, tema 4.5 del libro que empieza en la página 143.)
Hasta el momento hemos trabajado con pruebas de hipótesis de un sólo parámetro poblacional.
Por ejemplo, el modelo relacionado con los determinantes del salario de los jugadores de
beisbol de las grandes ligas (datos: mlb1) (loд(salary)) en función de los años en la liga (years),
cuadrangulares (“homeruns") en el año (hrunsyr ), promedio de bateo (bavд), número promedio
de juegos promedio por año (дamesyr ) y el número de carreras por año (rbisyr ) es el siguiente:
> summary(modnr)
Call:
lm(formula = log(salary) ~ years + gamesyr + bavg + hrunsyr +
rbisyr, data = mlb1)
Residuals:
Min 1Q Median 3Q Max
-3.02508 -0.45034 -0.04013 0.47014 2.68924
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.119e+01 2.888e-01 38.752 < 2e-16 ***
years 6.886e-02 1.211e-02 5.684 2.79e-08 ***
gamesyr 1.255e-02 2.647e-03 4.742 3.09e-06 ***
bavg 9.786e-04 1.104e-03 0.887 0.376
hrunsyr 1.443e-02 1.606e-02 0.899 0.369
rbisyr 1.077e-02 7.175e-03 1.500 0.134
---
2
1 Modelo de Regresión Lineal Múltiple
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
H 0 : β 2 = 0 y Ha : β 2 , 0. (1.2)
Bajo H 0 , t ∗ sigue una distribución t con n − k − 1=353-5-1=347 grados de libertad (353 observa-
ciones, 5 parámetros de pendiente y 1 intercepto) que denotamos como t 347 . De esta forma, si
revisamos este valor para dicha distribución utilizando R, obtenemos:
> probs=c(0.9, 0.95, 0.99)
H 0 : β 3 = 0, β 4 = 0, β 5 = 0 (1.4)
3
1 Modelo de Regresión Lineal Múltiple
Notemos que saber la influencia del desempeño en el salario del jugador implica mostrar
evidencia de que esas tres variables de interés son conjuntamente significativas. Es decir,
realizar pruebas para cada una de estas variables de manera individual, como la que realizamos
en (1.2) no es un procedimiento válido.
Para empezar a darle sentido a una prueba para la hipótesis nula (1.4), notemos que bajo H 0 , el
desempeño del jugador no tiene influencia sobre su salario:
Por su parte, la hipótesis alternativa (1.5) implica que el modelo en (1.1) es el "correcto". Para ello
nos enfocamos en la suma de los residuos al cuadrado (SRC) o la parte de la variable dependiente
que nuestro modelo no explica. Por definición algebraica, cada vez que agregamos una variable
explicativa a nuestro modelo, la SRC disminuye (lo que en consecuencia incrementa la R 2 ). En
consecuencia, sólo necesitamos que una de las variables que mide parte del desempeño sea
significativa para que la SRC del modelo no restringido (SRCnr ) ilustrado en (1.1), sea menor
que la SRC del modelo restringido (SRCr ) representado por (1.6). Recordemos que aún y si hay
una diferencia en estas sumas, tenemos que establecer un criterio para juzgar si tal diferencia
es significativa (estadísticamente hablando, distinta de cero) o no. Para ello, utilizaremos el
cociente:
que es una variable aletoria que mide la diferencia (muestral) relativa entre las sumas de los
residuos al cuadrado de los modelos restringido y no restringido. Esta variable aleatoria tiene
una distribución Fq,n−k −1 , donde q es el número de restricciones (o variables excluidas) y el
número n − k − 1 que ya fué descrito anteriormente. Esto es, q representa los grados de libertad
del numerador y n − k − 1 lo mismo, pero correspondiente al denominador. La forma como
decimos esto con una sola expresión es:
F ∗ ∼ Fq,n−k−1 (1.8)
(F ∗ se distribuye como Fq,n−k −1 )
En principio, entre más grande sea la diferencia entre las SRC’s de los modelos, más fuerte es la
evidencia en contra de H 0 . La idea entonces, es rechazar o no la hipotesis (1.4) so esa diferencia
excede algun valor crítico C asociado a un nivel de significancia porcentual.
4
1 Modelo de Regresión Lineal Múltiple
Para poder aplicar este criterio a nuestro ejemplo, vamos a estimar nuestro modelo restringido,
obtener su suma de residuos al cuadrado SRCr y luego extraer SRCn r del modelo no restringido
(que se encuentra en la regresión guardada en el objeto modnr en la estimación arriba).
> modr <- lm(log(salary)~years+gamesyr, data=mlb1)
> summary(modr)
Call:
lm(formula = log(salary) ~ years + gamesyr, data = mlb1)
Residuals:
Min 1Q Median 3Q Max
-2.66858 -0.46412 -0.01177 0.49219 2.68829
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11.223804 0.108312 103.625 < 2e-16 ***
years 0.071318 0.012505 5.703 2.5e-08 ***
gamesyr 0.020174 0.001343 15.023 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Antes de seguir, obtendremos la SRC de los dos modelos que hemos estimado, modnr y modr y
los llamaremos residnr y residr , respectivamente. Utilizamos el comando matrix para indicar
que estamos trabajando con un vector y facilitar el cálculo de los residuos al cuadrado:
>residnr<-matrix(modnr$residuals)
>residr<-matrix(modr$residuals)
Ahora, usamos el "truco" de multiplicar la trasposición de un vector por el vector mismo y eso
nos da la suma de los elementos del vector cada uno elevado al cuadrado, es decir, la SRC:
>SRCnr<-t(residnr)%*%residnr
>SRCnr
[,1]
[1,] 183.1863
5
1 Modelo de Regresión Lineal Múltiple
>SRCr<-t(residr)%*%residr
>SRCr
[,1]
[1,] 198.3115
donde el comando t(resid) nos da el vector traspuesto de resid y los símbolos % ∗ % denotan
multiplicación de vectores (o matrices).
Calculando el valor de nuestra F ∗ de acuerdo a (1.7):
> F<-((SRCr-SRCnr)/3)/(SRCnr/347)
> F
[,1]
[1,] 9.550254
A un nivel de significancia del 5 %, el valor crítico es F 3,347 =2.60. De manera que rechazamos
(1.4) a dicho nivel y concluimos que el desempeño de los jugadores de beisbol si tiene un impacto
en su salario.
Aspectos Importantes:
• Cuando q = 1 (una sola restricción), estamos hablando de excluir una sola variable. Esta
prueba es equivalente a aquella que realizamos con la distribución t con n − k − 1 grados
de libertad. Aun así, se puede realizar esta prueba utilizando una distribución F con q = 1
grados de libertad en el numerador y n − k − 1 grados de libertad en el denominador:
F 1,n=k =1 . Sin embargo, no solemos hacer esto último, pues dicha prueba tiene menor
"poder" (probabilidad de rechazar H 0 cuando Ha es verdadera) comparada con la prueba t
estándar que ya conocemos. Como dato adicional, se puede demostrar que:
2
tn−k −1 ∼ F 1,n−k−1 . (1.9)
2 − R 2 )/q
(Rnr r
F∗ = 2 )/(n − k − 1)
(1.10)
(1 − Rnr
H 0 : β 1 = β 2 = ... = βk = 0 (1.11)
6
1 Modelo de Regresión Lineal Múltiple
y = β0 + u (1.13)