Está en la página 1de 7

Econometría I

Juan Medina

April 1, 2020
1 Modelo de Regresión Lineal Múltiple

1.1 Restricciones de Exclusión

(Estas notas corresponden al capítulo 4, tema 4.5 del libro que empieza en la página 143.)
Hasta el momento hemos trabajado con pruebas de hipótesis de un sólo parámetro poblacional.
Por ejemplo, el modelo relacionado con los determinantes del salario de los jugadores de
beisbol de las grandes ligas (datos: mlb1) (loд(salary)) en función de los años en la liga (years),
cuadrangulares (“homeruns") en el año (hrunsyr ), promedio de bateo (bavд), número promedio
de juegos promedio por año (дamesyr ) y el número de carreras por año (rbisyr ) es el siguiente:

log(salary) = β 0 + β 1 ∗ years + β 2 ∗ дamesyr + β 3 ∗ bavд + β 4 ∗ hrunsyr + β 5 ∗ rbisyr + u. (1.1)

Cuya estimación es:

> modnr <- lm(log(salary)~years+gamesyr+bavg+hrunsyr+rbisyr, data=mlb1)

> summary(modnr)
Call:
lm(formula = log(salary) ~ years + gamesyr + bavg + hrunsyr +
rbisyr, data = mlb1)

Residuals:
Min 1Q Median 3Q Max
-3.02508 -0.45034 -0.04013 0.47014 2.68924

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.119e+01 2.888e-01 38.752 < 2e-16 ***
years 6.886e-02 1.211e-02 5.684 2.79e-08 ***
gamesyr 1.255e-02 2.647e-03 4.742 3.09e-06 ***
bavg 9.786e-04 1.104e-03 0.887 0.376
hrunsyr 1.443e-02 1.606e-02 0.899 0.369
rbisyr 1.077e-02 7.175e-03 1.500 0.134
---

2
1 Modelo de Regresión Lineal Múltiple

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7266 on 347 degrees of freedom


Multiple R-squared: 0.6278,Adjusted R-squared: 0.6224
F-statistic: 117.1 on 5 and 347 DF, p-value: < 2.2e-16
En este resultado podemos observar que sólo dos de las variables explicativas son significativas
al 1 por ciento. Para asegurarnos de saber de donde vienen los cálculos, recordemos primero
que estamos realizando una prueba de hipótesis para cada variable explicativa. Por ejemplo,
para la variable дamesyr , las hipótesis son:

H 0 : β 2 = 0 y Ha : β 2 , 0. (1.2)

Ahora, estandarizando el valor estimado para β 2 , βˆ2 = 0.013 obtenemos:

valor estimado − valor hipotetizado 0.013


t∗ = = = 4.333 (1.3)
error estandar (valor estimado) 0.003

Bajo H 0 , t ∗ sigue una distribución t con n − k − 1=353-5-1=347 grados de libertad (353 observa-
ciones, 5 parámetros de pendiente y 1 intercepto) que denotamos como t 347 . De esta forma, si
revisamos este valor para dicha distribución utilizando R, obtenemos:
> probs=c(0.9, 0.95, 0.99)

> qt(probs, df=347)


[1] 1.283996 1.649257 2.337142
Donde el vector probs en la primer línea de código contiene los tres niveles de confianza estándar
para las pruebas de hipótesis y la segunda línea los valores t correspondientes.
Como se puede apreciar, nuestro valor t ∗ en (1.3) excede cualquiera de los tres valores. Limitán-
donos a esos tres niveles de confianza, rechazamos H 0 a un nivel de significancia de 0.01
De manera similar, para calcular el valor p de nuestro t ∗ :
> pt(4.33333, 347, lower=FALSE)
[1] 9.630144e-06
que claramente es (mucho) menor que 0.01
Ahora supongamos que nos interesa saber si el desempeño de un jugador de beisbol es un
determinante de su salario. En este caso, definimos desempeño como la combinación de bavд,
hrunsyr y rbisyr . En este contexto, lo que estamos planteando es:

H 0 : β 3 = 0, β 4 = 0, β 5 = 0 (1.4)

y la hipótesis alternativa implica que H 0 es falsa, es decir:

3
1 Modelo de Regresión Lineal Múltiple

Ha : Por lo menos un βi , 0, para i = 3, 4, 5. (1.5)

Notemos que saber la influencia del desempeño en el salario del jugador implica mostrar
evidencia de que esas tres variables de interés son conjuntamente significativas. Es decir,
realizar pruebas para cada una de estas variables de manera individual, como la que realizamos
en (1.2) no es un procedimiento válido.
Para empezar a darle sentido a una prueba para la hipótesis nula (1.4), notemos que bajo H 0 , el
desempeño del jugador no tiene influencia sobre su salario:

log(salary) = β 0 + β 1 ∗ years + β 2 ∗ дamesyr + u. (1.6)

Por su parte, la hipótesis alternativa (1.5) implica que el modelo en (1.1) es el "correcto". Para ello
nos enfocamos en la suma de los residuos al cuadrado (SRC) o la parte de la variable dependiente
que nuestro modelo no explica. Por definición algebraica, cada vez que agregamos una variable
explicativa a nuestro modelo, la SRC disminuye (lo que en consecuencia incrementa la R 2 ). En
consecuencia, sólo necesitamos que una de las variables que mide parte del desempeño sea
significativa para que la SRC del modelo no restringido (SRCnr ) ilustrado en (1.1), sea menor
que la SRC del modelo restringido (SRCr ) representado por (1.6). Recordemos que aún y si hay
una diferencia en estas sumas, tenemos que establecer un criterio para juzgar si tal diferencia
es significativa (estadísticamente hablando, distinta de cero) o no. Para ello, utilizaremos el
cociente:

(SRCr − SRCnr )/q


F∗ = (1.7)
SRCnr /(n − k − 1)

que es una variable aletoria que mide la diferencia (muestral) relativa entre las sumas de los
residuos al cuadrado de los modelos restringido y no restringido. Esta variable aleatoria tiene
una distribución Fq,n−k −1 , donde q es el número de restricciones (o variables excluidas) y el
número n − k − 1 que ya fué descrito anteriormente. Esto es, q representa los grados de libertad
del numerador y n − k − 1 lo mismo, pero correspondiente al denominador. La forma como
decimos esto con una sola expresión es:

F ∗ ∼ Fq,n−k−1 (1.8)
(F ∗ se distribuye como Fq,n−k −1 )

En principio, entre más grande sea la diferencia entre las SRC’s de los modelos, más fuerte es la
evidencia en contra de H 0 . La idea entonces, es rechazar o no la hipotesis (1.4) so esa diferencia
excede algun valor crítico C asociado a un nivel de significancia porcentual.

4
1 Modelo de Regresión Lineal Múltiple

Para poder aplicar este criterio a nuestro ejemplo, vamos a estimar nuestro modelo restringido,
obtener su suma de residuos al cuadrado SRCr y luego extraer SRCn r del modelo no restringido
(que se encuentra en la regresión guardada en el objeto modnr en la estimación arriba).
> modr <- lm(log(salary)~years+gamesyr, data=mlb1)

> summary(modr)

Call:
lm(formula = log(salary) ~ years + gamesyr, data = mlb1)

Residuals:
Min 1Q Median 3Q Max
-2.66858 -0.46412 -0.01177 0.49219 2.68829

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11.223804 0.108312 103.625 < 2e-16 ***
years 0.071318 0.012505 5.703 2.5e-08 ***
gamesyr 0.020174 0.001343 15.023 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7527 on 350 degrees of freedom


Multiple R-squared: 0.5971,Adjusted R-squared: 0.5948
F-statistic: 259.3 on 2 and 350 DF, p-value: < 2.2e-16

Antes de seguir, obtendremos la SRC de los dos modelos que hemos estimado, modnr y modr y
los llamaremos residnr y residr , respectivamente. Utilizamos el comando matrix para indicar
que estamos trabajando con un vector y facilitar el cálculo de los residuos al cuadrado:
>residnr<-matrix(modnr$residuals)

>residr<-matrix(modr$residuals)
Ahora, usamos el "truco" de multiplicar la trasposición de un vector por el vector mismo y eso
nos da la suma de los elementos del vector cada uno elevado al cuadrado, es decir, la SRC:
>SRCnr<-t(residnr)%*%residnr

>SRCnr
[,1]
[1,] 183.1863

5
1 Modelo de Regresión Lineal Múltiple

>SRCr<-t(residr)%*%residr

>SRCr
[,1]
[1,] 198.3115
donde el comando t(resid) nos da el vector traspuesto de resid y los símbolos % ∗ % denotan
multiplicación de vectores (o matrices).
Calculando el valor de nuestra F ∗ de acuerdo a (1.7):
> F<-((SRCr-SRCnr)/3)/(SRCnr/347)

> F
[,1]
[1,] 9.550254
A un nivel de significancia del 5 %, el valor crítico es F 3,347 =2.60. De manera que rechazamos
(1.4) a dicho nivel y concluimos que el desempeño de los jugadores de beisbol si tiene un impacto
en su salario.
Aspectos Importantes:
• Cuando q = 1 (una sola restricción), estamos hablando de excluir una sola variable. Esta
prueba es equivalente a aquella que realizamos con la distribución t con n − k − 1 grados
de libertad. Aun así, se puede realizar esta prueba utilizando una distribución F con q = 1
grados de libertad en el numerador y n − k − 1 grados de libertad en el denominador:
F 1,n=k =1 . Sin embargo, no solemos hacer esto último, pues dicha prueba tiene menor
"poder" (probabilidad de rechazar H 0 cuando Ha es verdadera) comparada con la prueba t
estándar que ya conocemos. Como dato adicional, se puede demostrar que:

2
tn−k −1 ∼ F 1,n−k−1 . (1.9)

• De manera equivalente, podemos calcular F ∗ utilizando la R 2 de los modelos no restringido


2 ) y restrigido (R 2 ):
(Rnr r

2 − R 2 )/q
(Rnr r
F∗ = 2 )/(n − k − 1)
(1.10)
(1 − Rnr

• El estadístico F que nos arroja el programa R al final de cada estimación, deviene de la


prueba de hipótesis del modelo con k variables explicativas:

H 0 : β 1 = β 2 = ... = βk = 0 (1.11)

6
1 Modelo de Regresión Lineal Múltiple

Ha : Por lo menos un βi , 0 para i = 1, 2, .., k. (1.12)

Es decir, es la prueba para el modelo con q = k restricciones, es decir, el modelo restringido


excluye todas esas variables explicativas:

y = β0 + u (1.13)

(Nota que para nuestro ejemplo, k = 5).


*Ejercicio: Reproducir todos los cálculos hasta este punto en R con la base de datos mlb1,
dentro del paquete "wooldridge", siguiendo el código indicado y guardándolo en un "script".
No hay necesidad de entregarlo, pero es importante tenerlo para la tarea que se asignará el
jueves 2 de abril del presente.

También podría gustarte