Está en la página 1de 44

Regresión múltiple

Regresión múltiple

Gabriel V. Montes-Rojas

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Regresión múltiple

Tomemos el ejemplo de retornos a la educación en una ecuación de Mincer. Como se


imaginan, la educación no es el único determinante de los salarios. Otras variables que
pueden afectar salarios son:
Edad
Experiencia
Habilidad (¿empresarial?)
Sexo (¿por?)
Raza/nacionalidad (¿por?)
Por ejemplo, un modelo más cercano a la realidad es:

wage = β 0 + β 1 educ + β 2 exper + u


¿Cambia la interpretación de los coeficientes? Ahora β 1 es el efecto de educ sobre
salarios, manteniendo exper constante.

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

En el modelo

wage = γ0 + γ1 educ + e,
si omitimos exper , y si educ y exper estan relacionadas, o sea exper (educ ), entonces,

∂E [wage |educ ]
γ1 =
∂educ
∂E [wage |educ, exper ] ∂E [wage |educ, exper ] ∂exper
= + ×
∂educ ∂exper ∂educ
¿Cuál es el problema? Si no controlamos por exper, estarı́amos estimando un efecto
de educ que no es el que queremos. Es el problema de variables omitidas que veremos
más adelante. Aparece el problema de la causalidad.

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

wage = β 0 + β 1 educ + β 2 exper + u

∂E [wage |educ, exper ]


β1 =
∂educ
Ahora β 1 es el efecto de educ sobre wage, manteniendo exper constante. Incluyendo
exper en el modelo, podemos medir el efecto de educ sin confundirlo con el efecto de
exper.

Nota: En Economı́a esto se usa mucho: ceteris paribus, dejando todo lo demás
constante.

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Regresión múltiple

Usemos ahora el modelo más general con K variables explicativas. Lo llamamos de


regresión múltiple.

y = β 0 + β 1 x1 + β 2 x2 + ... + β K xK + u
Entonces para cada observación i tenemos

yi = β 0 + β 1 x1i + β 2 x2i + ... + β 1 xKi


Vamos a usar la notación xji donde j representa la variable (j = 0, 1, 2, ..., K ) e i la
observación (i = 0, 1, 2, ..., N ).
Tenemos K + 1 variables explicativas, incluyendo una constante, es decir, siempre con
valor 1. En notación matricial tenemos x = (1, x1 , x2 , ..., xK ) que es un vector
1 × (K + 1) y β = ( β 0 , β 1 , ..., β K )′ es un vector (K + 1) × 1, entonces

y = xβ + u
o para la observación i
yi = x i β + ui

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Álgebra de MCO
El estimador de MCO es
N
β̂ MCO = argmin ∑ (yi − b0 − b1 x1i − ... − bK xKi )2
b ∈R K +1i =1
Para la minimización tomamos derivadas con respecto a b = (b0 , b1 , ..., bK ), lo cual
nos da las siguientes condiciones de primer orden:
N
∑ xji (yi − β̂0 − β̂1 x1i − ... − β̂K xKi ) = 0, j = 0, 1, 2, ..., K .
i =1
Al igual que con la regresión simple podemos pensar la solución como un método de
momentos:
Momentos en la población
E [xj u ] = E [xj (y − β 0 − β 1 x1 − ... − β K xK )] = 0
j = 0, 1, 2, ..., K
(donde x0 = 1 es una constante)
Momentos en la muestra (CPO de la minimización)
N −1 ∑ N i =1 xji (yi − β̂ 0 − β̂ 1 x1i − ... − β̂ K xKi ) = 0
j = 0, 1, 2, ..., K
En ambos casos tenemos un sistema de ecuaciones con K + 1 ecuaciones y K + 1
parámetros.
Gabriel Montes-Rojas Regresión múltiple
Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Álgebra de MCO

β̂ MCO = (X ′ X )−1 X ′ y

donde:
X es una matriz N × (K + 1), que contiene en cada una de las N filas la
observación i y en cada una de las (K + 1) columnas los parámetros.
Nota: x0i = 1 para todo i = 1, 2, ..., N;
y es un vector N × 1, que contiene la variable dependiente;
... ası́ (X ′ X ) es una matriz (K + 1) × (K + 1); ′ representa la
transpuesta de una matriz;
... (X ′ X )−1 es una matriz (K + 1) × (K + 1), la inversa de (X ′ X );
... (X ′ X )−1 X ′ y es un vector (K + 1) × 1.

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Álgebra de MCO

En detalle, las matrices y vectores son:


1 x11 . . . xK 1 y1 u1
       
β1
 1 x12 . . . xK 2   y2   u2   β2 
X = . .. .. .. , y =  .. , u =  .. , β =  . ,
       
 .. . . .   .   .   .. 
1 x1N . . . xKN yN uN βK
∑N ∑N ∑N
   
N i =1 x1i ... i =1 xKi i =1 yi
 ∑N x ∑ N
x 2 . . . ∑ N  ∑N x y 
i =1 x1i xKi

i =1 1i i =1 1i i =1 1i i 
′ , X ′ y = 
  
X X =  .. .. .. ..   .. .

 . . . .   . 
∑Ni =1 xKi ∑ N
i =1 x Ki x 1i . . . ∑ N 2
i =1 xKi
N
∑i =1 xKi yi
′ − 1
La expresión para (X X ) requiere repasar cómo se calcula la inversa de una matriz.
MCO como ratio de sumatorias: También se puede llegar a la siguiente expresión
  −1  
muy útil β̂ MCO = ∑N ′ ′
i =1 x i x i ∑N
i =1 x i yi .

Ejercicio: Resolver analı́ticamente para K = 1 (regresión simple) y K = 2 usando


álgebra matricial y luego resolviendo las condiciones de primer orden.

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Álgebra de MCO

β̂ MCO = (X ′ X )−1 X ′ y

Prueba: Planteemos el problema de minimización como

β̂ MCO = argmin u (b )′ u (b ) = argmin (y − X b )′ (y − X b )


b ∈ RK + 1 b ∈ RK + 1 )

= argmin y ′ y + b ′ X ′ X b − 2b ′ X ′ y .
 
b ∈ RK + 1

Estamos definiendo u (b ) ≡ y − X b. Tenemos que tomar derivadas con respecto a


b ∈ RK +1 , un vector (K + 1) × 1. La solución es un vector (K + 1) × 1 de condiciones
de primer orden (hay reglas especı́ficas para derivar vectores y matrices). Entonces,
2X ′ X b − 2X ′ y = 0K +1 , donde 0K +1 es un vector (K + 1) × 1 de ceros. Finalmente,
X ′ y = X ′ X b, ⇒ β̂ MCO = (X ′ X )−1 X ′ y . Hay que chequear también las condiciones de
segundo orden (para mı́nimo). Tomando la segunda derivada tenemos, 2X ′ X que es
una matriz positiva semidefinida (chequear).

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Álgebra de MCO

Otra forma de verlo es que las condiciones de momento se pueden expresar como:

X ′ u ( β̂ MCO ) = X ′ (y − X β̂ MCO ) = 0K +1 .

Entonces, X ′ y = X ′ X β̂ MCO . Este es un sistema de ecuaciones lineales, no


homogéneo. Para que tenga solución los coeficientes de las ecuaciones, dados por
X ′ X , no pueden ser linealmente dependientes. O sea el determinante no puede ser
cero. Entonces,

⇒ β̂ MCO = (X ′ X )−1 X ′ y .

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Regresores estocásticos

En la práctica si estamos dispuestos a asumir que tenemos una muestra


aleatoria, esta muestra deberı́a contener factores aleatorios en todas las
variables, {yi , x i }N
i =1 .
Como vamos a ver todo modelo de regresión tiene el objetivo de estimar una
esperanza condicional, E (y |x) = β 0 + β 1 x1 + ... + β K xK , donde x es el conjunto
de todas las K variables explicativas (o K + 1 si hay una constante).
“Condicionar” en una variable aleatoria es hacerla “fija”. En teorı́a de la
probabilidad se basa en la definición de probabilidad condicional. También
significa que el elemento resultante es una función de aquello que
condicionamos. Ası́, E (y |x) es una función estocástica de x, dado que la
aleatoriedad de y ya fue resuelta.
R
Detalle tećnico.
R La esperanza no condicional de y es E (y ) = yf (y )dy . La condicional de y dado x es
E (y |x ) = yf (y |x )dy . f (y |x ) es la densidad condicional que nos da la distribución de y para cualquier
valor de x.

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Esperanzas condicionales
Toda variable aleatoria y se puede descomponer en dos partes ortogonales entre
sı́:
y = E (y |x ) + u,

donde
(i) E (u |x ) = 0,
(ii) E (h(x )u ) = 0 para cualquier función h(.).
Prueba: (i) Definamos u ≡ y − E (y |x ). Tomando esperanzas E (u |x ) = E (y |x ) − E (y |x ) = 0. (ii) Usando
la ley de esperanzas iteradas E (h(x )u ) = E (E (h(x )u |x )) = E (h(x )E (u |x ) = 0.

Un resultado importante es que E (u |x ) = 0 implica que E (u ) = 0. Esto es por


la ley de esperanzas iteradas que dice que Eu (u ) = Ex [Eu (u |x )], donde la
primera esperanza es con respecto a u y la segunda a x.
También E (u |x ) = 0 implica que E (xu ) = 0. Prueba: Si multiplicamos ambos lados de la
primera igualdad por x tenemos xE (u |x ) = x0, que implica E (xu |x ) = 0. Luego aplicando esperanzas
iteradas, E [E (xu |x )] = E (xu ) = E [0] = 0.

Entonces, Cov (x, u ) ≡ E (x ′ u ) − E (x )′ E (u ) = 0.


Es decir, el supuesto E (u |x ) = 0 implica que los errores u de un modelo de
regresión no están correlacionados con las x.

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Esperanzas condicionales

La esperanza condicional es la solución al problema de minimización del valor


esperado de las desviaciones al cuadrado, o sea
E (y |x ) = argmin E ((y − m(x ))2 ) donde m(.) representa todas las posibles
m (x )
funciones de x.
Prueba: (y − m(x ))2 = ((y − E (y |x )) + (E (y |x ) − m(x )))2 =
(y − E (y |x ))2 + (E (y |x ) − m(x ))2 + 2 (y − E (y |x ))(E (y |x ) − m(x )). Notemos que el primer término no
depende de m(x ), mientras que el tercero se puede escribir como u (x )(E (y |x ) − m(x )) = u (x )h(x ). Si
tomamos la esperanza condicional del tercero tenemos 0 por (ii).

Esto significa que cada vez que usamos MCO estamos en realidad estimando
una esperanza condicional.
Sin embargo, no sabemos la forma funcional de E (y |x ).

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Esperanzas condicionales
Para cualquier variable aleatoria y , tenemos la proyección poblacional sobre el
espacio generado por las x, r (x ) = x β donde

β = argmin E ((y − xb )2 ).
b ∈ RK + 1

Si la esperanza condicional es lineal, entonces E (y |x ) = x β. Esta forma de ver


los modelos como resultado de minimizaciones de esperanzas se llama modelo
poblacional.
Lo mismo visto desde el modelo muestral se escribe como

N
β̂ = argmin EN ((y − xb )2 ) = argmin ∑ (yi − b0 − b1 x1i − ... − bK xKi )2 ,
b ∈ RK + 1 b ∈ RK + 1 i =1

i =1 definimos EN a = ∑N
1
donde para secuencia {ai }N N i =1 ai . Entonces, tenemos
β̂ = (EN x ′ x )−1 (EN x ′ y ).
Cada vez que corremos una regresión estamos estimando E (y |x ) = x β
asumiendo que es lineal en los parámetros. Conviene entonces decir que
estamos estimando una esperanza condicional.

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Teorema Gauss-Markov

Supuesto 1: Lineal en parámetros La variable dependiente y se relaciona con x


por una función lineal, y = β 0 + β 1 x1 + ... + β K xK + u.
Supuesto 2: Muestreo aleatorio {(yi , x1i , ..., xKi )}, i = 1, 2, ...N es una muestra
aleatoria del modelo del Supuesto 1.
Supuesto 3: Ausencia de colinealidad perfecta en X Para esto necesitamos que
(X ′ X ) sea no singular o rango (X ′ X ) = K + 1 (notar que esto implica que
(K + 1) ≤ N). Condición necesaria y suficiente para esto es que no haya una
relación lineal exacta entre los regresores (no confundir con multicolinealidad en
general).
Supuesto 4: Media condicional cero E [u |x ] = 0.

MCO es insesgado E [ β̂ j |x ] = β j , j = 0, 1, 2, ..., K o E [ β̂|x ] = β donde β es el vector


de todos los parámetros.
Prueba: E [ β̂ MCO |x ] = E [(X ′ X )−1 X ′ y |x ] = E [(X ′ X )−1 X ′ (X β + u ) |x ] =
E [(X ′ X )−1 (X ′ X ) β|x ] + E [(X ′ X )−1 X ′ u |x ] = β + (X ′ X )−1 X ′ E [u |x ] = β. Especificar
donde se usa cada supuesto explı́citamente.

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Teorema Gauss-Markov

Supuesto 5: Homocedasticidad Var [u |x ] = σ2 I N

Teorema Gauss-Markov: Bajo los Supuestos 1-5, los estimadores MCO ( β̂ 0 , β̂ 1 , ..., β̂ K )
son los mejores estimadores lineales insesgados (MELI) de ( β 0 , β 1 , ..., β K ). Note:
MEJOR significa mı́nima varianza dentro de la familia de estimadores lineales
insesgados. En inglés es BLUE, best linear unbiased estimator.

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Varianza de MCO

En notación matricial tenemos Var ( β̂|x ) = σ2 (X ′ X )−1

Prueba:
Var ( β̂|x ) = Var [(X ′ X )−1 X ′ y |x ] = (X ′ X )−1 X ′ Var [y |x ]X (X ′ X )−1 =
(X ′ X ) −1 X ′ σ 2 X (X ′ X ) −1 = σ 2 (X ′ X ) −1 X ′ X (X ′ X ) −1 = σ 2 (X ′ X ) −1
Notar que Var (y |x ) = Var (X β + u |x ) = Var (y |x ) = σ2 I N por el supuesto de homocedasticidad. Definamos la
matriz N × N de varianzas y covarianzas de los errores como
Ω = Var (u |x ) = E [uu ′ |x ] + E [u |x ]E [u ′ |X ] = E [uu ′ |x ] (¿por qué?).
Ω juega un rol central para analizar la varianza. Con los supuestos de Gauss-Markov,
u12
  2
u1 u2 ... u1 uN 0 ... 0
 
σ
 u2 u1 u22 ... u2 uN   0 σ2 ... 0 
Ω = E [uu ′ |x ] = E  = σ2 I N .
   
. . . .  =  .. . . . 
  
. . .. . . .. . 
 . . .   . . . 
uN u1 uN u2 ... 2
uN 0 0 ... σ2
En general, para los estimadores MCO podemos escribir la varianza como una forma sandwich,

Var ( β̂|x ) = Var ((X ′ X )−1 X ′ u |x ) = E [(X ′ X )−1 X ′ uu ′ X (X ′ X )−1 |x ]

= (X ′ X )−1 E [X ′ uu ′ X |x ](X ′ X )−1 = (X ′ X )−1 X ′ Var (u |x )X (X ′ X )−1

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Simulación de la varianza en STATA

clear
set more off
set obs 100
gen x1=rnormal(0,1)
gen x2=rnormal(0,1) + x1
gen u=rnormal(0,1)
gen y=1+1*x1+1*x2+u
reg y x1 x2

mat list e(b)


mat list e(V)

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Simulación de la varianza usando bootstrap en STATA

clear
set more off
global N=100 /*tama~
no de la muestra*/
global M=100 /*nro de simulaciones*/
set obs $N
gen x1=rnormal(0,1)
gen x2=rnormal(0,1)+x1
gen u=rnormal(0,1)
gen y=1+1*x1+1*x2+u

bootstrap, reps($M): reg y x1 x2


mat list e(b bs)
mat list e(V)

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Teorema Gauss-Markov (prueba)


Un estimador lineal requiere que sea una combinación lineal de los elementos de y .
Esta restricción no es necesaria de acuerdo al nuevo paper de Hansen (2022). Sin embargo, todos los estimadores
que podemos derivar fácilmente cumplen con esta propiedad y no nos estamos perdiendo nada.
Definamos C = (X ′ X )−1 X ′ + D donde D es una matriz no nula (K + 1) × N, no
estocástica (puede depender de x). Ahora definamos β̃ = C y como otro estimador
(no necesariamente MCO, pero lineal).

E [ β̃|x ] = E [C y |x ] = E [C (X β + u )|x ] = β + E [DX β|x ] + E [C u |x ]


= (I K +1 + DX ) β.
Para que sea insesgado debemos tener DX = 0(K +1)×(K +1) . Notar que
E [C u |x ] = 0K ×1 . Ahora calculemos la varianza, siempre condicional en x,

Var [ β̃|x ] = Var [C y |x ] = C Var (y |X )C ′ = σ2 C C ′ = σ2 ((X ′ X )−1 X ′ + D )((X ′ X )−1 X ′ + D )′

= σ2 (X ′ X )−1 + σ2 DD ′ = Var [ β̂ MCO |x ] + σ2 DD ′ .


Dado que DD ′ es una matriz positiva semidefinida, tenemos el resultado:
Var [ β̃|x ] − Var [ β̂ MCO |x ] es una matriz positiva semidefinida.
Notar que solo MCO no tiene forma sandwich: (X ′ X )−1 × ALGO × (X ′ X )−1 . Esto es un punto central para
detectar eficiencia.

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Teorema Gauss-Markov

Podemos plantear también una prueba constructiva. Ver Johnston y DiNardo (1996).

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Teorema Gauss-Markov

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Teorema Gauss-Markov

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Teorema Gauss-Markov
Bruce Hansen (2022) “A Modern Gauss-Markov Theorem”:

“The development of least squares and the Gauss-Markov Theorem involved a series
of contributions from some of the most influential probabilists of the nineteenth thru
early twentieth centuries. The method of least squares was introduced by Adrien
Marie Legendre (1805) as essentially an algorithmic solution to the problem of fitting
coefficients when there are more equations than unknowns. This was quickly followed
by Carl Friedrich Gauss (1809), who provided a probabilistic foundation. Gauss
proposed that the equation errors be treated as random variables, and showed that if
their density takes the form we now call “normal” or “Gaussian” then the maximum
likelihood estimator of the coefficient equals the least squares estimator. Shortly
afterward, Pierre Simon Laplace (1811) justified this choice of density function by
showing that his central limit theorem implied that linear estimators are approximately
normally distributed in large samples, and that in this context the lowest variance
estimator is the least squares estimator. Gauss (1823) synthesized these results and
showed that the core result only relies on the first and second moments of the
observations and holds in finite samples. Andrei Andreevich Markov (1912) provided a
textbook treatment of the theorem, and clarified the central role of unbiasedness,
which Gauss had only assumed implicitly. Finally, Alexander Aitken (1935) generalized
the theorem to cover the case of arbitrary but known covariance matrices. This
history, and other details, are documented in Plackett (1949) and Stigler (1986).”

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Teorema Gauss-Markov

Bruce Hansen (2022) “A Modern Gauss-Markov Theorem”: Un nuevo resultado en la


econometrı́a determina que MCO no solo es MELI (BLUE), sino también MEI (BUE).
Es decir, no es necesario que sea “lineal”.

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Análisis de varianza

Definiciones...
Suma de Cuadrados Totales (SCT): ∑N i =1 (yi − ȳ )
2

− N
⇒ Variación total en y ; Var (y ) = N ∑ (yi − ȳ )2
\ 1
i =1

Suma de Cuadrados Explicados (SCE): ∑N i =1 (ŷi − ȳ )


2

⇒ Variación en y explicada por el modelo


Suma de Cuadrados Residuales (SCR): ∑N 2 N 2
i =1 (yi − ŷi ) = ∑i =1 ûi
⇒ Variación total en u
Se puede probar que: SCT=SCE+SCR

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

R2

Definición: El R − cuadrado o R 2 de una regresión es la fracción de la variación en y


que es explicada por X , el modelo lineal propuesto.

∑N
i =1 (ŷi − ȳ )
2
R2 = N
= SCE /SCT = 1 − SCR/SCT
∑i =1 (yi − ȳ )2

0 ≤ R2 ≤ 1

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Precaución

Cuantas más variables explicativas se usan en el modelo, mayor va ser el R 2 . ¿Por


qué? Las X s ayudan a explicar la variación en y siempre, aún cuando sean irrelevantes.

Nunca hay que juzgar un modelo en base al R 2 .

Los valores de R 2 dependen del tipo de problema y de la experiencia...

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

R 2 ajustado

Definición: R̄ 2 o R 2 ajustado es un estadı́stico como el R 2 pero donde se penaliza por


la inclusión de variables.

SCR/(N − K − 1)
R̄ 2 = 1 −
SCT /(N − 1)

¡Ahora perdemos la interpretación de 0 ≤ R̄ 2 ≤ 1!

Nota: R̄ 2 se incrementa sólo si la variable adicional tiene un valor t mayor a uno en


valor absoluto. Se puede usar como criterio de selección.

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Varianza de MCO

Teorema: Bajo los Supuestos 1-5 de Gauss Markov,

σ2
Var ( β̂ j |x ) = , j = 1, ..., K
SCTj (1 − Rj2 )

donde SCTj = ∑N 2 2
i =1 (xji − x̄j ) es la variación total en xj y Rj es el R-cuadrado de una
regresión de xj en todas las otras variables (inluyendo el intercepto)
{1, x1 , ..., xj −1 , xj +1 , ..., xK }.

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Contrastes de hipótesis simples

Tomemos la hipótesis nula H0 : β j = β j0 , j = 0, 1, ..., K


contra la hipótesis alternativa HA : β j ̸= β j0

(si H0 : β j = 0 es verdad entonces no hay relación lineal entre y con xj , luego de


controlar por el efecto de las otras variables.)

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Contrastes de hipótesis simples

Bajo H0 : β j = β j0 y asumiendo que u ∼ Normal (0, σ2 ), tiene distribución


normal estándar, tenemos que

\
( β̂ j − β j0 )/se ( β̂ j ) ∼ tN −K

donde se (.) es error estándar (raı́z cuadrada de la varianza) y tN −K −1 es una


distribución t con grados de libertad N − K − 1.
¿De dónde viene N − K − 1? De que tenemos N observaciones y estimamos
K + 1 parámetros. La variable aleatoria t − Student tiene colas mas anchas
cuanto menos grados de libertad tiene. Por otro lado cuando los grados de
libertad tienden a infinito, la distribución t se vuelve igual a la normal/gaussiana.
Para obtener Var ( β̂|X ) necesitamos un estimador de σ2 , la varianza del error, la
cual también necesita ser estimada.

∑N 2
i =1 ûi
σ̂2 =
N −K −1
Se puede probar que E (σ̂2 |x ) = σ2 .

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Contrastes de hipótesis múltiples

Se pueden contrastar hipótesis como H0 : β 1 = 0, β 2 = 0,


o como H0 : β 1 = β 2 .
Estas hipótesis se contrastan con test F.

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Contrastes de hipótesis múltiples

En general, si tenemos un modelo con K variables independientes (más una


constante), pero queremos testear por Q restricciones lineales (no perfectamente
colineales entre sı́), se define
ur (unrestricted model) modelo sin restricciones (K variables)
r (restricted model) modelo con las restricciones (el modelo estimado satisfaciendo
todas las Q restricciones)
Entonces:
2 − R 2 ) /Q
(Rur r
F = 2 ) / (N − K − 1)
∼ F (Q, N − K − 1)
(1 − Rur

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Contraste para la significancia del modelo

Supongamos que nos interesa: H0 : β 1 = ... = β K = 0


En este caso Q = K , el número de restricciones es igual al número de variables
explicativas (excepto la constante).
Entonces el estadı́stico F es:

R 2 /K
F = ∼ F (K , N − K − 1)
(1 − R 2 ) / (N − K − 1)

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Ejemplo: Efecto de fumar sobre el peso de los recién


nacidos

Consideremos la siguiente regresión:

bwght = β 0 + β 1 cigs + β 2 parity + β 3 faminc


+ β 4 motheduc + β 5 fatheduc + u

donde
bwght: birth weight, in pounds;
cigs: average number of cigarettes the mother smoked per day during pregnancy;
parity: birth order of the child;
faminc: annual family income;
motheduc: years of schooling of the mother;
fatheduc: years of schooling of the father.

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Ejemplo: Efecto de fumar sobre el peso de los recién


nacidos

use http://fmwww.bc.edu/ec-p/data/wooldridge/bwght, clear


reg bwght cigs parity faminc motheduc fatheduc

STATA
bwght Coef. Std. Err. t P > |t |
cigs -.5959362 .1103479 -5.401 0.000
parity 1.787603 .6594055 2.711 0.007
faminc .0560414 .0365616 1.533 0.126
motheduc -.3704503 .3198551 -1.158 0.247
fatheduc .4723944 .2826433 1.671 0.095
cons 114.5243 3.728453 30.716 0.000
http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge4.html

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Ejemplo: Efecto de fumar sobre el peso de los recién


nacidos

Si quisieramos hacer un contraste de H0 : β 4 = 0, β 5 = 0

test motheduc fatheduc

(1) motheduc = 0.0


(2) fatheduc = 0.0
F( 2, 1185) = 1.44
Prob > F = 0.2380

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Ejemplo: Efecto de fumar sobre el peso de los recién


nacidos

El estadı́stico F se puede construir a mano:

reg bwght cigs parity faminc motheduc fatheduc


scalar R2ur=e(r2) (guarda Rur2 )

reg bwght cigs parity faminc if fatheduc∼=.


scalar R2r=e(r2) (guarda Rr2 )
2 − R 2 ) /Q
(Rur r
F = 2
∼ F (Q, N − K − 1)
(1 − Rur )/(N − K − 1)
scalar F=(R2ur-R2r)/2/(1-R2ur)*(e(N)-5-1) (estadı́stico F)
scalar pvalueF=Ftail(2,e(N)-5-1,F)(obtiene el p-valor)
display "F statistic : " F
display "p-value : " pvalueF

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Ejemplo: Efecto de fumar sobre el peso de los recién


nacidos

Supongamos que queremos testear la siguiente hipótesis: H0 : β 4 = β 5

test motheduc=fatheduc
...

reg bwght cigs parity faminc motheduc fatheduc


scalar R2ur=e(r2) (guarda Rur2 )

gen mfeduc=matheduc+fatheduc
reg bwght cigs parity faminc mfeduc
scalar R2r=e(r2) (guarda Rr2 )
scalar F=(R2ur-R2r)/1/(1-R2ur)∗(e(N)-5-1) (estadı́stico F)

scalar pvalueF=Ftail(2,e(N)-5-1,F)(obtiene el p-valor)


display "F statistic : " F
display "p-value : " pvalueF

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Regresiones en R
Ejemplo de la base bwght del libro de Wooldridge.

i n s t a l l . packages ( ” w o o l d r i d g e ” )
l i b r a r y ( wooldridge )
summary ( lm ( bwght ˜ c i g s+p a r i t y+f a m i n c+motheduc+f a t h e d u c , d a t a=bwght ) )

Call :
lm ( f o r m u l a = bwght ˜ c i g s + p a r i t y + f a m i n c + motheduc + f a t h e d u c ,
d a t a = bwght )

Residuals :
Min 1Q Median 3Q Max
−95.796 −11.960 0.643 12.679 150.879

Coefficients :
E s t i m a t e Std . E r r o r t v a l u e Pr (>| t | )
( I n t e r c e p t ) 114.52433 3.72845 3 0 . 7 1 6 < 2 e−16 ∗∗∗
cigs −0.59594 0.11035 −5.401 8 . 0 2 e−08 ∗∗∗
parity 1.78760 0.65941 2.711 0 . 0 0 6 8 1 ∗∗
faminc 0.05604 0.03656 1.533 0.12559
motheduc −0.37045 0.31986 −1.158 0 . 2 4 7 0 2
fatheduc 0.47239 0.28264 1.671 0.09492 .
−−−
S i g n i f . codes : 0 ∗∗∗ 0.001 ∗∗ 0.01 ∗ 0.05 . 0.1 1

R e s i d u a l s t a n d a r d e r r o r : 1 9 . 7 9 on 1185 d e g r e e s o f f r e e d o m
( 1 9 7 o b s e r v a t i o n s d e l e t e d due t o m i s s i n g n e s s )
M u l t i p l e R−s q u a r e d : 0.03875 , A d j u s t e d R−s q u a r e d : 0.03469
F−s t a t i s t i c : 9 . 5 5 3 on 5 and 1185 DF , p−v a l u e : 5 . 9 8 6 e−09

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Regresiones en R

i n s t a l l . p a c k a g e s ( ”AER” )
l i b r a r y (AER)

l i n e a r H y p o t h e s i s ( r e s u l t s , c ( ” motheduc=0” , ” f a t h e d u c =0” ) )

Linear hypothesis test

Hypothesis :
motheduc = 0
fatheduc = 0

Model 1 : r e s t r i c t e d model
Model 2 : bwght ˜ c i g s + p a r i t y + f a m i n c + motheduc + f a t h e d u c

Res . Df RSS Df Sum o f Sq F Pr(>F )


1 1187 465167
2 1185 464041 2 1125.7 1.4373 0.238

Gabriel Montes-Rojas Regresión múltiple


Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia

Regresiones en R

i n s t a l l . p a c k a g e s ( ”AER” )
l i b r a r y (AER)

r e s u l t s<−lm ( bwght ˜ c i g s+p a r i t y+f a m i n c+motheduc+f a t h e d u c , d a t a=bwght )


l i n e a r H y p o t h e s i s ( r e s u l t s , ” motheduc−f a t h e d u c =0” )

Linear hypothesis test

Hypothesis :
motheduc − f a t h e d u c = 0

Model 1 : r e s t r i c t e d model
Model 2 : bwght ˜ c i g s + p a r i t y + f a m i n c + motheduc + f a t h e d u c

Res . Df RSS Df Sum o f Sq F Pr(>F )


1 1186 465028
2 1185 464041 1 987.29 2.5212 0.1126

Gabriel Montes-Rojas Regresión múltiple

También podría gustarte