Regresion Multiple

Regresión múltiple
Gabriel V. Montes-Rojas
Gabriel Montes-Rojas Regresión múltiple

Estimación
Regresión múltiple Teorema Gauss-Markov
Inferencia
Tomemos el ejemplo de retornos a la educación en una ecuación de Mincer. Como se

imaginan, la educación no es el único determinante de los salarios. Otras variables que
pueden afectar salarios son:
Edad
Experiencia
Habilidad (¿empresarial?)
Sexo (¿por?)
Raza/nacionalidad (¿por?)
Por ejemplo, un modelo más cercano a la realidad es:
wage = β 0 + β 1 educ + β 2 exper + u

¿Cambia la interpretación de los coeficientes? Ahora β 1 es el efecto de educ sobre
salarios, manteniendo exper constante.

Estimación
Inferencia
En el modelo
wage = γ0 + γ1 educ + e,
si omitimos exper , y si educ y exper estan relacionadas, o sea exper (educ ), entonces,
∂E [wage |educ ]
γ1 =
∂educ
∂E [wage |educ, exper ] ∂E [wage |educ, exper ] ∂exper
= + ×
∂educ ∂exper ∂educ
¿Cuál es el problema? Si no controlamos por exper, estarı́amos estimando un efecto
de educ que no es el que queremos. Es el problema de variables omitidas que veremos
más adelante. Aparece el problema de la causalidad.

Estimación
Inferencia
wage = β 0 + β 1 educ + β 2 exper + u
∂E [wage |educ, exper ]

β1 =
∂educ
Ahora β 1 es el efecto de educ sobre wage, manteniendo exper constante. Incluyendo
exper en el modelo, podemos medir el efecto de educ sin confundirlo con el efecto de
exper.
Nota: En Economı́a esto se usa mucho: ceteris paribus, dejando todo lo demás
constante.

Estimación
Inferencia
Usemos ahora el modelo más general con K variables explicativas. Lo llamamos de

regresión múltiple.
y = β 0 + β 1 x1 + β 2 x2 + ... + β K xK + u
Entonces para cada observación i tenemos
yi = β 0 + β 1 x1i + β 2 x2i + ... + β 1 xKi

Vamos a usar la notación xji donde j representa la variable (j = 0, 1, 2, ..., K ) e i la
observación (i = 0, 1, 2, ..., N ).
Tenemos K + 1 variables explicativas, incluyendo una constante, es decir, siempre con
valor 1. En notación matricial tenemos x = (1, x1 , x2 , ..., xK ) que es un vector
1 × (K + 1) y β = ( β 0 , β 1 , ..., β K )′ es un vector (K + 1) × 1, entonces
y = xβ + u
o para la observación i
yi = x i β + ui

Estimación
Inferencia
Álgebra de MCO
El estimador de MCO es
N
β̂ MCO = argmin ∑ (yi − b0 − b1 x1i − ... − bK xKi )2
b ∈R K +1i =1
Para la minimización tomamos derivadas con respecto a b = (b0 , b1 , ..., bK ), lo cual
nos da las siguientes condiciones de primer orden:
N
∑ xji (yi − β̂0 − β̂1 x1i − ... − β̂K xKi ) = 0, j = 0, 1, 2, ..., K .
i =1
Al igual que con la regresión simple podemos pensar la solución como un método de
momentos:
Momentos en la población
E [xj u ] = E [xj (y − β 0 − β 1 x1 − ... − β K xK )] = 0
j = 0, 1, 2, ..., K
(donde x0 = 1 es una constante)
Momentos en la muestra (CPO de la minimización)
N −1 ∑ N i =1 xji (yi − β̂ 0 − β̂ 1 x1i − ... − β̂ K xKi ) = 0
j = 0, 1, 2, ..., K
En ambos casos tenemos un sistema de ecuaciones con K + 1 ecuaciones y K + 1
parámetros.
Estimación
Inferencia
Álgebra de MCO
β̂ MCO = (X ′ X )−1 X ′ y
donde:
X es una matriz N × (K + 1), que contiene en cada una de las N filas la
observación i y en cada una de las (K + 1) columnas los parámetros.
Nota: x0i = 1 para todo i = 1, 2, ..., N;
y es un vector N × 1, que contiene la variable dependiente;
... ası́ (X ′ X ) es una matriz (K + 1) × (K + 1); ′ representa la
transpuesta de una matriz;
... (X ′ X )−1 es una matriz (K + 1) × (K + 1), la inversa de (X ′ X );
... (X ′ X )−1 X ′ y es un vector (K + 1) × 1.

Estimación
Inferencia
Álgebra de MCO
En detalle, las matrices y vectores son:

1 x11 . . . xK 1 y1 u1
       
β1
 1 x12 . . . xK 2   y2   u2   β2 
X = . .. .. .. , y =  .. , u =  .. , β =  . ,
       
 .. . . .   .   .   .. 
1 x1N . . . xKN yN uN βK
∑N ∑N ∑N
   
N i =1 x1i ... i =1 xKi i =1 yi
 ∑N x ∑ N
x 2 . . . ∑ N  ∑N x y 
i =1 x1i xKi

i =1 1i i =1 1i i =1 1i i 
′ , X ′ y = 
  
X X =  .. .. .. ..   .. .

 . . . .   . 
∑Ni =1 xKi ∑ N
i =1 x Ki x 1i . . . ∑ N 2
i =1 xKi
N
∑i =1 xKi yi
′ − 1
La expresión para (X X ) requiere repasar cómo se calcula la inversa de una matriz.
MCO como ratio de sumatorias: También se puede llegar a la siguiente expresión
−1
muy útil β̂ MCO = ∑N ′ ′
i =1 x i x i ∑N
i =1 x i yi .
Ejercicio: Resolver analı́ticamente para K = 1 (regresión simple) y K = 2 usando

álgebra matricial y luego resolviendo las condiciones de primer orden.

Estimación
Inferencia
Álgebra de MCO
β̂ MCO = (X ′ X )−1 X ′ y
Prueba: Planteemos el problema de minimización como
β̂ MCO = argmin u (b )′ u (b ) = argmin (y − X b )′ (y − X b )

b ∈ RK + 1 b ∈ RK + 1 )
= argmin y ′ y + b ′ X ′ X b − 2b ′ X ′ y .

b ∈ RK + 1
Estamos definiendo u (b ) ≡ y − X b. Tenemos que tomar derivadas con respecto a

b ∈ RK +1 , un vector (K + 1) × 1. La solución es un vector (K + 1) × 1 de condiciones
de primer orden (hay reglas especı́ficas para derivar vectores y matrices). Entonces,
2X ′ X b − 2X ′ y = 0K +1 , donde 0K +1 es un vector (K + 1) × 1 de ceros. Finalmente,
X ′ y = X ′ X b, ⇒ β̂ MCO = (X ′ X )−1 X ′ y . Hay que chequear también las condiciones de
segundo orden (para mı́nimo). Tomando la segunda derivada tenemos, 2X ′ X que es
una matriz positiva semidefinida (chequear).

Estimación
Inferencia
Álgebra de MCO
Otra forma de verlo es que las condiciones de momento se pueden expresar como:
X ′ u ( β̂ MCO ) = X ′ (y − X β̂ MCO ) = 0K +1 .
Entonces, X ′ y = X ′ X β̂ MCO . Este es un sistema de ecuaciones lineales, no

homogéneo. Para que tenga solución los coeficientes de las ecuaciones, dados por
X ′ X , no pueden ser linealmente dependientes. O sea el determinante no puede ser
cero. Entonces,
⇒ β̂ MCO = (X ′ X )−1 X ′ y .

Estimación
Inferencia
Regresores estocásticos
En la práctica si estamos dispuestos a asumir que tenemos una muestra

aleatoria, esta muestra deberı́a contener factores aleatorios en todas las
variables, {yi , x i }N
i =1 .
Como vamos a ver todo modelo de regresión tiene el objetivo de estimar una
esperanza condicional, E (y |x) = β 0 + β 1 x1 + ... + β K xK , donde x es el conjunto
de todas las K variables explicativas (o K + 1 si hay una constante).
“Condicionar” en una variable aleatoria es hacerla “fija”. En teorı́a de la
probabilidad se basa en la definición de probabilidad condicional. También
significa que el elemento resultante es una función de aquello que
condicionamos. Ası́, E (y |x) es una función estocástica de x, dado que la
aleatoriedad de y ya fue resuelta.
R
Detalle tećnico.
R La esperanza no condicional de y es E (y ) = yf (y )dy . La condicional de y dado x es
E (y |x ) = yf (y |x )dy . f (y |x ) es la densidad condicional que nos da la distribución de y para cualquier
valor de x.

Estimación
Inferencia
Esperanzas condicionales
Toda variable aleatoria y se puede descomponer en dos partes ortogonales entre
sı́:
y = E (y |x ) + u,
donde
(i) E (u |x ) = 0,
(ii) E (h(x )u ) = 0 para cualquier función h(.).
Prueba: (i) Definamos u ≡ y − E (y |x ). Tomando esperanzas E (u |x ) = E (y |x ) − E (y |x ) = 0. (ii) Usando
la ley de esperanzas iteradas E (h(x )u ) = E (E (h(x )u |x )) = E (h(x )E (u |x ) = 0.
Un resultado importante es que E (u |x ) = 0 implica que E (u ) = 0. Esto es por

la ley de esperanzas iteradas que dice que Eu (u ) = Ex [Eu (u |x )], donde la
primera esperanza es con respecto a u y la segunda a x.
También E (u |x ) = 0 implica que E (xu ) = 0. Prueba: Si multiplicamos ambos lados de la
primera igualdad por x tenemos xE (u |x ) = x0, que implica E (xu |x ) = 0. Luego aplicando esperanzas
iteradas, E [E (xu |x )] = E (xu ) = E [0] = 0.
Entonces, Cov (x, u ) ≡ E (x ′ u ) − E (x )′ E (u ) = 0.

Es decir, el supuesto E (u |x ) = 0 implica que los errores u de un modelo de
regresión no están correlacionados con las x.

Estimación
Inferencia
La esperanza condicional es la solución al problema de minimización del valor

esperado de las desviaciones al cuadrado, o sea
E (y |x ) = argmin E ((y − m(x ))2 ) donde m(.) representa todas las posibles
m (x )
funciones de x.
Prueba: (y − m(x ))2 = ((y − E (y |x )) + (E (y |x ) − m(x )))2 =
(y − E (y |x ))2 + (E (y |x ) − m(x ))2 + 2 (y − E (y |x ))(E (y |x ) − m(x )). Notemos que el primer término no
depende de m(x ), mientras que el tercero se puede escribir como u (x )(E (y |x ) − m(x )) = u (x )h(x ). Si
tomamos la esperanza condicional del tercero tenemos 0 por (ii).
Esto significa que cada vez que usamos MCO estamos en realidad estimando
una esperanza condicional.
Sin embargo, no sabemos la forma funcional de E (y |x ).

Estimación
Inferencia
Para cualquier variable aleatoria y , tenemos la proyección poblacional sobre el
espacio generado por las x, r (x ) = x β donde
β = argmin E ((y − xb )2 ).
b ∈ RK + 1
Si la esperanza condicional es lineal, entonces E (y |x ) = x β. Esta forma de ver

los modelos como resultado de minimizaciones de esperanzas se llama modelo
poblacional.
Lo mismo visto desde el modelo muestral se escribe como
N
β̂ = argmin EN ((y − xb )2 ) = argmin ∑ (yi − b0 − b1 x1i − ... − bK xKi )2 ,
b ∈ RK + 1 b ∈ RK + 1 i =1
i =1 definimos EN a = ∑N
1
donde para secuencia {ai }N N i =1 ai . Entonces, tenemos
β̂ = (EN x ′ x )−1 (EN x ′ y ).
Cada vez que corremos una regresión estamos estimando E (y |x ) = x β
asumiendo que es lineal en los parámetros. Conviene entonces decir que
estamos estimando una esperanza condicional.

Estimación
Inferencia
Teorema Gauss-Markov
Supuesto 1: Lineal en parámetros La variable dependiente y se relaciona con x

por una función lineal, y = β 0 + β 1 x1 + ... + β K xK + u.
Supuesto 2: Muestreo aleatorio {(yi , x1i , ..., xKi )}, i = 1, 2, ...N es una muestra
aleatoria del modelo del Supuesto 1.
Supuesto 3: Ausencia de colinealidad perfecta en X Para esto necesitamos que
(X ′ X ) sea no singular o rango (X ′ X ) = K + 1 (notar que esto implica que
(K + 1) ≤ N). Condición necesaria y suficiente para esto es que no haya una
relación lineal exacta entre los regresores (no confundir con multicolinealidad en
general).
Supuesto 4: Media condicional cero E [u |x ] = 0.
MCO es insesgado E [ β̂ j |x ] = β j , j = 0, 1, 2, ..., K o E [ β̂|x ] = β donde β es el vector

de todos los parámetros.
Prueba: E [ β̂ MCO |x ] = E [(X ′ X )−1 X ′ y |x ] = E [(X ′ X )−1 X ′ (X β + u ) |x ] =
E [(X ′ X )−1 (X ′ X ) β|x ] + E [(X ′ X )−1 X ′ u |x ] = β + (X ′ X )−1 X ′ E [u |x ] = β. Especificar
donde se usa cada supuesto explı́citamente.

Estimación
Inferencia
Supuesto 5: Homocedasticidad Var [u |x ] = σ2 I N
Teorema Gauss-Markov: Bajo los Supuestos 1-5, los estimadores MCO ( β̂ 0 , β̂ 1 , ..., β̂ K )
son los mejores estimadores lineales insesgados (MELI) de ( β 0 , β 1 , ..., β K ). Note:
MEJOR significa mı́nima varianza dentro de la familia de estimadores lineales
insesgados. En inglés es BLUE, best linear unbiased estimator.

Estimación
Inferencia
Varianza de MCO
En notación matricial tenemos Var ( β̂|x ) = σ2 (X ′ X )−1
Prueba:
Var ( β̂|x ) = Var [(X ′ X )−1 X ′ y |x ] = (X ′ X )−1 X ′ Var [y |x ]X (X ′ X )−1 =
(X ′ X ) −1 X ′ σ 2 X (X ′ X ) −1 = σ 2 (X ′ X ) −1 X ′ X (X ′ X ) −1 = σ 2 (X ′ X ) −1
Notar que Var (y |x ) = Var (X β + u |x ) = Var (y |x ) = σ2 I N por el supuesto de homocedasticidad. Definamos la
matriz N × N de varianzas y covarianzas de los errores como
Ω = Var (u |x ) = E [uu ′ |x ] + E [u |x ]E [u ′ |X ] = E [uu ′ |x ] (¿por qué?).
Ω juega un rol central para analizar la varianza. Con los supuestos de Gauss-Markov,
u12
  2
u1 u2 ... u1 uN 0 ... 0
 
σ
 u2 u1 u22 ... u2 uN   0 σ2 ... 0 
Ω = E [uu ′ |x ] = E  = σ2 I N .
   
. . . .  =  .. . . . 
  
. . .. . . .. . 
 . . .   . . . 
uN u1 uN u2 ... 2
uN 0 0 ... σ2
En general, para los estimadores MCO podemos escribir la varianza como una forma sandwich,
Var ( β̂|x ) = Var ((X ′ X )−1 X ′ u |x ) = E [(X ′ X )−1 X ′ uu ′ X (X ′ X )−1 |x ]
= (X ′ X )−1 E [X ′ uu ′ X |x ](X ′ X )−1 = (X ′ X )−1 X ′ Var (u |x )X (X ′ X )−1

Estimación
Inferencia
Simulación de la varianza en STATA
clear
set more off
set obs 100
gen x1=rnormal(0,1)
gen x2=rnormal(0,1) + x1
gen u=rnormal(0,1)
gen y=1+1*x1+1*x2+u
reg y x1 x2
mat list e(b)

mat list e(V)

Estimación
Inferencia
Simulación de la varianza usando bootstrap en STATA
clear
set more off
global N=100 /*tama~
no de la muestra*/
global M=100 /*nro de simulaciones*/
set obs $N
gen x1=rnormal(0,1)
gen x2=rnormal(0,1)+x1
gen u=rnormal(0,1)
gen y=1+1*x1+1*x2+u
bootstrap, reps($M): reg y x1 x2

mat list e(b bs)
mat list e(V)

Estimación
Inferencia
Teorema Gauss-Markov (prueba)

Un estimador lineal requiere que sea una combinación lineal de los elementos de y .
Esta restricción no es necesaria de acuerdo al nuevo paper de Hansen (2022). Sin embargo, todos los estimadores
que podemos derivar fácilmente cumplen con esta propiedad y no nos estamos perdiendo nada.
Definamos C = (X ′ X )−1 X ′ + D donde D es una matriz no nula (K + 1) × N, no
estocástica (puede depender de x). Ahora definamos β̃ = C y como otro estimador
(no necesariamente MCO, pero lineal).
E [ β̃|x ] = E [C y |x ] = E [C (X β + u )|x ] = β + E [DX β|x ] + E [C u |x ]

= (I K +1 + DX ) β.
Para que sea insesgado debemos tener DX = 0(K +1)×(K +1) . Notar que
E [C u |x ] = 0K ×1 . Ahora calculemos la varianza, siempre condicional en x,
Var [ β̃|x ] = Var [C y |x ] = C Var (y |X )C ′ = σ2 C C ′ = σ2 ((X ′ X )−1 X ′ + D )((X ′ X )−1 X ′ + D )′
= σ2 (X ′ X )−1 + σ2 DD ′ = Var [ β̂ MCO |x ] + σ2 DD ′ .

Dado que DD ′ es una matriz positiva semidefinida, tenemos el resultado:
Var [ β̃|x ] − Var [ β̂ MCO |x ] es una matriz positiva semidefinida.
Notar que solo MCO no tiene forma sandwich: (X ′ X )−1 × ALGO × (X ′ X )−1 . Esto es un punto central para
detectar eficiencia.

Estimación
Inferencia
Podemos plantear también una prueba constructiva. Ver Johnston y DiNardo (1996).

Estimación
Inferencia

Estimación
Inferencia

Estimación
Inferencia
Bruce Hansen (2022) “A Modern Gauss-Markov Theorem”:
“The development of least squares and the Gauss-Markov Theorem involved a series
of contributions from some of the most influential probabilists of the nineteenth thru
early twentieth centuries. The method of least squares was introduced by Adrien
Marie Legendre (1805) as essentially an algorithmic solution to the problem of fitting
coefficients when there are more equations than unknowns. This was quickly followed
by Carl Friedrich Gauss (1809), who provided a probabilistic foundation. Gauss
proposed that the equation errors be treated as random variables, and showed that if
their density takes the form we now call “normal” or “Gaussian” then the maximum
likelihood estimator of the coefficient equals the least squares estimator. Shortly
afterward, Pierre Simon Laplace (1811) justified this choice of density function by
showing that his central limit theorem implied that linear estimators are approximately
normally distributed in large samples, and that in this context the lowest variance
estimator is the least squares estimator. Gauss (1823) synthesized these results and
showed that the core result only relies on the first and second moments of the
observations and holds in finite samples. Andrei Andreevich Markov (1912) provided a
textbook treatment of the theorem, and clarified the central role of unbiasedness,
which Gauss had only assumed implicitly. Finally, Alexander Aitken (1935) generalized
the theorem to cover the case of arbitrary but known covariance matrices. This
history, and other details, are documented in Plackett (1949) and Stigler (1986).”

Estimación
Inferencia
Bruce Hansen (2022) “A Modern Gauss-Markov Theorem”: Un nuevo resultado en la

econometrı́a determina que MCO no solo es MELI (BLUE), sino también MEI (BUE).
Es decir, no es necesario que sea “lineal”.

Estimación
Inferencia
Análisis de varianza
Definiciones...
Suma de Cuadrados Totales (SCT): ∑N i =1 (yi − ȳ )
2
− N
⇒ Variación total en y ; Var (y ) = N ∑ (yi − ȳ )2
\ 1
i =1
Suma de Cuadrados Explicados (SCE): ∑N i =1 (ŷi − ȳ )

2
⇒ Variación en y explicada por el modelo

Suma de Cuadrados Residuales (SCR): ∑N 2 N 2
i =1 (yi − ŷi ) = ∑i =1 ûi
⇒ Variación total en u
Se puede probar que: SCT=SCE+SCR

Estimación
Inferencia
R2
Definición: El R − cuadrado o R 2 de una regresión es la fracción de la variación en y

que es explicada por X , el modelo lineal propuesto.
∑N
i =1 (ŷi − ȳ )
2
R2 = N
= SCE /SCT = 1 − SCR/SCT
∑i =1 (yi − ȳ )2
0 ≤ R2 ≤ 1

Estimación
Inferencia
Precaución
Cuantas más variables explicativas se usan en el modelo, mayor va ser el R 2 . ¿Por

qué? Las X s ayudan a explicar la variación en y siempre, aún cuando sean irrelevantes.
Nunca hay que juzgar un modelo en base al R 2 .
Los valores de R 2 dependen del tipo de problema y de la experiencia...

Estimación
Inferencia
R 2 ajustado
Definición: R̄ 2 o R 2 ajustado es un estadı́stico como el R 2 pero donde se penaliza por

la inclusión de variables.
SCR/(N − K − 1)
R̄ 2 = 1 −
SCT /(N − 1)
¡Ahora perdemos la interpretación de 0 ≤ R̄ 2 ≤ 1!
Nota: R̄ 2 se incrementa sólo si la variable adicional tiene un valor t mayor a uno en

valor absoluto. Se puede usar como criterio de selección.

Estimación
Inferencia
Varianza de MCO
Teorema: Bajo los Supuestos 1-5 de Gauss Markov,
σ2
Var ( β̂ j |x ) = , j = 1, ..., K
SCTj (1 − Rj2 )
donde SCTj = ∑N 2 2
i =1 (xji − x̄j ) es la variación total en xj y Rj es el R-cuadrado de una
regresión de xj en todas las otras variables (inluyendo el intercepto)
{1, x1 , ..., xj −1 , xj +1 , ..., xK }.

Estimación
Inferencia

Estimación
Inferencia
Contrastes de hipótesis simples
Tomemos la hipótesis nula H0 : β j = β j0 , j = 0, 1, ..., K

contra la hipótesis alternativa HA : β j ̸= β j0
(si H0 : β j = 0 es verdad entonces no hay relación lineal entre y con xj , luego de

controlar por el efecto de las otras variables.)

Estimación
Inferencia
Contrastes de hipótesis simples
Bajo H0 : β j = β j0 y asumiendo que u ∼ Normal (0, σ2 ), tiene distribución

normal estándar, tenemos que
\
( β̂ j − β j0 )/se ( β̂ j ) ∼ tN −K
donde se (.) es error estándar (raı́z cuadrada de la varianza) y tN −K −1 es una

distribución t con grados de libertad N − K − 1.
¿De dónde viene N − K − 1? De que tenemos N observaciones y estimamos
K + 1 parámetros. La variable aleatoria t − Student tiene colas mas anchas
cuanto menos grados de libertad tiene. Por otro lado cuando los grados de
libertad tienden a infinito, la distribución t se vuelve igual a la normal/gaussiana.
Para obtener Var ( β̂|X ) necesitamos un estimador de σ2 , la varianza del error, la
cual también necesita ser estimada.
∑N 2
i =1 ûi
σ̂2 =
N −K −1
Se puede probar que E (σ̂2 |x ) = σ2 .

Estimación
Inferencia
Contrastes de hipótesis múltiples
Se pueden contrastar hipótesis como H0 : β 1 = 0, β 2 = 0,

o como H0 : β 1 = β 2 .
Estas hipótesis se contrastan con test F.

Estimación
Inferencia
Contrastes de hipótesis múltiples
En general, si tenemos un modelo con K variables independientes (más una

constante), pero queremos testear por Q restricciones lineales (no perfectamente
colineales entre sı́), se define
ur (unrestricted model) modelo sin restricciones (K variables)
r (restricted model) modelo con las restricciones (el modelo estimado satisfaciendo
todas las Q restricciones)
Entonces:
2 − R 2 ) /Q
(Rur r
F = 2 ) / (N − K − 1)
∼ F (Q, N − K − 1)
(1 − Rur

Estimación
Inferencia
Contraste para la significancia del modelo
Supongamos que nos interesa: H0 : β 1 = ... = β K = 0

En este caso Q = K , el número de restricciones es igual al número de variables
explicativas (excepto la constante).
Entonces el estadı́stico F es:
R 2 /K
F = ∼ F (K , N − K − 1)
(1 − R 2 ) / (N − K − 1)

Estimación
Inferencia
Ejemplo: Efecto de fumar sobre el peso de los recién

nacidos
Consideremos la siguiente regresión:
bwght = β 0 + β 1 cigs + β 2 parity + β 3 faminc

+ β 4 motheduc + β 5 fatheduc + u
donde
bwght: birth weight, in pounds;
cigs: average number of cigarettes the mother smoked per day during pregnancy;
parity: birth order of the child;
faminc: annual family income;
motheduc: years of schooling of the mother;
fatheduc: years of schooling of the father.

Estimación
Inferencia

nacidos
use http://fmwww.bc.edu/ec-p/data/wooldridge/bwght, clear

reg bwght cigs parity faminc motheduc fatheduc
STATA
bwght Coef. Std. Err. t P > |t |
cigs -.5959362 .1103479 -5.401 0.000
parity 1.787603 .6594055 2.711 0.007
faminc .0560414 .0365616 1.533 0.126
motheduc -.3704503 .3198551 -1.158 0.247
fatheduc .4723944 .2826433 1.671 0.095
cons 114.5243 3.728453 30.716 0.000
http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge4.html

Estimación
Inferencia

nacidos
Si quisieramos hacer un contraste de H0 : β 4 = 0, β 5 = 0
test motheduc fatheduc
(1) motheduc = 0.0

(2) fatheduc = 0.0
F( 2, 1185) = 1.44
Prob > F = 0.2380

Estimación
Inferencia

nacidos
El estadı́stico F se puede construir a mano:

scalar R2ur=e(r2) (guarda Rur2 )
reg bwght cigs parity faminc if fatheduc∼=.

scalar R2r=e(r2) (guarda Rr2 )
2 − R 2 ) /Q
(Rur r
F = 2
∼ F (Q, N − K − 1)
(1 − Rur )/(N − K − 1)
scalar F=(R2ur-R2r)/2/(1-R2ur)*(e(N)-5-1) (estadı́stico F)
scalar pvalueF=Ftail(2,e(N)-5-1,F)(obtiene el p-valor)
display "F statistic : " F
display "p-value : " pvalueF

Estimación
Inferencia

nacidos
Supongamos que queremos testear la siguiente hipótesis: H0 : β 4 = β 5
test motheduc=fatheduc
...

scalar R2ur=e(r2) (guarda Rur2 )
gen mfeduc=matheduc+fatheduc
reg bwght cigs parity faminc mfeduc
scalar R2r=e(r2) (guarda Rr2 )
scalar F=(R2ur-R2r)/1/(1-R2ur)∗(e(N)-5-1) (estadı́stico F)
scalar pvalueF=Ftail(2,e(N)-5-1,F)(obtiene el p-valor)

display "F statistic : " F
display "p-value : " pvalueF

Estimación
Inferencia
Regresiones en R
Ejemplo de la base bwght del libro de Wooldridge.
i n s t a l l . packages ( ” w o o l d r i d g e ” )
l i b r a r y ( wooldridge )
summary ( lm ( bwght ˜ c i g s+p a r i t y+f a m i n c+motheduc+f a t h e d u c , d a t a=bwght ) )
Call :
lm ( f o r m u l a = bwght ˜ c i g s + p a r i t y + f a m i n c + motheduc + f a t h e d u c ,
d a t a = bwght )
Residuals :
Min 1Q Median 3Q Max
−95.796 −11.960 0.643 12.679 150.879
Coefficients :
E s t i m a t e Std . E r r o r t v a l u e Pr (>| t | )
( I n t e r c e p t ) 114.52433 3.72845 3 0 . 7 1 6 < 2 e−16 ∗∗∗
cigs −0.59594 0.11035 −5.401 8 . 0 2 e−08 ∗∗∗
parity 1.78760 0.65941 2.711 0 . 0 0 6 8 1 ∗∗
faminc 0.05604 0.03656 1.533 0.12559
motheduc −0.37045 0.31986 −1.158 0 . 2 4 7 0 2
fatheduc 0.47239 0.28264 1.671 0.09492 .
−−−
S i g n i f . codes : 0 ∗∗∗ 0.001 ∗∗ 0.01 ∗ 0.05 . 0.1 1
R e s i d u a l s t a n d a r d e r r o r : 1 9 . 7 9 on 1185 d e g r e e s o f f r e e d o m
( 1 9 7 o b s e r v a t i o n s d e l e t e d due t o m i s s i n g n e s s )
M u l t i p l e R−s q u a r e d : 0.03875 , A d j u s t e d R−s q u a r e d : 0.03469
F−s t a t i s t i c : 9 . 5 5 3 on 5 and 1185 DF , p−v a l u e : 5 . 9 8 6 e−09

Estimación
Inferencia
Regresiones en R
i n s t a l l . p a c k a g e s ( ”AER” )
l i b r a r y (AER)
l i n e a r H y p o t h e s i s ( r e s u l t s , c ( ” motheduc=0” , ” f a t h e d u c =0” ) )
Linear hypothesis test
Hypothesis :
motheduc = 0
fatheduc = 0
Model 1 : r e s t r i c t e d model
Model 2 : bwght ˜ c i g s + p a r i t y + f a m i n c + motheduc + f a t h e d u c
Res . Df RSS Df Sum o f Sq F Pr(>F )

1 1187 465167
2 1185 464041 2 1125.7 1.4373 0.238

Estimación
Inferencia
Regresiones en R
i n s t a l l . p a c k a g e s ( ”AER” )
l i b r a r y (AER)
r e s u l t s<−lm ( bwght ˜ c i g s+p a r i t y+f a m i n c+motheduc+f a t h e d u c , d a t a=bwght )

l i n e a r H y p o t h e s i s ( r e s u l t s , ” motheduc−f a t h e d u c =0” )
Linear hypothesis test
Hypothesis :
motheduc − f a t h e d u c = 0
Model 1 : r e s t r i c t e d model
Model 2 : bwght ˜ c i g s + p a r i t y + f a m i n c + motheduc + f a t h e d u c
Res . Df RSS Df Sum o f Sq F Pr(>F )

1 1186 465028
2 1185 464041 1 987.29 2.5212 0.1126

Regresion Multiple

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion Multiple

Cargado por

Copyright:

Formatos disponibles

Regresión múltiple

Gabriel Montes-Rojas Regresión múltiple

Tomemos el ejemplo de retornos a la educación en una ecuación de Mincer. Como se

wage = β 0 + β 1 educ + β 2 exper + u

Gabriel Montes-Rojas Regresión múltiple

Gabriel Montes-Rojas Regresión múltiple

wage = β 0 + β 1 educ + β 2 exper + u

∂E [wage |educ, exper ]

Gabriel Montes-Rojas Regresión múltiple

Usemos ahora el modelo más general con K variables explicativas. Lo llamamos de

yi = β 0 + β 1 x1i + β 2 x2i + ... + β 1 xKi

Gabriel Montes-Rojas Regresión múltiple

Gabriel Montes-Rojas Regresión múltiple

En detalle, las matrices y vectores son:

Ejercicio: Resolver analı́ticamente para K = 1 (regresión simple) y K = 2 usando

Gabriel Montes-Rojas Regresión múltiple

Prueba: Planteemos el problema de minimización como

β̂ MCO = argmin u (b )′ u (b ) = argmin (y − X b )′ (y − X b )

Estamos definiendo u (b ) ≡ y − X b. Tenemos que tomar derivadas con respecto a

Gabriel Montes-Rojas Regresión múltiple

Entonces, X ′ y = X ′ X β̂ MCO . Este es un sistema de ecuaciones lineales, no

Gabriel Montes-Rojas Regresión múltiple

En la práctica si estamos dispuestos a asumir que tenemos una muestra

Gabriel Montes-Rojas Regresión múltiple

Un resultado importante es que E (u |x ) = 0 implica que E (u ) = 0. Esto es por

Entonces, Cov (x, u ) ≡ E (x ′ u ) − E (x )′ E (u ) = 0.

Gabriel Montes-Rojas Regresión múltiple

La esperanza condicional es la solución al problema de minimización del valor

Gabriel Montes-Rojas Regresión múltiple

Si la esperanza condicional es lineal, entonces E (y |x ) = x β. Esta forma de ver

Gabriel Montes-Rojas Regresión múltiple

Supuesto 1: Lineal en parámetros La variable dependiente y se relaciona con x

MCO es insesgado E [ β̂ j |x ] = β j , j = 0, 1, 2, ..., K o E [ β̂|x ] = β donde β es el vector

Gabriel Montes-Rojas Regresión múltiple

Supuesto 5: Homocedasticidad Var [u |x ] = σ2 I N

Gabriel Montes-Rojas Regresión múltiple

En notación matricial tenemos Var ( β̂|x ) = σ2 (X ′ X )−1

Var ( β̂|x ) = Var ((X ′ X )−1 X ′ u |x ) = E [(X ′ X )−1 X ′ uu ′ X (X ′ X )−1 |x ]

= (X ′ X )−1 E [X ′ uu ′ X |x ](X ′ X )−1 = (X ′ X )−1 X ′ Var (u |x )X (X ′ X )−1

Gabriel Montes-Rojas Regresión múltiple

Simulación de la varianza en STATA

mat list e(b)

Gabriel Montes-Rojas Regresión múltiple

Simulación de la varianza usando bootstrap en STATA

bootstrap, reps($M): reg y x1 x2

Gabriel Montes-Rojas Regresión múltiple

Teorema Gauss-Markov (prueba)

E [ β̃|x ] = E [C y |x ] = E [C (X β + u )|x ] = β + E [DX β|x ] + E [C u |x ]

Var [ β̃|x ] = Var [C y |x ] = C Var (y |X )C ′ = σ2 C C ′ = σ2 ((X ′ X )−1 X ′ + D )((X ′ X )−1 X ′ + D )′

= σ2 (X ′ X )−1 + σ2 DD ′ = Var [ β̂ MCO |x ] + σ2 DD ′ .

Gabriel Montes-Rojas Regresión múltiple

Gabriel Montes-Rojas Regresión múltiple

Gabriel Montes-Rojas Regresión múltiple

Gabriel Montes-Rojas Regresión múltiple

Gabriel Montes-Rojas Regresión múltiple

Bruce Hansen (2022) “A Modern Gauss-Markov Theorem”: Un nuevo resultado en la

Gabriel Montes-Rojas Regresión múltiple

Suma de Cuadrados Explicados (SCE): ∑N i =1 (ŷi − ȳ )

⇒ Variación en y explicada por el modelo

Gabriel Montes-Rojas Regresión múltiple

Definición: El R − cuadrado o R 2 de una regresión es la fracción de la variación en y

Gabriel Montes-Rojas Regresión múltiple

Cuantas más variables explicativas se usan en el modelo, mayor va ser el R 2 . ¿Por