Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión Lineal Múltiple
Regresión Lineal Múltiple
INTRODUCCIÓN
Un modelo de regresión donde interviene más de una variable exógena se llama modelo de
regresión lineal múltiple. En este capítulo se explica el ajuste y análisis de esos modelos. Los
resultados son extensiones de los que se obtuvieron en el capítulo 1 para la regresión lineal
simple.
Si cada una de las variables independientes toma el valor de cero, puede observarse de la
ecuación (3.1) que
E Y X 1 0,..., X k 0 0
Es decir, si la variable X 1 se incrementa en una unidad dejando fijas las demás variables, se
espera que la variable respuesta se incremente o disminuya en 1 unidades. En forma análoga
se interpretan los demás parámetros.
Como la relación lineal no es exacta, definamos la variable aleatoria i como la diferencia entre
la variable aleatoria Yi y su valor esperado dadas las variables independientes, es decir
Yi 0 1 x i1 2 x i 2 ... k x ik i
donde:
2) Las variables regresoras X 1 , X 2 ,..., X k , son variables no estocásticas, es decir, que no son
variables aleatorias y toman valores fijos.
n yn xn1 , xn 2 ,...xnk
Con base en la información anterior se plantea el siguiente sistema de ecuaciones lineales en los
parámetros
y 1 0 1 x11 2 x12 ... k x1k 1
y 2 0 1 x 21 2 x 22 ... k x 2 k 2
y n 0 1 x n1 2 x n 2 ... k x nk n
El sistema anterior puede escribirse de forma matricial como
1 E 1 0
E 0
2
1) E ε E 2 0
n E n 0
E ε 0
Var ε E ε E ε ε E ε E εεT
T
2)
1 12 1 2 1 n
2 22 2 n
E 1 2 n 1n E 1 2
n
1 n 2 n n nn
2
n1
2 0 0
2
0 0
0 0 2
Esta última expresión hace referencia a la matriz de varianzas y covarianzas del vector de
errores.
S ( ) T Y X Y X Y T T X T Y X
T
YTY YT X T X TY T X T X
Y T Y 2 T X T Y T X T X
Por lo tanto, derivando parcialmente S ( ) con respecto al vector , se tiene que
S
2 β T X T Y β T X T Xβ (3.2)
donde
a) β T X T Y X T Y
b) β T X T Xβ 2 X T X
n
Yi
1 1 1 1 Y1 ni 1
x xn1 Y2 xi1Yi
Si X T Y 11 i 1
x1k xnk Yn n
xik Yi
i 1
n
Yi
ni 1
xY
k
n n n
Entonces, T X T Y 0 1 i 1
i1 i
0 i Y 1 i1 i
x Y ... k xik Yi
i 1 i 1 i 1
n
xik Yi
i 1
T X T Y
0
T
X T Y
X Y
T T
Derivando parcialmente se tiene: 1
T
X Y
T
k
T X T Y n T X T Y n
Luego, Yi , xi1Yi ,…
0 i 1 1 i 1
n
Yi
i 1
n
T X T Y xi1Yi
Por tanto, i 1 X TY
n
x Y
i 1 ik i
ˆ
k
y el modelo de regresión ajustado es Ŷ X ˆ
1)
E ˆ
Var ˆ X X
2 T 1
2) , matriz de varianzas y covarianzas de los parámetros estimados.
EJEMPLO. Se ajustó el siguiente modelo de regresión con una muestra de 30 familias para
explicar el consumo familiar de leche.
Yi 0 1 X i1 2 X i 2 i
donde:
Yi : consumo de leche en litros por semana
X i1 : ingreso semanal, en cientos de dólares
X i 2 : tamaño de la familia
La estimación de mínimos cuadrados de los parámetros de la regresión fue:
ˆ0 0.025 , ˆ1 0.052 , ˆ2 1.14
Interpretar los estimadores de ˆ1 y ˆ2
SOLUCIÓN.
El modelo estimado es Y 0.025 0.052 X1 1.14 X 2
Y
0.052
X 1
Significa que por cada 100 dólares de incremento en el ingreso semanal, se espera que el
consumo semanal de leche aumente en 0.052 litros, dejando las demás variables fijas.
Y
1.14
X 2
Significa que por cada miembro nuevo en la familia se espera que el consumo semanal de leche
se incremente en 1.14 litros por semana, dejando las demás variables fijas.
ESTIMACIÓN DE LA VARIANZA
SSE εT ε Y T Y ˆ T X T Y
S
2
n (k 1) n k 1 n k 1
1)
Var ˆ j S 2 C jj , para j 0,1, 2, ,k
ˆ t
j ( 2,v ) j
Sˆ , donde Sˆ S C jj , para j = 1, 2, ..., k y n k 1 .
j
Interpretación
El contraste de hipótesis es
H0 : j 0
, j 0,1, 2, ..., k
Ha : j 0
El estadístico de prueba es:
ˆ j ˆ j
T
S ˆ S C jj
j
H 0 : 0 1 2 ... k 0
H a : al menos un j 0
Rechazar la hipótesis nula indica que al menos una de las variables es significativa para el
modelo; en cambio, si se acepta, indica que el modelo no es significativo.
Se puede dar que en la prueba individual las variables no sean significativas y en la prueba
global, en cambio, por lo menos una sea significativa. En este caso, el modelo puede presentar
problemas de multicolinealidad (relación que puede existir entre dos o más variables
explicativas).
Los cálculos para determinar el valor del estadístico de prueba F se resumen en la siguiente
tabla ANOVA (se analiza la variabilidad)
Fuente de Grados de Cuadrados
Suma de Cuadrados F
Variación libertad medios
SSR
Modelo de SSR
SSR ˆ X Y nY 2 k
Regresión K F K2
S
SSE
Errores (residuales) SSE Y Y ˆ X Y n k 1 S2
n k 1
TOTAL SST Y Y nY 2 n 1
: nivel de significancia
k: grados de libertad del numerador
n k 1 : grados de libertad del denominador
n 1 SSE
Ra2 1
n k 1 SST
Observe que si k , entonces Ra2 1
PROPIEDADES DE Ra2
H 0 : 1 2 l 0
H a : al menos un j 0, j 1, 2, ..., l
SSR* : Es la suma de cuadrados explicada por las variables regresoras del modelo reducido.
SSE * : Es la suma de cuadrados del error del modelo reducido.
SSR : Es la suma de cuadrados totales del modelo completo.
El estadístico de prueba es
F
SSE *
SSE l
S2
donde l es el número de parámetros que hay en H 0
EJEMPLO. Un agente de bolsa está interesado en saber qué factores pueden influir en las tasas
de retorno de las acciones de los bancos. Se estimó el siguiente modelo de regresión a partir de
una muestra de 30 bancos.
Ŷ 2.37 0.84 X1 0.15 X 2 0.13 X 3 1.67 X 4
Las desviaciones estándar son: Sˆ 0.39; Sˆ 0.12; Sˆ 0.09; Sˆ 1.97 y además
1 2 3 4
Solución.
0.13 (2.060)(0.09)
0.31 3 0.055
Con una confianza del 95% se puede afirmar que los préstamos concedidos no son
significativos en el modelo.
H 0 : 2 4 0
d)
H a : al menos un j 0, j 2, 4
F
SSE *
SSE / 2
S2
SSE 0.332
S2 0.01328
n (k 1) 25
F
0.362 0.332 / 2 1.129
0.01328
F(0.05,2,25) 3.39 , no se rechaza H 0 , es decir, el modelo reducido es significativo.