Documentos de Académico
Documentos de Profesional
Documentos de Cultura
múltiple
Josep Gibergans Bàguena
P08/75057/02312
©FUOC • P08/75057/02312 Regresión lineal múltiple
Índice
Sesión 1
El modelo de regresión múltiple ....................................................... 5
1. Introducción ......................................................................................... 5
2. El modelo de regresión lineal múltiple................................................. 5
3. Ajuste del modelo: método de los mínimos cuadrados ....................... 8
4. Interpretación de los parámetros.......................................................... 12
5. Resumen................................................................................................ 13
Ejercicios .................................................................................................... 14
Sesión 2
La calidad del ajuste ............................................................................. 17
1. Introducción ......................................................................................... 17
2
2. Calidad del ajuste. El coeficiente de determinación R ........................ 17
3. El análisis de los residuos...................................................................... 20
4. Aplicaciones a la predicción ................................................................. 22
5. Resumen................................................................................................ 22
Ejercicios .................................................................................................... 23
Sesión 3
Inferencia en la regresión lineal múltiple ..................................... 28
1 Introducción ......................................................................................... 28
2. Estimación de la varianza de los errores ............................................... 28
3. Distribuciones probabilísticas de los parámetros de la regresión......... 28
4. Intervalos de confianza de los parámetros del modelo ........................ 31
5. Contraste de hipótesis sobre los parámetros del modelo ..................... 32
6. Contrastación conjunta del modelo..................................................... 33
7. El problema de la multicolinealidad..................................................... 36
8. Resumen................................................................................................ 37
Ejercicios .................................................................................................... 38
Anexos........................................................................................................ 45
©FUOC • P08/75057/02312 5 Regresión lineal múltiple
1. Introducción
y la variable X, que recibe el nombre de variable independiente o explicativa. Sabemos que el peso (Y) está
relacionado linealmente con la
altura (X1). Pero también sabe-
En este módulo tendremos en cuenta que en la realidad casi siempre son más mos que puede estar relaciona-
de uno los factores o variables que influyen en los valores de otra variable y de- do con la edad (X2), el número
semanal de horas de deporte
finiremos un nuevo modelo. (X3), la cantidad de calorías to-
tales de las comidas (X4), etc.
Ejemplos de variables afectadas por más de una variable
El sueldo de un titulado por la UOC depende de la edad, de los años que hace que acabó
los estudios, de los años de experiencia en la empresa, etc.
El precio de un coche depende de la potencia del motor, del número de puertas y de mul-
titud de accesorios que puede llevar: air bag, ordenador de viaje, equipo de alta fidelidad,
volante deportivo, llantas especiales, etc.
Notación
El modelo de regresión lineal múltiple es una generalización del mo-
La variable Y se denomina va-
delo de regresión lineal simple, en el que relacionamos la variable que riable dependiente o explicada.
queremos explicar, Y, con las k variables explicativas X1, X2, ..., Xk. Lo Las variables Xi reciben el nom-
bre de variables independientes
encontraremos a partir de los valores (xi, yi) que toman estas variables o explicativas.
y = 0 + 1 x 1 + 2 x 2 + ... + k x k + e
y 1 = 0 + 1 x 11 + 2 x 21 + ... + k x k1 + e 1
y 2 = 0 + 1 x 12 + 2 x 22 + ... + k x k2 + e 2
... ... ... ... ... ... ... ... ... ... ...
y n = 0 + 1 x 1n + 2 x 2n + ... + k x kn + e n
©FUOC • P08/75057/02312 6 Regresión lineal múltiple
y1 1 x 11 x 21 ... x k1 0 e1
y2 1 x 12 x 22 ... x k2 1
= + e2
... ... ... ... ... ... ... ...
yn 1 x 1n x 2n ... x kn k en
y = X + e
donde:
Supongamos que estamos interesados en explicar los gastos (en decenas de euros/año) de los
ordenadores de un departamento comercial a partir de su edad (en años) y del número de
horas diarias que trabajan (horas/día).
Hemos tomado una muestra de cinco ordenadores y hemos obtenido los resultados siguien-
tes:
24,6 1 11
33,0 3 13
36,6 4 13
39,8 4 14
28,6 2 12
y = 0 + 1 x1 + 2 x2 + e
y1 = 0 + 1 + 11 2 + ... + e 1
y 2 = 0 + 3 1 + 13 2 + ... + e 2
y 3 = 0 + 4 1 + 13 2 + ... + e 3
y 4 = 0 + 4 1 + 14 2 + ... + e 4
y 5 = 0 + 2 1 + 12 2 + ... + e 5
©FUOC • P08/75057/02312 7 Regresión lineal múltiple
24,60 1 1 11 e1
33,00 1 3 13 0 e2
y = 36,60 X = 1 4 13 = 1 e = e3
39,80 1 4 14 2 e4
28,60 1 2 12 e5
y = X + e
1. Fijando unos valores x1, x2, ..., xk de las variables X1, X2, ..., Xk y tomando
Recordemos que...
valores esperados sobre la ecuación del modelo, tenemos que:
... en el modelo de regresión
lineal simple la recta de regre-
E Y x 1 , x 2 , ..., x k = 0 + 1 x 1 + 2 x 2 + ... + k x k sión pasa por (xi,E(y)).
2
Var Y x 1 , x 2 , ..., x k =
En el caso del modelo lineal simple resulta claro que si tenemos más parámetros
que datos, tenemos un único dato. Es imposible encontrar cuál es la recta que
mejor se ajusta a un único punto, ya que tenemos infinitas rectas que pasan por
este punto.
En el caso del modelo lineal múltiple, en el que tenemos dos variables expli-
cativas, el número de parámetros que hay que estimar es tres. Si resulta que
tenemos dos o menos datos, es decir, como mucho dos puntos, tampoco tiene
sentido buscar un modelo de regresión, ya que tenemos un número infinito
de planos que pasan por dos puntos fijados.
Leyenda
(a) (b)
y = 0 + 1 x 1 + 2 x 2 + ... + k x k + e =
= 0 + 1 x 1 + 2 a + bx 1 + ... + k x k + e =
= 0 + a + 1 + b x 1 + 3 x 3 + ... + k x k + e =
= 0 + 1 x 1 + 3 x 3 + ... + k x k + e
ŷ i = 0 + 1 x 1i + 2 x 2i
donde x1i y x2i son dos observaciones de las variables X1 y X2, respectivamente.
e i = y i – ŷ i = y i – 0 + 1 x 1i + 2 x 2i
e1 y1 ŷ 1 y1 1 x 11 x 21 ... x k1 0
e2 y2 y2 1 x 12 x 22 ... x k2 1
= – ŷ 2 = –
... ... ... ... ... ... ... ... ... ...
en yn ŷ n y n 1 x 1n x 2n ... x kn k
e = y – ŷ = y – X
©FUOC • P08/75057/02312 10 Regresión lineal múltiple
Para calcular la suma de los cuadrados de los elementos de un vector, hay que
hacer el producto escalar del vector por sí mismo, o lo que es lo mismo, el pro-
ducto matricial del vector transpuesto por el mismo vector.
n n
2 2 t
ei = y – ŷ i = y – X y – X
i = 1 i = 1
n
2 t t t t t
e 1 = y – X y – X = y y – 2X y + X X
i = 1
Para encontrar los valores de los parámetros que hacen mínima esta suma, de-
bemos derivar parcialmente con respecto a los parámetros:
n
- 2 t t
-----
e 1 = – 2X y + 2X X
i = 1
n
- 2
----- e1 = 0 – 2 t
X y + 2X X = 0
t
Notación
i = 1
Los estimadores de los pará-
metros de la regresión que
buscamos son las soluciones
de esta ecuación matricial,
Simplificando un poco, tenemos X Xˆ = X y así que ponemos el “sombre-
t t
ro”, que nos indica que se
trata de estimadores.
t –1 t
̂ = X X X y
t ˆ t
Finalmente, sólo queda por comentar que, si en la ecuación X X = X y efec-
tuamos la multiplicación matricial, obtenemos el sistema de ecuaciones siguien-
te, llamado sistema de ecuaciones normales de la regresión:
n n n n
n x i1 x i2 .... x ik yi
i = 1 i = 1 i = 1 i = 1
n n n n n
2 ̂ 0
x i1 x i1 x i1 x i2 .... x ik x i1 x i1 y i
i = 1 i = 1 i = 1 i = 1 ̂ 1 i = 1
n n n
2
n ̂ 2 = n
x i2 x i1 x i2 x i2 ... x ik x i2
... x i2 y i
i = 1 i = 1 i = 1 i = 1 i = 1
Tenemos:
24,60 1 1 11
33,00 1 3 13
y = 36,60 X = 1 4 13
39,80 1 4 14
28,60 1 2 12
1 1 1 1 1
t
X = 1 3 4 4 2
11 13 13 14 12
De manera que:
1 1 11
1 1 1 1 1 1 3 13 5 14 63
t
XX = 1 3 4 4 2 1 4 13 = 14 46 182
11 13 13 14 12 1 4 14 63 182 799
1 2 12
–1
4 14 63 181 5 14 – 17 5
t –1
X X = 14 46 182 = 14 1,3 – 1,4
63 182 799 – 17 5 – 1,4 1,7
24,60
1 1 1 1 1 33,00 162,60
t
X y = 1 3 4 4 2 36,6 = 486,40
11 13 13 14 12 39,8 2075,80
28,6
©FUOC • P08/75057/02312 12 Regresión lineal múltiple
ŷ = ̂ 0 + ̂ 1 x 1 + ̂ 2 x 2 + ... + ̂ k x k
1. Interpretación de ̂ 0 :
Este parámetro representa la estimación del valor de Y cuando todas las Xj to-
man valor cero. No siempre tiene una interpretación vinculada al contexto
(geométrica, física, económica, etc.). Para que sea posible interpretarlo, nece-
sitamos lo siguiente:
2. Interpretación de ̂ j :
Nos indica los gastos en decenas de euros de un ordenador con cero años de antigüedad y
cero horas semanales de trabajo. Es evidente que este ejemplo no tiene nigún sentido.
Nos indica el incremento de los gastos en decenas de euros por cada año de antigüedad
del ordenador, sin tener en cuenta el número de horas diarias de uso. Así pues, por cada
año que pase, tendremos 2,6 · 10 = 26 euros más en los gastos de mantenimiento de un
ordenador.
Nos indica el incremento en los gastos en decenas de euros por cada hora diaria de uso sin
tener en cuenta la antigüedad del ordenador. Tenemos que por cada hora de más de trabajo,
tendremos 2,4 · 10 = 24 euros más en los gastos anuales de mantenimiento de un ordenador.
5. Resumen
Ejercicios
Y 5,3 7,8 7,4 9,8 10,8 9,1 8,1 7,2 6,5 12,6
X1 (horas) 1,5 2,5 0,5 1,2 2,6 0,3 2,4 2,0 0,7 1,6
Os pedimos lo siguiente:
10 10 10 10
2 2
x i1 = 379 , x i2 = 2.417 , x i1 = 14.533 , x i2 = 601.365
i = 1 i = 1 i = 1 i = 1
10 10 10 10
Solucionario
1.
a) Ahora tenemos:
Número de observaciones: n = 10
Número de parámetros: k = 2 + 1 = 3
e1
5,3 1 1,5 66
7,8 1 2,5 87 e2
7,4 1 0,5 69 e3
9,8 1 1,2 141 e4
0
10,8 = 1 2,6 93 e5
1 +
9,1 1 0,3 105 e6
8,1 1 2,4 111 2 e7
7,2 1 2,0 78 e8
6,5 1 0,7 66 e9
12,6 1 1,6 123 e 10
Y= X + e
̂ 0
̂ = ̂ 1 = X X X Y
t –1 t
...
̂ 2
t –1 t
donde X X es la matriz inversa de la matriz X X :
1 1 1 1 1 1 1 1 1 1
t
X = 1,5 2,5 0,5 1,2 2,6 0,3 2,4 2,0 0,7 1,6
66 87 69 141 93 105 111 78 66 123
Atención
̂ 0 2,2680510
t –1 t
̂ = ̂ 1 = X X X Y = 0,2224947452
̂ 2 0,062325502
Obtenemos:
n n n n
n x i1 x i2 .... x ik yi
i = 1 i = 1 i = 1 i = 1
n n n n n
2 ̂ 0
x i1 x i1 x i1 x i2 .... x ik x i1 x i1 y i
i = 1 i = 1 i = 1 i = 1 ̂ 1 i = 1
n n n
2
n ̂ 2 = n
x i2 x i1 x i2 x i2 ... x ik x i2
... x i2 y i
i = 1 i = 1 i = 1 i = 1 i = 1
X Xˆ = X y
t t
t –1 t
Aislando el vector de parámetros estimados: ̂ = X X X y
– 22,984
= 1,395
0,218
1. Introducción
Una vez encontrado el modelo de regresión lineal múltiple a partir de los datos
de una muestra, queremos utilizarlo para hacer inferencias a toda la población.
Sin embargo, antes es necesario llevar a cabo una comprobación de la idoneidad
del modelo obtenido.
2 2 2
s y = s ŷ + s e
2
2 s ŷ
R = ------
2
sy
n n n
2 1 2 2 1 2 2 1 2
sy = ------------ y i – y s ŷ = ------------ ŷ i – y se = ------------ e 1
n–1 n–1 n–1
i=1 i=1 i=1
donde:
2 SCR 2 SCE
R = ----------- o R = 1 – -----------
SCT SCT
d1 y1 – y
d2 y2 – y
D = =
... ...
dn yn – y
n
2 t
SCT = yi – y = DD
i=1
̂ 0
ŷ 1 1 x 11 x 21 ... x k1
̂ 1
ŷ 2 = 1 x 12 x 22 ... x k2
̂ 2
... ... ... ... ... ...
...
ŷ n 1 x 1n x 2n ... x kn
̂ k
©FUOC • P08/75057/02312 19 Regresión lineal múltiple
w1 ŷ 1 – y
= ŷ 2 – y
w2
w =
... ...
wn ŷ n – y
n
2 t
y, por tanto, SCR = ŷ 1 – y = w w .
i=1
e1 y1 ŷ 1 y 1 – ŷ 1
– ŷ 2 = y 2 – ŷ 2
e2 y2
e = =
... ... ... ...
en yn ŷ n y n – ŷ n
n
2 t
SCE = e1 = ee
i=1
n
y1 – y
y2 – y
y1 – y
2 t
SCT = = D D = y 1 – y y 2 – y ...y n – y =
i=1
...
yn – y
©FUOC • P08/75057/02312 20 Regresión lineal múltiple
– 7,92
0,48
= – 7,92 0,48 4,08 7,28 – 3,92 4,08 = 147,97
7,28
– 3,98
ŷ 1 1 1 11 24
ŷ 2 1 3 13 –5 34
ŷ 3 = X = 1 4 13 2,6 = 36,6
ŷ 4 1 4 14 2,4 39
ŷ 5 1 2 12 29
n
ŷ 1 – y
ˆ
SCR = y i – y = w w = ŷ 1 – y ŷ 2 – y ...ŷ n – y ŷ 2 – y =
2 t
i=1
...
ŷ n – y
– 8,52
1,48
= – 8,52 1,48 4,08 6,48 – 3,52 4,08 = 145,81
6,48
– 3,52
La diferencia entre los valores observados y los valores estimados nos permite obtener los re-
siduos:
24,6 24 0,6
33 34 –1
e = 36,6 – 36,6 = 0
39,8 39 0,8
28,6 29 – 0,4
0,6
n
e1
–1
e
e1
2 t
SCE = = e e = e1 e1 ... e n 1 = 0,6 – 1 0 0,8 – 0,4 0 = 2,16
...
i=1 0,8
en
– 0,4
2 SCR 145,81
R = ----------- = ------------------- = 0,985
SCT 147,97
2 SCE 2.16
También se puede calcular haciendo: R = 1 – ----------- = 1 – ------------------- = 1 – 0,0015 = 0,985
SCT 147,97
Este resultado nos dice que el modelo de regresión múltiple obtenido explica el 98,5% de la
variabilidad de los gastos de los ordenadores. Dado que está muy cerca del 100%, en princi-
pio es un buen modelo.
©FUOC • P08/75057/02312 21 Regresión lineal múltiple
De la misma manera que en la regresión lineal simple, los residuos del modelo
de regresión lineal múltiple tienen un papel importante a la hora de determi-
nar la adecuación del modelo.
Siempre que el modelo sea correcto, ningún gráfico de residuos debe mostrar
ningún tipo de estructura. Los residuos siempre deben estar distribuidos al azar
alrededor del cero.
En el caso de los ordenadores y sus gastos en mantenimiento, tenemos los gráficos de repre-
sentación de los residuos siguientes:
No observamos ningún tipo de estructura organizada de los residuos que nos haga pensar
en una falta de linealidad del modelo. Tampoco observamos ningún dato atípico.
©FUOC • P08/75057/02312 22 Regresión lineal múltiple
4. Aplicaciones a la predicción
ŷ = ̂ 0 + ̂ 1 x 1 + ̂ 2 x 2 + ... + ̂ k x k
Considerando una vez más el problema de los ordenadores, si queremos calcular el gasto
correspondiente a un ordenador que tiene dos años de antigüedad y trabaja catorce horas
diarias, utilizaremos la ecuación encontrada:
con x1 = 2 y x2 = 14:
Por tanto, podemos esperar un gasto de mantenimiento de 340 euros anuales para este orde-
nador.
Ejemplo de resultado
A la hora de aplicar la ecuación de regresión encontrada, siempre debe- irreal
mos mirar si los valores de las variables Xi para los que queremos esti- Si queremos utilizar nuestro
mar el valor de la variable Y se encuentran dentro del conjunto de modelo para calcular el gasto
de mantenimiento de nuestro
valores que hemos utilizado para construir el modelo. Si no es así, de- ordenador cuando tenga una
antigüedad de cincuenta años,
bemos ir con mucha cautela, ya que puede ser que el resultado que nos es evidente que no tiene nin-
gún sentido utilizar la ecuación
dé el modelo no tenga ningún sentido. El peligro de la extrapolación encontrada: ni el ordenador
también está presente en la regresión lineal múltiple. existirá de aquí a cincuenta
años (y si existe estará en un
museo), ni los precios de man-
tenimiento tendrán nada que
ver con los de ahora, etc.
5. Resumen
Ejercicios
Y 5,3 7,8 7,4 9,8 10,8 9,1 8,1 7,2 6,5 12,6
X1 (horas) 1,5 2,5 0,5 1,2 2,6 0,3 2,4 2,0 0,7 1,6
Alimento (kg) 272 226 259 292 311 183 173 236 230 235
Solucionario
ŷ 1
1 1,5 66 6,71
ŷ 2 1 2,5 87 8,25
ŷ 3 1 0,5 69 6,68
ŷ 4 1 1,2 141 11,32
2,268
ŷ 5
= 1 2,6 93
0,225 =
8,64
ŷ 6 1 0,3 105 8,87
0,062
ŷ 7 1 2,4 111 9,72
ŷ 8 1 2,0 78 7,57
ŷ 9 1 0,7 66 6,53
1 1,6 123 10,29
ŷ 10
Y los residuos: e = ŷ – y
e1 y1 ŷ 1
5,3 6,71 – 1,41
e2 y2 ŷ 2
7,8 8,25 – 0,45
e3 y3 ŷ 3 7,4 6,68 0,72
e4 y4 ŷ 4 9,8 11,32 – 1,52
e5 y5 ŷ 5
= – = 10,8 – 8,64 = 2,16
e6 y6 ŷ 6 9,1 8,87 0,22
e7 y7 ŷ 7 8,1 9,72 – 1,62
e8 y8 ŷ 8 7,2 7,57 – 0,37
e9 y9 ŷ 9 6,5 6,53 – 0,03
e 10 y 10 12,6 10,29 2,31
ŷ 10
2 SCR 2 SCE 2
R = ----------- R = 1 – ----------- 0R 1
SCT SCT
Deberemos tener en cuenta que, si lo calculamos de las dos formas, los resul-
tados serán ligeramente diferentes a causa del error de redondeo asociado a
los cálculos.
©FUOC • P08/75057/02312 26 Regresión lineal múltiple
n
1
y = --- x i = 82,5
n
i=1
̂ 0
ŷ 1 1 x 11 x 21 ... x k1
̂ 1
ŷ 2 = 1 x 12 x 22 ... x k2
̂ 2
... ... ... ... ... ...
...
ŷ n 1 x 1n x 2n ... x kn
̂ k
ŷ 1
1 42 272 94,778
ŷ 2 1 33 226 72,216
ŷ 3 1 33 259 79,396
ŷ 4 1 45 292 103,314
– 22,984
ŷ 5
= 1 39 311
1,395 =
99,079
ŷ 6 1 36 183 67,0.45
0,218
ŷ 7 1 32 173 59,290
ŷ 8 1 41 236 85,550
ŷ 9 1 40 230 82,850
1 38 235 81,148
ŷ 10
y1 ŷ 1
0,222
y2 ŷ 2
4,784
y3 ŷ 3 0,604
y4 ŷ 4 – 3,314
y5 ŷ 5
e = – = – 2,079
y6 ŷ 6 2,955
y7 ŷ 7 – 9,290
y8 ŷ 8 – 5,550
y9 ŷ 9 9,150
y 10 2,852
ŷ 10
2
• SCT = yi – y = 2.020,50
2
• SCR = ŷi – y = 1,762,99
2 2
• SCE = y i – ŷ = ei = 256,30
©FUOC • P08/75057/02312 27 Regresión lineal múltiple
2 SCR
Por tanto, el coeficiente de determinación es R = ----------- 0,873
SCT
1. Introducción
n n
2 1 2 1 2
s = --------------------------- y i – ŷ i = --------------------------- y i – ̂ 0 – ̂ 1 x 1i – ... – ̂ k x ki
n – k + 1 n – k + 1
i=1 i=1
Si tenemos en cuenta que este sumatorio es la suma de los cuadrados de los Residuos no
errores, podemos escribirlo de esta manera: independientes
Se divide por:
2 SCE n – (k + 1) = n – k – 1
s = ---------------------
n–k–1 porque los n residuos no son
independientes (están relacio-
nados por las (k + 1) ecuacio-
nes normales de la regresión).
En primer lugar, debe quedar muy claro que cada muestra determina una regre-
sión lineal múltiple y, por tanto, un conjunto de coeficientes:
Muestra 1: ̂ 01 , ̂ 11 , ̂ 21 , ..., ̂ k1
Muestra 2: ̂ 02 , ̂ 12 , ̂ 22 , ..., ̂ k2
..........................................................................
Muestra m: ̂ 0m , ̂ 1m , ̂ 2m ,..., ̂ km
0 1 2 m
©FUOC • P08/75057/02312 29 Regresión lineal múltiple
̂ 01 , ̂ 02 , ̂ 03 ,..., ̂ 0m 0 Notación
̂ k1 , ̂ k2 , ̂ k3 ,..., ̂ km k
Así, 0 , 1 ,... k son unas variables aleatorias que habrá que estudiar para po-
der inferir nuestros resultados a la población de la que hemos extraído las
muestras. Primero las caracterizaremos calculando sus valores esperados y las
desviaciones estándar:
var ̂ 0
var ̂ 1 2
= diag X X
t –1
...
var ̂ k
̂ j N j , 2 q jj
2 SCE
s = ---------------------
n–k–1
De manera que:
var ̂ 0
var ̂ 1 2 t
= s diag X X
–1
...
var ̂ k
©FUOC • P08/75057/02312 30 Regresión lineal múltiple
s ̂ =
j
var ̂ j , per j = 1, 2, ..., k
forma siguiente:
ŷ i = ̂ 0 + ̂ 1 x 1i + ̂ 2 x 2i + ... + ̂ k x ki
s ̂ s ̂ s ̂ s ̂
0 1 2 k
2 2
s R
Es decir:
Continuamos con el caso en el que queríamos explicar los gastos (en decenas de euros/año)
de los ordenadores de un departamento comercial a partir de su edad (en años) y del número
de horas diarias que trabajan (horas/día). Con esta finalidad se había tomado una muestra de
cinco ordenadores y se habían obtenido los resultados siguientes:
24,6 1 11
33,0 3 13
36,6 4 13
39,8 4 14
28,6 2 12
El modelo de regresión obtenido era el siguiente: ŷ = – 5,0 + 2,6x 1 + 2,4x 2 . Habíamos en-
contrado:
181,4 14 – 17,5
t –1 2 SQE 2,16 2,16
X X = 14 1,3 – 1,4 , y también s = --------------------- = ---------------------- = ------------ = 1,08
n–k–1 5–2–1 2
– 17 5 – 1,4 1,7
©FUOC • P08/75057/02312 31 Regresión lineal múltiple
De manera que:
̂ j – j
---------------
s ̂
j
̂ j –
P – t 2,n – k – 1 ---------------j t 2,n – k – 1 = 1 –
s ̂ j
̂ j – t 2,n – k – 1 s ̂ , ̂ j + t 2,n – k – 1 s ̂
j j
Calculemos ahora los intervalos de confianza para los parámetros ̂ 1 y ̂ 2 de nuestro ejem-
plo:
• Intervalo de confianza para ̂ 1 con un nivel de confianza del 95%. Observando la tabla
de la distribución t de Student con n k 1 = 5 2 1 = 2 grados de libertad, el valor crítico
correspondiente para /2 = 0,025 es: t0,025;2 = 4,3027. El intervalo de confianza será:
• Intervalo de confianza para ̂ 2 con un nivel de confianza del 95%. Ahora el intervalo
de confianza será:
En caso de que no rechacemos la hipótesis nula, esto querrá decir que la varia-
ble Xj no es una variable explicativa y que, por tanto, podemos eliminarla del
modelo.
̂
t = -----j
s ̂
j
• Si |t| > t/2;nk1, se rechaza la hipótesis nula H0; por tanto, la variable Xj es
una variable explicativa de la variable Y y, por tanto, no podemos eliminar-
la del modelo.
Volvemos a nuestro ejemplo para hacer un contraste de hipótesis sobre los parámetros de la
regresión y enterarnos de si las variables son explicativas de los gastos anuales de manteni-
miento de los ordenadores o no. Utilizaremos un nivel de significación = 0,05.
• Contraste por 1
̂ 2,6
2. Calculamos el estadístico de contraste: t = ------1- = ------------ = 2,20
s ̂ 1,18
1
Dado que 0,1588 > 0,05, no rechazamos H0. Por tanto, la variable X1 no es una variable ex-
plicativa y, por tanto, podemos eliminarla del modelo.
• Contraste por 2
̂ 2,4
2. Calculamos el estadístico de contraste: t = ------2- = ------------ = 1,77 .
s ̂ 1,35
2
Dado que 0,2188 > 0,05, no rechazamos H0. Por tanto, la variable X2 tampoco es una variable
explicativa y, por tanto, podemos eliminarla del modelo.
En este modelo de regresión lineal múltiple ninguna de las dos variables nos explica la
variable “gasto en mantenimiento”.
Hemos visto cómo hay que hacer el contraste de hipótesis para ver si cada una
de las variables Xi, individualmente, contribuye a explicar la variable Y.
Otras formas de expresar
las hipótesis
Ahora queremos contrastar el modelo de forma global, teniendo en cuenta to- Otra forma de expresar estas
das las variables Xi que hemos utilizado para encontrarlo. hipótesis es la siguiente:
Hipótesis nula:
H0: R2 = 0
1) Establecemos las hipótesis: Nos indica que la parte de la
variación explicada por el mo-
delo es cero, es decir, que no
• Hipótesis nula: H0: 1 = 2 = ... = k = 0. Nos indica que no existe relación existe ninguna relación lineal
entre la variable Y y cualquiera
lineal entre la variable Y y ninguna de las variables Xi. de las variables Xi.
Hipótesis alternativa:
H1: R2 > 0
• Hipótesis alternativa: H1: al menos una 0 0 .
©FUOC • P08/75057/02312 34 Regresión lineal múltiple
ŷ i – y
2
SCR =
de cuadrados de la regresión más la suma de los cuadrados de los errores:
i=1
ei
2
SCT = SCR + SCE SCE =
i=1
• SCE: es la suma de los cuadrados de los errores, que como ya hemos comen-
tado en más de una ocasión, tiene (n k + 1) grados de libertad.
El cociente de dos variables 2 divididas por sus grados de libertad da una va-
riable F de Snedecor con los grados de libertad correspondientes al numerador
y denominador del cociente.
SCR k
f = ------------------------------------------
SCE n – k – 1
Si la hipótesis nula es cierta y, por tanto, no existe ningún tipo de relación lineal
entre Y y las variables Xi, el estadístico tendrá un valor cercano a uno. Pero cuan-
do existe cierta relación, la suma de los cuadrados de la regresión (numerador)
aumenta y la suma de los cuadrados de los errores (denominador) disminuye,
de manera que el valor del estadístico de contraste aumenta. Si este valor supera
un valor crítico de la distribución F, entonces rechazamos la hipótesis nula.
©FUOC • P08/75057/02312 35 Regresión lineal múltiple
Haremos un contraste conjunto del modelo obtenido anteriormente para los ordenadores.
Tomaremos = 0,05.
y SCT 5–14
SCR k 72,9
Tenemos que: f = ------------------------------------------ = ------------ = 67,5 .
SCE n – k – 1 1,08
©FUOC • P08/75057/02312 36 Regresión lineal múltiple
Puesto que 67,5 > 19,0, entonces rechazamos la hipótesis nula, de manera que el modelo en
conjunto es bueno para explicar la variable Y.
Con el p-valor tenemos que: p = P(F2;2 > 67,5) = 0,0146 < 0,05; por tanto, rechazamos la hi-
pótesis nula.
Llegados a este punto, nos hacemos la pregunta siguiente: ¿cómo puede ser que
el modelo en conjunto sea bueno para explicar la variable Y y, en cambio, el
contraste por separado para cada una de las variables X1 y X2 nos haya dado
que ninguna de las dos era explicativa de la variable Y? A primera vista parece
que sean resultados contradictorios. Esto se debe a la presencia de multicolinea-
lidad en nuestro problema. Lo trataremos en el apartado siguiente.
7. El problema de la multicolinealidad
Si queremos construir un modelo para predecir el precio (Y) de un ordenador según la velo-
cidad del procesador (X1), la capacidad del disco duro (X2) y la cantidad de memoria RAM
(X3), es posible que las variables X1 y X3 estén relacionadas: sería el caso de que el procesador
necesitase un mínimo de memoria RAM para funcionar de manera óptima.
Variables explicativas
En caso de que haya algún tipo de dependencia entre las variables, di- independientes
remos que existe multicolinealidad. La multicolinealidad puede tener En las hipótesis estructurales
efectos muy importantes en las estimaciones de los coeficientes de la re- básicas del modelo de regre-
sión lineal múltiple ya hemos
gresión y, por tanto, sobre las posteriores aplicaciones del modelo esti- pedido que las variables X1, X2,
..., Xk sean independientes.
mado.
Por otra parte, el contraste conjunto indica que al menos una de las dos varia-
bles contribuye a la predicción de Y (es decir, uno de los parámetros o los dos
son diferentes de cero). De hecho, es muy probable que las dos variables con-
tribuyan a ello, pero la contribución de la una encubre la de la otra.
Así pues, en estos casos en los que tenemos variables independientes muy corre-
lacionadas en un modelo de regresión, los resultados pueden ser confusos. Ha-
bitualmente, lo que se hace es incluir sólo una de estas variables en el modelo.
8. Resumen
En esta última sesión, dedicada a la regresión lineal múltiple, hemos visto có-
mo debemos hacer inferencia sobre los coeficientes de la regresión obtenidos
a partir de la muestra, en particular cómo debemos calcular un intervalo de
confianza y cómo debemos hacer un contraste de hipótesis para cada uno de
los coeficientes obtenidos para decidir si las variables Xj nos explican realmen-
te el comportamiento de la variable Y o podemos prescindir de algunas de
ellas. También hemos visto cómo debemos hacer un contraste conjunto del
modelo. Finalmente, hemos presentado los posibles problemas de multicoli-
nealidad que podemos tener y que son debidos a la relación entre algunas de
las variables explicativas que supuestamente son independientes.
©FUOC • P08/75057/02312 38 Regresión lineal múltiple
Ejercicios
Alimento (kg) 272 226 259 292 311 183 173 236 230 235
a) ¿Podéis afirmar que las variables “peso inicial” y “cantidad de alimento su-
ministrado” son explicativas del “peso final” del animal?
b) ¿Creéis que este modelo lineal múltiple explica de forma significativa el peso
final de los animales?
d) ¿Creéis que este modelo lineal múltiple explica de manera significativa los
ahorros?
©FUOC • P08/75057/02312 39 Regresión lineal múltiple
Solucionario
1.
a) Para saber si las variables del modelo de regresión son explicativas, debere-
mos hacer un contraste de hipótesis sobre los parámetros obtenidos.
• Variable X1:
̂
3) Calculamos el estadístico de contraste: t = ------1- = 2,3943.
S ̂
1
t0,025;7 2,3646
• Variable X2:
Hipótesis nula: 2 0.
Hipótesis alternativa: 2 0.
̂
3) Calculamos el estadístico de contraste: t = ------2- = 3,7663.
S ̂
2
Hipótesis nula: H0 : 1 2 0
SCR k
Estadístico de contraste: f = ------------------------------------------ = 24,07
SCE n – k – 1
4) De las tablas tenemos un valor crítico de F0,05;2;7 4,74. Puesto que 24,07
4,74, rechazamos H0 con una confianza del 95%. Entonces el modelo explica
de forma significativa el peso final de los animales.
2.
a) En este problema tenemos que el número de observaciones es n 5 y que
el número de variables independientes es k 2.
Matricialmente:
̂ 0
̂ = ̂ 1 = X X X Y
t –1 t
...
̂ k
t –1 t
donde X X es la matriz inversa de la matriz X X .
Ahora tenemos:
1 1 1 1 1
t
X = 8.000 11.000 9.000 6.000 6.000
12.000 6.000 6.000 3.000 18.000
3.800
t
X Y = 33.000.000
27.900.000
5 4.000 45.000
t
X X = 40.000 338.000.000 342.000.000
Atención
45.000 342.000.000 549.000.000
Según el número de cifras
decimales que cojáis a partir de
aquí, los resultados pueden ser
6,0492063 – 0,00057936 – 0,00013492 un poco diferentes, sin que ello
–1 signifique que sean incorrectos.
XtX = – 0,00057936 0,6349206 10 –7 0,79365079 10 –8
–8 –8
– 0,00013492 0,79365079 10 0,79365079 10
̂ 0 103,6507937
t –1 t
̂ = ̂ 1 = X X X Y = 0,1150793651
̂ 2 – 0,02936507937
Tenemos:
̂ 0 = 103,6507937 ̂ 1 = 0,1150793651 ̂ 2 = – 0,02936507937
Sin embargo, antes debemos hacer algunos cálculos más. Primero calculare-
mos las varianzas de los parámetros estimados. Vienen dadas por los términos
de la diagonal de la matriz:
var ̂ 0
2 t
s diag X X
–1
= var ̂ 1
...
var ̂ k
2 SCE
s = --------------------------- = 3.896,825
n – k + 1
En este caso tenemos las varianzas y desviaciones típicas de los estimadores si-
guientes:
s ̂ =
0
var ̂ 0 = 125,3600174
s ̂ =
1
var ̂ 1 = 0,012843081
s ̂ =
2
var ̂ 2 = 0,00454071
• Variable X1:
̂
t = -----1- = 8,96041
s ̂
1
©FUOC • P08/75057/02312 43 Regresión lineal múltiple
4) Si miramos las tablas, tenemos para un valor crítico: t0,025;2 4,3027. Dado
que 8,96041 4,3027, rechazamos H0. La variable X1 (ingresos) es explicativa
de los ahorros.
Hipótesis nula: 2 0
Hipótesis alternativa: 2 0
̂
t = ------2- = – 6,46705
S ̂
2
Hipótesis nula: H 0 : 1 = 2 = 0 .
···
Hipótesis alternativa: H 1 : hay al menos un j 0 .
̂ 0 ŷ 1 671,9047619
ŷ 1 1 x 11 x 21 ... x k1
̂ 1 ŷ 2 1.193,33333
ŷ 2 = 1 x 12 x 22 ... x k2 = 963,1746032
̂ 2 , ahora tenemos: ŷ 3
... ... ... ... ... ...
... ŷ 4 706,0317460
ŷ n 1 x 1n x 2n ... x kn
̂ k ŷ 5 265,5555556
y1 ŷ 1 – 71,90476190
y2 ŷ 2 6,666666667
e = y 3 – ŷ 3 = 36,82539683
y4 ŷ 4 – 6,031746032
y5 ŷ 5 34,44444444
2
SCT = yi – y = 492.000
2
SCR = ŷi – y = 484.206,34
2 2
SCE = yi – ŷ = ei = 7.793,65
SCR k
Estadístico de contraste: f = ------------------------------------------ = 62,12
SCE n – k – 1
4) De las tablas tenemos un valor crítico de F0,05;2;2 19,0. Dado que 62,12
19,0, rechazamos H0. Así pues, este modelo de regresión múltiple explica
de forma significativa los ahorros de las familias a partir de los ingresos y del
capital.
©FUOC • P08/75057/02312 45 Regresión lineal múltiple
Anexos
Anexo 1
Valor esperado de ̂ j :
t –1 t
̂ = X X X Y
t –1 t
Para simplificar todavía más los cálculos, llamaremos C = X X X y así po-
dremos escribir la última ecuación de la forma: ̂ = CY. Por otra parte, el mo- Obserad que...
̂ = CY = C X + e = CX + Ce = + Ce
E ̂ = E + E Ce = + CE e =
donde hemos considerado que E(e) 0, tal como supusimos en la sesión anterior
en las hipótesis estructurales básicas del modelo de regresión lineal múltiple.
Linealidad
En resumen, hemos obtenido que: E ̂ = , es decir:
Hemos utilizado la propiedad
de linealidad de la esperanza
matemática:
E ̂ 1 = 1 E(aX) aE(X)
E ̂ 2 = 2
..................
E ̂ k = k
Anexo 2
Varianza de ̂ j :
Para calcular esta varianza, utilizaremos una vez más la notación y el cálculo
matricial.
ˆ0 – 0
ˆ ˆ ˆ ˆ
E ̂ – ̂ – = E 1 – 1 0 – 0 1 – 1 ... k – k =
t
...
ˆ
k – k
2
E ̂ 0 – 0 E ̂ 0 – 0 ̂ 1 – 1 ... E ̂ 0 – 0 ̂ k – k
2
= E ̂ 0 – 0 ̂ 1 – 1 E ̂ 1 – 1 ... E ̂ 1 – 1 ̂ k – k
... ... ... ...
2
E ̂ 0 – 0 ̂ k – k E ̂ 1 – 1 ̂ k – k ... E ̂ k – k
t
̂ – ̂ –
Por otra parte, hemos visto antes que ̂ = + Ce, de manera que podemos es-
cribir: ̂ – = Ce y, por tanto:
t t
̂ – ̂ – = Ce Ce
Combinando estos resultados, tenemos que las varianzas de las ̂ j son los valo-
t Producto de matrices
res esperados de los elementos de la diagonal de la matriz Ce Ce , es decir:
Recordemos la importante
propiedad del producto de
t t t t 2 t 2 t –1 t t –1 2 t –1 matrices:
E Cee C = CE ee C = CC = X X X X X X = X X
(AB)t = BtAt
donde hemos tenido en cuenta que E[eet] 2I para las hipótesis estructu-
rales básicas del modelo de regresión lineal múltiple que supusimos en la
sesión anterior.
Finalmente tenemos que las varianzas de las ̂ j son los elementos de la diago-
nal de la matriz: 2(XtX)1, es decir:
var ̂ 0
var ̂ 1 2
= diag X X
t –1
...
var ̂ k