Está en la página 1de 26

Ejemplo de los gastos de las computadoras personales segn su

antigedad y las horas diarias de trabajo


Supongamos que estamos interesados en explicar los gastos (en miles de
pesos) de las computadoras personales de un departamento comercial a partir
de su edad (en aos) y del nmero de horas diarias que trabajan (horas/da).
Se ha tomado una muestra de cinco computadoras personales y de las cuales se
han obtenido los resultados siguientes:

Gastos Y (miles de pesos )

Antigedad X1 ( aos)

Horas de trabajo X2
(horas/da)

24.6

11

33.0

13

36.6

13

39.8

14

28.6

12

Se quiere encontrar un modelo de regresin de la forma:

y = 0 + 1 x1 + 2 x2 +
Si desarrollamos esta ecuacin en odas las observaciones de la muestra,
obtenemos el sistema de siguiente:

y 1 = 0 + 1 1 + 2 11 + 1
y = + 3 + 13 +
1
2
2
2 0
y 3 = 0 + 1 4 + 2 13 + 3
y = + 4 + 14 +
0
1
2
4
4
y 5 = 0 + 1 2 + 2 12 + 5
Que podemos escribir matricialmente como

Y = X +
Donde:

24.6
1
33.0
1

Y = 36.0 X = 1

39.8

1
28.0
1

1 11
3 13
4 13

4 14
2 12

1

2
0
= 3

= 1

4

2
5

X es la parte correspondiente a la variacin de Y que queda explicada


por las variables Xi
es el trmino de los errores y que de alguna manera recoge el efecto
de aquellas variables que tambin afectan a Y; las cuales no se
encuentran incluidas en el modelo porque son desconocidas o porque
no se tienen datos suyos

Estimacin del vector de parmetros por Cuadrados Mnimos


A partir de las observaciones de la muestra se quiere encontrar una ecuacin
de regresin lineal mltiple estimada que predice la variable dependiente, Y, en
funcin de las variables independientes observadas Xj. Tal modelo tiene la
forma

yi = o + 1 xi1 + 2 xi2 + ...... + p xip + ei


Donde:

j son las estimaciones de los parmetros del modelo


yi es el valor estimado por el modelo para yi
ei = yi yi Es la diferencia entre los valores observados y los valores
estimados de la variable dependiente.

El vector de los residuos se puede escribir en forma matricial como:

e = Y X
Para construir el modelo de ajuste se tiene que minimizar la suma de
cuadrados de los residuos.
n

i =1

i =1

2
Q( ) = ei2 = ( yi yi ) = eT e = (Y X )T ( Y X )

Haciendo operaciones con los vectores y matrices

Q( ) = Y T Y T X T Y Y T X + T X T X
Q( ) = Y T Y 2 T X T Y + T X T X
Derivando Q con respecto a
ecuaciones normales

e igualando a cero se obtiene el sistema de

( X X ) = X
T

Resolviendo para

se obtiene:

1
T

= ( X X ) X TY

El vector
es el vector de los estimadores mnimos cuadrticos de los
parmetros del modelo.

( X X ) = X
T

Recordemos que si en la ecuacin matricial

se

efecta la multiplicacin, se obtiene el sistema de ecuaciones normales de la


regresin


n
n
x
i1

i =1
n
xi 2
i =1

n
xik
i=1

x
x

2
i1

i =1

x
i =1
n

i =1

i2

2
i2

i =1
n

i =1

ik i1

i1 i 2

i =1
n

i1 i 2

i1

i =1
n

i =1

n
xik xi1

i =1
n

xik xi 2

i =1

n

xik2

i =1

ik i 2

i =1

ik

0 e1

1 e2
= e3
2

e
k k

Para nuestro ejemplo, tenemos:

24.6
1
33.0
1

Y = 36.0 X = 1

39.8

1
28.0
1

1 11
3 13
4 13

4 14
2 12

1 1 1 1 1
X T = 1 3 4 4 2
11 13 13 14 12

Entonces,

1 1 1 1 1 1
X T X = 1 3 4 4 2 1

11 13 13 14 12 1
1

Y la inversa de esta matriz ser:

1 11
3 13 5 14 63
4 13 = 14 46 182

4 14 63 182 799
2 12

(X X )
T

5 14 63
= 14 46 182
63 182 799

181 .5 14 17.5
= 14
1.3
1.4
17.5 1.4 1.7

Por otro lado, se tiene:

24.6

1 1 1 1 1 33.0 162.6
X T Y = 1 3 4 4 2 36.6 = 486.4


11 13 13 14 12 39.8 2075.8
28.6
As el vector de parmetros estimados de la regresin

= ( X T X )

181.5 14 17.5 162.6 5


X T Y = 14
1.3 1.4 486.4 = 2.6
17.5 1.4 1.7 2075.8 2.4

La ecuacin de regresin queda:

y = 5 + 2.6 x1 + 2.4 x2
Interpretacin de los parmetros

De la misma manera que en la regresin lineal, una vez obtenido el modelo de


regresin lineal mltiple, es muy importante hacer una buena interpretacin de
los resultados obtenidos. De momento, slo hemos obtenido los parmetros
estimados del modelo de regresin:
Para interpretarlos correctamente, debemos tener presente el contexto que
estudiamos.

1. Interpretacin de

Este parmetro representa la estimacin del valor de Y cuando todas las Xj


toman valor cero. No siempre tiene una interpretacin vinculada al contexto
(geomtrica, fsica, econmica, etc.). Para que sea posible interpretarlo,
necesitamos lo siguiente:
a. Que sea realmente posible que las Xj = 0.
b. Que se tengan suficientes observaciones cerca de los valores Xj = 0.

2. Interpretacin de

Representa la estimacin del incremento que experimenta la variable Y cuando


Xj aumenta su valor en una unidad y las dems variables se mantienen
constantes.
Ejemplo de los gastos de las computadoras personales segn su
antigedad y las horas diarias de trabajo
Continuando con el ejemplo de las computadoras personales y a partir de los
resultados obtenidos en el ajuste:

0 = 5
Nos indica los gastos en miles de pesos de una computadora personal con cero
aos de antigedad y cero horas semanales de trabajo. Es evidente que en
este caso no tiene ningn sentido.

1 = 2.6
Nos indica el incremento de los gastos en miles de pesos por cada ao de
antigedad de una computadora personal, sin tener en cuenta el nmero de
horas diarias de uso. As pues, por cada ao que pase, tendremos 2,6 x 1.000
= 2600 computadora personal ms en los gastos de mantenimiento de una
computadora personal.

2 = 2.4
Nos indica el incremento en los gastos en miles de pesos por cada hora diaria
de uso sin tener en cuenta la antigedad de la computadora personal. Tenemos
que por cada hora de trabajo adicional, tendremos un incremento de 2,4 x 1.000
= 2.400 pesos en los gastos anuales de mantenimiento de una computadora
personal.

La calidad del ajuste


1. Introduccin
Una vez encontrado el modelo de regresin lineal mltiple a partir de los datos
de una muestra, queremos utilizarlo para hacer inferencias a toda la poblacin.
Sin embargo, antes es necesario llevar a cabo una comprobacin de la
idoneidad del modelo obtenido.
Ahora se debe calcular el coeficiente de determinacin para la regresin
mltiple como indicador de la calidad del ajuste. Tambin se utilizan los
grficos de los residuos como una importante herramienta de diagnstico del
modelo
Calidad del ajuste. El coeficiente de determinacin R2
Si consideramos que la variabilidad del modelo puede dividirse en los
componentes

SCT = SCR + SCE


Variabilidad total muestral = variabilidad explicada + variabilidad no explicada
De la misma manera que en la regresin lineal simple, tambin podemos definir
ahora el coeficiente de determinacin R2 como la proporcin de variabilidad
explicada por el modelo con respecto a la variabilidad total, es decir:

R2 =

Variabilidad explicada por el modelo


Variabilidad total de la muestra

Se puede expresar el coeficiente de determinacin as:

R2 =

SCR
SCE
= 1
SCT
SCT

Las ecuaciones de las varianzas:

1 n
SCT
2
S =
(
y

y
)
=
i
n 1 i=1
n 1
2
y

1 n
SCR
2
S = ( yi y ) =
k i =1
k
2
y

n
n
1
1
SCE
2
S =
ei2 =
( yi yi ) =

n k 1 i =1
n k 1 i =1
n k 1
2
e

Donde
SCT = Suma de Cuadrados Totales
SCR = Suma de Cuadrados de la Regresin
SCE = Suma de Cuadrados de los residuos
Ya se demostr que:

SCT = SCR + SCE


Para calcular las sumas de cuadrados, podemos utilizar el clculo matricial.

Suma de los cuadrados totales

Siendo D el vector de desviaciones de las yi con respecto a la media y :

y1 y
d1
y y
d

D = 2 = 2

d
y

y
n
n

Se puede escribir la suma de los cuadrados totales de la forma siguiente:

SCT = ( yi y ) = D T D = [ y1 y
2

i =1

y1 y
y y

y2 y yn y ] 2

y
n

Suma de los cuadrados de la regresin:

A partir de los valores estimados

y1 1
y 1
2 =


y n 1

x11
x12

x21
x22

x1n

x2 n

0
xk 1
1

xk 2

2

xkn

Se puede calcular el vector de las desviaciones de los valores estimados y i


con respecto a la media y

w1 y1 y
w y y

w = 2 = 2

w
y

n n
de donde,

SCR= ( y i y ) = wT w = [ y1 y
2

i =1

Suma de los cuadrados de los errores

A partir de los residuos:

y1 y
y y

y 2 y y n y ] 2

e1 y1 y1
e y y
2
e = 2 = 2

e
y

y
n
n n
de donde,

SCE = ( yi y i ) = eT e = [ y1 y1
2

i =1

y2 y2

y1 y1
y y
2
yn y n ] 2

y
y
n
n

Para el ejemplo de los gastos de las computadoras personales segn su


antigedad y las horas diarias de trabajo
Se tiene que, y = 32.52 de manera que la suma de cuadrados totales vale:

SCT = ( yi y )

i =1

7.92
0.48

= [ 7.92 0.48 4.08 7.28 3.98] 4.08 = 147.97

7
.
28

3.98

Los valores estimados por el modelo de regresin mltiple son:

y1
1
y
1
2

y3 = X = 1

y
4

1
y5
1

1
3
4
4
2

11
24
13 5 34
13 2.6 = 36.6

14 2.4 39
29
12
10

De manera que la suma de cuadrados de la regresin es:

SCR= ( y i y )

i =1

8.52
1.48

= [ 8.52 1.48 4.08 6.48 3.52] 4.08 = 145.81

6
.
48

3.52

La diferencia entre los valores observados y los valores estimados nos permite
obtener los residuos:

e1 y1 y1 24.6 24 0.6
e y y 33 34 1
2
2 2

e = e3 = y3 y3 = 36.6 36.6 = 0


e
y

y
39.8

39
0.8
4
4
4


e5 y5 y5 28.6 29 0.4
Por lo tanto

2
SCE = ( yi y i )
i =1

0.6
1

= e e = [0.6 1 0 0.8 0.4] 0 = 2.16

0
.
8

0.4

De esta manera el coeficiente de determinacin es:

11

SCR 145.81
R =
=
= 0.985
SCT 147.97
SCE
2.16
R2 = 1
= 1
= 1 0.015 = 0.985
SCT
147.97
2

Este resultado nos dice que el modelo de regresin mltiple obtenido explica el
98,5% de la variabilidad de los gastos de las computadoras personales. Dado
que est muy cerca del 100%, por el momento se puede considerar como un
buen modelo.
El coeficiente de determinacin ajustado
El coeficiente de determinacin ajustado, R 2 , se define de la siguiente forma

R2 = 1

SCE / ( n k 1)
SCT / ( n 1)

Esta medida se utiliza para tener en cuenta el hecho de que las variables
independientes irrelevantes provocan una pequea reduccin en la suma de
los cuadrados de los residuos. Por lo tanto, el R 2 permite comparar de mejor
manera los modelos de regresin lineal mltiple que tiene diferentes nmeros
de variables independientes
El R 2 para el ejemplo ser entonces:

R2 = 1

SCE / ( n k 1)
2.16 / 2
= 1
= 0,970804
SCT / ( n 1)
147.97 / 4

12

Contrastacin conjunta del modelo


Hemos visto cmo hay que hacer el contraste de hiptesis para ver si cada una
de las variables Xi, individualmente, contribuye a explicar la variable Y.
Ahora queremos contrastar el modelo de forma global, teniendo en cuenta
todas las variables Xi que hemos utilizado para encontrarlo.
Establecemos las hiptesis:
Hiptesis nula: H0: 1 = 2 = ... = K= 0.
Nos indica que no existe relacin lineal entre la variable Y y ninguna de las
variables Xi.
Hiptesis alternativa: H1: al menos una i 0
Calculamos el estadstico de contraste.
Esta prueba se basa en un estadstico de contraste que es una observacin de
una distribucin F cuando H0 es cierta.
Buscaremos una relacin entre la variacin explicada por el modelo de
regresin mltiple y la no explicada por el mismo modelo. Si la proporcin de
variacin explicada en relacin con la no explicada es grande, entonces se
confirmar la utilidad del modelo y no rechazaremos la hiptesis nula H0.
A partir de la descomposicin de la suma de cuadrados totales segn la suma
de cuadrados de la regresin ms la suma de los cuadrados de los errores:
Bajo la hiptesis nula, H0: 1 = 2 = ... = K= 0.
SCR tiene una distribucin 2 con k grados de libertad.
SCE tiene una distribucin 2 con n k - 1 grados de libertad.
SCR y SCE son independientes.
El cociente de dos variables 2 divididas por sus grados de libertad da una
variable F de Snedecor con los grados de libertad correspondientes al
numerador y denominador del cociente.
Si la hiptesis nula es cierta y, por tanto, no existe ningn tipo de relacin lineal
entre Y y las variables Xi, el estadstico tendr un valor cercano a uno. Pero
cuando existe cierta relacin, la suma de los cuadrados de la regresin
(numerador) aumenta y la suma de los cuadrados de los errores (denominador)
disminuye, de manera que el valor del estadstico de contraste aumenta. Si
este valor supera un valor crtico de la distribucin F, entonces rechazamos la
hiptesis nula.
As pues, podemos definir el estadstico de contraste:

13

F=

SCR / k
SCE /(n k 1)

Es una observacin de una distribucin F de Snedecor con k y n k - 1 grados


de libertad.

Si la hiptesis nula es cierta y, por tanto, no existe ningn tipo de relacin lineal
entre Y y las variables Xi, el estadstico tendr un valor cercano a uno. Pero
cuando existe cierta relacin, la suma de los cuadrados de la regresin
(numerador) aumenta y la suma de los cuadrados de los errores (denominador)
disminuye, de manera que el valor del estadstico de contraste aumenta. Si
este valor supera un valor crtico de la distribucin F, entonces rechazamos la
hiptesis nula.
Establecemos un criterio de decisin a partir de un nivel de significacin :
A partir de este valor crtico de la distribucin F de Snedecor:
Si
F > F; k; n-k-1, rechazamos H0; por tanto, el modelo explica
significativamente la variable Y. Es decir, el modelo s que contribuye con
informacin a explicar la variable Y.
Si F < F; k; n-k-1, no rechazamos H0; por tanto, el modelo no explica de forma
significativa la variable Y.
Tambin podemos hacerlo a partir del p-valor: p = P(F; k; n-k-1 > f ).
Si p , se rechaza la hiptesis nula H0.
Si p > , no se rechaza la hiptesis nula H0.
Los clculos necesarios se pueden resumir en la tabla siguiente, conocida
como TABLA DE ANLISIS DE VARAINZA

Fuente de Suma de
Variacin cuadrados

Grados
de
libertad

Cuadrados medios

x1,x2,.xk

SCR

CMR=SCR/k

SCE

n-k-1

CME=SCE/(n - k - 1)

SCT

n-1

Estadstico
de prueba

CMR/CME

Es muy importante tener presente el hecho siguiente: que el modelo lineal


explique de forma significativa la variable Y no implica que todas las variables
sean explicativas; para saberlo, deberemos contrastarlas de una en una, tal
como se ha explicado en el apartado anterior.

14

Ejemplo de los gastos de las computadoras personales segn su


antigedad y las horas diarias de trabajo
Ahora realizaremos un contraste conjunto del modelo obtenido anteriormente
para las computadoras personales.
Tomaremos = 0,05.
1. Establecemos las hiptesis nula y alternativa:
Hiptesis nula: H0: 1 = 2 = 0.
Hiptesis alternativa: H1: al menos una i 0, i = 1, 2.
2. Calculamos el estadstico de contraste:
Tenemos que:
Fuente
Suma de Grados de
de
cuadrados libertad
Variacin
x1,x2
145,81
2
E
2,16
5 -2- 1
Y
147,97
5 -1

Cuadrados medios
72,955
1,08

Estadstico
de prueba
67,5509259

Establecemos un criterio de decisin a partir de un nivel de significacin =


0,05. Mirando las tablas de la distribucin F de Snedecor, tenemos que el valor
crtico para = 0,05 y 2 grados de libertad en el numerador y 2 en el
denominador es F0,05;2;2 = 19,0.
Puesto que 67,5 > 19,0, entonces rechazamos la hiptesis nula, de manera
que el modelo en conjunto es bueno para explicar la variable Y.
Con el p-valor tenemos que: p = P(F0,05;2;2 > 67,5) = 0,0146 el cual es menor
que 0,05; por tanto, rechazamos la hiptesis nula.

Inferencia en la regresin lineal mltiple


1. Introduccin
Una vez estimado el modelo de regresin, interesa poder aplicarlo, hacer
inferencia, a la poblacin de la que se ha sacado la muestra. Ahora se
determina los intervalos de confianza para los parmetros del modelo y se
realizan contrastes de hiptesis para as poder detectar cules son las
variables realmente significativas.
Finalmente, se realizan la validacin de los supuestos; en especial cmo se
puede detectar y evitar el problema de la duplicacin de informacin que surge

15

cuando se utilizan variables correlacionadas, conocido con el nombre de


multicolinealidad.
2. Estimacin de la varianza de los errores
Dada una muestra de observaciones, el modelo estar totalmente determinado
una vez que se especifiquen los valores estimados de los coeficientes 0,
1,...,k y se estime la varianza comn de los errores 2. Para determinar una
estimacin insesgada de esta ltima, se considera los residuos como
estimaciones de los valores del trmino de error, entonces se puede estimar la
varianza de este trmino a partir de la varianza de los residuos:

se2 =

n
1
SCE
2
( yi yi ) =

n k 1 i =1
n k 1

Donde k es el nmero de variables independientes en el modelo de regresin.


La raz cuadrada de la varianza se, se conoce tambin como error tpico de la
estimacin ( Standard Error of Est. )
3. Distribuciones probabilsticas de los parmetros de la regresin
As, 0, 1,...,k son unas variables aleatorias que habr que estudiar para
poder inferir nuestros resultados a la poblacin de la que hemos extrado las
muestras. Primero las caracterizaremos calculando sus valores esperados y las
desviaciones estndar:
a) Valor esperado de j

( )

E j = j

para j = 1, ..., k. Se observa que los valores esperados de estos parmetros


son iguales a los valores poblacionales de stos. Aunque estos valores sean
desconocidos, este resultado ser de gran utilidad a la hora de hacer inferencia
estadstica.
b) Varianza de j . Las varianzas de las j son los elementos de la diagonal
de la matriz 2 ( X T X ) , es decir:
1

( )

2 diag ( X T X )

var 0

16

( )

var 1

var k

( )

Ya se ha calculado la media y la varianza de los estimadores. Puesto que la


variable Y se distribuye normalmente y las j son combinacin lineal de las
observaciones yj, se puede asegurar que las se distribuirn normalmente:
j

j N j , qij

donde qjj es el elemento de la fila j y columna j de la matriz (XTX)-1. Dado que la


varianza 2 es desconocida, se utiliza el valor estimado a partir de los datos de
2
la muestra, es decir se

se2 =

n
1
SCE
2
( yi yi ) =

n k 1 i =1
n k 1

De manera que:

( )

se2 diag ( X T X )

var 0

var k

( )

var 1

( )

As, las desviaciones estndar de los estimadores sern:

( )

s = var j , para
j

17

j = 1,2,...,k

Para el ejemplo de las computadoras personales

(X X )
T

181.5 14 17.5
= 14
1.3 1.4
17.5 1.4 1.7

La ecuacin de regresin qued:

y = 5 + 2.6 x1 + 2.4 x 2
Adems

se2 =

SCE
2.16
=
= 1.08
n k 1
2

De esta manera:

( )

var 0 = 1.08 181.5 = 195,912 s = 13.99 = 14

( )

var 1 = 1.08 1.3 = 1.404 s = 1.18

( )

var 2 = 1.08 1.7 = 1.836 s = 1.35


2

Intervalos de confianza de los parmetros del modelo


En los modelos de regresin lineal mltiple resulta til construir estimaciones
de intervalos de confianza para los coeficientes de la regresin. Como hemos
visto en el apartado anterior, los estimadores siguen distribuciones. Por tanto,
se puede demostrar que la variable tipificada:

j j
s

sigue una distribucin t de Student con n k -1 grados de libertad. Puesto que:

18

j j
t / 2 ,n k 1 = 1
P t / 2 ,n k 1

s
j

Un intervalo de confianza con un nivel de confianza de 100(1 )% para el


coeficiente

de la regresin viene dado por:

j t / 2 ,n k 1 s
donde

es el valor estimado del parmetro a partir de la muestra.

Para el ejemplo:

Intervalo de confianza para 1 con un nivel de confianza del 95%.


Observando la tabla de la distribucin t de Student con n - k - 1 = 2
grados de libertad, el valor crtico correspondiente para /2 = 0,025 es:
t0,025;2 = 4,3027. El intervalo de confianza ser:

[2,6 - 4,3027 1,18; 2,6 - 4,3027 1,18] = [-2,50; 7,70]

Intervalo de confianza para 2 con un nivel de confianza del 95%.


Ahora el intervalo de confianza ser:

[2,4 - 4,3027 1,35; 2,4 - 4,3027 1,35] = [-3,43; 8,23]

19

Contraste de hiptesis sobre los parmetros del modelo


Muchas veces es interesante hacer tests de hiptesis sobre los coeficientes de
la regresin. Casi siempre nos interesar saber si un coeficiente es igual a
cero, ya que esto querra decir que la variable Xi correspondiente no figura en
el modelo de regresin y, por tanto, no es una variable explicativa del
comportamiento de la variable Y.
Para hacer este contraste de hiptesis, seguimos el procedimiento que
exponemos a continuacin:
1) Establecemos las hiptesis. Para cada
Hiptesis nula: H0:

j :

j = 0 (la variable Xj no es explicativa).

Hiptesis alternativa: H1:

0.

En caso de que no rechacemos la hiptesis nula, esto querr decir que la


variable
Xj no es una variable explicativa y que, por tanto, podemos eliminarla del
modelo.
2) Calculamos el estadstico de contraste: si la hiptesis nula es cierta ( j = 0),
entonces obtenemos el estadstico de contraste:

t=

j
s

que es una observacin de una distribucin t de Student con n - k - 1 grados de


libertad.
3) Finalmente, a partir de un nivel de significacin se establece el criterio de
decisin. Para hacerlo, tenemos dos opciones:
a) A partir del p-valor.
b) A partir de los valores crticos t/2;n-k-1
Para el ejemplo
Volvemos a nuestro ejemplo para hacer un contraste de hiptesis sobre los
parmetros de la regresin y enterarnos de si las variables son explicativas de
los gastos anuales de mantenimiento de los ordenadores o no. Utilizaremos un
nivel de significacin = 0,05.

Contraste para 1
1. Establecemos las hiptesis nula y alternativa:

1 = 0 (la variable X1 no es explicativa).


Hiptesis alternativa: H1: 1 0.

Hiptesis nula: H0:

2. Calculamos el estadstico de contraste:

20

t=

1
s

2.6
= 2.20
1.18

3. Calculamos el p-valor correspondiente a este estadstico de contraste:


p = 2 P(tn k -1 > |t|) = 2 P(t2 > 2,20 ) = 2 x 0,094 = 0,1598.
Dado que 0,1598 > 0,05, no rechazamos H0. Por tanto, la variable X1 no es una
variable explicativa y, por tanto, podemos eliminarla del modelo.
Contraste para 2
1. Establecemos las hiptesis nula y alternativa:

2 = 0 (la variable X1 no es explicativa).


Hiptesis alternativa: H1: 2 0.
Hiptesis nula: H0:

2. Calculamos el estadstico de contraste:

t=

2
s

2.3
= 1.77
1.35

3. Calculamos el p-valor correspondiente a este estadstico de contraste:


p = 2P(tn-k-1 > |t|) = 2P(t2 > 1,77 ) = 2 x 0,1094 = 0,2188
Dado que 0,2188 > 0,05, no rechazamos H0. Por tanto, la variable X2 tampoco
es una variable explicativa y, por tanto, podemos eliminarla del modelo.
En este modelo de regresin lineal mltiple ninguna de las dos variables nos
explica la variable gasto en mantenimiento.
Llegamos a este punto, nos hacemos la pregunta siguiente: cmo puede ser
que el modelo en conjunto sea bueno para explicar la variable Y y, en cambio,
el contraste por separado para cada una de las variables X1 y X2 nos haya
dado que ninguna de las dos era explicativa de la variable Y? A primera vista
parece que sean resultados contradictorios. Esto se debe a la presencia de
multicolinealidad en nuestro problema. Lo trataremos en el apartado siguiente.
El problema de la multicolinealidad
En los problemas de regresin lineal mltiple esperamos encontrar
dependencia entre la variable Y y las variables explicativas X1, X2, ..., Xk. Pero
en algunos problemas de regresin podemos tener tambin algn tipo de
dependencia entre algunas de las variables Xj. En este caso tenemos
informacin redundante en el modelo.

21

El anlisis de los residuos


De la misma manera que en la regresin lineal simple, los residuos del modelo
de regresin lineal mltiple tienen un papel importante a la hora de determinar
la adecuacin del modelo.
En el caso de regresin lineal mltiple es habitual construir dos tipos de
grficos:
a) Grfico de residuos frente a valores estimados: representamos en el eje
de ordenadas los valores de los residuos y en el eje de abscisas, los
valores estimados, de manera que la nube de puntos no debe tener
ningn tipo de estructura y es cercano al eje de abscisas.
b) Grfico de residuos frente a variables explicativas: representamos sobre
el eje de ordenadas los valores de los residuos y sobre el eje de
abscisas, los valores observados de la variable explicativa. Tenemos un
grfico de este tipo para cada una de las variables explicativas.
Siempre que el modelo sea correcto, ningn grfico de residuos debe mostrar
ningn tipo de estructura. Los residuos siempre deben estar distribuidos al azar
alrededor del cero.
Para el ejemplo
En el caso de las computadoras personales y sus gastos en mantenimiento,
tenemos los grficos de representacin de los residuos siguientes:
Los tres grficos representan:
Plot of Y

observed

40
36
32
28
24
24

28

32

36

40

predicted
Residual Plot
1

residual

0.6
0.2
-0.2
-0.6
-1
1

1.5

2.5

X1

22

3.5

Residual Plot
1

residual

0.6
0.2
-0.2
-0.6
-1
11

11.5

12

12.5

13

13.5

14

X2

a) residuos frente a valores estimados por el modelo;


b) residuos frente a valores de la variable X1: horas diarias de trabajo;
c) residuos frente a valores de la variable X2: antigedad en aos.
No observamos ningn tipo de estructura organizada de los residuos que nos
haga pensar en una falta de linealidad del modelo. Tampoco observamos
ningn dato atpico.
El anlisis de los residuos se realiza de igual manera que para un modelo de
regresin lineal simple

Adicionalmente para verificar la existencia de multicolinealidad, es conveniente


calcular la matriz de correlaciones parciales. Para el ejemplo
Correlation matrix for coefficient estimates
----------------------------------------------------------------------------CONSTANT
X1
X2
CONSTANT
1.0000
0.9114
-0.9963
X1
0.9114
1.0000
-0.9417
X2
-0.9963
-0.9417
1.0000
-----------------------------------------------------------------------------

De hecho como se haba sospechado, existe una alta correlacin negativa


entre X1 y X2 , igual -0.9417
Multiple Regression - Y
Multiple Regression Analysis
----------------------------------------------------------------------------Dependent variable: Y
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
-5.0
14.0007
-0.357125
0.7552
X1
2.6
1.18491
2.19427
0.1595
X2
2.4
1.35499
1.77123
0.2185
----------------------------------------------------------------------------Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
145.808
2
72.904
67.50
0.0146
Residual
2.16
2
1.08
----------------------------------------------------------------------------Total (Corr.)
147.968
4

23

R-squared = 98.5402 percent


R-squared (adjusted for d.f.) = 97.0804 percent
Standard Error of Est. = 1.03923
Mean absolute error = 0.56
Durbin-Watson statistic = 2.61111 (P = 0.3392)
Lag 1 residual autocorrelation = -0.425926

The StatAdvisor
--------------The output shows the results of fitting a multiple linear
regression model to describe the relationship between Y and 2
independent variables. The equation of the fitted model is
Y = -5.0 + 2.6*X1 + 2.4*X2
Since the P-value in the ANOVA table is less than 0.05, there is a
statistically significant relationship between the variables at the
95% confidence level.
The R-Squared statistic indicates that the model as fitted
explains 98.5402% of the variability in Y. The adjusted R-squared
statistic, which is more suitable for comparing models with different
numbers of independent variables, is 97.0804%. The standard error of
the estimate shows the standard deviation of the residuals to be
1.03923. This value can be used to construct prediction limits for
new observations by selecting the Reports option from the text menu.
The mean absolute error (MAE) of 0.56 is the average value of the
residuals. The Durbin-Watson (DW) statistic tests the residuals to
determine if there is any significant correlation based on the order
in which they occur in your data file. Since the P-value is greater
than 0.05, there is no indication of serial autocorrelation in the
residuals.
In determining whether the model can be simplified, notice that the
highest P-value on the independent variables is 0.2185, belonging to
X2. Since the P-value is greater or equal to 0.10, that term is not
statistically significant at the 90% or higher confidence level.
Consequently, you should consider removing X2 from the model.

component effect

Component+Residual Plot for Y


5.9
3.9
1.9
-0.1
-2.1
-4.1
1

1.5

2.5

3.5

X1
95.0% confidence intervals for coefficient estimates
----------------------------------------------------------------------------Standard
Parameter
Estimate
Error
Lower Limit
Upper Limit
----------------------------------------------------------------------------CONSTANT
-5.0
14.0007
-65.2402
55.2402
X1
2.6
1.18491
-2.49823
7.69823
X2
2.4
1.35499
-3.43005
8.23005
-----------------------------------------------------------------------------

The StatAdvisor
--------------This table shows 95.0% confidence intervals for the coefficients in

24

the model. Confidence intervals show how precisely the coefficients


can be estimated given the amount of available data and the noise
which is present.

Plot of Y

observed

40
36
32
28
24
24

28

32

36

40

predicted
Correlation matrix for coefficient estimates
----------------------------------------------------------------------------CONSTANT
X1
X2
CONSTANT
1.0000
0.9114
-0.9963
X1
0.9114
1.0000
-0.9417
X2
-0.9963
-0.9417
1.0000
-----------------------------------------------------------------------------

The StatAdvisor
--------------This table shows estimated correlations between the coefficients in
the fitted model. These correlations can be used to detect the
presence of serious multicollinearity, i.e., correlation amongst the
predictor variables. In this case, there is 1 correlation with
absolute value greater than 0.5 (not including the constant term).

Residual Plot
1

residual

0.6
0.2
-0.2
-0.6
-1
1

1.5

2.5

3.5

X1
Residual Plot
1

residual

0.6
0.2
-0.2
-0.6
-1
11

11.5

12

12.5

X2

25

13

13.5

14

Residual Plot
1

residual

0.6
0.2
-0.2
-0.6
-1
24

28

32

36

40

predicted Y

Residual Plot
Studentized residual

(X 1.E9)
1
0.6
0.2
-0.2
-0.6
-1
0

row number
Plot of Y with Predicted Values
40

36
32
28
24
1

1.5

2.5

X1

26

3.5

También podría gustarte