Está en la página 1de 55

1

ndice

Regresin lineal mltiple

Jos Gabriel Palomo Snchez


gabriel.palomo@upm.es
E.U.A.T.
U.P.M.

Julio de 2011

ndice

ndice I

El modelo de regresin lineal mltiple


1
2
3

El modelo de regresin mltiple. Introduccin


El modelo de regresin lineal mltiple. Introduccin
El modelo de regresin lineal con dos regresores

El modelo general de regresin


1
2
3
4
5
6
7

Hiptesis del modelo


Consecuencias de las hiptesis del modelo
Estimacin de los parmetros del modelo por mnimos
cuadrados
Propiedades de los estimadores de los parmetros del modelo
Estimador de la variamza del error. La varianza residual
Inferencia respecto de los parmetros del modelo
Interpretacin de los tests de la t en regresin mltiple

ndice

ndice II

El modelo general de regresin. (Continuacin)


8 El test de la F
9 Interpretacin del test de la F
10 Interpretacin conjunta de los tests de la t y de la F
11
12
13
14
15
16
17

Multicolinealidad. Deteccin y tratamiento


El coeciente de determinacin
Diagnosis y validacin del modelo
Prediccin en regresin mltiple
Los valores atpicos en regresin mltiple
Ejemplos de modelos linealizables
Ejemplos de modelos no linealizables

ndice

El modelo de regresin mltiple I

El modelo de regresin mltiple es la extensin a k variables


explicativas del modelo de regresin simple.
La estructura del modelo de regresin mltiple es la siguiente:

= f (x1 , . . . , xk ) + E .

ndice

El modelo de regresin mltiple II

Donde:

y es la variable explicada, dependiente o respuesta.


x

, . . . , xk son las variables explicativas, regresores o variables

independientes.

= f (x1 , . . . , xk ) es la parte determinista del modelo.

E representa el error aleatorio. Contiene el efecto sobre y de


todas las variables distintas de x , . . . , xk .
1

ndice

El modelo de regresin lineal mltiple I

El modelo de regresin lineal mltiple tiene la forma:

y
|

= 0 + 1 x1 + + k xk +E
{z
}
Hiperplano

ndice

El Modelo de regresin lineal mltiple II

El modelo de regresin lineal mtiple se utiliza cuando:


1

La variable dependiente, Y , depende linealmente de cada una


de las variables explicativas, X1 , . . . , Xk .

Un regresor no basta para explicar sucientemente la


variabilidad de Y .

ndice

Ejemplo: El modelo de regresin lineal con


dos regresores I

En el caso particular en que haya dos regresores, k = 2, el


modelo tendra la forma:

y
|

= 0 + 1 x1 + 2 x2 +E
{z
}
Plano

ndice

Ejemplo: El modelo de regresin lineal con


dos regresores II

Grcamente, el modelo
de regresin lineal con dos
regresores supone calcular
la ecuacin de un plano
que describa la relacin de
Y con X1 y X2 , .

b
b
b

y = 0 + 1 x1 + 2 x2

X2

X1

ndice

Ejemplo: El modelo de regresin lineal con


dos regresores III

De forma anloga al caso


simple, calculado el plano,
el valor de yi en cualquier
punto (x1i , x2i , yi ) se puede
descomponer en parte
determinista y aleatoria, .

b yi

ei

0 +
1 x1 +
2 x2
y =

0 +
1 x1i +
2 x2i
yi =

X2
b

(x1i , x2i )
X1

10

ndice

Ejemplo: El modelo de regresin lineal con


dos regresores IV

La estimacin por mnimos


cuadrados de los
parmetros del modelo
consiste en calcular la
ecuacin del plano que
haga mnimo el valor de

b
b
b

ei
b

e1

en

e2

ei ,
2

X2

con ei = yi yi . .
X1

11

12

ndice

El modelo general de regresin. Hiptesis del


modelo I

Generalizando, al ajustar un modelo de regresin lineal mltiple se


supondr que se verican las siguientes hiptesis:
1

Fijados los valores x1i , . . . , xki de las variables X1 , . . . , Xk , se


tiene que yi = 0 + 1 x1i + + k xki + ei

Cada error ei N (0, 2 ) .

Cualquier par de errores ei y ej son independientes.

Las variables explicativas son, algebraicamente, linealmente


independientes.

El nmero de datos es mayor o igual que k + 2.

ndice

El modelo general de regresin. Hiptesis del


modelo II

Observaciones

Las tres primeras hiptesis del modelo se justican igual que


en regresin simple.
La condicin de la independencia lineal algebraica de los
regresores tiene por objeto ajustar la dimensin del problema,
ya que si no se cumpliese se podran eliminar regresores del
modelo.
El nmero de datos debe ser mayor o igual que k + 2 para
poder estimar todos los parmetros del modelo.
13

14

ndice

Consecuencias de las hiptesis del modelo I

Las hiptesis impuestas al comportamiento del error del modelo


tienen las siguientes consecuencias:
1

Para cada conjunto de valores, x1i , . . . , xki de X1 , . . . , Xk , la


variable aleatoria (Y |X1 = x1i , . . . , Xk = xki ) tiene una
distribucin:
(Y |X1 = x1i , . . . , Xk = xki ) N (0 + 1 x1i + + k xki , 2 )

Las observaciones yi de la variable Y son independientes.

ndice

Consecuencias de las hiptesis del modelo II

Consecuentemente,

yi

= 0 + 1 x1i + + k xki

representa la esperanza de la variable Y condicionada por los


valores x1i , . . . xki de las variables X1 , . . . , Xk , respectivamente.
Adems, todas las variables Yi tienen la misma varianza, 2 .
Es decir, son homocedsticas.

15

16

ndice

Estimacin de los parmetros del modelo de


regresin mltiple por mnimos cuadrados I

Supngase que para estimar los parmetros del modelo

= 0 + 1 x1 + + k xk ,

se dispone del conjunto de datos:

X
Individuo 1 x
Individuo 2 x

11

12

Xk
xk
xk

xkn yn

..
.

Individuo n

Y
y
y

..
.

ndice

Estimacin de los parmetros del modelo de


regresin mltiple por mnimos cuadrados II

Como

ei

= yi (0 + 1 x1i + + k xki ),

resulta que el mdulo del vector error es funcin de 0 , . . . , k :


X

17

ei

= S (0 , . . . , k ).

18

ndice

Estimacin de los parmetros del modelo de


regresin mltiple por mnimos cuadrados III

Para que S sea mnimo deber ser:

=0

=
0
1
S
0

..
.

=
0
k

ndice

Estimacin de los parmetros del modelo de


regresin mltiple por mnimos cuadrados IV

Llamando

0
1

= . ,
.
.
k

19

1 x11 xk 1
y1
y2
1 x12 xk 2

..
.. e Y = ..
.
.
.
yn
1 x1n xkn

ndice

Estimacin de los parmetros del modelo de


regresin mltiple por mnimos cuadrados V

Resulta que:
= (X 0 X )1 X 0 Y ,

donde X 0 representa la matriz transpuesta de X .

20

21

ndice

Propiedades de los estimadores de los


parmetros del modelo de regresin I

El parmetro i , en regresin mltiple, representa el efecto del


aumento de una unidad del regresor Xi sobre la respuesta, Y ,
cuando el resto de los regresores permanecen constantes.

Si los regresores estn incorrelados, ij = 0, para todo i , j , los


estimadores de los coecientes de regresin estimados en el
modelo mltiple y en los distintos modelos simples coinciden.

22

ndice

Propiedades de los estimadores de los


parmetros del modelo de regresin II

Se puede demostrar que:


1

i sigue una distribucin normal, para todo i = 0, . . . , k .

Para todo i , con i = 0, 1, . . . , k , se cumple que E (i ) = i .


Es decir i es un estimador centrado de i , para todo i .

La matriz de varianzas y covarianzas de 0 , . . . , k viene dada


por la expresin:
= (X 0 X )
COV ()
2

23

ndice

Estimador de la varianza del error. La


varianza residual I

Anlogamente al caso de regresin simple, la realizacin de


inferencia sobre los parmetros del modelo requiere una
estimacin de 2 .
Como en el caso simple, el estimador mximo verosmil de la
varianza es:

ei
n

P
2

que no es un estimador centrado de 2 .

24

ndice

Estimador de la varianza del error. La


varianza residual II

La resolucin del sistema,


S
S
= 0, . . . ,
= 0,
0
k

que se emplea para calcular los estimadores de los parmetros i ,


pone de maniesto las siguientes relaciones entre los residuos:

ei
P
ei x i

=0

1 = 0
.. (k + 1) restricciones.
.

P
ei xki = 0
P

25

ndice

Estimador de la varianza del error. La


varianza residual III

De forma similar al caso simple se dene la varianza residual


como:
sR2 =

ei
,
nk 1
P

que ser el estimador habitual de 2 .

ndice

Estimador de la varianza del error. La


varianza residual IV

sR2 es un estimador centrado de 2 . Esto es:

E (sR ) =
2

Adems:
(n k 1)sR2
2nk 1
2
Esta distribucin permite realizar inferencia respecto de 2 .

26

ndice

Inferencia respecto de los coeficientes de


regresin I

En consecuencia con lo anterior, si la diagonal de la matriz,


conocida, (X 0 X )1 tiene la forma:

D (X 0 X )

00

La varianza de i ser 2 dii .


27

11

..

dii

..

dkk

28

ndice

Inferencia respecto de los coeficientes de


regresin II

Por lo tanto,
i N ( i ,

dii ),

de donde,

i i

N (0, 1),
dii
i i
tnk 1 .
sR dii

29

ndice

Inferencia respecto de los coeficientes de


regresin III

La ltima expresin permite realizar, para todo i = 0, . . . k , el


contraste individual de regresin (test de la t ):

: i = 0 frente a

: i 6= 0,

ya que si i = 0,
sR

dii

tnk 1 .

ndice

Interpretacin del test de la

en regresin

mltiple

Anlogamente al caso simple, la aceptacin de la hiptesis


nula, i = 0, puede ser debida a que:
1
2

X e Y sean independientes.
Entre X e Y haya una relacin de dependencia no lineal.
i

En el primer caso, la variable Xi debe ser eliminada del


modelo.
En el segundo, se debe intentar una transformacin que
linealice la relacin entre Xi e Y .

30

31

ndice

El test de la

en regresin mltiple I

1
Si se denomina (X 0 X )
a la matriz resultante de eliminar la
0
primera la y la primera columna de la matriz

(X 0 X )1

d
d d

00

11

..

dii

..

dkk

ndice

El test de la

en regresin mltiple II

se tiene que la matriz:

1
2 (X 0 X )
0

2
=

11

..

dii

..

dkk

es la matriz de varianzas y covarianzas de 1 , . . . , k .

32

33

ndice

El test de la

en regresin mltiple III

Llamando b al vector:

.
b=
..

Se puede demostrar que:

b0 (X 0 X ) b
k sR
0

F(k ,nk 1) .

ndice

El test de la

en regresin mltiple IV

Esta distribucin permite la realizacin del contraste


fundamental de regresin mltiple:

: 1 = 2 = = k = 0

frente a:

H : Existe algn i con i = 1, . . . , k tal que


1

34

i 6= 0.

ndice

Interpretacin del test de la

La aceptacin de la hiptesis nula del test de la F ,

: 1 = 2 = = k = 0,

puede ser debida a:


Independencia de la variable explicada frente a todos los
regresores.
Existe dependencia no lineal de la variable explicada frente a
algn regresor.

35

ndice

Interpretacin del test de la

II

El rechazo de la hiptesis nula del test de la F signica que la


variable explicada depende linealmente de alguno de los
regresores.
Para saber cul o cules de los regresores explican
signicativamente a la variable dependiente es necesario
atender a los contrastes individuales de la t .

36

37

ndice

Interpretacin conjunta del test de la


los contrastes individuales de la

y de

La siguiente tabla contiene el conjunto de los casos posibles al


realizar el test de la F y los contrastes de la t en regresin mltiple:
Caso

Test de la F

Contrastes individuales

Signicativo

Todos signicativos

Signicativo

Alguno signicativo

Signicativo

Ninguno signicativo

No signicativo

Todos signicativos

No signicativo

Alguno signicativo

No signicativo

Ninguno signicativo

38

ndice

Interpretacin conjunta del test de la


los contrastes individuales de la

Caso

Caso

y de

II

1: Cuando el contraste de la F es signicativo y todos


los contrastes de la t tambin lo son, se interpreta
que todos los regresores inuyen signicativamente en
la variable explicada.
2: Si el contraste de la F es signicativo y slo algunos
de los regresores lo son, se interpreta que los
regresores no signicativos deben ser eliminados del
modelo, o bien transformados si se intuye relacin de
dependencia no lineal entre la variable dependiente y
alguno de ellos.

39

ndice

Interpretacin conjunta del test de la


los contrastes individuales de la
Caso

Casos

Caso

y de

III

3: Cuando el test de la F es signicativo y ninguno de


los contrastes individuales lo es, se da una situacin
paradjica que, frecuentemente, se origina por un
problema denominado multicolinealidad. Su anlisis
y tratamiento se explica ms adelante.
y

5: Si el test de la F es no signicativo y todos o


algunos de los contrastes individuales s lo son, se
origina igualmente una situacin paradjica que
responden a casos particulares de multicolinealidad.

6: Si el test de la F no es signicativo y ninguno de los


contrastes individuales lo es, no se detecta relacin de
dependencia lineal entre la variable explicada y los
regresores.

ndice

Multicolinealidad. Deteccin y tratamiento I

Los casos 3, 4, y 5 citados anteriormente se deben habitualmente al


problema de multicolinealidad.
La multicolinealidad es consecuencia de que todos o una parte
de los regresores X1 , . . . , Xk estn fuertemente correlados.
La deteccin de la multicolinealidad se realiza a travs de:
La matriz de correlacin de las variables explicativas.
La diagonal de la inversa de esta matriz.
Los autovalores de la matriz X 0 X .

40

ndice

Multicolinealidad. Deteccin y tratamiento II

El tratamiento de la multicolinealidad consiste bsicamente en:


Eliminar regresores del modelo que tengan alta correlacin con
el resto, lo que disminuye el nmero de parmetros que hay
que estimar. (Esta es la solucin ms sencilla, cuando se puede
utilizar.)
Incluir informacin externa a los datos.

41

ndice

El coeficiente de determinacin I

Una vez estimado el modelo de regresin mltiple,

y =

+ 1 x1 + + k xk ,

se puede completar el conjunto de datos con la nueva columna Y :

X
Individuo 1 x
Individuo 2 x

11

12

Xk
xk
xk

xkn yn yn

..
.

Individuo n

Donde yi = 0 + 1 x1i + + k xki .


42

Y
y
y

Y
y
y

..
.

ndice

El coeficiente de determinacin II

Se dene el coeciente de determinacin como el coeciente


de correlacin lineal entre las variables Y e Y .
El coeciente de determinacin es una medida de bondad del
ajuste del modelo y se representa por R 2 .
La ecacia de R 2 como medida de la bondad de ajuste
depende de la relacin entre el nmero de regresores, k y el
tamao muestral, n, siendo ms able cuanto menor sea el
cociente k /n.

ndice

El coeficiente de determinacin III

El coeciente de determinacin tiene las siguientes propiedades:


0 R 2 1. Cuando R 2 = 1, la relacin entre la variable
explicada y los regresores es exacta.

100 representa el porcentaje de variabilidad de Y


explicada por el modelo. Un valor de R 2 100 bajo puede ser
debido a la omisin de variables explicativas relevantes en el
modelo.
2

R aumenta siempre con la introduccin de nuevas variables


2

en el modelo. Para evitar este inconveniente se calcula el


coeciente de determinacin corregido por grados de libertad.
(Ver Pea 2002)
En regresin simple, el coeciente de determinacin es el
cuadrado del coeciente de correlacin lineal.
44

ndice

Diagnosis y validacin del modelo I

Al igual que en el caso de la regresin simple, antes de emplear


un modelo de regresin es necesario vericar las hiptesis
bsicas del modelo.
Esta vericacin (diagnosis) se realiza a travs del anlisis de
los residuos.

45

ndice

Diagnosis y validacin del modelo II

En particular:
La normalidad del error se analiza con la representacin de los
residuos en papel probabilstico normal, o con algn test de
normalidad.
Las hiptesis de linealidad, homocedasticidad e independencia
se verican a travs del grco de residuos frente a los valores
previstos y frente a los valores de los regresores.
La conveniencia de introducir una nueva variable en el modelo
se puede analizar por medio del grco de los residuos frente a
esta nueva variable.
La interpretacin de los grcos es similar a la que se da a los
mismos en regresin simple.
46

47

ndice

Prediccin en regresin mltiple I

Una vez estimado y validado el modelo de regresin, se puede


emplear ste para hacer predicciones.
1

Se puede emplear y(x1i , . . . , xki ) para predecir el valor de


1 = x1i , . . . , Xk = xki ).

E (Y |X

Tambin se puede emplear y(x1i , . . . , xki ) para predecir el valor


de un individuo de la variable (Y |X1 = x1i , . . . , Xk = xki ).

ndice

Prediccin en regresin mltiple II

Obsrvese que los dos valores se estiman por el mismo nmero.


Igual que en regresin simple, la estimacin de la media se
realiza con mayor precisin que el valor de un individuo
concreto.
Pueden consultarse los detalles del clculo de intervalos de
conanza, para ambos casos, en Pea (2002).

48

ndice

Los valores atpicos en regresin mltiple I

Conceptualmente las ideas de punto atpico e inuyente


coinciden con las explicadas en regresin simple.
La detecccin de puntos atpicos en regresin mltiple es ms
compleja que en regresin simple, debido a la dimensionalidad
de los datos.
Se emplearn los grcos de residuos frente a las variables
explicativas y a los valores previstos por el modelo para
detectar puntos atpicos, aunque estos grcos no siempre
permiten encontrar estos puntos.

49

ndice

Los valores atpicos en regresin mltiple II

Informacin sobre la construccin de estadsticos que permitan


detectar atpicos puede encontrarse en Pea (2002).
El tratamiento de los atpicos, una vez identicados, ser
similar al expuesto en regresin simple.

50

ndice

Ejemplo I. Modelos de regresin linealizables

Se exponen a continuacin algunos ejemplos de relaciones no


lineales, que se pueden linealizar mediante transformaciones
adecuadas.
Modelo polinmico de segundo grado con una variable
independiente:

= 0 + 1 x + 2 x 2 + u

Haciendo la transformacin x2 = x 2 , se obtiene el modelo


lineal:

51

= 0 + 1 x + 2 x2 + u

ndice

Ejemplo II. Modelos de regresin linealizables

Modelo polinmico de segundo grado con dos variables


independientes:

= 0 + 1 x1 + 2 x2 + 11 x12 + 22 x22 + 12 x1 x2 + u

Haciendo las transformaciones x3 = x12 , x4 = x22 , x5 = x1 x2 ,


se obtiene el modelo lineal:

52

= 0 + 1 x1 + 2 x2 + 11 x3 + 22 x4 + 12 x5 + u

53

ndice

Ejemplo III. Modelos de regresin


linealizables

 

= 0 + 1 x11 + 2 ln x2 + 3 x3 + u

Haciendo las transformaciones

 
= x11 ,

= ln x2 ,

x , se obtiene el modelo lineal:


3

= 0 + 1 z1 + 2 z2 + 3 z3 + u

ndice

Ejemplo IV. Modelos de regresin


linealizables

Modelo multiplicativo:

= x1x2x3,

donde  representa el error aleatorio.


Tomando logaritmos en ambos miembros, se tiene que:

ln y = ln + ln x1 + ln x2 + ln x3 + ln,
que es el modelo lineal:

Y
54

= 0 + z1 + z2 + z3 + u

ndice

Ejemplos V. Modelos de regresin no


linealizables

Por otro lado, cabe sealar que existen modelos de relacin que no
se pueden linealizar mediante funciones elementales, como por
ejemplo:

y
y

55

= 0 + 1 e 2 X + u

= 0 + 1 X + 2 (3 )X + u

También podría gustarte