Está en la página 1de 55

ndice

Regresin lineal mltiple

Jos Gabriel Palomo Snchez gabriel.palomo@upm.es


E.U.A.T. U.P.M.

Julio de 2011

ndice

ndice I

El modelo de regresin lineal mltiple


1 2 3

El modelo de regresin mltiple. Introduccin El modelo de regresin lineal mltiple. Introduccin El modelo de regresin lineal con dos regresores Hiptesis del modelo Consecuencias de las hiptesis del modelo Estimacin de los parmetros del modelo por mnimos cuadrados Propiedades de los estimadores de los parmetros del modelo Estimador de la variamza del error. La varianza residual Inferencia respecto de los parmetros del modelo Interpretacin de los tests de la t en regresin mltiple

El modelo general de regresin


1 2 3 4 5 6 7

ndice

ndice II

El modelo general de regresin. (Continuacin) 8 El test de la F 9 Interpretacin del test de la F 10 Interpretacin conjunta de los tests de la t y de la F
11 12 13 14 15 16 17

Multicolinealidad. Deteccin y tratamiento El coeciente de determinacin Diagnosis y validacin del modelo Prediccin en regresin mltiple Los valores atpicos en regresin mltiple Ejemplos de modelos linealizables Ejemplos de modelos no linealizables

ndice

El modelo de regresin mltiple I

El modelo de regresin mltiple es la extensin a k variables explicativas del modelo de regresin simple. La estructura del modelo de regresin mltiple es la siguiente:

= f (x1 , . . . , xk ) + E .

ndice

El modelo de regresin mltiple II

Donde:

y es la variable explicada, dependiente o respuesta. x y


independientes.
1

, . . . , xk son las variables explicativas, regresores o variables

= f (x1 , . . . , xk ) es la parte determinista del modelo.

E representa el error aleatorio. Contiene el efecto sobre y de todas las variables distintas de x , . . . , xk .
1

ndice

El modelo de regresin lineal mltiple I

El modelo de regresin lineal mltiple tiene la forma:

= 0 + 1 x1 + + k xk +E
Hiperplano

ndice

El Modelo de regresin lineal mltiple II

El modelo de regresin lineal mtiple se utiliza cuando:


1

La variable dependiente, Y , depende linealmente de cada una de las variables explicativas, X1 , . . . , Xk . Un regresor no basta para explicar sucientemente la variabilidad de Y .

ndice

Ejemplo: El modelo de regresin lineal con dos regresores I

En el caso particular en que haya dos regresores, k = 2, el modelo tendra la forma:

= 0 + 1 x1 + 2 x2 +E
Plano

ndice

Ejemplo: El modelo de regresin lineal con dos regresores II

Grcamente, el modelo de regresin lineal con dos regresores supone calcular la ecuacin de un plano que describa la relacin de Y con X1 y X2 , .

y = 0 + 1 x1 + 2 x2

X2

X1

ndice

Ejemplo: El modelo de regresin lineal con dos regresores III

De forma anloga al caso simple, calculado el plano, el valor de yi en cualquier punto (x1i , x2i , yi ) se puede descomponer en parte determinista y aleatoria, .

yi ei

y = 0 + 1 x1 + 2 x2

yi = 0 + 1 x1i + 2 x2i

X2 (x1i , x2i ) X1

10

ndice

Ejemplo: El modelo de regresin lineal con dos regresores IV

La estimacin por mnimos cuadrados de los parmetros del modelo consiste en calcular la ecuacin del plano que haga mnimo el valor de

ei

en

e1

ei ,
2

e2

con ei = yi yi . .
X1

X2

11

ndice

El modelo general de regresin. Hiptesis del modelo I

Generalizando, al ajustar un modelo de regresin lineal mltiple se supondr que se verican las siguientes hiptesis:
1

Fijados los valores x1i , . . . , xki de las variables X1 , . . . , Xk , se tiene que yi = 0 + 1 x1i + + k xki + ei Cada error ei N (0, 2 ) . Cualquier par de errores ei y ej son independientes. Las variables explicativas son, algebraicamente, linealmente independientes. El nmero de datos es mayor o igual que k + 2.

2 3 4

12

ndice

El modelo general de regresin. Hiptesis del modelo II

Observaciones

Las tres primeras hiptesis del modelo se justican igual que en regresin simple. La condicin de la independencia lineal algebraica de los regresores tiene por objeto ajustar la dimensin del problema, ya que si no se cumpliese se podran eliminar regresores del modelo. El nmero de datos debe ser mayor o igual que k + 2 para poder estimar todos los parmetros del modelo.
13

ndice

Consecuencias de las hiptesis del modelo I

Las hiptesis impuestas al comportamiento del error del modelo tienen las siguientes consecuencias:
1

Para cada conjunto de valores, x1i , . . . , xki de X1 , . . . , Xk , la variable aleatoria (Y |X1 = x1i , . . . , Xk = xki ) tiene una distribucin:
(Y |X1 = x1i , . . . , Xk = xki ) N (0 + 1 x1i + + k xki , 2 )

Las observaciones yi de la variable Y son independientes.

14

ndice

Consecuencias de las hiptesis del modelo II

Consecuentemente,

yi

= 0 + 1 x1i + + k xki

representa la esperanza de la variable Y condicionada por los valores x1i , . . . xki de las variables X1 , . . . , Xk , respectivamente. Adems, todas las variables Yi tienen la misma varianza, 2 . Es decir, son homocedsticas.

15

ndice

Estimacin de los parmetros del modelo de regresin mltiple por mnimos cuadrados I

Supngase que para estimar los parmetros del modelo

= 0 + 1 x1 + + k xk ,

se dispone del conjunto de datos:

X Individuo 1 x Individuo 2 x
Individuo n

11

12

. . .

Xk xk xk

Y y y
. . .

xkn yn

16

ndice

Estimacin de los parmetros del modelo de regresin mltiple por mnimos cuadrados II

Como

ei

= yi (0 + 1 x1i + + k xki ),

resulta que el mdulo del vector error es funcin de 0 , . . . , k :

ei

= S (0 , . . . , k ).

17

ndice

Estimacin de los parmetros del modelo de regresin mltiple por mnimos cuadrados III

Para que S sea mnimo deber ser:


=0 S =0 1
S 0

S =0 k

. . .

18

ndice

Estimacin de los parmetros del modelo de regresin mltiple por mnimos cuadrados IV

Llamando
0 1 = . , . . k

1 x11 xk 1 y1 y2 1 x12 xk 2 . . e Y = . . . . . . . yn 1 x1n xkn


19

ndice

Estimacin de los parmetros del modelo de regresin mltiple por mnimos cuadrados V

Resulta que:
= (X

X ) X Y ,
1

donde X representa la matriz transpuesta de X .

20

ndice

Propiedades de los estimadores de los parmetros del modelo de regresin I

El parmetro i , en regresin mltiple, representa el efecto del aumento de una unidad del regresor Xi sobre la respuesta, Y , cuando el resto de los regresores permanecen constantes.

Si los regresores estn incorrelados, ij = 0, para todo i , j , los estimadores de los coecientes de regresin estimados en el modelo mltiple y en los distintos modelos simples coinciden.

21

ndice

Propiedades de los estimadores de los parmetros del modelo de regresin II

Se puede demostrar que:


1 2

i sigue una distribucin normal, para todo i = 0, . . . , k . Para todo i , con i = 0, 1, . . . , k , se cumple que E (i ) = i . i es un estimador centrado de i , para todo i . Es decir La matriz de varianzas y covarianzas de 0 , . . . , k viene dada por la expresin: COV () = (X X )
2 1

22

ndice

Estimador de la varianza del error. La varianza residual I

Anlogamente al caso de regresin simple, la realizacin de inferencia sobre los parmetros del modelo requiere una estimacin de 2 . Como en el caso simple, el estimador mximo verosmil de la varianza es:
2 =

ei n

que no es un estimador centrado de 2 .

23

ndice

Estimador de la varianza del error. La varianza residual II

La resolucin del sistema,


S S = 0, . . . , = 0, 0 k

que se emplea para calcular los estimadores de los parmetros i , pone de maniesto las siguientes relaciones entre los residuos:

ei ei x i

=0 1 = 0 . (k + 1) restricciones. . . ei xki = 0

24

ndice

Estimador de la varianza del error. La varianza residual III

De forma similar al caso simple se dene la varianza residual como:


R = s2

ei , nk 1
2

que ser el estimador habitual de 2 .

25

ndice

Estimador de la varianza del error. La varianza residual IV

R es un estimador centrado de 2 . Esto es: s2

E (R ) = s
2

Adems:
(n k 1)R s2 2k 1 n 2
Esta distribucin permite realizar inferencia respecto de 2 .

26

ndice

Inferencia respecto de los coeficientes de regresin I

En consecuencia con lo anterior, si la diagonal de la matriz, conocida, (X X )1 tiene la forma:


00

11

D (X X )

..

dii

..

dkk

La varianza de i ser 2 dii .


27

ndice

Inferencia respecto de los coeficientes de regresin II

Por lo tanto,
i N ( i ,

dii ),

de donde,
i i N (0, 1), dii i i tnk 1 . R dii s

28

ndice

Inferencia respecto de los coeficientes de regresin III

La ltima expresin permite realizar, para todo i = 0, . . . k , el contraste individual de regresin (test de la t ):

: i = 0 frente a

: i = 0,

ya que si i = 0,
R s i

dii

tnk 1 .

29

ndice

Interpretacin del test de la mltiple

en regresin

Anlogamente al caso simple, la aceptacin de la hiptesis nula, i = 0, puede ser debida a que:
1 2

X e Y sean independientes. Entre X e Y haya una relacin de dependencia no lineal.


i i

En el primer caso, la variable Xi debe ser eliminada del modelo. En el segundo, se debe intentar una transformacin que linealice la relacin entre Xi e Y .

30

ndice

El test de la

en regresin mltiple I

Si se denomina (X X )1 a la matriz resultante de eliminar la 0 primera la y la primera columna de la matriz


=

d d d
00

11

(X

X )

..

dii

..

dkk

31

ndice

El test de la

en regresin mltiple II

se tiene que la matriz:


2 (X

11

X )
0

2 =

..

dii

..

dkk

es la matriz de varianzas y covarianzas de 1 , . . . , k .

32

ndice

El test de la

en regresin mltiple III

Llamando b al vector:

b= . . .
Se puede demostrar que:
b (X X ) b k R s
0 2

F(k ,nk 1) .

33

ndice

El test de la

en regresin mltiple IV

Esta distribucin permite la realizacin del contraste fundamental de regresin mltiple:

H
frente a:

: 1 = 2 = = k = 0

H : Existe algn i con i = 1, . . . , k tal que


1

i = 0.

34

ndice

Interpretacin del test de la

La aceptacin de la hiptesis nula del test de la F ,

: 1 = 2 = = k = 0,

puede ser debida a:


Independencia de la variable explicada frente a todos los regresores. Existe dependencia no lineal de la variable explicada frente a algn regresor.

35

ndice

Interpretacin del test de la

II

El rechazo de la hiptesis nula del test de la F signica que la variable explicada depende linealmente de alguno de los regresores.
Para saber cul o cules de los regresores explican signicativamente a la variable dependiente es necesario atender a los contrastes individuales de la t .

36

ndice

Interpretacin conjunta del test de la los contrastes individuales de la

y de

La siguiente tabla contiene el conjunto de los casos posibles al realizar el test de la F y los contrastes de la t en regresin mltiple: Caso 1 2 3 4 5 6 Test de la F Signicativo Signicativo Signicativo No signicativo No signicativo No signicativo Contrastes individuales Todos signicativos Alguno signicativo Ninguno signicativo Todos signicativos Alguno signicativo Ninguno signicativo

37

ndice

Interpretacin conjunta del test de la los contrastes individuales de la

y de

II

Caso

1: Cuando el contraste de la F es signicativo y todos los contrastes de la t tambin lo son, se interpreta que todos los regresores inuyen signicativamente en la variable explicada. 2: Si el contraste de la F es signicativo y slo algunos de los regresores lo son, se interpreta que los regresores no signicativos deben ser eliminados del modelo, o bien transformados si se intuye relacin de dependencia no lineal entre la variable dependiente y alguno de ellos.

Caso

38

ndice

Interpretacin conjunta del test de la los contrastes individuales de la


Caso

y de

III

3: Cuando el test de la F es signicativo y ninguno de los contrastes individuales lo es, se da una situacin paradjica que, frecuentemente, se origina por un problema denominado multicolinealidad. Su anlisis y tratamiento se explica ms adelante.
y

Casos

5: Si el test de la F es no signicativo y todos o algunos de los contrastes individuales s lo son, se origina igualmente una situacin paradjica que responden a casos particulares de multicolinealidad.

Caso

39

6: Si el test de la F no es signicativo y ninguno de los contrastes individuales lo es, no se detecta relacin de dependencia lineal entre la variable explicada y los regresores.

ndice

Multicolinealidad. Deteccin y tratamiento I

Los casos 3, 4, y 5 citados anteriormente se deben habitualmente al problema de multicolinealidad. La multicolinealidad es consecuencia de que todos o una parte de los regresores X1 , . . . , Xk estn fuertemente correlados. La deteccin de la multicolinealidad se realiza a travs de:
La matriz de correlacin de las variables explicativas. La diagonal de la inversa de esta matriz. Los autovalores de la matriz X X .

40

ndice

Multicolinealidad. Deteccin y tratamiento II

El tratamiento de la multicolinealidad consiste bsicamente en: Eliminar regresores del modelo que tengan alta correlacin con el resto, lo que disminuye el nmero de parmetros que hay que estimar. (Esta es la solucin ms sencilla, cuando se puede utilizar.) Incluir informacin externa a los datos.

41

ndice

El coeficiente de determinacin I

Una vez estimado el modelo de regresin mltiple,


y =
0

+ 1 x1 + + k xk ,

se puede completar el conjunto de datos con la nueva columna Y :

X Individuo 1 x Individuo 2 x
Individuo n

11

12

. . .

Xk xk xk

Y y y

Y y y

. . .

xkn yn yn

Donde yi = 0 + 1 x1i + + k xki .


42

ndice

El coeficiente de determinacin II

Se dene el coeciente de determinacin como el coeciente de correlacin lineal entre las variables Y e Y . El coeciente de determinacin es una medida de bondad del ajuste del modelo y se representa por R 2 . La ecacia de R 2 como medida de la bondad de ajuste depende de la relacin entre el nmero de regresores, k y el tamao muestral, n, siendo ms able cuanto menor sea el cociente k /n.

ndice

El coeficiente de determinacin III

El coeciente de determinacin tiene las siguientes propiedades: 0 R 2 1. Cuando R 2 = 1, la relacin entre la variable explicada y los regresores es exacta.

100 representa el porcentaje de variabilidad de Y explicada por el modelo. Un valor de R 2 100 bajo puede ser debido a la omisin de variables explicativas relevantes en el modelo.
2 2

R aumenta siempre con la introduccin de nuevas variables

en el modelo. Para evitar este inconveniente se calcula el coeciente de determinacin corregido por grados de libertad. (Ver Pea 2002) En regresin simple, el coeciente de determinacin es el cuadrado del coeciente de correlacin lineal.
44

ndice

Diagnosis y validacin del modelo I

Al igual que en el caso de la regresin simple, antes de emplear un modelo de regresin es necesario vericar las hiptesis bsicas del modelo. Esta vericacin (diagnosis) se realiza a travs del anlisis de los residuos.

45

ndice

Diagnosis y validacin del modelo II

En particular: La normalidad del error se analiza con la representacin de los residuos en papel probabilstico normal, o con algn test de normalidad. Las hiptesis de linealidad, homocedasticidad e independencia se verican a travs del grco de residuos frente a los valores previstos y frente a los valores de los regresores. La conveniencia de introducir una nueva variable en el modelo se puede analizar por medio del grco de los residuos frente a esta nueva variable. La interpretacin de los grcos es similar a la que se da a los mismos en regresin simple.
46

ndice

Prediccin en regresin mltiple I

Una vez estimado y validado el modelo de regresin, se puede emplear ste para hacer predicciones.
1

E (Y |X

Se puede emplear y (x1i , . . . , xki ) para predecir el valor de = x1i , . . . , Xk = xki ). 1

Tambin se puede emplear y (x1i , . . . , xki ) para predecir el valor de un individuo de la variable (Y |X1 = x1i , . . . , Xk = xki ).

47

ndice

Prediccin en regresin mltiple II

Obsrvese que los dos valores se estiman por el mismo nmero. Igual que en regresin simple, la estimacin de la media se realiza con mayor precisin que el valor de un individuo concreto. Pueden consultarse los detalles del clculo de intervalos de conanza, para ambos casos, en Pea (2002).

48

ndice

Los valores atpicos en regresin mltiple I

Conceptualmente las ideas de punto atpico e inuyente coinciden con las explicadas en regresin simple. La detecccin de puntos atpicos en regresin mltiple es ms compleja que en regresin simple, debido a la dimensionalidad de los datos. Se emplearn los grcos de residuos frente a las variables explicativas y a los valores previstos por el modelo para detectar puntos atpicos, aunque estos grcos no siempre permiten encontrar estos puntos.

49

ndice

Los valores atpicos en regresin mltiple II

Informacin sobre la construccin de estadsticos que permitan detectar atpicos puede encontrarse en Pea (2002). El tratamiento de los atpicos, una vez identicados, ser similar al expuesto en regresin simple.

50

ndice

Ejemplo I. Modelos de regresin linealizables

Se exponen a continuacin algunos ejemplos de relaciones no lineales, que se pueden linealizar mediante transformaciones adecuadas. Modelo polinmico de segundo grado con una variable independiente:

y y

= 0 + 1 x + 2 x 2 + u

Haciendo la transformacin x2 = x 2 , se obtiene el modelo lineal:


= 0 + 1 x + 2 x2 + u

51

ndice

Ejemplo II. Modelos de regresin linealizables

Modelo polinmico de segundo grado con dos variables independientes:

2 2 = 0 + 1 x1 + 2 x2 + 11 x1 + 22 x2 + 12 x1 x2 + u

2 2 Haciendo las transformaciones x3 = x1 , x4 = x2 , x5 = x1 x2 , se obtiene el modelo lineal:

= 0 + 1 x1 + 2 x2 + 11 x3 + 22 x4 + 12 x5 + u

52

ndice

Ejemplo III. Modelos de regresin linealizables

= 0 + 1 x11 + 2 ln x2 + 3

+u

Haciendo las transformaciones

= x11 ,

= ln x2 ,

x , se obtiene el modelo lineal:


3

= 0 + 1 z1 + 2 z2 + 3 z3 + u

53

ndice

Ejemplo IV. Modelos de regresin linealizables

Modelo multiplicativo:

y
donde

= x1 x2x3 ,

representa el error aleatorio.

Tomando logaritmos en ambos miembros, se tiene que:

ln y = ln + ln x1 + ln x2 + ln x3 + ln , que es el modelo lineal:

Y
54

= 0 + z1 + z2 + z3 + u

ndice

Ejemplos V. Modelos de regresin no linealizables

Por otro lado, cabe sealar que existen modelos de relacin que no se pueden linealizar mediante funciones elementales, como por ejemplo:

y y

= 0 + 1 e 2 X + u

= 0 + 1 X + 2 (3 )X + u

55