Está en la página 1de 39

Tema 4.

Modelo de regresi on m ultiple

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

Objetivos del tema


Construir un modelo que represente la dependencia lineal de

una variable respuesta cuantitativa Y simult aneamente respecto de varias variables explicativas cuantitativas X1 , . . . , XK .
Determinar la funci on de regresi on lineal optima. Partiendo de un conjunto de regresores X1 , . . . , XK , estudiar

cu ales son signicativos para explicar la respuesta.


Estimar el valor esperado de la respuesta y predecir un valor

futuro de esta para unos valores prejados de las variables explicativas. Determinar la precisi on de la estimaci on y la predicci on.
Analizando los residuos, estudiar si se verican las hip otesis

b asicas del modelo. Proponer alternativas si no es as .

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

Ejemplo 4.1: Variable respuesta Y = Temperatura (en o F) m axima promedio durante el mes de enero en la estaci on meteorol ogica de un condado de Texas. Variables explicativas: X1 = Latitud, X2 = Altitud (en pies) y X3 = Longitud de la estaci on.
Condado Harris Dallas Kennedy Midland Deaf Smith Knox Maverick Nolan El Paso Collington Pecos Sherman Travis Zapata Lasalle Cameron Temperatura 56 48 60 46 38 46 53 46 44 41 47 36 52 60 56 62 Latitud 29.767 32.85 26.933 31.95 34.8 33.45 28.7 32.45 31.8 34.85 30.867 36.35 30.3 26.9 28.45 25.9 Altitud 41 440 25 2851 3840 1461 815 2380 3918 2040 3000 3693 597 315 459 19 Longitud 95.367 96.85 97.8 102.183 102.467 99.633 100.483 100.533 106.4 100.217 102.9 102.083 97.7 99.283 99.217 97.433
3

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

Ejemplo 4.1 (cont.):


Temperaturas mximas promedio en enero (Texas)

60

Temperatura

50 40 20 Latitud 30 40 1000 2000 3000 Altitud


4

4000

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

Ejemplo 4.2: Se estudia Y = la tasa de respiraci on (no moles O2 /(gmin)) del liquen Parmelia saxatilis bajo puntos de goteo con un recubrimiento galvanizado. El agua que cae sobre el liquen contiene zinc y potasio, que utilizamos como variables explicativas. (Fuente de datos: Wainwright (1993), J. Biol. Educ..) Tasa de respiraci on 71 53 55 48 69 84 21 68 68 Potasio (ppm) 388 258 292 205 449 331 114 580 622 Zinc (ppm) 2414 10693 11682 12560 2464 2607 16205 2005 1825

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

Ejemplo 4.2 (cont.):

Tasa respiracin

80

60

40

20

15000

10000 Zinc

5000

200

400 Potasio

600

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

El modelo de regresi on lineal m ultiple


En la regresi on lineal m ultiple de Y sobre X1 , . . . , XK se supone que la funci on de regresi on tiene la expresi on E (Y |X1 = x1 , . . . , XK = xK ) = 0 + 1 x1 + . . . + K xK . Cuando K = 2 la funci on de regresi on es un plano
E(Y|X1=x1,X2=x2) = 2+x10.5x2

6 4

y
2 0 3 2 1 x2 0 0 1 x1
Tema 4: Regresi on m ultiple 7

3 2

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tenemos una muestra de n individuos en los que observamos las variables Y y X = (X1 , . . . , XK ) obteniendo (xi , yi ), i = 1, . . . , n, donde xi = (xi 1 , xi 2 , . . . , xiK ) . El modelo de regresi on lineal m ultiple supone que Yi = 0 + 1 xi 1 + . . . + K xiK + Ui , i = 1, . . . , n,

donde las perturbaciones Ui verican las hip otesis a) E (Ui ) = 0, para cada i = 1, . . . , n. b) Var(Ui ) = 2 , para cada i = 1, . . . , n. c) E (Ui Uj ) = 0 , para todo i = j . d) Ui Normal, para todo i . e) n K + 2 f) Las variables Xi son linealmente independientes entre s (no hay colinealidad).
Estad stica (CC. Ambientales). Profesora: Amparo Ba llo Tema 4: Regresi on m ultiple 8

Las hip otesis (a)-(d) se pueden reexpresar as : los individuos de la muestra son independientes entre s con Yi Normal(0 + 1 xi 1 + . . . + K xiK , 2 ). El modelo admite una expresi on equivalente en Y1 1 x11 . . . x1K 0 Y2 1 x21 . . . x2K 1 . = . . . . . . . . . . . 1 xn1 . . . xnK K Yn o Y = X + U, donde X es la matriz del dise no. forma matricial: U1 U2 + . . . Un

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

Cada coeciente i (i 1) mide el efecto marginal que, sobre la variable respuesta Y , tiene un aumento de una unidad de la variable explicativa xi cuando el resto de las variables xj , con j = i , permanece constante. Ejemplo 4.1 (cont.):

Ejemplo 4.2 (cont.):

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

10

Estimaci on de los par ametros del modelo


Par ametros desconocidos: 0 , 1 , . . . , K , 2 . Estimamos 0 , 1 , . . . , K por el m etodo de m nimos cuadrados: 2 minimizamos la suma de los residuos al cuadrado VNE = n i =1 ei , 0 + 1 xi 1 + . . . + K xiK . donde ei = yi y i e y i = Para K = 2, cada residuo ei es la distancia en vertical entre el (xi , yi ) observado y (xi , y i ).

(xi1,xi2,yi) ei

x2
Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

x1
Tema 4: Regresi on m ultiple 11

Al derivar la VNE respecto a 0 , 1 , . . . , K e igualar las derivadas a 0 obtenemos K + 1 ecuaciones de restricci on sobre los residuos:
n n n

ei = 0,
i =1 i =1

ei xi 1 = 0,

...,
i =1

ei xiK = 0.

Los residuos tienen n K 1 grados de libertad. A partir de estas ecuaciones despejamos los estimadores m nimo-cuadr aticos de 0 , 1 , . . . , K : 0 1 = = (X X)1 X y. . . . K Podemos asegurar que la matriz X X es invertible si se cumplen las hip otesis b asicas (e) y (f).
Estad stica (CC. Ambientales). Profesora: Amparo Ba llo Tema 4: Regresi on m ultiple 12

Ejemplo 4.2 (cont.):

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

13

Ejemplo 4.2: Plano de regresin

Tasa respiracin

80 60 40

20 15000 10000 5000 Zinc 400 200 Potasio 600

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

14

Tasa de respiracin 71 53 55 48 69 84 21 68 68

Potasio (ppm) 388 258 292 205 449 331 114 580 622

Zinc (ppm) 2414 Resumen 10693 11682 Estadsticas de la regresin 12560 Coeficiente de correlacin mltiple 0,921112779 2464 Coeficiente de determinacin R^2 0,848448752 2607 R^2 ajustado 0,79793167 16205 Error tpico 8,172122313 2005 Observaciones 9 1825 ANLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadradosF Valor crtico de F Regresin 2 2243,2985 1121,64925 16,7952841 0,0034808 Residuos 6 400,701499 66,7835831 Total 8 2644 Coeficientes 101,0883957 -0,04034212 -0,00387683 Error tpico 18,8660471 0,03423824 0,00100248 Estadstico t 5,35821813 -1,17827673 -3,86725087 Probabilidad 0,00173104 0,28329567 0,00829226 Inferior 95% Superior 95% Inferior 95,0%Superior 95,0% 54,9248076 147,251984 54,9248076 147,251984 -0,12412013 0,04343589 -0,12412013 0,04343589 -0,00632981 -0,00142386 -0,00632981 -0,00142386

Intercepcin Variable X 1 Variable X 2

Anlisis de los residuales Observacin Pronstico para Y Residuos Residuos estndares 1 76,07698485 -5,07698485 -0,71736532 2 49,22518266 3,77481734 0,53337229 3 44,01936545 10,9806346 1,55153633 4 44,12527292 3,87472708 0,54748929 5 73,42227401 -4,42227401 -0,62485631 6 77,62825745 6,37174255 0,90031136 7 33,66535951 -12,6653595 -1,78958377 8 69,91692137 -1,91692137 -0,27085622 9 68,92038178 -0,92038178 -0,13004765

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

15

Ejemplo 4.1 (cont.):

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

16

Un estimador insesgado de 2 es la varianza residual


2 sR =

1 nK 1

ei2 .
i =1

Ejemplo 4.1 (cont.):

Ejemplo 4.2 (cont.):

0 + 1 x K x Observaci on: Se cumple que y = 1 + . . . + K , siendo 1 y = n


n

yi ,
i =1

1 x 1 = n

xi 1 ,
i =1

...,

1 x K = n

xiK .
i =1

Por tanto, si K = 2, el plano de regresi on pasa por el punto de medias muestrales ( x1 , x 2 , y ).


Estad stica (CC. Ambientales). Profesora: Amparo Ba llo Tema 4: Regresi on m ultiple 17

Inferencia sobre los par ametros del modelo


Propiedades de los estimadores de los par ametros Para j = 0, 1, . . . , K , j j j error t pico de donde j )2 = s 2 qjj (error t pico de R y qjj es el elemento j + 1 de la diagonal de (X X)1 . Ejemplo 4.2 (cont.): tn K 1 ,

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

18

Por tanto, para cualquier j = 0, 1, . . . , K , j tnK 1;/2 sR qjj . IC1 (j ) = Ejemplo 4.1 (cont.): Sabiendo que 996.1542 4.1945 0.0215 9.0039 4 . 1945 0 . 0293 0 .0001 0.0345 (X X)1 = 0.0215 0.0001 0.0000 0.0002 9.0039 0.0345 0.0002 0.0824 calcular intervalos de conanza para los par ametros j de la funci on de regresi on.

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

19

Contrastes de hip otesis individuales sobre los coecientes Suponiendo que E (Y |X = x) = 0 + 1 x1 + . . . + K xK (se cumple el modelo de regresi on lineal m ultiple), estamos interesados en determinar qu e variables Xj son signicativas para explicar Y . H0 : j = 0 H1 : j = 0 (Xj no inuye sobre Y ) (Xj inuye sobre Y )

La regi on de rechazo de H0 al nivel de signicaci on es Rj = {|t (j )| > tnK 1;/2 }, j /error t j . siendo t (j ) = pico de Ejemplo 4.2. (cont.):

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

20

O tambi en Rj = {0 / IC1 (j )} Ejemplo 4.1. (cont.):

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

21

El contraste de la regresi on Suponiendo que se cumple el modelo de regresi on lineal m ultiple, queremos contrastar H0 : 1 = . . . = K = 0 (el modelo no es explicativo: (el modelo es explicativo:

ninguna de las variables explicativas inuye en la respuesta) H1 : j = 0 para alg un j = 1, . . . , K al menos una de las variables Xj inuye en la respuesta) Hacemos un an alisis de la varianza: examinamos qu e proporci on de
n

la variabilidad total VT =
i =1

(yi y )2 es explicada por el modelo


n

regresi on Y = 0 + 1 x1 + . . . + K xK + U . Se verica que VT = VE + VNE, donde VE =


i =1
Estad stica (CC. Ambientales). Profesora: Amparo Ba llo Tema 4: Regresi on m ultiple 22

( yi y )2 .

Tabla ANOVA para el contraste de la regresi on: FV Explicada Residual Total SC VE VNE VT gl K nK 1 n1 CM 2 = VE se K 2 sR F F =
2 se 2 sR

Bajo H0 : 1 = . . . = K = 0 el estad stico F sigue una distribuci on FK ,nK 1 . Por tanto, la regi on de rechazo de H0 a nivel de signicaci on ser a R = {F > FK ,nK 1, }. Ejemplo 4.1. (cont.):
ANLISIS DE VARIANZA SC Regresin 934,328006 Residuos 7,60949449 Total 941,9375 gl 3 12 15 CM 311,442669 0,63412454 F 491,138015 p-valor 8,1236E-13

Ejemplo 4.2. (cont.):


Estad stica (CC. Ambientales). Profesora: Amparo Ba llo Tema 4: Regresi on m ultiple 23

Interpretaci on de los contrastes Contraste global (F ) Modelo explicativo Modelo explicativo Modelo explicativo Modelo no explicativo Modelo no explicativo Modelo no explicativo Contrastes individuales (t ) Todas las Xi explicativas Algunas Xi explicativas Ninguna Xi explicativa Todas las Xi explicativas Algunas Xi explicativas Ninguna Xi explicativa

Conclusi on Nos quedamos con todas las Xi Nos quedamos con las Xi explicativas Colinealidad Colinealidad Colinealidad Modelo no adecuado para describir la relaci on entre Y y X1 , . . . , XK .
24

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

El coeciente de determinaci on Es una medida de la bondad del ajuste en el modelo de regresi on m ultiple VE R2 = . VT A R se le denomina coeciente de correlaci on m ultiple. Propiedades: (i) 0 R 2 1. Cuando R 2 = 1 existe una relaci on lineal exacta entre la respuesta y las variables predictivas. Cuando R 2 = 0, 0 = y 1 = . . . = K = 0 y no existe relaci sucede que y on lineal aparente entre Y y las Xi . (ii) El coeciente de regresi on m ultiple es el coeciente de . regresi on simple entre la respuesta Y y el valor previsto Y R2 n K 1 (iii) Se verica que F = . 1 R2 K
Estad stica (CC. Ambientales). Profesora: Amparo Ba llo Tema 4: Regresi on m ultiple 25

No conviene utilizar el coeciente de determinaci on para comparar distintos modelos de regresi on entre s : siempre que introduzcamos un nuevo regresor en el modelo, R 2 aumentar a, aunque el efecto del regresor sobre la respuesta no sea signicativo. Por ello se dene el coeciente de determinaci on ajustado o corregido por grados de libertad
2 2 = 1 sR , R 2 sy 2 = VT/(n 1). R 2 s siendo sy olo disminuye al introducir una nueva variable explicativa en el modelo, si la varianza residual disminuye.

K 2 = R 2 (1 R 2 ) Se cumple que R . Por tanto, nK 1 2 R 2. R


Estad stica (CC. Ambientales). Profesora: Amparo Ba llo Tema 4: Regresi on m ultiple 26

Contrastes de grupos de coecientes Queremos contrastar que un subconjunto (1 , . . . , i ), con i < K , del total de coecientes 1 , . . . , K son cero: H0 : H1 : 1 = . . . = i = 0 Alguno de los j = 0, j = 1, . . . , i .

Primero efectuamos la regresi on con todos los regresores 0 + 1 x1 + . . . + K xK . y = Denotamos por VE(K ) y VNE(K ) la variabilidad explicada y residual con este modelo. Luego planteamos el modelo de regresi on bajo H0 0 + i +1 xi +1 + . . . + xK y = K y llamamos VE(K i ) a la variabilidad explicada por este modelo.
Estad stica (CC. Ambientales). Profesora: Amparo Ba llo Tema 4: Regresi on m ultiple 27

Deniremos la variabilidad incremental explicada por las variables X1 , . . . , Xi como VE(i ) = VE(K ) VE(K i ) > 0 Rechazaremos H0 , al nivel de signicaci on , cuando F = Ejemplo 4.1. (cont.): VE(i )/i > Fi ,nK 1, . 2 sR

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

28

Estimaci on y predicci on
Supongamos que queremos estimar E (Y0 ) o predecir Y0 , siendo Y0 = (Y |X = x0 ) = 0 + 1 x10 + . . . + K xK 0 + U . Entonces una estimaci on/predicci on puntual es 0 + 1 x10 + . . . + K xK 0 . y 0 = Ejemplo 4.2. (cont.): Estimar la tasa media de respiraci on del Parmelia saxatilis cuando el agua que cae sobre el liquen tiene una concentraci on de Potasio de 300 p.p.m. y una concentraci on de Zinc de 10000 p.p.m.

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

29

Colinealidad
de los par La estimaci on ametros en regresi on m ultiple requiere invertir la matriz X X. Cuando una de las Xj es combinaci on lineal de los restantes regresores, X1 , . . . , Xj 1 , Xj +1 , . . . , XK , entonces |X X| = 0. Entonces diremos que las variables explicativas son colineales. En la pr actica esto nunca se dar a de manera exacta, aunque s es posible que en un conjunto de datos algunas de las variables se puedan describir muy bien como funci on lineal de las restantes variables. En ese caso, |X X| es casi cero. Este problema, llamado i multicolinealidad, hace que los estimadores de los par ametros tengan alta variabilidad y sean muy dependientes entre s .

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

30

Para identicar las variables colineales primero se examina la matriz de correlaci on R entre las variables explicativas. Si existen correlaciones altas entre parejas de regresores, tenemos una situaci on clara de multicolinealidad. Sin embargo, es posible que una de las variables explicativas Xi se pueda expresar como combinaci on lineal de las restantes y que su correlaci on con cada una de estas otras sea baja (ver Pe na 2002). Ejemplo 4.1. (cont.):

1 0.731 0.431 1 0.889 R = 0.731 0.431 0.889 1

Ejemplo 4.2. (cont.):

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

31

Diagnosis del modelo


Se realiza igual que en regresi on simple: mediante el an alisis de los ei , donde hi = xi (X X)1 xi . residuos estandarizados e i = sR 1 hi Bajo las hip otesis del modelo de regresi on m ultiple, los e i siguen aproximadamente una N(0,1). Ejemplo 4.1. (cont.):

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

32

Las hip otesis de linealidad y homocedasticidad se comprueban con un gr aco de residuos estandarizados e i frente a valores previstos y i . Este gr aco tambi en sirve para detectar datos at picos. Ejemplo 4.1. (cont.):

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

33

Transformaci on de los datos


Ejemplo 4.3: Harrison y Rubinfeld (1978), Hedonic Housing Prices and the Demand for Clean Air, Journal of Environmental Economics and Management, observaron las siguientes variables para n = 506 secciones censales del area metropolitana de Boston. Su objetivo era estudiar si los precios de las casas depend an de la contaminaci on en la zona (regresi on hed onica).
MEDV DIS RAD INDUS CHAS NOX RM AGE CRIM ZN TAX PT B LSTAT Mediana del precio de las casas (en miles de $) Media ponderada de distancias a 5 centros de trabajo Accesibilidad a autopistas radiales Proporci on de supercie de la zona dedicada a empresas e industria 1 junto al r o Charles, 0 si no Concentraci on de oxido n trico (p.p.109 ) N umero medio de habitaciones en las casas proporci on de casas construidas antes de 1940 Tasa de delincuencia per capita Proporci on de supercie residencial dividida en parcelas de m as de 25000 pies2 Tasa de impuestos de las propiedades por cada $10,000 No de estudiantes por profesor 1000(pB 0.63)2 , siendo pB la proporci on de habitantes de raza negra Porcentaje de poblaci on con bajo nivel adquisitivo
Tema 4: Regresi on m ultiple 34

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Los datos est an disponibles en http://lib.stat.cmu.edu/datasets/boston. Estudiemos MEDV en funci on de NOX, RM y LSTAT.

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

35

Regresi on lineal de MEDV en funci on de NOX, RM y LSTAT:


Resumen del modelob R cuadrado Error tp. de la Modelo R R cuadrado corregida estimacin a 1 ,799 ,639 ,637 5,54310 a. Variables predictoras: (Constante), RM, NOX, LSTAT b. Variable dependiente: MEDV ANOVAb
Suma de Media cuadrados gl cuadrtica Regresin 27291,884 3 9097,295 Residual 15424,411 502 30,726 Total 42716,295 505 a. Variables predictoras: (Constante), LSTAT, NOX, RM b. Variable dependiente: MEDV

Modelo 1

F 296,079

Sig. ,000a

Coeficientesa Coeficientes estandarizado s Beta ,391 -,023 -,484

Coeficientes no estandarizados Modelo B Error tp. 1 (Constante) -,767 3,286 RM 5,124 ,447 NOX -1,846 2,651 LSTAT -,623 ,052 a. Variable dependiente: MEDV
Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

t -,233 11,471 -,696 -11,994

Sig. ,816 ,000 ,487 ,000

Tema 4: Regresi on m ultiple

36

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

37

Ahora estudiemos log(MEDV) en funci on de NOX2 , RM2 y


Resumen del modelob R cuadrado Error tp. de la Modelo R R cuadrado corregida estimacin 1 ,835a ,698 ,696 ,22536 a. Variables predictoras: (Constante), LOG_LSTAT, NOX2, RM2 b. Variable dependiente: LOG_MEDV

log(LSTAT).
Modelo 1

ANOVAb Suma de Media cuadrados gl cuadrtica Regresin 58,882 3 19,627 Residual 25,495 502 ,051 Total 84,376 505 a. Variables predictoras: (Constante), LOG_LSTAT, NOX2, RM2 b. Variable dependiente: LOG_MEDV
Coeficientesa Coeficientes estandarizado s Beta -,083 ,183 -,656

F 386,467

Sig. ,000a

Coeficientes no estandarizados Modelo B Error tp. 1 (Constante) 3,841 ,104 NOX2 -,243 ,087 RM2 ,008 ,001 LOG_LSTAT -,446 ,026 a. Variable dependiente: LOG_MEDV

t 37,054 -2,776 5,493 -17,116

Sig. ,000 ,006 ,000 ,000

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

38

Estad stica (CC. Ambientales). Profesora: Amparo Ba llo

Tema 4: Regresi on m ultiple

39

También podría gustarte