Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tema 4
Tema 4
una variable respuesta cuantitativa Y simult aneamente respecto de varias variables explicativas cuantitativas X1 , . . . , XK .
Determinar la funci on de regresi on lineal optima. Partiendo de un conjunto de regresores X1 , . . . , XK , estudiar
futuro de esta para unos valores prejados de las variables explicativas. Determinar la precisi on de la estimaci on y la predicci on.
Analizando los residuos, estudiar si se verican las hip otesis
Ejemplo 4.1: Variable respuesta Y = Temperatura (en o F) m axima promedio durante el mes de enero en la estaci on meteorol ogica de un condado de Texas. Variables explicativas: X1 = Latitud, X2 = Altitud (en pies) y X3 = Longitud de la estaci on.
Condado Harris Dallas Kennedy Midland Deaf Smith Knox Maverick Nolan El Paso Collington Pecos Sherman Travis Zapata Lasalle Cameron Temperatura 56 48 60 46 38 46 53 46 44 41 47 36 52 60 56 62 Latitud 29.767 32.85 26.933 31.95 34.8 33.45 28.7 32.45 31.8 34.85 30.867 36.35 30.3 26.9 28.45 25.9 Altitud 41 440 25 2851 3840 1461 815 2380 3918 2040 3000 3693 597 315 459 19 Longitud 95.367 96.85 97.8 102.183 102.467 99.633 100.483 100.533 106.4 100.217 102.9 102.083 97.7 99.283 99.217 97.433
3
60
Temperatura
4000
Ejemplo 4.2: Se estudia Y = la tasa de respiraci on (no moles O2 /(gmin)) del liquen Parmelia saxatilis bajo puntos de goteo con un recubrimiento galvanizado. El agua que cae sobre el liquen contiene zinc y potasio, que utilizamos como variables explicativas. (Fuente de datos: Wainwright (1993), J. Biol. Educ..) Tasa de respiraci on 71 53 55 48 69 84 21 68 68 Potasio (ppm) 388 258 292 205 449 331 114 580 622 Zinc (ppm) 2414 10693 11682 12560 2464 2607 16205 2005 1825
Tasa respiracin
80
60
40
20
15000
10000 Zinc
5000
200
400 Potasio
600
6 4
y
2 0 3 2 1 x2 0 0 1 x1
Tema 4: Regresi on m ultiple 7
3 2
Tenemos una muestra de n individuos en los que observamos las variables Y y X = (X1 , . . . , XK ) obteniendo (xi , yi ), i = 1, . . . , n, donde xi = (xi 1 , xi 2 , . . . , xiK ) . El modelo de regresi on lineal m ultiple supone que Yi = 0 + 1 xi 1 + . . . + K xiK + Ui , i = 1, . . . , n,
donde las perturbaciones Ui verican las hip otesis a) E (Ui ) = 0, para cada i = 1, . . . , n. b) Var(Ui ) = 2 , para cada i = 1, . . . , n. c) E (Ui Uj ) = 0 , para todo i = j . d) Ui Normal, para todo i . e) n K + 2 f) Las variables Xi son linealmente independientes entre s (no hay colinealidad).
Estad stica (CC. Ambientales). Profesora: Amparo Ba llo Tema 4: Regresi on m ultiple 8
Las hip otesis (a)-(d) se pueden reexpresar as : los individuos de la muestra son independientes entre s con Yi Normal(0 + 1 xi 1 + . . . + K xiK , 2 ). El modelo admite una expresi on equivalente en Y1 1 x11 . . . x1K 0 Y2 1 x21 . . . x2K 1 . = . . . . . . . . . . . 1 xn1 . . . xnK K Yn o Y = X + U, donde X es la matriz del dise no. forma matricial: U1 U2 + . . . Un
Cada coeciente i (i 1) mide el efecto marginal que, sobre la variable respuesta Y , tiene un aumento de una unidad de la variable explicativa xi cuando el resto de las variables xj , con j = i , permanece constante. Ejemplo 4.1 (cont.):
10
(xi1,xi2,yi) ei
x2
Estad stica (CC. Ambientales). Profesora: Amparo Ba llo
x1
Tema 4: Regresi on m ultiple 11
Al derivar la VNE respecto a 0 , 1 , . . . , K e igualar las derivadas a 0 obtenemos K + 1 ecuaciones de restricci on sobre los residuos:
n n n
ei = 0,
i =1 i =1
ei xi 1 = 0,
...,
i =1
ei xiK = 0.
Los residuos tienen n K 1 grados de libertad. A partir de estas ecuaciones despejamos los estimadores m nimo-cuadr aticos de 0 , 1 , . . . , K : 0 1 = = (X X)1 X y. . . . K Podemos asegurar que la matriz X X es invertible si se cumplen las hip otesis b asicas (e) y (f).
Estad stica (CC. Ambientales). Profesora: Amparo Ba llo Tema 4: Regresi on m ultiple 12
13
Tasa respiracin
80 60 40
14
Tasa de respiracin 71 53 55 48 69 84 21 68 68
Potasio (ppm) 388 258 292 205 449 331 114 580 622
Zinc (ppm) 2414 Resumen 10693 11682 Estadsticas de la regresin 12560 Coeficiente de correlacin mltiple 0,921112779 2464 Coeficiente de determinacin R^2 0,848448752 2607 R^2 ajustado 0,79793167 16205 Error tpico 8,172122313 2005 Observaciones 9 1825 ANLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadradosF Valor crtico de F Regresin 2 2243,2985 1121,64925 16,7952841 0,0034808 Residuos 6 400,701499 66,7835831 Total 8 2644 Coeficientes 101,0883957 -0,04034212 -0,00387683 Error tpico 18,8660471 0,03423824 0,00100248 Estadstico t 5,35821813 -1,17827673 -3,86725087 Probabilidad 0,00173104 0,28329567 0,00829226 Inferior 95% Superior 95% Inferior 95,0%Superior 95,0% 54,9248076 147,251984 54,9248076 147,251984 -0,12412013 0,04343589 -0,12412013 0,04343589 -0,00632981 -0,00142386 -0,00632981 -0,00142386
Anlisis de los residuales Observacin Pronstico para Y Residuos Residuos estndares 1 76,07698485 -5,07698485 -0,71736532 2 49,22518266 3,77481734 0,53337229 3 44,01936545 10,9806346 1,55153633 4 44,12527292 3,87472708 0,54748929 5 73,42227401 -4,42227401 -0,62485631 6 77,62825745 6,37174255 0,90031136 7 33,66535951 -12,6653595 -1,78958377 8 69,91692137 -1,91692137 -0,27085622 9 68,92038178 -0,92038178 -0,13004765
15
16
1 nK 1
ei2 .
i =1
yi ,
i =1
1 x 1 = n
xi 1 ,
i =1
...,
1 x K = n
xiK .
i =1
18
Por tanto, para cualquier j = 0, 1, . . . , K , j tnK 1;/2 sR qjj . IC1 (j ) = Ejemplo 4.1 (cont.): Sabiendo que 996.1542 4.1945 0.0215 9.0039 4 . 1945 0 . 0293 0 .0001 0.0345 (X X)1 = 0.0215 0.0001 0.0000 0.0002 9.0039 0.0345 0.0002 0.0824 calcular intervalos de conanza para los par ametros j de la funci on de regresi on.
19
Contrastes de hip otesis individuales sobre los coecientes Suponiendo que E (Y |X = x) = 0 + 1 x1 + . . . + K xK (se cumple el modelo de regresi on lineal m ultiple), estamos interesados en determinar qu e variables Xj son signicativas para explicar Y . H0 : j = 0 H1 : j = 0 (Xj no inuye sobre Y ) (Xj inuye sobre Y )
La regi on de rechazo de H0 al nivel de signicaci on es Rj = {|t (j )| > tnK 1;/2 }, j /error t j . siendo t (j ) = pico de Ejemplo 4.2. (cont.):
20
21
El contraste de la regresi on Suponiendo que se cumple el modelo de regresi on lineal m ultiple, queremos contrastar H0 : 1 = . . . = K = 0 (el modelo no es explicativo: (el modelo es explicativo:
ninguna de las variables explicativas inuye en la respuesta) H1 : j = 0 para alg un j = 1, . . . , K al menos una de las variables Xj inuye en la respuesta) Hacemos un an alisis de la varianza: examinamos qu e proporci on de
n
la variabilidad total VT =
i =1
( yi y )2 .
Tabla ANOVA para el contraste de la regresi on: FV Explicada Residual Total SC VE VNE VT gl K nK 1 n1 CM 2 = VE se K 2 sR F F =
2 se 2 sR
Bajo H0 : 1 = . . . = K = 0 el estad stico F sigue una distribuci on FK ,nK 1 . Por tanto, la regi on de rechazo de H0 a nivel de signicaci on ser a R = {F > FK ,nK 1, }. Ejemplo 4.1. (cont.):
ANLISIS DE VARIANZA SC Regresin 934,328006 Residuos 7,60949449 Total 941,9375 gl 3 12 15 CM 311,442669 0,63412454 F 491,138015 p-valor 8,1236E-13
Interpretaci on de los contrastes Contraste global (F ) Modelo explicativo Modelo explicativo Modelo explicativo Modelo no explicativo Modelo no explicativo Modelo no explicativo Contrastes individuales (t ) Todas las Xi explicativas Algunas Xi explicativas Ninguna Xi explicativa Todas las Xi explicativas Algunas Xi explicativas Ninguna Xi explicativa
Conclusi on Nos quedamos con todas las Xi Nos quedamos con las Xi explicativas Colinealidad Colinealidad Colinealidad Modelo no adecuado para describir la relaci on entre Y y X1 , . . . , XK .
24
El coeciente de determinaci on Es una medida de la bondad del ajuste en el modelo de regresi on m ultiple VE R2 = . VT A R se le denomina coeciente de correlaci on m ultiple. Propiedades: (i) 0 R 2 1. Cuando R 2 = 1 existe una relaci on lineal exacta entre la respuesta y las variables predictivas. Cuando R 2 = 0, 0 = y 1 = . . . = K = 0 y no existe relaci sucede que y on lineal aparente entre Y y las Xi . (ii) El coeciente de regresi on m ultiple es el coeciente de . regresi on simple entre la respuesta Y y el valor previsto Y R2 n K 1 (iii) Se verica que F = . 1 R2 K
Estad stica (CC. Ambientales). Profesora: Amparo Ba llo Tema 4: Regresi on m ultiple 25
No conviene utilizar el coeciente de determinaci on para comparar distintos modelos de regresi on entre s : siempre que introduzcamos un nuevo regresor en el modelo, R 2 aumentar a, aunque el efecto del regresor sobre la respuesta no sea signicativo. Por ello se dene el coeciente de determinaci on ajustado o corregido por grados de libertad
2 2 = 1 sR , R 2 sy 2 = VT/(n 1). R 2 s siendo sy olo disminuye al introducir una nueva variable explicativa en el modelo, si la varianza residual disminuye.
Contrastes de grupos de coecientes Queremos contrastar que un subconjunto (1 , . . . , i ), con i < K , del total de coecientes 1 , . . . , K son cero: H0 : H1 : 1 = . . . = i = 0 Alguno de los j = 0, j = 1, . . . , i .
Primero efectuamos la regresi on con todos los regresores 0 + 1 x1 + . . . + K xK . y = Denotamos por VE(K ) y VNE(K ) la variabilidad explicada y residual con este modelo. Luego planteamos el modelo de regresi on bajo H0 0 + i +1 xi +1 + . . . + xK y = K y llamamos VE(K i ) a la variabilidad explicada por este modelo.
Estad stica (CC. Ambientales). Profesora: Amparo Ba llo Tema 4: Regresi on m ultiple 27
Deniremos la variabilidad incremental explicada por las variables X1 , . . . , Xi como VE(i ) = VE(K ) VE(K i ) > 0 Rechazaremos H0 , al nivel de signicaci on , cuando F = Ejemplo 4.1. (cont.): VE(i )/i > Fi ,nK 1, . 2 sR
28
Estimaci on y predicci on
Supongamos que queremos estimar E (Y0 ) o predecir Y0 , siendo Y0 = (Y |X = x0 ) = 0 + 1 x10 + . . . + K xK 0 + U . Entonces una estimaci on/predicci on puntual es 0 + 1 x10 + . . . + K xK 0 . y 0 = Ejemplo 4.2. (cont.): Estimar la tasa media de respiraci on del Parmelia saxatilis cuando el agua que cae sobre el liquen tiene una concentraci on de Potasio de 300 p.p.m. y una concentraci on de Zinc de 10000 p.p.m.
29
Colinealidad
de los par La estimaci on ametros en regresi on m ultiple requiere invertir la matriz X X. Cuando una de las Xj es combinaci on lineal de los restantes regresores, X1 , . . . , Xj 1 , Xj +1 , . . . , XK , entonces |X X| = 0. Entonces diremos que las variables explicativas son colineales. En la pr actica esto nunca se dar a de manera exacta, aunque s es posible que en un conjunto de datos algunas de las variables se puedan describir muy bien como funci on lineal de las restantes variables. En ese caso, |X X| es casi cero. Este problema, llamado i multicolinealidad, hace que los estimadores de los par ametros tengan alta variabilidad y sean muy dependientes entre s .
30
Para identicar las variables colineales primero se examina la matriz de correlaci on R entre las variables explicativas. Si existen correlaciones altas entre parejas de regresores, tenemos una situaci on clara de multicolinealidad. Sin embargo, es posible que una de las variables explicativas Xi se pueda expresar como combinaci on lineal de las restantes y que su correlaci on con cada una de estas otras sea baja (ver Pe na 2002). Ejemplo 4.1. (cont.):
31
32
Las hip otesis de linealidad y homocedasticidad se comprueban con un gr aco de residuos estandarizados e i frente a valores previstos y i . Este gr aco tambi en sirve para detectar datos at picos. Ejemplo 4.1. (cont.):
33
Los datos est an disponibles en http://lib.stat.cmu.edu/datasets/boston. Estudiemos MEDV en funci on de NOX, RM y LSTAT.
35
Modelo 1
F 296,079
Sig. ,000a
Coeficientes no estandarizados Modelo B Error tp. 1 (Constante) -,767 3,286 RM 5,124 ,447 NOX -1,846 2,651 LSTAT -,623 ,052 a. Variable dependiente: MEDV
Estad stica (CC. Ambientales). Profesora: Amparo Ba llo
36
37
log(LSTAT).
Modelo 1
ANOVAb Suma de Media cuadrados gl cuadrtica Regresin 58,882 3 19,627 Residual 25,495 502 ,051 Total 84,376 505 a. Variables predictoras: (Constante), LOG_LSTAT, NOX2, RM2 b. Variable dependiente: LOG_MEDV
Coeficientesa Coeficientes estandarizado s Beta -,083 ,183 -,656
F 386,467
Sig. ,000a
Coeficientes no estandarizados Modelo B Error tp. 1 (Constante) 3,841 ,104 NOX2 -,243 ,087 RM2 ,008 ,001 LOG_LSTAT -,446 ,026 a. Variable dependiente: LOG_MEDV
38
39