Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Modelo de regresi
on m
ultiple
Tema 4: Regresi
on m
ultiple
Tema 4: Regresi
on m
ultiple
Temperatura
56
48
60
46
38
46
53
46
44
41
47
36
52
60
56
62
Latitud
29.767
32.85
26.933
31.95
34.8
33.45
28.7
32.45
31.8
34.85
30.867
36.35
30.3
26.9
28.45
25.9
Altitud
41
440
25
2851
3840
1461
815
2380
3918
2040
3000
3693
597
315
459
19
Longitud
95.367
96.85
97.8
102.183
102.467
99.633
100.483
100.533
106.4
100.217
102.9
102.083
97.7
99.283
99.217
97.433
Tema 4: Regresi
on m
ultiple
Temperatura
60
50
40
20
Latitud
30
40
1000
2000
3000
4000
Altitud
Tema 4: Regresi
on m
ultiple
Potasio (ppm)
388
258
292
205
449
331
114
580
622
Zinc (ppm)
2414
10693
11682
12560
2464
2607
16205
2005
1825
Tema 4: Regresi
on m
ultiple
Tasa respiracin
80
60
40
20
15000
10000
5000
Zinc
200
400
600
Potasio
Tema 4: Regresi
on m
ultiple
El modelo de regresi
on lineal m
ultiple
En la regresion lineal m
ultiple de Y sobre X1 , . . . , XK se supone
que la funcion de regresion tiene la expresion
E (Y |X1 = x1 , . . . , XK = xK ) = 0 + 1 x1 + . . . + K xK .
Cuando K = 2 la funcion de regresion es un plano
E(Y|X1=x1,X2=x2) = 2+x10.5x2
4
2
0
3
3
1
x2
1
0 0
x1
Tema 4: Regresi
on m
ultiple
i = 1, . . . , n,
Tema 4: Regresi
on m
ultiple
Y1
1 x11 . . . x1K
0
Y2 1 x21 . . . x2K 1
.. = ..
.. ..
. .
. .
1 xn1 . . . xnK
K
Yn
forma matricial:
U1
U2
+ ..
.
Un
o
Y = X + U,
donde X es la matriz del dise
no.
Tema 4: Regresi
on m
ultiple
Tema 4: Regresi
on m
ultiple
10
Estimaci
on de los par
ametros del modelo
Par
ametros desconocidos: 0 , 1 , . . . , K , 2 .
Estimamos 0 , 1 , . . . , K por el metodo de mnimos cuadrados:
P
minimizamos la suma de los residuos al cuadrado VNE = ni=1 ei2 ,
donde ei = yi yi e yi = 0 + 1 xi1 + . . . + K xiK .
Para K = 2, cada residuo ei es la distancia en vertical entre el
(xi , yi ) observado y (xi , yi ).
(xi1,xi2,yi)
ei
x2
Estadstica (CC. Ambientales). Profesora: Amparo Ballo
x1
Tema 4: Regresi
on m
ultiple
11
ei = 0,
n
X
ei xi1 = 0,
i=1
...,
n
X
ei xiK = 0.
i=1
0
1
.. = (X0 X)1 X0 y.
.
K
Podemos asegurar que la matriz X0 X es invertible si se cumplen las
hip
otesis basicas (e) y (f).
Estadstica (CC. Ambientales). Profesora: Amparo Ballo
Tema 4: Regresi
on m
ultiple
12
Tema 4: Regresi
on m
ultiple
13
Tasa respiracin
80
60
40
20
15000
600
10000
5000
Zinc
400
200
Potasio
Tema 4: Regresi
on m
ultiple
14
Tasa de
respiracin
71
53
55
48
69
84
21
68
68
Potasio (ppm)
388
258
292
205
449
331
114
580
622
Zinc (ppm)
2414
Resumen
10693
11682
Estadsticas de la regresin
12560
Coeficiente de correlacin mltiple 0,921112779
2464
Coeficiente de determinacin R^2 0,848448752
2607
R^2 ajustado
0,79793167
16205
Error tpico 8,172122313
2005
Observaciones
9
1825
ANLISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Promedio de los cuadradosF
Valor crtico de F
Regresin
2 2243,2985 1121,64925 16,7952841 0,0034808
Residuos
6 400,701499 66,7835831
Total
8
2644
Intercepcin
Variable X 1
Variable X 2
Coeficientes
101,0883957
-0,04034212
-0,00387683
Error tpico
18,8660471
0,03423824
0,00100248
Estadstico t
5,35821813
-1,17827673
-3,86725087
Probabilidad
0,00173104
0,28329567
0,00829226
Tema 4: Regresi
on m
ultiple
15
Tema 4: Regresi
on m
ultiple
16
sR2 =
X
1
ei2 .
nK 1
i=1
Observaci
on: Se cumple que y = 0 + 1 x1 + . . . + K xK , siendo
n
1X
yi ,
y =
n
i=1
1X
x1 =
xi1 ,
n
i=1
...,
1X
xK =
xiK .
n
i=1
Tema 4: Regresi
on m
ultiple
17
tnK 1 ,
donde
(error tpico de j )2 = sR2 qjj
y qjj es el elemento j + 1 de la diagonal de (X0 X)1 .
Ejemplo 4.2 (cont.):
Tema 4: Regresi
on m
ultiple
18
996.1542 4.1945
0.0215 9.0039
4.1945
0.0293
0.0001
0.0345
(X0 X)1 =
0.0215 0.0001
0.0000 0.0002
9.0039
0.0345 0.0002
0.0824
Tema 4: Regresi
on m
ultiple
19
Contrastes de hip
otesis individuales sobre los coeficientes
Suponiendo que E (Y |X = x) = 0 + 1 x1 + . . . + K xK (se
cumple el modelo de regresion lineal m
ultiple), estamos interesados
en determinar que variables Xj son significativas para explicar Y .
H0 : j = 0
H1 : j 6= 0
Tema 4: Regresi
on m
ultiple
20
O tambien
Rj = {0
/ IC1 (j )}
Ejemplo 4.1. (cont.):
Tema 4: Regresi
on m
ultiple
21
El contraste de la regresi
on
Suponiendo que se cumple el modelo de regresion lineal m
ultiple,
queremos contrastar
H0 : 1 = . . . = K = 0
regresi
on Y = 0 + 1 x1 + . . . + K xK + U. Se verifica que
n
X
VT = VE + VNE, donde VE =
(
yi y )2 .
i=1
Estadstica (CC. Ambientales). Profesora: Amparo Ballo
Tema 4: Regresi
on m
ultiple
22
SC
gl
Explicada
VE
Residual
Total
VNE
VT
nK 1
n1
CM
VE
se2 =
K
sR2
F
F =
se2
sR2
gl
3
12
15
CM
311,442669
0,63412454
F
491,138015
p-valor
8,1236E-13
Tema 4: Regresi
on m
ultiple
23
Interpretaci
on de los contrastes
Contraste
global (F )
Modelo
explicativo
Modelo
explicativo
Modelo
explicativo
Modelo no
explicativo
Modelo no
explicativo
Modelo no
explicativo
Contrastes
individuales (t)
Conclusi
on
Algunas Xi explicativas
Nos quedamos
con todas las Xi
Nos quedamos con
las Xi explicativas
Ninguna Xi explicativa
Colinealidad
Colinealidad
Algunas Xi explicativas
Colinealidad
Ninguna Xi explicativa
Modelo no adecuado
para describir la
relacion entre Y y
X1 , . . . , XK .
Tema 4: Regresi
on m
ultiple
24
El coeficiente de determinaci
on
Es una medida de la bondad del ajuste en el modelo de regresion
m
ultiple
VE
R2 =
.
VT
A R se le denomina coeficiente de correlacion m
ultiple.
Propiedades:
(i) 0 R 2 1. Cuando R 2 = 1 existe una relacion lineal exacta
entre la respuesta y las variables predictivas. Cuando R 2 = 0,
sucede que 0 = y y 1 = . . . = K = 0 y no existe relacion
lineal aparente entre Y y las Xi .
(ii) El coeficiente de regresion m
ultiple es el coeficiente de
regresion simple entre la respuesta Y y el valor previsto Y .
R2 n K 1
(iii) Se verifica que F =
.
1 R2
K
Estadstica (CC. Ambientales). Profesora: Amparo Ballo
Tema 4: Regresi
on m
ultiple
25
Tema 4: Regresi
on m
ultiple
26
1 = . . . = i = 0
H1 :
Alguno de los j 6= 0, j = 1, . . . , i.
Tema 4: Regresi
on m
ultiple
27
VE(i)/i
> Fi,nK 1, .
sR2
Tema 4: Regresi
on m
ultiple
28
Estimaci
on y predicci
on
Supongamos que queremos estimar E (Y0 ) o predecir Y0 , siendo
Y0 = (Y |X = x0 ) = 0 + 1 x10 + . . . + K xK 0 + U.
Entonces una estimacion/prediccion puntual es
y0 = 0 + 1 x10 + . . . + K xK 0 .
Ejemplo 4.2. (cont.): Estimar la tasa media de respiracion del
Parmelia saxatilis cuando el agua que cae sobre el liquen tiene una
concentracion de Potasio de 300 p.p.m. y una concentracion de
Zinc de 10000 p.p.m.
Tema 4: Regresi
on m
ultiple
29
Colinealidad
de los parametros en regresion m
La estimacion
ultiple requiere
invertir la matriz X0 X. Cuando una de las Xj es combinacion lineal
de los restantes regresores, X1 , . . . , Xj1 , Xj+1 , . . . , XK , entonces
|X0 X| = 0. Entonces diremos que las variables explicativas son
colineales.
En la practica esto nunca se dara de manera exacta, aunque s es
posible que en un conjunto de datos algunas de las variables se
puedan describir muy bien como funcion lineal de las restantes
variables. En ese caso, |X0 X| es casi cero. Este problema, llamado
multicolinealidad, hace que los estimadores de los parametros i
tengan alta variabilidad y sean muy dependientes entre s.
Tema 4: Regresi
on m
ultiple
30
1
0.731 0.431
1
0.889
R = 0.731
0.431 0.889
1
Tema 4: Regresi
on m
ultiple
31
Tema 4: Regresi
on m
ultiple
32
Tema 4: Regresi
on m
ultiple
33
Transformaci
on de los datos
Ejemplo 4.3: Harrison y Rubinfeld (1978), Hedonic Housing
Prices and the Demand for Clean Air, Journal of Environmental
Economics and Management, observaron las siguientes variables
para n = 506 secciones censales del area metropolitana de Boston.
Su objetivo era estudiar si los precios de las casas dependan de la
contaminacion en la zona (regresion hedonica).
MEDV
DIS
RAD
INDUS
CHAS
NOX
RM
AGE
CRIM
ZN
TAX
PT
B
LSTAT
Tema 4: Regresi
on m
ultiple
34
Tema 4: Regresi
on m
ultiple
35
Regresi
on lineal de MEDV en funci
on de NOX, RM y LSTAT:
Resumen del modelob
R cuadrado
Error tp. de la
Modelo
R
R cuadrado
corregida
estimacin
a
1
,799
,639
,637
5,54310
a. Variables predictoras: (Constante), RM, NOX, LSTAT
b. Variable dependiente: MEDV
ANOVAb
Suma de
Media
cuadrados
gl
cuadrtica
Regresin
27291,884
3
9097,295
Residual
15424,411
502
30,726
Total
42716,295
505
a. Variables predictoras: (Constante), LSTAT, NOX, RM
b. Variable dependiente: MEDV
Modelo
1
F
296,079
Sig.
,000a
Coeficientesa
Coeficientes no
estandarizados
Modelo
B
Error tp.
1
(Constante)
-,767
3,286
RM
5,124
,447
NOX
-1,846
2,651
LSTAT
-,623
,052
a. Variable dependiente: MEDV
Estadstica (CC. Ambientales). Profesora: Amparo Ballo
Coeficientes
estandarizado
s
Beta
,391
-,023
-,484
t
-,233
11,471
-,696
-11,994
Sig.
,816
,000
,487
,000
Tema 4: Regresi
on m
ultiple
36
Tema 4: Regresi
on m
ultiple
37
log(LSTAT).
R cuadrado
Error tp. de la
Modelo
R
R cuadrado
corregida
estimacin
1
,835a
,698
,696
,22536
a. Variables predictoras: (Constante), LOG_LSTAT, NOX2, RM2
b. Variable dependiente: LOG_MEDV
ANOVAb
Suma de
Media
cuadrados
gl
cuadrtica
Regresin
58,882
3
19,627
Residual
25,495
502
,051
Total
84,376
505
a. Variables predictoras: (Constante), LOG_LSTAT, NOX2, RM2
b. Variable dependiente: LOG_MEDV
Modelo
1
F
386,467
Sig.
,000a
Coeficientesa
Coeficientes no
estandarizados
Modelo
B
Error tp.
1
(Constante)
3,841
,104
NOX2
-,243
,087
RM2
,008
,001
LOG_LSTAT
-,446
,026
a. Variable dependiente: LOG_MEDV
Coeficientes
estandarizado
s
Beta
-,083
,183
-,656
t
37,054
-2,776
5,493
-17,116
Sig.
,000
,006
,000
,000
Tema 4: Regresi
on m
ultiple
38
Tema 4: Regresi
on m
ultiple
39