Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion Lineal Multiple 3
Regresion Lineal Multiple 3
J. M. Rojo Abun
Instituto de Economa y Geografa
Madrid, II-2007
ndice
I.
II.
III.
IV.
V.
VI.
VII.
VIII.
INTRODUCCIN .................................................................................................. 2
EL MODELO DE REGRESIN LINEAL MLTIPLE........................................ 5
HIPTESIS............................................................................................................. 6
ESTIMACIN DE LOS PARMETROS POR MNIMOS CUADRADOS........ 7
VARIANZA RESIDUAL ..................................................................................... 11
CONTRASTE DE REGRESIN ......................................................................... 13
COEFICIENTE DE DETERMINACIN R2 ....................................................... 16
DIAGNOSIS Y VALIDACIN DE UN MODELO DE REGRESIN LINEAL
MLTIPLE ........................................................................................................... 17
VIII.1. Multicolinealidad .................................................................................................. 17
VIII.2. Anlisis de residuos .............................................................................................. 18
VIII.3. Valores de influencia (leverage) ........................................................................... 20
VIII.4. Contrastando las hiptesis bsicas ........................................................................ 21
VIII.5. Homocedasticidad ................................................................................................. 22
VIII.6. Errores que deben de evitarse ............................................................................... 23
IX.
X.
I.
Introduccin
la variable dependiente Y.
Linear Regression
A
A
e + 1,41 * a_espald
A
A
A
A
A
A
A
A
A
AA
A
A
A
A
A
Registr
o
1
2
3
4
5
6
7
8
sexo
mujer
mujer
mujer
mujer
mujer
mujer
mujer
mujer
estatura l_roxto
X1
158
152
168
159
158
164
156
167
X6
39
38
43
40
41
40
41
44
pie
X2
36
34
39
36
36
36
36
37
l_brazo a_espald
X3
68
66
72.5
68.5
68.5
71
67
73
X4
43
40
41
42
44
44.5
36
41.5
d_crneo
peso
X5
55
55
54.5
57
57
54
56
58
Y
43
45
48
49
50
51
52
52
En base a estos datos, vamos a construir un modelo para predecir el peso de una
persona (Y). Esto equivale a estudiar la relacin existente entre este conjunto de
variables x1 ,..., x5 y la variable peso (Y).
II.
estatura
pie
l_brazo
a_espald
d_craneo
III.
Hiptesis
Y = X * B +U
b) Homocedasticidad: todas las perturbaciones tienen las misma varianza:
V (ui ) = 2
c) Independencia: las perturbaciones aleatorias son independientes entre s:
E (ui u j ) = 0, i j
d) Normalidad: la distribucin de la perturbacin aleatoria tiene distribucin
normal:
U N (0, 2 )
e) Las variables explicativas Xk se obtienen sin errores de medida.
IV.
Min ( y j y j ) 2
Donde:
y j = b0 + b1 * x1,1 + b2 * x2, j + ...bk * xk , j
u1 y1 y1
u y y
2 2 2
u = . = . = y y
. .
un yn y n
.
u n yn b0 b1 * x1,n b2 * x2,n b3 * x3,n ... bk * xk ,n
Por lo tanto:
y1 1 x1,1
y 1 x
1, 2
2
u =
yn 1 x1,n
.
.
xk ,1 b0
xk , 2 b1
* . = y X *b
.
xk ,n bk
Es decir:
(b) = ( y j y j ) 2 = u * u
(b) = ( y j y j ) 2 = u * u = y * y y * x * b b * x * y + b * x * x * b
(b ) ( y X * b ) * ( y X * b )
= 2 * X * Y + 2 * X * X * B
=
b
b
Multiplicando por ( X * X ) 1
( X * X ) 1 X * Y = ( X * X ) 1 X * X * B
( X * X ) 1 X * Y = I * B
B = ( X * X ) 1 * X * Y
Adems
X *Y = X * X * B
X *Y X * X * B = 0
X * (Y X * B ) = 0
X *U = 0
Es decir, los residuos obtenidos del modelo estimado por mnimos cuadrados no
van a estar correlacionados con las variables explicativas.
Nota
Si no hay variables que sean combinacin lineal de las dems, pero estn
fuertemente correlacionadas, el determinante no ser cero pero tendr un valor muy
prximo a cero; este caso va a producir una inestabilidad en la solucin del estimador,
en general, se va a producir un aumento en su varianza.
10
V.
Varianza residual
n * 2 = ( yi Y ) 2
( y y ) = ( y) y ) + ( y y) )
2
VT = VE + VNE
11
SY2 =
VT
n 1
S R2 =
VNE
n (k + 1)
Tabla resumen
Suma de cuadrados
VT
VE
VNE
( y y)
( y y )
)
( y y)
Grados de libertad
n-1
k-1
2
n-k-1
12
SY2 =
VT
n 1
S R2 =
VNE
n k 1
VI.
Contraste de regresin
Nota
La hiptesis nula es que todos los coeficientes menos b0 son nulos y la hiptesis
alternativa o complementaria es que existe al menos uno que es distinto de 0, puede
haber varios que sean nulos, pero al menos existe uno distinto de cero.
13
VT
n21
VE
12
VNE
n2 ( k +1)
Por tanto:
VE
VNE
n (k + 1)
VE
F1, n ( k +1)
S R2
Nota
14
15
VII.
Coeficiente de determinacin R2
Vamos a construir un coeficiente (estadstico) que mida la bondad del ajuste del
modelo. Si bien la varianza residual ( S R2 ) nos indica cmo estn de cerca las
estimaciones respecto de los puntos, esta varianza est influida por la varianza de la
variable dependiente, la cual, a su vez, est influida por su unidad de medida. Por lo
tanto, una medida adecuada es la proporcin de la varianza explicada (VE) entre la
varianza total (VT); de este modo, definimos el coeficiente de determinacin R 2 :
R2 =
VE VT VNE
VNE
=
= 1
VT
VT
VT
Por ser cociente de sumas de cuadrados, este coeficiente ser siempre positivo.
Si todos los puntos estn sobre la recta de regresin, la varianza no explicada
ser 0, y por lo tanto:
R2 =
0
VE
= 1
=1
VT
VT
Este coeficiente es muy importante pues determina qu porcentaje (en tantos por
uno) de la varianza de la variable dependiente es explicado por el modelo de regresin.
Menor de 0.3
Muy malo
0.3 a 0.4
Malo
0.4 a 0.5
Regular
0.5 a 0.85
Bueno
Mayor de 0.85
Sospechoso
16
1 x1 + 2 x2 + ... + k xk + 0 = 0
Regression
Residual
Total
Sum of
Squares
3485,401
775,265
4260,667
df
6
20
26
Mean Square
580,900
38,763
F
14,986
Sig.
,000a
17
Coefficientsa
Model
1
(Constant)
estatura
pie
l_brazo
a_espald
d_crneo
l_roxto Longitud
de rodilla a tobillo
Unstandardized
Coefficients
B
Std. Error
-133,261
43,985
-,354
,445
2,187
1,248
,821
,621
1,067
,660
1,093
,922
-,003
Standardized
Coefficients
Beta
,841
-,283
,489
,317
,335
,157
t
-3,030
-,796
1,752
1,323
1,616
1,186
Sig.
,007
,435
,095
,201
,122
,250
-,001
-,004
,997
Collinearity Statistics
Tolerance
VIF
,072
,117
,159
,212
,517
13,882
8,574
6,307
4,724
1,933
,212
4,724
Los residuos son variables aleatorias que siguen (?) una distribucin normal.
Los residuos tienen unidades de medida y, por tanto no se puede determinar si es grande
o pequeo a simple vista.
18
Zui =
1
ui
*
1 hii
SR
Se considera que un residuo tiene un valor alto, y por lo tanto puede influir
negativamente en el anlisis, si su residuo estandarizado es mayor de 3 en valor
absoluto.
Zui 3
Para evitar la dependencia entre numerador y denominador de la expresin
anterior, tambin se utilizan los residuos estudentizados.
SZui =
1
ui
*
1 hii
S (i ) R
Residuals Statisticsa
Predicted Value
Residual
Std. Predicted Value
Std. Residual
Minimum
23,9527
-31,69022
-1,860
-,939
Maximum
138,1509
117,84905
2,627
3,492
19
Mean
71,2963
,00000
,000
,000
Std. Deviation
25,44848
29,60339
1,000
,877
N
27
27
27
27
Podemos observar que hay un caso que tiene un residuo anormal, pues su valor
tipificado es 3.49.
20
l (i ) =
1
( x x )2
(1 + i 2 )
n
sx
N
Normal Parameters a,b
Most Extreme
Differences
Mean
Std. Deviation
Absolute
Positive
Negative
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
ZRE_1
Standardized
Residual
27
,0000000
,87705802
,117
,117
-,105
,609
,852
21
VIII.5. Homocedasticidad
22
Errores que son fciles pasar por alto al realizar un modelo de regresin lineal
mltiple son los siguientes:
23
IX.
Eliminacin progresiva.
Introduccin progresiva.
24
X.
Ejemplo 1
Statistics
Valid
Missing
Mean
Median
Std. Deviation
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Minimum
Maximum
estatura
27
0
168,7963
168,0000
10,22089
,173
,448
-1,016
,872
152,00
189,00
peso
27
0
63,8889
65,0000
12,80124
,187
,448
-,658
,872
43,00
91,00
25
pie
27
0
38,9815
39,0000
2,86384
,303
,448
-,855
,872
34,00
45,00
l_brazo
27
0
73,4815
73,0000
4,93707
,427
,448
-,605
,872
66,00
83,00
a_espald
27
0
45,8519
46,0000
4,02113
-,249
,448
,075
,872
36,00
53,00
d_crneo
27
0
57,2407
57,0000
1,84167
,178
,448
-,740
,872
54,00
61,00
l_roxto
Longitud
de rodilla
a tobillo
27
0
43,0926
43,0000
3,15630
,632
,448
1,044
,872
38,00
52,00
Model Summaryb
Model
1
R
R Square
,904a
,818
Adjusted
R Square
,763
Std. Error of
the Estimate
6,22602
DurbinWatson
2,274
Regression
Residual
Total
Sum of
Squares
3485,401
775,265
4260,667
df
6
20
26
Mean Square
580,900
38,763
F
14,986
Sig.
,000a
26
Coefficientsa
Model
1
(Constant)
estatura
pie
l_brazo
a_espald
d_crneo
l_roxto Longitud
de rodilla a tobillo
Unstandardized
Coefficients
B
Std. Error
-133,261
43,985
-,354
,445
2,187
1,248
,821
,621
1,067
,660
1,093
,922
-,003
Standardized
Coefficients
Beta
,841
-,283
,489
,317
,335
,157
t
-3,030
-,796
1,752
1,323
1,616
1,186
Sig.
,007
,435
,095
,201
,122
,250
-,001
-,004
,997
Collinearity Statistics
Tolerance
VIF
,072
,117
,159
,212
,517
13,882
8,574
6,307
4,724
1,933
,212
4,724
Residuals Statisticsa
Predicted Value
Residual
Std. Predicted Value
Std. Residual
Minimum
44,1230
-8,21203
-1,707
-1,319
Maximum
88,5975
11,34415
2,134
1,822
27
Mean
63,8889
,00000
,000
,000
Std. Deviation
11,57816
5,46058
1,000
,877
N
27
27
27
27
R
R Square
,850a
,722
,891b
,794
Adjusted
R Square
,711
,777
Std. Error of
the Estimate
6,88269
6,05049
DurbinWatson
2,120
ANOVAc
Model
1
Regression
Residual
Total
Regression
Residual
Total
Sum of
Squares
3076,382
1184,285
4260,667
3382,065
878,602
4260,667
df
1
25
26
2
24
26
Mean Square
3076,382
47,371
F
64,942
Sig.
,000a
1691,032
36,608
46,192
,000b
t
-4,569
8,059
-5,376
3,219
2,890
Sig.
,000
,000
,000
,004
,008
Coefficientsa
Model
1
2
(Constant)
pie
(Constant)
pie
a_espald
Unstandardized
Coefficients
B
Std. Error
-84,173
18,421
3,798
,471
-87,250
16,228
2,213
,687
1,415
,490
Standardized
Coefficients
Beta
,850
,495
,444
28
Collinearity Statistics
Tolerance
VIF
1,000
1,000
,363
,363
2,753
2,753
Collinearity Diagnosticsa
Variance Proportions
Condition
Dimension
Eigenvalue
(Constant)
pie
a_espald
Index
Statisticsa ,00
1
1,997 Residuals
1,000
,00
2
,003
27,778
1,00
Minimum
Maximum
Mean1,00 Std. Deviation
N
2 Predicted
1 Value
2,995
1,000
,00
,00
,0027
43,3520
87,3214
63,8889
11,40524
2
,004
27,747
,83
,02
,2227
Residual
-10,25595
12,53056
,00000
5,81312
3
,001
50,270
,17
,98
,7827
Std. Predicted Value
-1,801
2,055
,000
1,000
Std.
Residual Variable: peso
a. Dependent
-1,695
2,071
,000
,961
27
Model
1
29
Histogram
Frequency
Mean = 1,99E-15
Std. Dev. = 0,961
30
31