Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CONTENIDO
1. REGRESIN LINEAL SIMPLE
1.1 Introduccin
1.2 El modelo de regresin lineal simple
1.3 Usos y abusos de la regresin
2. ADECUACIN DEL MODELO DE REGRESIN LINEAL
2.1 Introduccin
2.2 Prueba de falta de ajuste
2.3 Anlisis de los residuos
2.4 Transformaciones de los datos
2.5 Propuesta de estrategia de ajuste del modelo
3. REGRESIN LINELA MLTIPLE
3.1 El modelo de regresin
3.2 Anlisis de los residuos
3.3 Anlisis de cada observacin
3.4 Propuesta de estrategia de ajuste del modelo
4. TPICOS ADICIONALES
4.1 Calibracin
4.2 Variables independientes cualitativas
4.3 Autocorrelacin
4.4 Algunos usos interesantes de la regresin
1.1 Introduccin
Parece que Sir Francis Galton (1822-1911) un antroplogo y metereolgo britnico
fue responsable de la introduccin de la palabra regresin, mostr que si Y =
estatura de los nios y X = estatura de los padres, una ecuacin de ajuste
2 __
Y Y ( X X ) . El artculo de
3
^
adecuada era
__
Las observaciones se
Prediccin y estimacin.
Stigler, S.M., The Story of the Statistics, Belknap Press, Harvard University, 1986, pp. 294-299
Placket, R.L., Studies in the history of the probability and Statistics XXIX. The discovery of the method of
least squares,, Bometrika, 59, 1972, pp. 239-251.
2
1.2
Control.
X
Fig. 1.1 Diagrama de dispersin y recta de ajuste
El modelo de ajuste o modelo de regresin lineal es:
Y 0 1 X
(1.1)
y 1
(1.1 a)
y su varianza es:
V ( y | x ) V ( 0 1 x ) 2
(1.1b)
S ( 0 , 1 ) ( yi 0 1 xi ) 2
i 1
S
0
0 , 1
2 ( yi 0 1 xi ) 0
i 1
y
S
1
0 , 1
2 ( yi 0 1 xi ) xi 0
i 1
i 1
i 1
n 0 1 xi yi
n
i 1
i 1
i 1
0 xi 1 x 2 i yi xi
n
x
i yi
n
i 1
i1
yi xi
n
i 1
x i
i 1
i 1
1 n
yi
n i 1
1 n
xi
n i 1
Aplicando el mtodo de mnimos cuadrados del error, se obtiene el modelo que nos
da un valor estimado Y en funcin de X, denominado ecuacin de prediccin o de
regresin lineal, como sigue:
b0 0
b1 1
Y b0 b1 X
(1.2)
Donde:
n
b1
S xy
S xx
__ __
X iYi n X Y
i 1
n
X
i 1
__
2
i
(1.3)
__ 2
nX
__
(1.4)
b0 Y b1 X
por tanto:
^ __
__
Y Y b1 ( X X )
(1.5)
__
__
__
10.98
11.13
12.51
8.4
9.27
8.73
6.36
8.5
7.82
9.14
8.24
35.3
29.7
30.8
58.8
61.4
71.3
74.4
76.7
70.7
57.5
46.4
12.19
11.88
9.57
10.94
9.58
10.09
8.11
6.83
8.88
7.68
8.47
8.86
10.36
11.08
28.9
28.1
39.1
46.8
48.5
59.3
70
70
74.5
72.1
58.1
44.6
33.4
28.6
Predictor
Constant
C2
S = 0.8901
Coef
13.6230
-0.07983
SE Coef
0.5815
0.01052
R-Sq = 71.4%
T
23.43
-7.59
P
0.000
0.000
R-Sq(adj) = 70.2%
(1.6)
Y 13.6 0.0798 X
Despus de obtener esta ecuacin, surgen algunas preguntas:
-
S2
SS E SYY b1 S XY
n2
n2
(1.7)
Donde:
i 1
Yi
SYY Yi 2
(1.8)
i 1
i 1
i 1
X i Yi
i 1
S XY X iYi
La expresin
(1.9)
__ ^ __
Yi Y i Yi Y (Y i Y )
(1.10)
Y
Yi
^
ei
__
Yi
Yi Y
_
Y
lnea ajustada
^
Y b0 b1 x
X
Xi
Fig. 1.2 Errores involucrados en la recta de ajuste
10
__
__
^ __
(Y Y ) (Y Y ) (Y Y )
i
i i
(1.11)
Fuente
df
SS
MS = SS/df
Fc
MS
SSR
b
S
Regresin
1
MSreg/s2 =MSreg/MSE
REG
1 XY
2
SSE SS YY b1 S XY S =MSE=SSE/n-2
Residual
n-2
__________________________________________________________.
SYY
Total corregido
n-1
donde:
__
2
S XY
( ( X i X )Yi ) 2
(1.12)
__ 2
__
S XX ( X i X ) 2 X i2 n X
(1.13)
DF
1
23
24
SS
45.592
18.223
63.816
MS
45.592
0.792
11
F
57.54
P
0.000
__ 2
1 X
X
__
n
S
2
XX
n ( X i X )
se(b0 ) MSE
se(b1 )
MSE
S XX
2
i
1/ 2
S
S XX
(1.14)
(1.15)
0.792
0.0105
7154.42
12
0 t a / 2,n 2
__ 2
1 X
MSE
n S XX
(1.16)
1
X
b0 t ( n 2,1 )
__
2 n (X X
2
)
i
2
i
1/ 2
(1.16a)
1 t a / 2 , n 2
MSE
S XX
MSE
S XX
(1.17)
1
t ( n 2,1 ).S
2
b1
__
(
X
X
i )2
(1.17)
13
( n 2) MSE
P 12 / 2,n 2
2 / 2,n 2 1
2
(1.18)
(1.19)
E (Y | X 0 ) Y0 b0 b1 X 0
Y0 ta / 2,n2
MSE 1 ( x0 x)2
S XX n S xx
(1.20b)
14
__
X0 X .
La variable aleatoria,
Y0 Y0
Est normalmente distribuida con media cero y varianza:
__
1 ( X 0 X )2
V ( ) 1
n
S XX
__
__
2
(
X
X
)
(
X
X
)2
1
1
Y0 Y0 t / 2,n 2 MSE 1 0
MSE 1 0
(1.21
n
S XX
n
S XX
Y0 t / 2,n2
__
__
2
(
X
X
)
(
X
X
)2
1
1
1
1
Y0 Y0 t / 2,n2 MSE
MSE
0
0
m n
m n
S XX
S XX
15
(1.22)
b1
MSE
t0
Si
S XX
t 0 t / 2 ,n 2
(1.23)
b1
0.798
7.60
se(b1 ) 0.0105
Como
t 7.60
SE Coef
0.5815
0.01052
T
23.43
-7.59
16
P
0.000
0.000
n( 0 0 ) 2 2 xi ( 0 0 )( 1 1 ) x 2 i ( 1 1 )
i 1
i 1
2 MSE
F , 2,n2
1 (xi x )2
17
Note que los intervalos del mximo mdulo t son ms angostos que los de
Bonferroni. Sin embargo cuando m > 2 los intervalos de mximo mdulo t se
siguen ampliando mientras que los de Bonferroni no dependen de m.
1 ( x x )2
y xi YXi MSE 1 i
n
S xx
18
1.2.10 Correlacin
Las discusiones anteriores de anlisis de regresin han asumido que X es una
variable controlable medida con un error despreciable y que Y es una variable
aleatoria. Muchas aplicaciones de anlisis de regresin involucran situaciones donde
tanto X como Y son variables aleatorias y los niveles de X no pueden ser
controlados. En este caso se asume que las observaciones (Xi, Yi), i=1, 2,,n son
variables aleatorias distribuidas conjuntamente. Por ejemplo suponiendo que se
desea establecer la relacin entre los refrescos vendidos y la temperatura del da. Se
asume que la distribucin conjunta de Y y X es la distribucin normal divariada, que
es:
1
1
f ( x, y )
exp
2
2 1 2
2(1 p )
y 1
x 2
y 1
x 2
2 p
1
2
1
2
E ( y 1 )( x 2 ) 12
1 2
1 2
1 y x
1
0
1
exp
12
2 12
2
Donde:
0 1 2
1
2
212 12 (1 2 )
19
S XY
S XX SYY
S
b1 YY
S XX
(1.24)
1/ 2
(1.25)
(1.26)
^
__
(Y Y )
(Y Y )
__
SSR
SSE
1
Syy
SYY
(1.27)
R-Sq(adj) = 70.2%
t0
r n2
(1.28)
1 r2
t 0 t / 2 , n 2
se rechaza la
t0
0.9646 25 2
17.55
1 0.9305
como
t0.025,23=2.069,
se
rechaza
Ho
indicando
que
hay
Z arctanh ( r )
1 1 r
ln
2 1 r
(1.29)
21
Con media
Z arctanh ( )
y desviacin estndar
Z2
1
n3
y rechazar si
(1.30)
Z 0 Z / 2
Obtenindose
1 1 r
1 1 0
ln(
) ln(
)
2 1 0
2 1 r
z ( n 3)1 / 2
(1.31)
Z
Z
Del
ejemplo
anterior,
se
puede
(1.32)
construir
un
intervalo
22
2.0082, se tiene:
de
1.92
1.96
tanh 2.0082
tanh 2.0082
22
22
0.9202 0.9845.
Se simplifica a
Se
requiere
un
anlisis
adicional
para
determinar
si
la
1 1 r
1
ln
z 1
2 1 r
2 n 3
1/ 2
1 1
ln
2 1
(1.33)
23
1.3
Hay varios abusos comunes en el uso de la regresin que deben ser mencionados:
1. Los modelos de regresin son vlidos como ecuaciones de interpolacin sobre el
rango de las variables utilizadas en el modelo. No pueden ser vlidas para
extrapolacin fuera de este rango.
2. La disposicin de los valores X juega un papel importante en el ajuste de mnimos
cuadrados. Mientras que todos los puntos tienen igual peso en la determinacin
de la recta, su pendiente est ms influenciada por los valores extremos de X. En
este caso debe hacerse un anlisis minucioso de estos puntos y en todo caso
eliminarlos y re estimar el modelo. En la figura se observan dos puntos que
influyen en el modelo de ajuste, ya que si se quitaran, el modelo de lnea recta se
modificara.
Y
*A
* *
*
*
*
*
Sin A y B
* *
*B
24
Y
*A
* *
**
*
** *
**
*
*
* * *
**
* *
Enfermos mentales
Licencias emitidas
1924
1,350
1926
2,270
1928
11
2,730
1930
12
3,647
1932
18
5,497
1934
20
7,012
1936
22
8,131
25
Algunas situaciones implican que pase la lnea recta a travs del origen y deben
adecuar a los datos. Un modelo de no interseccin frecuentemente se presenta en
los procesos qumicos y otros procesos de manufactura, el modelo queda como:
Y 1 X
S ( 1 ) ( yi 1 xi ) 2
i 1
i 1
i 1
1 x 2 i yi xi
y el estimador de mnimos cuadrados de la pendiente es:
n
yx
i 1
n
i i
i 1
2 MSE
SS E SYY b1S XY
n 1
n 1
i 1
i 1
yi2 1 yi xi
n 1
1 ta / 2,n1
MSE
n
x
i 1
2
i
se( 1 )
MSE
n
x
i 1
2
i
26
Y0 ta / 2,n2
x02 MSE
n
x
i 1
2
i
Y0 ta / 2,n2
2
0
x
MSE 1 n
2
xi
i1
Envases
X
25
6
8
17
2
13
23
30
28
14
19
4
24
1
XY
253.75
17.76
24
116.96
0.56
65.78
210.22
355.8
327.32
84.56
143.83
6.96
225.12
0.16
X2
625
36
64
289
4
169
529
900
784
196
361
16
576
1
27
1.84
9.2
1841.98
Suma
25
4575
R-Sq = 99.5 %
R-Sq(adj) = 99.4 %
10
Regression
95% CI
0
0
10
20
30
yx
i 1
n
i i
1841.98
0.4026
4575.00
i 1
91.13
0.000
MS
741.62
0.09
F
8305.23
28
P
0.000
y 0.4026
MSE = 0.0893
Ro2 = 0.9883
El estadstico t para la prueba Ho: 1 = 0 es to = 91.13, por tanto el coeficiente es
significativo a un alfa de 0.01.
Utilizando un modelo con interseccin resultando en:
Stat > Regresin > Regresin
Responde Y Predictors X
Options: Poner la seleccin de Fit intercept
Results: dejar opciones de Default
OK
Los resultados de Minitab son los siguientes:
The regression equation is
Y = - 0.094 + 0.407 X
Predictor
Coef
SE Coef
T
P
Constant
-0.0938
0.1436
-0.65
0.525
X
0.407107
0.008221
49.52
0.000
S = 0.3051
R-Sq = 99.5%
R-Sq(adj) = 99.4%
Analysis of Variance
Source
DF
SS
MS
F
Regression
1
228.32
228.32
2452.13
Residual Error
13
1.21
0.09
Total
14
229.53
P
0.000
y 0.0938 0.4026
29
Ejemplo 1.2:
Un motor se fabrica con dos partes. La resistencia al corte entre las dos partes (Y) es
una caracterstica importante de calidad que se sospecha es funcin de la
antigedad del propelente (X). Los datos se muestran a continuacin:
Y
2158.70
1678.15
2316.00
2061.30
2207.50
1708.30
1784.70
2575.00
2357.90
2256.70
2165.20
2399.55
1779.80
2336.75
1765.30
2053.50
2414.40
2200.50
2654.20
1753.70
X
15.50
23.75
8.00
17.00
5.50
19.00
24.00
2.50
7.50
11.00
13.00
3.75
25.00
9.75
22.00
18.00
6.00
12.50
2.00
21.50
30
2600
2100
1600
0
10
15
20
25
La figura sugiere que hay una relacin estadstica entre la resistencia al corte
y la antigedad del propelente, y el supuesto de relacin lineal parece ser razonable,
para estimar los parmetros del modelo se calcula Sxx y Sxy:
Sumas de cuadrados
Los clculos en Excel son los siguientes:
Y
2158.70
1678.15
2316.00
2061.30
2207.50
1708.30
1784.70
2575.00
2357.90
2256.70
2165.20
2399.55
1779.80
2336.75
1765.30
2053.50
2414.40
2200.50
X
15.50
23.75
8.00
17.00
5.50
19.00
24.00
2.50
7.50
11.00
13.00
3.75
25.00
9.75
22.00
18.00
6.00
12.50
Dif X2
4.57
107.90
28.76
13.23
61.82
31.78
113.16
117.99
34.37
5.58
0.13
92.40
135.43
13.05
74.61
21.51
54.21
0.74
31
Yi(XiDif Y2
Xprom)
747.61
4614.22
205397.04
17431.78
34092.85
-12419.55
4908.05
7497.98
5797.68
-17356.47
178977.65
9630.54
120171.42
18984.75
196818.67
-27970.94
51321.50
-13823.19
15710.74
-5331.45
1145.31
-784.89
71927.22
-23065.67
123592.68
20712.42
42186.08
-8441.51
133998.09
15247.78
6061.79
9523.11
80113.06
-17776.02
4780.69
-1897.93
Suma
2654.20
1753.70
42627.15
2.00
21.50
267.25
Media
2131.36
13.36
129.11
66.22
1106.56
273364.28
142625.19
1693737.60
-30158.35
14270.73
-41112.65
__ 2
S xx X i2 n X = 1106.56
i 1
__ 2
S yy Yi 2 n Y = 1693737.60
i 1
__
S xy X iYi n X Y = -41112.65
i 1
Sxx = 1106.56
b1
S xy
S xx
i 1
n
X
i 1
b1
S xy
S xx
__ __
X iYi n X Y
2
i
__ 2
nX
41112 .65
37.15
1106 .56
__
b0 Y b1 X = 21131.35
FITS1
RESI1
2051.94
1745.42
106.758
-67.275
32
2316.00
2061.30
2207.50
1708.30
1784.70
2575.00
2357.90
2256.70
2165.20
2399.55
1779.80
2336.75
1765.30
2053.50
2414.40
2200.50
2654.20
1753.70
42627.15
2330.59
1996.21
2423.48
1921.9
1736.14
2534.94
2349.17
2219.13
2144.83
2488.5
1698.98
2265.57
1810.44
1959.06
2404.9
2163.4
2553.52
1829.02
-14.594
65.089
-215.978
-213.604
48.564
40.062
8.73
37.567
20.374
-88.946
80.817
71.175
-45.143
94.442
9.499
37.098
100.685
-75.32
42627.14
0.00
Suma
Propiedades de la regresin
Hay varias propiedades tiles del ajuste de mnimos cuadrados:
1. La suma de los residuos en cualquier modelo de regresin es siempre cero.
n
i 1
i 1
( yi y i ) ei 0
2. La suma de los valores observados Yi es igual a la suma de los valores estimados
Yi est. o sea (ver tabla de datos como ejemplo):
n
i 1
i 1
yi y i
3. La lnea de regresin siempre pasa por el punto ( y, x ) de los datos.
4. La suma de los residuos multiplicados por los valores correspondientes de la
variables regresora siempre es igual a cero.
n
xe
i 1
i i
33
ye
i i
i 1
SS E
1693737.60 (37.15)(42627.15) 2
n2
22 2
166
,
402
.
65
2
9244.59
20
' 0 0 1 x
y (x
i
i 1
n
(x
i 1
x)
x )2
S xy
S xx
34
t0
t0
Si
b1
MSE
S XX
(1.23)
37.15
3.029
166402.65
1106 .56
t 0 t / 2 ,n 2
Para probar la hiptesis Ho: 1=0 se usa el ANOVA con el estadstico Fo como sigue:
Fo
SSR / 1
MSR 1,527,334.95
165.21
SSE /(n 2) MSE
9,244.59
35
Suma de
Grados de Cuadrado
cuadrados
libertad
medio
Fo
1,527,334.95
1 1,527,334.95
166,402.65
18
9,244.59
1,693,737.60
19
165.21
1 t a / 2 , n 2
se( 1 )
MSE
S XX
MSE
S XX
9244.59
2.89
1106 .56
1 2.101* 2.89
43 22 1 31.08
El intervalo del 95% de porcentaje de confianza de la
varianza es:
( n 2) MSE
( n 2) MSE
2
2
/ 2 ,n 2
12 / 2,n 2
18(9244.59)
18(9244.59)
2
31.5
8.23
5282.62 2 210219.03
36
Y0 ta / 2,n2
1 ( x0 x )2
MSE
n S xx
1 ( x0 13.3625)2
Y0 (2.101) 9244.59
20
1106
.
56
En Xo = 13.3625 se tiene:
2086.23 E ( y 13.3625) 2176.571
Para otros casos auxilindose de Minitab se tiene:
Regression Plot
Y = 2627.82 - 37.1536 X
S = 96.1061
R-Sq = 90.2 %
R-Sq(adj) = 89.6 %
2600
2100
Regression
95% CI
1600
0
10
15
20
25
X
El intervalo de confianza para la respuesta media Yo de varios valores Xo es:
Intervalo de confianza para Yo respuesta media
Xo
CLIM1
CLIM2
3
2438.94
2593.79
6
2341.38
2468.43
37
9
12
13.3625
15
18
21
24
2241.1
2136.08
2086.21
2024.29
1905.85
1782.89
1657.35
2345.78
2227.88
2176.51
2116.75
2012.26
1912.31
1814.92
aplicacin
importante
del
modelo
de
regresin
es
predecir
nuevas
__
__
2
(
X
X
)
(
X
X
)2
1
1
0
0
MSE 1
Y0 Y0 t / 2,n 2 MSE 1
n
S XX
n
S XX
1
(10 13.3625) 2
2256.32 (2.101) 9244.59 1
Y0
20
1106 .56
1
(10 13.3625) 2
2256.32 ( 2.101) 9244.59 1
20
1106 .56
que se simplifica a:
2048.32 y0 2464.32
38
n( 0 0 ) 2 2 xi ( 0 0 )( 1 1 ) x 2 i ( 1 1 )
i 1
i 1
2 MSE
F , 2,n2
Es el lmite de la elipse.
Beta 0
Beta 1
1 (xi x )2
39
i
1
2
Xi
10
18
E(Y|Xi)=Yest en xi = 2627.82-37.15Xi
2256.282
1959.020
1 ( x x )2
y xi YXi MSE 1 i
n
S xx
Coeficiente de determinacin
Con los datos del ejemplo para la suma de cuadrados de la regresin y la suma de
cuadrados total se tiene:
R 2
SSR 1,527.334.95
0.9018
Syy 1,693,737.60
40
ei Yi Y i, i 1,2,3..., n
(2.1)
donde Yi son las observaciones reales y Y-gorro los valores estimados con la recta
de regresin.
41
Como los residuos son las diferencias entre las observaciones reales y las predichas
o estimadas, son una medida de la variabilidad no explicada por el modelo de
regresin, e el valor observado de los errores. As, cualquier desviacin anormal de
los supuestos acerca de los errores, ser mostrada por los residuos. Su anlisis es
un mtodo efectivo para descubrir varios tipos de deficiencias del modelo.
Los residuos tienen varias propiedades importantes. Su media es cero y su varianza
aproximada es:
__ 2
(e
i 1
e)
n2
e
i 1
2
i
n2
(2.2)
SS E
MS E
n2
En algunos casos es mejor trabajar con residuos estandarizados, que tienen media
cero y varianza unitaria aproximada.
di
ei
,....1 1,2,....., n
MS E
(2.3)
ri
ei
1 ( X i X )2
MSE 1
S XX
n
,
i = 1, 2, ........, n
42
(2.4)
Respuesta
Yi
35.3
29.7
30.8
58.8
61.4
71.3
74.4
76.7
70.7
57.5
46.4
28.9
28.1
39.1
46.8
48.5
59.3
70
70
74.5
72.1
58.1
44.6
33.4
28.6
10.98
11.13
12.51
8.4
9.27
8.73
6.36
8.5
7.82
9.14
8.24
12.19
11.88
9.57
10.94
9.58
10.09
8.11
6.83
8.88
7.68
8.47
8.86
10.36
11.08
Fit
10.805
11.252
11.164
8.929
8.722
7.931
7.684
7.5
7.979
9.033
9.919
11.316
11.38
10.502
9.887
9.751
8.889
8.035
8.035
7.676
7.867
8.985
10.063
10.957
11.34
43
SE Fit
0.255
0.3
0.29
0.19
0.201
0.265
0.29
0.31
0.261
0.185
0.19
0.306
0.313
0.228
0.188
0.183
0.191
0.255
0.255
0.291
0.272
0.187
0.197
0.269
0.309
Residual
0.175
-0.122
1.346
-0.529
0.548
0.799
-1.324
1
-0.159
0.107
-1.679
0.874
0.5
-0.932
1.053
-0.171
1.201
0.075
-1.205
1.204
-0.187
-0.515
-1.203
-0.597
-0.26
St Residual
0.21
-0.15
1.6
-0.61
0.63
0.94
-1.57
1.2
-0.19
0.12
-1.93
1.05
0.6
-1.08
1.21
-0.2
1.38
0.09
-1.41
1.43
-0.22
-0.59
-1.39
-0.7
-0.31
44
Se sugiere utilizar los residuos estandarizados, ya que son tiles para evaluar
normalidad, es decir que habr normalidad si el 68% de los mismos se encuentran
entre 1 y +1 y el 95% entre 2 y +2, de otra forma habr una violacin de la
normalidad.
y i puede
identificar patrones
anormales o no lineales, indicando que tal vez se requiera agregar otra variable
regresora al modelo, o se requiera transformar las variables regresora o de
respuesta. Tambin puede revelar outliers potenciales, si ocurren en los extremos,
indican que la varianza no es constante o que no hay relacin lineal entre variables.
Para el caso del ejemplo 1.2 con los datos X y Y se tienen los residuos
estandarizados y estudentizados son:
Y
2158.70
1678.15
2316.00
2061.30
2207.50
1708.30
1784.70
2575.00
2357.90
2256.70
2165.20
2399.55
1779.80
2336.75
1765.30
2053.50
2414.40
2200.50
2654.20
1753.70
X
15.50
23.75
8.00
17.00
5.50
19.00
24.00
2.50
7.50
11.00
13.00
3.75
25.00
9.75
22.00
18.00
6.00
12.50
2.00
21.50
45
T
P
59.47 0.000
-12.86 0.000
R-Sq(adj) = 89.6%
MS
1527483
9236
F
165.38
P
0.000
No replicates.
Cannot do pure error test.
Unusual Observations
Obs
X
Y
Fit
5
5.5 2207.5 2423.5
6 19.0 1708.3 1921.9
SE Fit
31.3
27.0
Residual
-216.0
-213.6
St Resid
-2.38R
-2.32R
Observacin
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
2158.70
1678.15
2316.00
2061.30
2207.50
1708.30
1784.70
2575.00
2357.90
2256.70
2165.20
2399.55
1779.80
2336.75
1765.30
2053.50
2414.40
2200.50
2654.20
1753.70
15.50
23.75
8.00
17.00
5.50
19.00
24.00
2.50
7.50
11.00
13.00
3.75
25.00
9.75
22.00
18.00
6.00
12.50
2.00
21.50
FITS1
2051.94
1745.42
2330.59
1996.21
2423.48
1921.9
1736.14
2534.94
2349.17
2219.13
2144.83
2488.5
1698.98
2265.57
1810.44
1959.06
2404.9
2163.4
2553.52
1829.02
46
RESI1
106.7580
-67.2750
-14.5940
65.0890
-215.9780
-213.6040
48.5640
40.0620
8.7300
37.5670
20.3740
-88.9460
80.8170
71.1750
-45.1430
94.4420
9.4990
37.0980
100.6850
-75.3200
SRES1
1.1422
-0.7582
-0.1580
0.6993
-2.3766
-2.3156
0.5488
0.4539
0.0948
0.4021
0.2175
-0.9943
0.9244
0.7646
-0.5000
1.0187
0.1041
0.3962
1.1476
-0.8307
TRES1
1.1526
-0.7488
-0.1536
0.6890
-2.7882
-2.6856
0.5379
0.4437
0.0921
0.3926
0.2117
-0.9939
0.9204
0.7554
-0.4893
1.0198
0.1012
0.3867
1.1585
-0.8232
Ri
1.1422
-0.7582
-0.1580
0.6993
-2.3767
-2.3156
0.5488
0.4539
0.0948
0.4021
0.2175
-0.9943
0.9244
0.7646
-0.5000
1.0187
0.1041
0.3962
1.1477
-0.8307
9236
96.10411021
(XiXmedia)^2
2158.70
1678.15
2316.00
2061.30
2207.50
1708.30
1784.70
2575.00
2357.90
2256.70
2165.20
2399.55
1779.80
2336.75
1765.30
2053.50
2414.40
2200.50
2654.20
1753.70
15.50
23.75
8.00
17.00
5.50
19.00
24.00
2.50
7.50
11.00
13.00
3.75
25.00
9.75
22.00
18.00
6.00
12.50
2.00
21.50
FITS1
2051.94
1745.42
2330.59
1996.21
2423.48
1921.9
1736.14
2534.94
2349.17
2219.13
2144.83
2488.5
1698.98
2265.57
1810.44
1959.06
2404.9
2163.4
2553.52
1829.02
RESI1
106.7580
-67.2750
-14.5940
65.0890
-215.9780
-213.6040
48.5640
40.0620
8.7300
37.5670
20.3740
-88.9460
80.8170
71.1750
-45.1430
94.4420
9.4990
37.0980
100.6850
-75.3200
ResEstan1
1.11086
-0.70002
-0.15186
0.67728
-2.24733
-2.22263
0.50533
0.41686
0.09084
0.39090
0.21200
-0.92552
0.84093
0.74060
-0.46973
0.98271
0.09884
0.38602
1.04767
-0.78373
Sxx
4.56891
107.90016
28.75641
13.23141
61.81891
31.78141
113.15641
117.99391
34.36891
5.58141
0.13141
92.40016
135.43141
13.05016
74.60641
21.50641
54.20641
0.74391
129.10641
66.21891
99
100
Residual
Percent
90
50
0
-100
10
1
-200
-200
-100
0
Residual
100
200
1800
2400
2600
6.0
100
4.5
Residual
Frequency
2000
2200
Fitted Value
3.0
0
-100
1.5
0.0
-200
-200 -150 -100 -50
0
Residual
50
100
6
8 10 12 14 16
Observation Order
18
20
1/20 +
(XiXmedia)^2/Sxx
0.05413
0.14751
0.07599
0.06196
0.10587
0.07872
0.15226
0.15663
0.08106
0.05504
0.05012
0.13350
0.17239
0.06179
0.11742
0.06944
0.09899
0.05067
0.16667
0.10984
Ri
1.14220
-0.75817
-0.15798
0.69929
-2.37666
-2.31564
0.54883
0.45392
0.09476
0.40212
0.21752
-0.99426
0.92437
0.76460
-0.50000
1.01871
0.10413
0.39619
1.14767
-0.83068
95
90
Percent
80
70
60
50
40
30
20
10
5
-3
-2
-1
0
1
Standardized Residual
Standardized Residual
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
1700
1800
1900
2000
2100
2200
Fitted Value
2300
2400
2500
48
2600
Deleted Residual
-1
-2
-3
1700
1800
1900
2000
2100
2200
Fitted Value
2300
2400
2500
2600
Residuals Versus X
(response is Y)
Standardized Residual
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
0
10
15
20
25
En este caso los residuos para los puntos 5 y 6 exceden de dos sigmas sin embargo
no muestran indicios de violacin del modelo.
2.2.5 Otras grficas de residuos
Se pueden obtener grficas de los residuales vs el tiempo de ocurrencia u orden:
Residuals Versus the Order of the Data
(response is Y)
Standardized Residual
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
2
8
10
12
Observation Order
14
16
18
20
50
Autocorrelacin negativa
51
Con los datos del ejemplo 1.2 si omitimos los puntos 5 y 6 que indican Outliers y
compramos nuevo modelo con el modelo anterior se tiene:
Con el modelo original:
The regression equation is
Y = 2628 - 37.2 X
Predictor
Constant
X
S = 96.1061
Coef
2627.82
-37.154
SE Coef
44.18
2.889
R-Sq = 90.2%
T
59.47
-12.86
P
0.000
0.000
R-Sq(adj) = 89.6%
Coef
2658.97
-37.694
SE Coef
30.53
1.979
R-Sq = 95.8%
T
87.08
-19.05
P
0.000
0.000
R-Sq(adj) = 95.5%
95
90
Percent
80
70
60
50
40
30
20
10
5
-3
-2
-1
0
1
Standardized Residual
52
Standardized Residual
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
1600
1800
2000
2200
Fitted Value
2400
2600
53
1
(Y1u Y ) Y
n1
u 1
u 1
n1
__
n1
2
1u
n1
1u
i 1
(2.5)
Reuniendo las sumas internas de cuadrados de todos los lugares donde se tomaron
rplicas se tiene el error puro total SS como:
m
SS .error . puro
j 1
n1
(Y
u 1
__
ju
Y j )2
(2.6)
ne n j m
(2.7)
j 1
__
(Y ju Y j ) 2
u 1
1
(Y j1 Y j 2 ) 2
2
(2.8)
54
s e2 SS .error . puro / n e
(2.9)
(2.10)
__
__
(2.11)
__
ni
__
SS PE (Yij Y i ) 2
i 1 j 1
(2.12)
__
SS LOF ni (Y i Y i ) 2
(2.13)
i 1
55
SS PE / n m)
MS PE
(2.14)
El valor esperado de MS PE 2
(2.15)
F0
Y
2.3
1.8
2.8
1.5
2.2
3.8
1.8
3.7
1.7
2.8
2.8
2.2
3.2
1.9
1.8
3.5
2.8
2.1
3.4
3.2
3
3
5.9
X
1.3
1.3
2
2
2.7
3.3
3.3
3.7
3.7
4
4
4
4.7
4.7
5
5.3
5.3
5.3
5.7
6
6
6.3
6.7
Coef
1.4256
0.3158
SE Coef
0.5127
0.1149
T
2.78
2.75
56
P
0.011
0.012
Sserror.puro
0.125
0.845
2.00
2.000
0.845
0.020
0.240
0.980
gl
1
1
1
1
1
1
2
2
57
Totales
7.055
10
DF
1
21
11
10
22
SS
5.4992
15.2782
8.2232
7.0550
20.7774
MS
5.4992
0.7275
0.7476
0.7055
F
7.56
P
0.012 sign. at 0.05%
1.06
En resumen, los pasos a tomar cuando se tienen observaciones replicadas son los
siguientes:
1. Obtener la recta de ajuste del modelo, con ANOVA incluyendo valores para la
regresin y el error residual. Todava no hacer la prueba F.
2. Determinar la suma de cuadrados del error puro y dividir la suma de cuadrados
del error residual en suma de cuadrados de falta de ajuste y de error puro.
3. Realizar la prueba F para la falta de ajuste. Si no es significativo, no hay razn
para dudar de la adecuacin del modelo, ir a paso 4. De otra forma parar el
modelo y buscar otras formas de mejorar el modelo en base a la observacin del
comportamiento de los residuos.
4. Examinar los residuos para identificar si no se violan algunas reglas, si todo est
bien, usar el cuadrado medio del error residual S 2 como un estimado de V(Y) =
2, realizar la prueba F para toda la regresin, obtener bandas de confianza para
la media, evaluar R2, etc.
58
R-Sq = 26.5%
R-Sq(adj) = 23.0%
MaxR 2
(2.16)
o sea:
MaxR 2
20.777 7.055
0.6604
20.777
X
1.3
1.3
2
2
2.7
3.3
3.3
3.7
3.7
4
4
4
4.7
4.7
5
5.3
5.3
5.3
5.7
6
6
6.3
Y
2.3
1.8
2.8
1.5
2.2
3.8
1.8
3.7
1.7
2.8
2.8
2.2
3.2
1.9
1.8
3.5
2.8
2.1
3.4
3.2
3
3
Fit
1.836
1.836
2.057
2.057
2.278
2.468
2.468
2.594
2.594
2.689
2.689
2.689
2.91
2.91
3.005
3.099
3.099
3.099
3.226
3.32
3.32
3.415
SE Fit
0.376
0.376
0.308
0.308
0.247
0.205
0.205
0.186
0.186
0.179
0.179
0.179
0.187
0.187
0.201
0.219
0.219
0.219
0.249
0.274
0.274
0.301
59
Residual
0.464
-0.036
0.743
-0.557
-0.078
1.332
-0.668
1.106
-0.894
0.111
0.111
-0.489
0.29
-1.01
-1.205
0.401
-0.299
-0.999
0.174
-0.12
-0.32
-0.415
St Resid
0.61
-0.05
0.93
-0.7
-0.1
1.61
-0.81
1.33
-1.07
0.13
0.13
-0.59
0.35
-1.21
-1.45
0.49
-0.36
-1.21
0.21
-0.15
-0.4
-0.52
23
6.7
5.9
3.541
0.339
2.359
60
3.01R
X
1
1
2
3.3
3.3
4
4
4
4.7
5
5.6
5.6
5.6
6
6
6.5
6.9
Y
10.84
9.3
16.35
22.88
24.35
24.56
25.86
29.16
24.59
22.25
25.9
27.2
25.61
25.45
26.56
21.03
21.46
Fit
15.344
15.344
17.475
20.244
20.244
21.735
21.735
21.735
23.227
23.866
25.144
25.144
25.144
25.996
25.996
27.061
27.914
SE Fit
2.151
2.151
1.67
1.164
1.164
1.014
1.014
1.014
1.007
1.05
1.206
1.206
1.206
1.347
1.347
1.552
1.732
Residual
-4.504
-6.044
-1.125
2.636
4.106
2.825
4.125
7.425
1.363
-1.616
0.756
2.056
0.466
-0.546
0.564
-6.031
-6.454
St Resid
-1.3
-1.74
-0.3
0.67
1.05
0.71
1.04
1.88
0.34
-0.41
0.19
0.53
0.12
-0.14
0.15
-1.6
-1.75
(Y
j
ij
__
Grados de libertad
Y i )2
________________________________________________.
1.0
1.1858
1
3.3
1.0805
1
4.0
11.2467
2
5.6
1.4341
2
6.0
0.6161
1
.
Total
15.5632
7
El error de falta de ajuste se calcul con la frmula:
SS LOF SS E SS PE
61
Coef
13.214
2.1304
SE Coef
2.665
0.5645
R-Sq = 48.7%
T
4.96
3.77
P
0.000
0.002
R-Sq(adj) = 45.3%
Source
Regression
Residual Error
Lack of Fit
Pure Error
Total
DF
1
15
8
7
16
SS
237.48
250.13
234.57
15.56
487.61
MS
237.48
16.68
29.32
2.22
F
14.24
P
0.002
13.19
0.001 Significativa
8,7
= 1.70, se
d (eu eu 1 ) / eu
u2
(2.17)
u 2
Donde:
1. 0 d 4
2.- Si los residuos sucesivos estn correlacionados positivamente en serie, d ser
casi 0.
62
2.5%
5%
dL
dU
dL
dU
dL
15
20
25
30
40
50
70
100
150
200
0.81
0.95
1.05
1.13
1.25
1.32
1.43
1.56
1.61
1.66
1.07
1.15
1.21
1.26
1.34
1.40
1.49
1.56
1.64
1.68
0.95
1.08
1.18
1.25
1.35
1.42
1.51
1.59
1.23
1.28
1.34
1.38
1.45
1.50
1.57
1.63
1.08
1.20
1.29
1.35
1.44
1.50
1.58
1.65
1.72
1.76
dU
1.36
1.41
1.45
1.49
1.54
1.59
1.64
1.69
1.75
1.78
Outliers
Un outlier entre los residuos es aquel que es mucho ms grande que el resto en valor
absoluto, encontrndose a 3, 4 o ms desviaciones estndar de la media de los
residuos. El outlier indica un punto que no es comn al resto de los datos y debe ser
examinado con cuidado. Algunas veces proporciona informacin vital sobre el
proceso.
63
Funcin
linealizables
Transformacin
su
forma
Forma lineal
a,b
Y 0 X 1
c,d
Y 0 e 1 X
Y ' log Y
Y ' ln 0 1 X
e,f
Y 0 1 log X
X ' log X
Y ' 0 1 X '
g,h
X
0 X 1
Y '
1
1
, X '
Y
X
lineal
Y ' 0 1 X '
Y 0 e 1 X
(2.19)
Montgomerey, Douglas C., Introduction to Linear Regression Analysis, John Wiley and Sons, Nueva York, 1992, pp. 90-91
64
Y ' 0 ' 1 X '
Se
requiere
que
la
transformada
del
trmino
de
error
sea
normal
Y 0 1
65
X
5
6
3.4
2.7
10
9.7
9.6
3.1
8.2
6.2
2.9
6.4
4.6
5.8
7.4
3.6
7.9
8.8
7
5.5
9.1
10.2
4.1
4
2.5
Y
1.582
1.822
1.057
0.5
2.236
2.386
2.294
0.558
2.166
1.866
0.653
1.93
1.562
1.737
2.088
1.137
2.179
2.112
1.8
1.501
2.303
2.31
1.194
1.144
0.123
Fit
1.3366
1.5778
0.9508
0.782
2.5424
2.47
2.4338
0.8664
2.0962
1.626
0.8302
1.6622
1.2402
1.5295
1.9154
0.999
2.0239
2.253
1.8189
1.4451
2.3253
2.5906
1.1196
1.0834
0.7217
SE Fit
0.0519
0.0473
0.0703
0.0806
0.0875
0.0828
0.0804
0.0753
0.0609
0.0472
0.0776
0.0474
0.0555
0.0476
0.053
0.0675
0.0574
0.0694
0.05
0.049
0.0737
0.0907
0.0611
0.0629
0.0845
Residual
0.2454
0.2442
0.1062
-0.282
-0.3064
-0.084
-0.1398
-0.3084
0.0698
0.24
-0.1772
0.2678
0.3218
0.2075
0.1726
0.138
0.1551
-0.141
-0.0189
0.0559
-0.0223
-0.2806
0.0744
0.0606
-0.5987
St Resid
1.07
1.06
0.47
-1.27
-1.4
-0.38
-0.63
-1.38
0.31
1.04
-0.79
1.16
1.4
0.9
0.75
0.61
0.68
-0.62
-0.08
0.24
-0.1
-1.29
0.33
0.27
-2.72R
Coef
0.1309
0.24115
SE Coef
0.1260
0.01905
T
1.04
12.66
66
P
0.310
0.000
S = 0.2361
R-Sq = 87.4%
R-Sq(adj) = 86.9%
2.5
0.237095
87.3%
86.8%
2.0
1.5
1.0
0.5
0.0
2
10
11
Residual
0.2
0.0
-0.2
-0.4
-0.6
0.5
1.0
1.5
Fitted Value
2.0
2.5
R-Sq = 87.3%
Variance
DF
SS
1
8.9183
23
1.2929
24 10.2112
R-Sq(adj) = 86.8%
MS
8.91827
0.05621
F
158.65
P
0.000
67
El tratar de ajustar los datos, una recta no fue la mejor opcin, por lo que se intenta
un modelo cuadrtico, el cual se muestra a continuacin.
Fitted Line Plot
Y = - 1.166 + 0.7236 X
- 0.03808 X* * 2
2.5
S
R-Sq
R-Sq(adj)
0.127171
96.5%
96.2%
2.0
1.5
1.0
0.5
0.0
2
10
11
Residual
0.1
0.0
-0.1
-0.2
-0.3
0.5
1.0
1.5
Fitted Value
2.0
2.5
R-Sq = 96.5%
Variance
DF
SS
2
9.8554
22
0.3558
24 10.2112
R-Sq(adj) = 96.2%
MS
4.92770
0.01617
F
304.70
P
0.000
68
Source
Linear
Quadratic
DF
1
1
SS
8.91827
0.93713
F
158.65
57.95
P
0.000
0.000
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
1/X
0.2
0.167
0.294
0.37
0.1
0.103
0.105
0.328
0.123
0.161
0.345
0.157
0.217
0.172
0.135
0.278
0.127
0.114
0.143
0.183
0.11
0.098
0.244
0.253
0.408
Y
1.582
1.822
1.057
0.5
2.236
2.386
2.294
0.558
2.166
1.866
0.653
1.93
1.562
1.737
2.088
1.137
2.179
2.112
1.8
1.501
2.303
2.31
1.194
1.144
0.123
Fit
1.592
1.8231
0.9393
0.4105
2.2854
2.264
2.2527
0.7052
2.128
1.8604
0.5876
1.8868
1.4713
1.7832
2.0418
1.0526
2.0955
2.1908
1.9882
1.7065
2.2168
2.299
1.2875
1.2233
0.1484
SE Fit
0.0188
0.0199
0.0274
0.0404
0.0276
0.0271
0.0269
0.0329
0.0243
0.0203
0.0358
0.0206
0.0193
0.0195
0.0228
0.0251
0.0237
0.0256
0.0219
0.0191
0.0261
0.0279
0.0211
0.0221
0.0474
69
Residual
-0.01
-0.0011
0.1177
0.0895
-0.0494
0.122
0.0413
-0.1472
0.038
0.0056
0.0654
0.0432
0.0907
-0.0462
0.0462
0.0844
0.0835
-0.0788
-0.1882
-0.2055
0.0862
0.011
-0.0935
-0.0793
-0.0254
St Resid
-0.11
-0.01
1.31
1.05
-0.55
1.35
0.46
-1.67
0.42
0.06
0.75
0.47
0.98
-0.5
0.51
0.93
0.92
-0.87
-2.06R
-2.23R
0.95
0.12
-1.02
-0.87
-0.31 X
2.5
S
R-Sq
R-Sq(adj)
2.0
0.0993273
97.8%
97.7%
1.5
1.0
0.5
0.0
0.10
0.15
0.20
0.25
1/ X
0.30
0.35
0.40
Coef
2.98664
-7.0046
S = 0.0993273
SE Coef
0.04763
0.2202
R-Sq = 97.8%
T
62.71
-31.81
Analysis of Variance
Source
DF
SS
Regression
1
9.9843
Residual Error 23
0.2269
Total
24 10.2112
P
0.000
0.000
R-Sq(adj) = 97.7%
MS
9.9843
0.0099
F
1012.00
P
0.000
Unusual Observations
Obs
20
25
1/X
0.182
0.400
Y
1.5010
0.1230
Fit
1.7131
0.1848
SE Fit
0.0201
0.0490
Residual
-0.2121
-0.0618
St Resid
-2.18R
-0.72 X
70
95
90
Percent
80
70
60
50
40
30
20
10
5
-0.2
-0.1
0.0
Residual
0.1
0.2
Residual
0.05
0.00
-0.05
-0.10
-0.15
-0.20
-0.25
0.0
0.5
1.0
1.5
Fitted Value
2.0
2.5
71
con
la media. Para
transformaciones
estabilizadoras de la varianza.
Si la distribucin de Y es de Poisson, podemos relacionar Y ' Y contra X ya que la
varianza de Y es independiente de la media. Si la variable de respuesta Y es una
proporcin con valores entre [0,1] y la grfica de residuos tiene el patrn de doble
cresta, entonces se usa la transformacin Y ' sin 1 Y .
Otras transformaciones se muestran abajo en la tabla 2.2:
Tabla 2.2 Relaciones para transformar la varianza
Relacin de 2 a E(Y)
Transformacin
2 constante..............................Y ' Y
E (Y ).................................Y '
Datos de Poisson
Proporciones binomiales
2 E (Y ) 3 ...........................Y ' Y 1 / 2
La magnitud de la transformacin, depende del grado de curvatura que induce.
La seleccin de la transformacin se hace en base a la experiencia o de forma
emprica. A continuacin se presenta un ejemplo para este anlisis.
Ejemplo 2.4 Se hizo un estudio entre la demanda (Y) y la
energa elctrica utilizada (X) durante un cierto periodo de
tiempo, procesando los datos con Minitab se obtuvo lo
siguiente:
72
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
X
679
292
1012
493
582
1156
997
2189
1097
2078
1818
1700
747
2030
1643
414
354
1276
745
435
540
874
1543
1029
710
Y
0.79
0.44
0.56
0.79
2.7
3.64
4.73
9.5
5.34
6.85
5.84
5.21
3.25
4.43
3.16
0.5
0.17
1.88
0.77
1.39
0.56
1.56
5.28
0.64
4
Fit
1.649
0.308
2.802
1.004
1.312
3.301
2.75
6.88
3.097
6.495
5.595
5.186
1.884
6.329
4.988
0.73
0.523
3.717
1.877
0.803
1.167
2.324
4.642
2.861
1.756
SE Fit
0.351
0.49
0.293
0.412
0.381
0.297
0.294
0.651
0.293
0.6
0.488
0.441
0.333
0.579
0.42
0.441
0.465
0.313
0.333
0.433
0.395
0.307
0.384
0.293
0.343
Residual
-0.859
0.132
-2.242
-0.214
1.388
0.339
1.98
2.62
2.243
0.355
0.245
0.024
1.366
-1.899
-1.828
-0.23
-0.353
-1.837
-1.107
0.587
-0.607
-0.764
0.638
-2.221
2.244
R-Sq = 66.4%
R-Sq(adj) = 64.9%
Analysis of Variance
Source
Regression
Error
Total
DF
1
23
24
SS
97.094
49.136
146.231
Unusual Observations
Obs
X
Y
Fit
8 2189 9.500 6.880
MS
97.0943
2.1364
F
45.45
P
0.000
SE Fit
0.651
Residual
2.620
St Resid
2.00R
73
St Resid
-0.61
0.1
-1.57
-0.15
0.98
0.24
1.38
2.00R
1.57
0.27
0.18
0.02
0.96
-1.42
-1.31
-0.17
-0.25
-1.29
-0.78
0.42
-0.43
-0.53
0.45
-1.55
1.58
S
R-Sq
R-Sq(adj)
1.46163
66.4%
64.9%
0
500
1000
1500
2000
95
90
Percent
80
70
60
50
40
30
20
10
5
-3
-2
-1
0
1
Standardized Residual
Standardized Residual
-1
-2
0
3
4
Fitted Value
74
X
679
292
1012
493
582
1156
997
2189
1097
2078
1818
1700
747
2030
1643
414
354
1276
745
435
540
874
1543
1029
710
SRES1
-0.63599
-0.25322
-1.7143
-0.20513
1.30713
0.55826
1.52481
0.88812
1.59927
0.02523
0.17965
0.14802
1.27361
-1.08504
-0.87804
-0.43853
-0.98212
-0.92738
-0.81296
0.59981
-0.63592
-0.27173
0.54906
-1.63735
1.80812
TRES1
-0.62755
-0.248
-1.79523
-0.2008
1.3287
0.54973
1.57291
0.88389
1.65908
0.02467
0.17583
0.14483
1.29201
-1.08943
-0.8735
-0.4307
-0.98133
-0.92444
-0.80676
0.59127
-0.62748
-0.26618
0.54054
-1.70373
1.90928
RESI1
-0.280548
-0.108411
-0.763184
-0.089439
0.573465
0.248407
0.678753
0.361359
0.711994
0.010451
0.076952
0.064127
0.563541
-0.452723
-0.38221
-0.189981
-0.423129
-0.411636
-0.359685
0.260318
-0.278218
-0.120724
0.240723
-0.728982
0.798781
R-Sq = 64.3%
R-Sq(adj) = 62.7%
75
FITS1
1.16937
0.77174
1.51152
0.97826
1.0697
1.65947
1.4961
2.72085
1.59885
2.6068
2.33966
2.21841
1.23924
2.55748
2.15985
0.89709
0.83544
1.78277
1.23718
0.91866
1.02655
1.36972
2.0571
1.52898
1.20122
3.0
0.454426
64.3%
62.7%
Raiz(Y)
2.5
2.0
1.5
1.0
0.5
500
1000
1500
2000
95
90
Percent
80
70
60
50
40
30
20
10
5
-1.0
-0.5
0.0
Residual
0.5
1.0
Residual
0.5
0.0
-0.5
1.0
1.5
2.0
Fitted Value
2.5
76
3.0
Se observa una mejor distribucin normal de los residuos por lo que el modelo es
adecuado. A continuacin se muestra el anlisis de varianza para el modelo:
Analysis of Variance
Source
Regression
Error
Total
DF
1
23
24
SS
8.5401
4.7496
13.2897
MS
8.54008
0.20650
F
41.36
P
0.000
77
(3.1)
78
(3.2)
Y es un vector N x 1.
X es una matriz de orden N x (k + 1), donde la primera columna es de 1s.
es un vector de orden (k + 1) x 1.
es un vector de orden N x 1.
D es la matriz de Xij con i = 1, 2, ..., N; j = 1, 2, ......, k
Deseamos encontrar el vector de estimadores de mnimos cuadrados b que
minimicen:
n
S ( ) i2 ' (Y X )' (Y X )
i 1
Como ' X ' Y es una matriz 1x1 o un escalar y su transpuesta ( ' X ' Y )' Y ' X es
el mismo escalar, se tiene:
S ( ) Y 'Y 2 ' X 'Y ' X ' X '
(3.3)
2 X ' Y 2 X ' Xb 0
b
XX b = X Y
(3.4)
79
b = (XX)-1 XY
(3.5)
(3.5)
(3.6)
2
El elemento (ii) de esta matriz cii Var (bi ) es la varianza del elemento i de b.
se.bi
cii 2
(3.7)
(3.8)
Si los errores estn normalmente distribuidos, entonces b se dice que est distribuido
como:
b N ( , ( X ' X ) 1 2 )
80
Y ( x ) x' p b
(3.9)
(3.10)
RESIDUOS
Los residuos se definen como la diferencia entre los valores reales observados y los
valores predichos para estos valores de respuesta usando el modelo de ajuste y
prediccin, o sea:
ru Yu Y ( xu ), u 1,2,..., N
(3.11)
(3.12)
81
Como e = Y X b, se tiene:
SSE (Y Xb)' (Y Xb) Y ' Y b' X ' Y Y ' Xb b' X ' Xb Y ' Y 2b' X ' Y b' X ' Xb (3.1
3)
Como XXb = XY, se transforma en:
SSE Y ' Y b' X ' Y
(3.14)
La suma residual de cuadrados tiene n-p grados de libertad asociado con el ya que
se estiman p parmetros en el modelo de regresin. El cuadrado medio de los
residuos es:
s 2 MSE
SSE
Np
(3.15)
,... j 0,1,..., k
(3.16)
82
(3.17)
Donde se(bj) es el error estndar del coeficiente de regresin bj.
se(b j )
S 2 C jj
(3.18)
particular
Se puede construir un intervalo de confianza en la respuesta media de un punto en
particular, tal como X01, X02, X03,........, X0K. Definiendo el vector X0 como:
1
X
01
X 0 X 02
.....
X 0K
El valor ajustado en este punto es:
Y0 X ' 0 b
(3.19)
83
Con varianza:
Var (Y0 ) S 2 X ' 0 ( X ' X ) 1 X 0
(3.20)
Por tanto el intervalo de confianza para el 100( 1 - ) % es:
Y0 t / 2 ,n p
S 2 X ' 0 ( X ' X ) 1 X 0 Y0 Y0 t / 2 ,n p
S 2 X ' 0 ( X ' X ) 1 X 0
(3.21)
(3.22)
84
F0
SSR / k
MSR
SSE /( n k 1) MSE
(3.23)
La suma de cuadrados totales es:
N
__
(3.24)
u 1
N ^
__
SSR (Y ( xu ) Y ) 2
(3.25)
u 1
SSE (Yu Y ( xu )) 2
(3.26)
u 1
(1' Y ) 2
N
(3.27)
(1' Y ) 2
N
(3.28)
(3.29)
85
SS
df
MS
F0
Regresin
Residuos
Total
SSR
SSE
SST
K
nk-1
n1
MSR
MSE
MSR/MSE
.
H a : i 0, i 1,2,..., k
F0
MSR
SSR /( p 1)
MSE SSE /( N p )
(3.30)
R2
SSR
SST
(3.31)
86
(3.32)
H1 : j 0
Si no se rechaza H0, indica que el regresor Xj puede ser excluido del modelo. El
estadstico de prueba para esta hiptesis es:
t0
bj
(3.33)
se(b j )
t 0 t / 2 ,n k 1 .
(3.34)
1,1,1,1
1,1,1,1
1,1,1,1
1
,
1
,
1
,
X
1,1,1,1
1
,
1
,
1
,
1,1,1,1
1
,
1
,
1
,
88
Ejemplos:
Ejemplo
3.1
Un
embotellador
servicio
de
mquinas
est
analizando
dispensadoras,
las
est
rutas
de
interesado
en
las
servicio
mquinas
incluye
en
el
local
(Y).
llenar
la
mquina
con
La
actividad
refrescos
de
un
Y_tiempo
16.68
11.5
12.03
14.88
13.75
18.11
8
17.83
79.24
21.5
40.33
21
13.5
19.75
24
29
15.35
19
9.5
35.1
17.9
52.32
18.75
19.83
1075
De manera matricial:
89
1's
1
1
1
1
X1
7
3
3
4
X2
560
220
340
80
1
1
6
7
150
330
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
7
30
5
16
10
4
6
9
10
6
7
3
17
10
26
9
8
4
110
210
1460
605
688
215
255
462
448
776
200
132
36
770
140
810
450
635
150
X'
1's 1
1
1
1
1
1
1
1
X1 7
3
3
4
6
7
2
7
X2 560 220 340 80 150 330 110 210
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
30
5
16 10
4
6
9
10
6
7
3 17 10 26
9
8
1460 605 688 215 255 462 448 776 200 132 36 770 140 810 450 635
X'X
25
219
219
3,055
10,232 133,899
10,232
133,899
6,725,688
X'y
560
7,375
337,072
90
( X ' X ) 1 X ' y
Con la funcin de Excel MINVERSA
(X'X)-1
0.113215186
-0.004448593
-8.36726E-05
-0.004449
0.0027438
-4.79E-05
-8.367E-05
-4.786E-05
1.229E-06
Betas est,
2.341231145
1.615907211
0.014384826
Regresin
Residuos
Total
Promedio
Grados de
Suma de
de
F
Valor
libertad
cuadrados cuadrados
Critico de F
2 5550.81092
2775.405 261.235 4.6874E-16
22 233.731677
10.62417
24 5784.5426
Intercepcin
X1_envases
X2_Distancia
Coeficiente
s
2.3412311
1.6159072
0.0143848
Error tpico
1.09673017
0.17073492
0.00361309
Estad. t
2.134738
9.464421
3.981313
Inferior
Superior
Probab.
95%
95%
0.04417
0.066752 4.615710293
3.3E-09 1.26182466 1.969989758
0.00063 0.00689174 0.021877908
91
Inferior
95.0%
0.066752
1.26182466
0.00689174
Superior
95.0%
4.61571029
1.96998976
0.02187791
11.5
19.75
12.03
24
14.88
29
13.75
15.35
18.11
19
8
9.5
17.83
35.1
79.24
17.9
21.5
52.32
40.33
18.75
La matriz yy es:
y'y
18,310.63
X'y
2.3412 1.6159
0.0144
559.6
7375.44
337072
Xy
18,076.90
SSE =
233.73
2 =
=233.73/(25-3) =10.6239
SSE = yy - X y
2 = MSE = SSE / (n-p)
Matrix Y'Y = 18310.6
Matrix b' = [ 2.34123
1.61591
0.01438 ]
S2
SS E
233.732
10.624
Np
25 3
Clculo del error estndar de los coeficientes y del intervalo de confianza para =
0.05
De ecuacin 3.17 se tiene:
se(b j )
S 2 C jj
92
21
19.83
10.75
M8 = (X'X)-1
0.113215186 -0.004449
-0.004448593 0.0027438
-8.36726E-05 -4.79E-05
-8.367E-05
-4.786E-05
1.229E-06
1
X0 8
275
El valor de respuesta estimada por la ecuacin de ajuste es:
2.34123
Y0 X '0 b 1,8,275 1.61591 19.2 minutos
0.01438
93
1
Var (Y0 ) S 2 X '0 (X ' X )1 X 0 10.62391, ,8 275M 8 8 10.6239( .0 05346) .0 56794
275
Por tanto el intervalo al 95% de nivel de confianza es:
19.22 2.074 0.56794 Y0 19.22 2.074 0.56794
Que se reduce a:
17.66 Y0
20.78
Analysis of Variance
De ecuaciones 3.26 a 3.29
2
SST = 18,310.629 - (559.6)
= 5784.5426
2
SSR = 18,076.930 - (559.6)
= 5,550.8166
25
25
F0
MSR 2775.4083
261.24
MSE
10.6239
F0.05, 2 , 22 3.44
94
Coef
2.341
1.6159
0.014385
SE Coef
1.097
0.1707
0.003613
S = 3.25947
R-Sq = 96.0%
T
2.13
9.46
3.98
P
0.044
0.000
0.001
R-Sq(adj) = 95.6%
95
Analysis of Variance
Source
Regression
Residual Error
Total
Source
X1_envases
X2_Distancia
DF
2
22
24
DF
1
1
SS
5550.8
233.7
5784.5
MS
2775.4
10.6
F
261.24
P
0.000
Seq SS
5382.4
168.4
Unusual Observations
Obs
9
22
X1_envases
30.0
26.0
Y_tiempo
79.240
52.320
Fit
71.820
56.007
SE Fit
2.301
2.040
Residual
7.420
-3.687
St Resid
3.21RX
-1.45 X
Fit
19.224
SE Fit
0.757
95% CI
(17.654, 20.795)
95% PI
(12.285, 26.164)
X1_envases
8.00
X2_Distancia
275
95
90
Percent
80
70
60
50
40
30
20
10
5
-3
-2
-1
0
1
Standardized Residual
96
H1 : 2 0
t0
b2
2
S C 22
0.01438
3.98
(10.6239)(0.00000123)
1
X0 8
275
Xo = [1, 8, 275]
.2 34123
Y0 X '0 b 1, 8, 275 .1 61591 19.22minutos
.0 01438
X '0 ( X ' X ) 1 X 0 0.05346
26.16
98
1
7
560
1
3
220
1
3
340
(X'X)-1
0.1132152
-0.0044486
-8.367E-05
-0.004
0.0027
-5E-05
-8E-05
-5E-05
1E-06
X1(XX)-1
primero
0.0352184 0.0120421 0.0003
Segundo
0.0814614 0.0067458 4E-05
99
1
4
80
1
6
150
Etc..
X1(XX)-1x1
Observacin
1
X1_envases
7
X2_Distancia
hii
560
0.10180178
220
0.07070164
X1_envases
7
X2_Distancia
hii
560
0.10180178
1
1
1
1
3
3
4
6
220
340
80
150
1
1
1
1
1
1
7
2
7
30
5
16
330
110
210
1460
605
688
0.04287
0.0818
0.06373
0.49829 hmax
0.1963
0.08613
1
1
1
1
1
1
1
1
1
1
1
1
1
1
10
4
6
9
10
6
7
3
17
10
26
9
8
4
215
255
462
448
776
200
132
36
770
140
810
450
635
150
0.11366
0.06113
0.07824
0.04111
0.16594
0.05943
0.09626
0.09645
0.10169
0.16528
0.39158
0.04126
0.12061
0.06664
0.07070164
0.09874
0.08538
0.07501
Los puntos para los cuales hoo sea mayor a hmax, se encuentran fuera del elipsoide,
generalmente entre menor sea el valor de hoo es ms probable que se encuentre en
el elipsoide.
En la tabla la observacin 9 tiene el valor mayor de hii. Como el problema solo tiene
dos regresores se puede examinar en un diagrama de dispersin como sigue:
100
X1_ envases
25
20
15
10
5
0
0
200
400
600
800
1000
X2_ Distancia
1200
1400
1600
x10
8
20
28
8
x20
275
250
500
1200
h00
0.05346
0.58917
0.89874
0.86736
Todos los puntos se encuentran dentro del rango de los regresores X1 y X2. El punto
a es de interpolacin puesto que hoo <= hmax (0.05346 < 0.49829) todos los dems
son puntos de extrapolacin ya que exceden a hmax, lo que se confirma en la
grfica de dispersin.
Inferencia simultanea en la regresin mltiple
Indica que se pueden hacer inferencias en forma simultanea
101
siguientes:
1. Residuos en papel de probabilidad normal.
2. Residuos contra cada uno de los regresores Xs.
3. Residuos contra cada Yi , i 1,2,..., k
4. Residuos en secuencia de tiempo ( si se conoce)
Estas grficas se usan para identificar comportamientos anormales, outliers, varianza
desigual, y la especificacin funcional equivocada para un regresor. Se pueden
graficar los residuos sin escalamiento o con un escalamiento apropiado.
Existen algunas tcnicas adicionales de anlisis de residuos tiles en el anlisis de la
regresin mltiple, como se describen a continuacin.
Grficas de residuos contra regresores omitidos en el modelo
Estas grficas podran revelar cualquier dependencia de la variable de respuesta Y
contra los factores omitidos, se esta forma se puede analizar si su incorporacin
mejora la explicacin del modelo.
(3.35)
102
*
La grfica de eij contra X ij se denomina Grfica de residuo parcial. Esta grfica
sirve para detectar Outliers y desigualdad de varianza, dado que muestra la relacin
entre Y y el regresor Xj despus de haber removido el efecto de los otros regresores
Xi (I<>j), es el equivalente de la grfica de Y contra Xj en regresin mltiple.
Grficas de regresin parcial
Son grficas de residuos de los cuales se ha removido la dependencia lineal de Y
sobre todos los regresores diferentes de Xj, as como su dependencia lineal de otros
regresores. En forma matricial se pueden escribir estas cantidades como
eY | X ( j ) , e X j | X ( j ) donde X(j) es la matriz original X con el regresor j-simo removido.
(3.36)
(3.37)
Xi
**
** * *
** *
**
** *
**
***
Xj
Y 5 X 1 1000 X 2
(3.38)
Donde Y esta medida en litros, X1 en mililitros y X2 en litros. Note que a pesar de que
b2 es mucho mayor que b1, su efecto en la variable de respuesta es idntico. Por lo
anterior algunas veces es importante trabajar con regresores y variables de
respuesta con escala cambiada, de tal forma que produzcan coeficientes de
regresin sin dimensiones.
Existen dos tcnicas para esto. La primera se denomina escala unitaria normal,
Z ij
Yi *
X ij X j
Sj
Yi Y
Sy
Con i = 1, 2, ......., n;
j = 1, 2, ........., k
(3.39)
Con i = 1, 2, ......., n
(3.40)
i = 1, 2, ........, n
104
(3.41)
(3.42)
Wij
X ij
S jj
i = 1, 2, ......, n; j = 1, 2, ........, k
(3.43)
i = 1, 2, ..........., n
(3.44)
__
Y Y
,
Yi 0 i
SYY
__
S jj ( X ij X j ) 2
(3.45)
Esta ltima es la suma de cuadrados corregida para el regresor Xj. En este caso
cada regresor Wj tiene media cero y longitud uno.
__
W j 0
(3.46)
(Wij W j ) 2 1
i 1
i = 1, 2, ......, n
(3.47)
(3.48)
W 'W
.........
r1k , r2k , r3k . . 1
rij
__
__
( X ui X i )( X uj X j )
u 1
S ii S jj
S ij
(3.49)
S ii S jj
De forma similar
r1Y
r
2Y
W 'Y 0
....
rKY
Donde rjy es la correlacin simple entre el regresor Xj y la respuesta Y:
n
r jy
__
__
( X uj X j )(Yu Y )
u 1
S ii SYY
S jY
(3.50)
S jj SYY
106
ZZ = (n 1) WW
(3.51)
Por lo que no importa que mtodo se utilice para escalamiento, ambos mtodos
producen el mismo conjunto de coeficientes de regresin sin dimensiones b.
La relacin entre los coeficientes originales y los estandarizados es:
S
b j b j YY
S JJ
j = 1, 2, ....., k
(3.52)
___
___
b0 Y b j X
(3.53)
j 1
Y_tiempo
0.965
0.000
X1_envases
0.892
0.824
107
0.000
0.000
r12 = 0.824215
r1y = 0.964615
r2y = 0.891670
La matriz de correlacin para este problema WW es:
.1 000000, .0 824215
W 'W
.0 824215, .1 000000
Las ecuaciones normales en trminos de los coeficientes de la
regresin estandarizados son:
Por tanto:
b1 3.184,2.57030.96415 0.71627
b2 2.5703, .1840.891670 0.31
El modelo ajustado es:
Y 0 0.716267W1 0.301311W2
109
es
precauciones
ms
relevante
dado
que
que
los
la
distancia,
coeficientes
bs
con
ciertas
son
slo
R2
SSR
SST
R2
5550.816
0.9596
5784.5426
R 1
SSE /( N p )
N 1
1
(1 R 2 )
SST /( N 1)
Np
R 1
25 1
(1 0.9596) 0.9559
25 3
110
di
ei
,
MSE
i = 1, 2, .........., n
(3.54)
(3.55)
donde
e = (I H)
(3.55)
De esta forma los residuos tienen la misma transformacin lineal para las
observaciones Y y para los errores .
La varianza de los residuos es:
Var ( e) 2 ( I H )
(3.56)
111
(3.57)
ri
ei
,
MSE (1 hii )
i = 1, 2, .........., n
(3.58)
(3.59)
De tal forma que otra forma de escalamiento de residuos es transformar los residuos
n dependientes en n-p funciones ortogonales de los errores .
112
La suma de cuadrados del error de prediccin (PRESS) propuesto por Allen (1971)
proporciona un escalamiento til para los residuos. Para calcular PRESS, seleccione
una observacin, por ejemplo (i), Ajuste el modelo de regresin a las observaciones
remanentes (N 1), usando la ecuacin para predecir la observacin retenida (Yi).
Denotando el error de prediccin como:
e( i ) Yi Y( i )
(3.60)
PRESS e(2i ) Yi Y( i )
i 1
(3.61)
Como:
e( i )
ei
1 hii
(3.62)
Entonces:
ei
PRESS =
i 1 1 hii
(3.63)
113
De esta forma se observa que los residuos asociados con valores altos de hii sern
puntos de alta influencia, donde si se excluyen mostrarn un ajuste pobre del
modelo.
La varizanza del residuo i-simo PRESS es:
Var ( e( i ) )
2
1 hii
(3.64)
ei
(3.65)
2 (1 hii )
R- STUDENT
Otro mtodo para diagnosticar la presencia de outliers o puntos de alta influencia es
el residuo estudentizado R Student donde la estimacin de la varianza se hace
excluyendo la j-sima observacin, como sigue:
S (2i )
i = 1, 2, ..........., n
(3.66)
ti
e( i )
S (2i ) (1 hii )
i = 1, 2, ..........., n
114
(3.67)
ser ms sensible a este punto. Tambin ofrece una prueba ms formal de prueba de
hiptesis de outliers, ya que se puede comparar todos los n valores de
| t i | .versus.t ( / 2 n ),n p 1 .
2
RPr
ediccin 1
PRESS
SYY
(3.68)
2
R Pr
ediccin 1
457.4
0.9209
5784.5426
Montgomery, Douglas C., Peck, Elizabeth A., Introduction to Linear Regression Analysis, 2 edition, John
Wiley and Sons, Nueva York, 1991, p. 176
115
Tabla de residuos
R Student
hii
Y_tiempo
0.10180
16.68
0.07070
11.5
0.09874
12.03
0.08538
14.88
0.07501
13.75
0.04287
18.11
0.0818
8
0.06373
17.83
0.49829
0.1963
0.08613
0.11366
0.06113
0.07824
0.04111
0.16594
0.05943
0.09626
0.09645
0.10169
0.16528
0.39158
0.04126
0.12061
0.06664
79.24
21.5
40.33
21
13.5
19.75
24
29
15.35
19
9.5
35.1
17.9
52.32
18.75
19.83
10.75
Fits =Yest
21.7081
10.3536
12.0798
9.9556
14.1944
18.3996
7.1554
16.6734
ei = Y Yest
-5.0281
1.1464
-0.0498
4.9244
-0.4444
-0.2896
0.8446
1.1566
di=ei/Sigma
-1.5426
0.3517
-0.0153
1.5108
-0.1363
-0.0888
0.2591
0.3548
71.8203
19.1236
38.0925
21.5930
12.4730
18.6825
23.3288
29.6629
14.9136
15.5514
7.7068
40.8880
20.5142
56.0065
23.3576
24.4029
10.9626
7.4197
2.3764
2.2375
-0.5930
1.0270
1.0675
0.6712
-0.6629
0.4364
3.4486
1.7932
-5.7880
-2.6142
-3.6865
-4.6076
-4.5729
-0.2126
2.2764
0.7291
0.6865
-0.1819
0.3151
0.3275
0.2059
-0.2034
0.1339
1.0580
0.5501
-1.7757
-0.8020
-1.1310
-1.4136
-1.4029
-0.0652
ri=ei/raiz(MSE(1- e(i)=ei/(1hii))
hii)
-1.6277
-5.5980
0.3648
1.2336
-0.0161
-0.0552
1.5797
5.3840
-0.1418
-0.4804
-0.0908
-0.3025
0.2704
0.9199
0.3667
1.2353
3.2138
0.8133
0.7181
-0.1933
0.3252
0.3411
0.2103
-0.2227
0.1380
1.1130
0.5788
-1.8736
-0.8778
-1.4500
-1.4437
-1.4961
-0.0675
116
14.7888
2.9568
2.4484
-0.6691
1.0939
1.1581
0.7000
-0.7948
0.4639
3.8159
1.9846
-6.4432
-3.1318
-6.0592
-4.8059
-5.2000
-0.2278
S(i)^2
9.7897
11.0627
11.1299
9.8676
11.1199
11.1259
11.0931
11.0620
[ei/(1hii)^2)
31.3372
1.5218
0.0031
28.9879
0.2308
0.0915
0.8462
1.5260
5.9049
10.7955
10.8692
11.1112
11.0766
11.0712
11.1077
11.1050
11.1204
10.5034
10.9606
9.3542
10.7402
10.0664
10.0756
9.9977
11.1278
PRESS
218.7096
8.7429
5.9945
0.4477
1.1966
1.3413
0.4900
0.6317
0.2152
14.5614
3.9387
41.5145
9.8082
36.7137
23.0963
27.0403
0.0519
459.03907
ti
-1.8878
0.3847
-0.0174
1.7922
-0.1498
-0.0927
0.2882
0.3839
8.5921
1.0038
0.7768
-0.2132
0.3392
0.3625
0.2145
-0.2612
0.1434
1.2386
0.6306
-2.2227
-1.0460
-2.4484
-1.5463
-1.7537
-0.0707
b j ( X ij X i ' j )
D
MSE
j 1
2
ii
(3.69)
Los pares de puntos que tienen esta distancia pequea son vecinos cercanos sobre
2
los cuales se puede calcular el error puro, y los que generan Dii 1 estn
117
El estimado del error puro se obtiene del rango de los residuos en el punto i e i,
como sigue:
E i | ei ei ' |
(3.70)
Hay una relacin entre el el rango de una muestra de una distribucin normal y la
desviacin estndar de la poblacin. Para muestras de tamao 2, la relacin es:
R
E
0.886 E
d 2 1.128
0.886 m
Eu
m u 1
118
Observ
Fits
=Yest
ei = Y Yest
X1
X2
Delta
D2ii
Ra
Delta
D2ii
Delta
D2ii
4.0798
0.6468
1.0006243
0.3018
0.48143932
0.6593958
2.0058
0.49889025
5.137
0.0954348
1.843
1.79993866
4.9742
1.56238413
3.8974
1.1962
0.5964673
0.2804614
11
0.1194
0.26963257
0.2318
0.98309549
0.649
3.4984 4.77501254
7.1554
0.8446
110
0.9486
0.3524271
19
7.7068
1.7932
36
3.1312
0.28348034
9.9556
4.9244
80
3.778
0.62751294
10.3536
1.1464
220
1.359
0.34120864
25
10.9626
-0.2126
150
0.1628
0.94887491
1.2396
0.2147282
12
15
Ra
Delta
D2ii
1.0572 1.01425787
1.5908 2.30739963
1.0317867
12.0798
-0.0498
340
1.0768
0.38649146
0.3946
2.9150659
0.4862
2.59370393
13
12.473
1.027
255
1.4714
1.19782372
0.5906
1.0420119
2.4216
2.50662458
14.1944
-0.4444
150
0.8808
0.04869121
3.893
0.2520843
1.601
0.31588921
17
14.9136
0.4364
200
3.0122
0.33583313
14
0.7202
0.2477215
0.726
0.57492644
0.6311 1.33694371
18
15.5514
3.4486
132
2.292
0.11849492
3.7382
0.763556
2.3811
2.36676288
1.0722 5.34054958
16.6734
1.1566
210
1.4462
0.28046136
10
0.0891
1.4826085
1.2198
4.02191377
3.7708 2.30739963
18.3996
-0.2896
330
1.3571
0.58513212
2.666
2.4560045
2.3246
2.9150659
0.3034 2.46954135
14
18.6825
1.0675
462
1.3089
0.64404848
3.6817
5.9517817
1.6605
5.12062274
6.0956 0.43282602
10
19.1236
2.3764
605
4.9906
10.3556494
2.9694
9.1067199
7.4045
1.02253537
1.7052 4.41245781
21
20.5142
-2.6142
10
140
2.0212
0.10955522
2.4139
5.6476165
3.2854
2.09339097
1.9934
2.1174639
12
21.593
-0.593
10
215
4.4351
4.53015326
1.2642
1.3031327
4.0146
1.32136265
3.9799
4.41874711
0.4205
1.2187609
0.4552
0.35532909
4.3652 3.12065966
5.2441
0.926847
1.3341
2.34113183
1.5663 13.1647652
0.1296 2.25140474
13
0.1548
0.87681193
21.7081
-5.0281
560
5.6993
1.2274085
15
23.3288
0.6712
448
5.2788
7.7906E-05
23
23.3576
-4.6076
450
0.0347
0.91235651
3.9447
2.3156566
6.8451
13.1461457
1.1804 17.7239198
24
24.4029
-4.5729
635
3.91
1.37030746
6.8104
15.784237
1.2151
20.2626427
0.8864 80.2272024
16
29.6629
-0.6629
10
776
2.9004
8.99868534
5.1251
12.043621
3.0236
62.9406265
8.0826 107.421739
5.1822
59.7793515
11
38.0925
2.2375
16
688
8.0255
0.37673375
5.924
24.867275
20
40.888
-5.788
17
770
2.1015
19.9388461
13.2077
50.808538
22
56.0065
-3.6865
26
810
11.106
12.1611961
71.8203
7.4197
30
1460
119
Observ
D2ii
15-23
7.7906E-05
Delta
5.2788
Sigma acum
5-17
0.04869121
0.8808
2.7287028
4-25
0.09543477
5.137
3.336262533
21-12
0.10955522
2.0212
2.9498927
18-8
4.6770168
0.11849492
0.21472823
0.24772152
0.25208425
0.26963257
10
0.28046136
11
0.28046136
12
0.28348034
13
0.31588921
14
0.33583313
15
0.34120864
16
0.3524271
17
0.35532909
18
0.37673375
19
0.38649146
20
0.43282602
21
0.48143932
22
0.49889025
23
0.57492644
24
0.58513212
25
0.5964673
26
0.62751294
27
0.64404848
28
0.65939581
29
0.76355604
30
0.87681193
31
0.91235651
32
0.92684701
33
0.94887491
34
0.98309549
35
1.00062433
36
1.01425787
37
1.02253537
38
1.0317867
39
1.04201186
0.5907
1.983
40
1.19782372
1.4714
1.966
Desviacin estndar
120
Diagnstico de influyentes
A veces un pequeo grupo de puntos ejerce una influencia desproporcionada en el
modelo de regresin, se deben revisar con cuidado, si son valores mal tomados, se
deben eliminar, de otra forma se debe estudiar el porqu de su ocurrencia.
Puntos influyentes
Son observaciones remotas que tienen un apalancamiento desproporcionado
potencial en los parmetros estimados, valores de prediccin, y estadsticas en
general.
Hoaglin y Welsch discuten el papel de la matriz sombrero H donde sus elementos de
la diagonal principal (hij) puede ser interpretado como la cantidad de influencia
ejercida por Yj en Yi . As, enfocando la atencin en los elementos de la diagonal de
n
la matriz H, como
h
i 1
ii
Di ( M , c )
, i 1,2,......, n
121
(3.71)
Di ( M , c )
, i 1,2,......, n
(3.72)
Los puntos con valores grandes de Di tienen una influencia considerable en los
estimadores de mnimos cuadrados b. La magnitud de Di puede evaluarse
comparndola con F , p ,n p . Si Di F.5, p ,n p , entonces al borrar el punto i mover a
b al lmite del intervalo de confianza del 50% para con base en el conjunto de datos
completo. Como F.5, p ,n p 1 normalmente se considera que los puntos donde
Di 1 tendrn influencia. Idealmente cada b(i ) deber permanecer dentro de la
, i 1,2,......, n
p V ( ei )
p (1 hii )
Di
(3.73)
As Di est formado por un componente que refleja que tan bien se ajusta el modelo a
la i-sima observacin Yi y un componente que mide que tan lejos se encuentra el
punto del resto de los datos. Uno o ambos componentes pueden contribuir a un valor
grande de Di .
1.6277 2 0.1018
ri 2 h ii
0.10009
p (1 hii )
3
(1 0.1018)
122
DFFITS i
Yi Y( i )
S (2i ) hii
, i 1,2,........., n
(3.74)
Donde Y( i ) es el valor estimado de Yi obtenido sin el uso de la isima observacin,
el denominador es una estandartizacin, por tanto DFFITS es el nmero de
desviaciones estndar que el valor estimado Yi cambia si la observacin i-sima es
removida. Computacionalmente se tiene:
1/ 2
hii
DFFITS i
1 hii
(3.75)
ti
Donde ti es la R-student.
Por lo general merece atencin cualquier observacin donde
DFFITS i 2 p
(3.76)
123
DFBETAS j ,i
C jj
j j (i )
S (2i )C jj
DFBETAS j ,i
r j ,i
ti
1 hii
rj ' rj
Ejemplo de clculo:
Rengln
R = (X'X)-1X'
j=1
0.035217
0.081461
0.07142
0.088726
0.073971 0.054461
0.095113
0.064501
-0.14241
0.04035
-0.01553
j=2
-0.01204
-0.00675
-0.01249
0.002698
0.004835
-0.00104
-0.00423
0.004707
0.00799
-0.01968
0.006525
j=3
0.000269
4.3E-05
0.00019
-0.00018
-0.00019
-1.3E-05
-4.4E-05
-0.00016
0.000274
0.00042
-4.5E-06
10
11
12
n elementos
-0.00568
-0.0101
3.81E-05 0.000197
13
-0.01415 0.002442
3.58E-05 0.000391
14
15
16
0.00844
-0.012
0.08146
-0.0067
4.3E-05
0.07142
-0.0125
0.00019
0.08873
0.0027
-0.0002
0.07397
0.00484
-0.0002
0.05446
-0.001
-1E-05
0.09511
-0.0042
-4E-05
0.0645
0.00471
-0.0002
0.057011
-0.00013
-0.00026
-0.00018
4.84E-05
-0.00039
-0.00033
17
18
19
20
21
22
R'
0.03522
-0.02684
0.00027
124
-0.00129
0.082869
-0.01289
-0.00065
3.83E-05 0.000314
-9.1E-05
23
24
25
-0.1424
0.00799
0.00027
0.04035
-0.0197
0.00042
-0.0155
0.00652
-5E-06
0.05074
0.0127
-0.0003
0.07408
-0.0057
3.8E-05
0.04787
-0.0101
0.0002
0.03569
-0.0012
3.6E-05
0.0038
-0.0141
0.00039
0.06979
0.00244
-0.0001
0.07103
0.00844
-0.0003
0.09686
0.00206
-0.0002
-0.0268
0.00534
4.8E-05
0.05701
0.01629
-0.0004
-0.0702
0.02812
-0.0003
0.03552
-0.0013
3.8E-05
0.02449
-0.0129
0.00031
0.08287
-0.0007
-9E-05
C
0.11322 -0.0044 -8E-05
-0.0044 0.00274 -5E-05
-8E-05 -5E-05 1.2E-06
125
Calculo de
Bo,i
r(0,1) =
0.035217
raiz(Cjj)
0.3364746
t1 =
-1.8878
raiz(1-h11)
=
0.9477341
0.20848235
r(0,2)
0.0814608
raiz(Cjj) =
0.3364746
t2 =
0.3847
raiz(1-hii) = 0.9640021
0.09661409
r(0,3) =
0.0714204
raiz(Cjj) =
0.3364746
t3 =
-0.0174
raiz(1-hii) = 0.9493471
-0.0038904
126
Observacin
(a)
hii
ri=ei/raiz(MSE(1hii))
ti
Distancia
COOK Di
DFBETTAS
(0),i
DFFITS
MSE =
(e )
(f)
DFBETTAS
(1),i
DFBETTAS (2),i
10.62422153
(g)
S(i)^2
COVRATIOi
9.7897
0.871051326
11.0627
1.214887646
11.1299
1.275652362
9.8676
0.875996886
11.1199
1.239579127
0.1018
-1.6277
-1.8878
0.0707
0.3648
0.3847
0.09874
-0.0161
-0.0174
0.08538
1.5797
1.7922
0.07501
-0.1418
-0.1498
0.04287
-0.0908
-0.0927
0.07765035 0.54757574
0.00054352 0.04265823
0.00012309 0.01961874
11.1259
1.19989481
0.0818
0.2704
0.2882
0.00217124
0.0860205
11.0931
1.239738655
0.06373
0.3667
0.3839
0.00305101 0.10015889
11.062
1.205614608
0.49829
3.2138
8.5921
3.41936807 8.56276509
5.9049
0.342210658
10
0.1963
0.8133
1.0038
0.05385259 0.49608987
10.7955
1.305398063
11
0.08613
0.7181
0.7768
0.01620013 0.23847575
10.8692
1.171701448
12
0.11366
-0.1933
-0.2132
0.00159716
-0.0763468
11.1112
1.290598609
13
0.06113
0.3252
0.3392
0.00229524 0.08655264
11.0766
1.207042614
14
0.07824
0.3411
0.3625
0.00329195 0.10561206
11.0712
1.227650876
15
0.04111
0.2103
0.2145
11.1077
1.191824428
16
0.16594
-0.2227
-0.2612
0.00063203 0.04441367
0.00328907 0.11650648
11.105
1.369200478
17
0.05943
0.138
0.1434
0.0004011 0.03604595
11.1204
1.219210661
18
0.09626
1.113
1.2386
0.04398164 0.40423345
10.5034
1.069189924
19
0.09645
0.5788
0.6306
0.01192026
10.9606
1.215232688
20
0.10169
-1.8736
-2.2227
9.3542
0.759805384
21
0.16528
-0.8778
-1.046
0.2060293
0.13245993 0.74783684
0.05085684 0.46544828
10.7402
1.237670199
22
0.39158
-1.45
-2.4484
0.45105736
10.0664
1.398066135
23
0.04126
-1.4437
-1.5463
10.0756
0.889652807
24
0.12061
-1.4961
-1.7537
9.9977
0.947605181
25
0.06664
-0.0675
-0.0707
11.1278
1.231083177
-1.9642234
0.0298993 0.32078049
0.10232972 0.64946567
0.00010844 0.01889132
De acuerdo a los puntos de corte de DFFITS de 0.69, los puntos 9 y 22 excend este
valor por lo que se consideran influyentes.
Con base en el punto de corte de DFBETAS de 0.4, los puntos 9 y 22 tienen efectos
grandes sobre los tres parmetros. La eliminacin del punto 9 da como resultado que
la respuesta estimada se desplace en en ms de cuatro desviaciones estndar.
127
COVRATIO
( S (2i ) ) p 1
p
MS Re
s hii
'
1
'
1
Notar que [1/(1-hii)] es la relacin de ( X ( i ) X ( i ) ) / ( X X ) , por lo que un punto de
Si
COVRATIOi 1 3 p / n o
COVRATIOi 1 3 p / n
Ejemplo:
En el caso de los refrescos: el corte para COVRATIOi es 1+-3*3/25 o sea (0.64,
1.66), se puede observar de la tabla que se salen los puntos 9 y apenas el 22.
128
Multicolinealidad
La multicolinealidad implica una dependencia cercana entre regresores (columnas de
la matriz X ), de tal forma que si hay una dependencia lineal exacta har que la
matriz XX se singular. La presencia de dependencias cercanamente lineales
impactan dramticamente en la habilidad para estimar los coeficientes de regresin.
La varianza de los coeficientes de la regresin son inflados debido a la
multicolinealidad. Esta es evidente por los valores diferentes de cero que no estan en
la diagonal principal de XX. Los cuales se denominan correlaciones simples entre
los regresores. La multicolinealidad puede afectar seriamente la precisin con la cual
los coeficientes de regresin son estimados.
Entre las fuentes de colinealidad se encuantran:
Un modelo sobredefinido.
VIF j
1
1 R 2j
(3.77)
R 2j es el coeficiente de determinacin mltiple obtenido al hacer una regresin de Xj
129
X1
X2
X1
X2
b) Regresores ortogonales
(muy estable)
X2
5
10
5
10
5
10
5
10
20
20
30
30
20
20
30
30
130
1,0 1
X'X X'( X)
0,1
Las varianzas de los coeficientes estandarizados de regresin b1 , b2 son:
V (b1 ) V (b2 )
1
2
2
Y un sistema con colinealidad es:
.1 00000, .0 824215
W 'W
.0 824215, .1 00000
donde
.3 1 841, .2 57023
(W'W )
.2 57023, .3 1 841
1
V (b1 ) V (b2 )
3.11841
2
2
Se observa que estn infladas debido a la multicolinealidad.
131
Introduccin
132
133
Usar...
Tipo de Mtodo de
respuesta estimacin
Para...
continua
Mnimos
cuadrados
Stepwise
continua
Mnimos
cuadrados
Best
Subsets
continua
Mnimos
cuadrados
Mnimos
cuadrados
PLS
continua
Binary
Logistic
categrica mxima
verosimilitud
Ordinal
Logistic
categrica mxima
verosimilitud
Nominal
Logistic
categrica mxima
verosimilitud
biased, nonleast
squares
Cambiar los predictores formando una combinacin lineal con ellos usando la
regresin parcial de mnimos cuadrados o anlisis de componentes
principales.
135
136
Ejemplo:
Los estudiantes de un curso introductorio de estadstica participan en un experimento
simple. Cada estudiante registra su altura, peso, gnero, preferencia en fumar, nivel
de actividad normal, y puso en reposo. Todos lanzan una moneda, y aquellos que les
salga sol, corren durante un minuto. Despus de esto el grupo coimpleto registra su
pulso en reposo una vez ms. Se desea encontrar los mejores predictores para la
segunda tasa de pulso.
Los datos se muestran a continuacin:
PULSE.MTW
Pulso1
Pulso2
Corri
Fuma
Sexo
Estatura
Peso
Actividad
64
88
66
140
58
70
72
145
62
76
73.5
160
66
78
73
190
64
80
69
155
74
84
73
165
84
84
72
150
68
72
74
190
62
75
72
195
76
118
71
138
90
94
74
160
80
96
72
155
92
84
70
153
68
76
67
145
60
76
71
170
62
58
72
175
66
82
69
175
70
72
73
170
68
76
74
180
72
80
66
135
70
106
71
170
74
76
70
157
66
102
70
130
70
94
75
185
96
140
61
140
62
100
66
120
78
104
68
130
82
100
68
138
100
115
63
121
68
112
70
125
96
116
68
116
78
118
69
145
88
110
69
150
62
98
62.75
112
137
80
128
68
125
62
62
74
190
60
62
71
155
72
74
69
170
62
66
70
155
76
76
72
215
68
66
67
150
54
56
69
145
74
70
73
155
74
74
73
155
68
68
71
150
72
74
68
155
68
64
69.5
150
82
84
73
180
64
62
75
160
58
58
66
135
54
50
69
160
70
62
66
130
62
68
73
155
48
54
68
150
76
76
74
148
88
84
73.5
155
70
70
70
150
90
88
67
140
78
76
72
180
70
66
75
190
90
90
68
145
92
94
69
150
60
70
71.5
164
72
70
71
140
68
68
72
142
84
84
69
136
74
76
67
123
68
66
68
155
84
84
66
130
61
70
65.5
120
64
60
66
130
94
92
62
131
60
66
62
120
72
70
63
118
58
56
67
125
88
74
65
135
66
72
66
125
84
80
65
118
62
66
65
122
66
76
65
115
80
74
64
102
78
78
67
115
68
68
69
150
72
68
68
110
138
82
80
63
116
76
76
62
108
87
84
63
95
90
92
64
125
78
80
68
133
68
68
62
110
86
84
67
150
76
76
61.75
108
Corrida en Minitab:
1
Click Options.
Resultados:
Results for: Pulse.MTW
MTB > Stepwise 'Pulso2' 'Pulso1' 'Corri'-'Peso';
SUBC>
AEnter 0.05;
SUBC>
ARemove 0.10;
SUBC>
Best 0;
SUBC>
Steps 2;
SUBC>
Constant;
SUBC>
Press.
Alpha-to-Remove: 0.1
139
1
10.28
2
44.48
Pulso1
T-Value
P-Value
0.957
7.42
0.000
0.912
9.74
0.000
Corri
T-Value
P-Value
S
R-Sq
R-Sq(adj)
Mallows C-p
PRESS
R-Sq(pred)
-19.1
-9.05
0.000
13.5
37.97
37.28
103.2
17252.4
35.12
9.82
67.71
66.98
13.5
9304.69
65.01
3
42.62
Pulso1
T-Value
P-Value
0.812
8.88
0.000
Corri
T-Value
P-Value
-20.1
-10.09
0.000
Sexo
T-Value
P-Value
7.8
3.74
0.000
S
R-Sq
R-Sq(adj)
Mallows C-p
PRESS
R-Sq(pred)
9.18
72.14
71.19
1.9
8195.99
69.18
140
141
Primero se evalan los modelos que tienen un predictor, despus los de dos
predictores, etcetera. En cada caso se muestra el mejor modelo.
Ejemplo:
El flujo de calor solar se mide ocmop parte de una prueba de energa trmica solar.
Se desea ver como se estima el flujo de calor con base en otras variables:
aislamiento, posicin de puntos focales en el este, sur, y norte, y la hora del da.
(datos de D.C. Montgomery and E.A. Peck (1982). Introduction to Linear Regression
Analysis. John Wiley & Sons. p. 486).
Los datos son los siguientes (Exh_regr.Mtw):
Flujo_de_calor Aislamiento
271.8
783.35
264
748.45
238.8
684.45
230.7
827.8
251.6
860.45
257.9
875.15
263.9
909.45
266.5
905.55
229.1
756
239.3
769.35
258
793.5
257.6
801.65
267.3
819.65
267
808.55
Este
33.53
36.5
34.66
33.13
35.75
34.46
34.6
35.38
35.85
35.68
35.35
35.04
34.07
32.2
Sur
40.55
36.19
37.31
32.52
33.71
34.14
34.85
35.89
33.53
33.79
34.72
35.22
36.5
37.6
142
Norte
16.66
16.46
17.66
17.5
16.4
16.28
16.06
15.93
16.6
16.41
16.17
15.92
16.04
16.19
Hora
13.2
14.11
15.68
10.53
11
11.31
11.96
12.58
10.66
10.85
11.41
11.91
12.85
13.58
259.6
240.4
227.2
196
278.7
272.3
267.4
254.5
224.7
181.5
227.5
253.6
263
265.8
263.8
774.95
711.85
694.85
638.1
774.55
757.9
753.35
704.7
666.8
568.55
653.1
704.05
709.6
726.9
697.15
34.32
31.08
35.73
34.11
34.79
35.77
36.44
37.82
35.07
35.26
35.56
35.73
36.46
36.26
37.2
37.89
37.71
37
36.76
34.62
35.4
35.96
36.26
36.34
35.9
31.84
33.16
33.83
34.89
36.27
16.62
17.37
18.12
18.53
15.54
15.7
16.45
17.62
18.12
19.05
16.51
16.02
15.89
15.83
16.71
14.21
15.56
15.83
16.41
13.1
13.63
14.51
15.38
16.1
16.73
10.58
11.28
11.91
12.65
14.06
Instrucciones de Minitab:
1
Vars
1
1
2
2
3
3
4
4
5
R-Sq
72.1
39.4
85.9
82.0
87.4
86.5
89.1
88.0
89.9
R-Sq(adj)
71.0
37.1
84.8
80.6
85.9
84.9
87.3
86.0
87.7
Mallows
C-p
38.5
112.7
9.1
17.8
7.6
9.7
5.8
8.2
6.0
S
12.328
18.154
8.9321
10.076
8.5978
8.9110
8.1698
8.5550
8.0390
A
i
s
l
a
m
i
e
n
t
o
N
E
o H
s S r o
t u t r
e r e a
X
X
X X
X X
X X X
X
X X
X X X X
X
X X X
X X X X X
El modelo con todas las variables tiene la mayor R2 ajustada (87.7%), un valor
bajo de Cp de Mallows (6.0), y el menor valor de S (8.039).
El modelo de cuatro predictores con todas las variables excepto la Hora, tiene
un valor bajo de Cp (5.8), la S es ligeramente mayor (8.16) y la R2 ajustada en
ligeramente menor (87.3%).
El mejor modelo de tres predictores incluye Norte, Sur, y Este, con un valor de
Cp ligeramente ms alto (7.6) y un valor menor de R2 ajustado.
El modelo con dos predictores podra ser considerado con el menor ajuste. Se
puede observar que el agregar la variable Este no mejora el ajuste del modelo.
Checar usando...
Posibles soluciones
Grfica de Residuales vs
variables
Transformar variables.
Grfica de Residuals vs
estimados (fits)
Transformar variables.
144
Mnimos cuadrados
ponderados.
Los Residuales son
independientes entre s (no
correlacionados).
Histograma de residuales
Transformar variables.
Observations No usuales,
puntos atpicos o outliers.
Grficas de Residuales
Transformar variables.
Influyentes (Leverages)
Eliminar la observacin
atpica.
Distancia de Cook's
DFITS
Datos mal condicionados (ill
conditioned).
Factor de Inflacin de
Variance (VIF)
Matriz de correlacin de
predictores
Remover predictor.
Regresin de mnimos
cuadrados parciales.
Transformar variables.
145
Usar reegresin de mnimos cuadrados parcial (PLS) para realizar una regresin
sesgada, no de mnimos cuadrados. PLS se utiliza cuando los predictores son muy
colineales o se tienen ms predictores que observaciones, y la regresin lineal
normal falla o produce coeficientes con altos errores estndar. La PLS reduce el
nmero de predictores a un conjunto de componentes no correlacionados y realiza la
regresin de mnimos cuadrados en esos componentes.
La PLS ajusta variables de respuesta mltiple en un modelo simple. Dado que los
modelos PLS tratan las respuestas como multivariadas, los resultados pueden diferir
de si se tratan individualmente por separado. El modelo agrupa las respuestas
mltiples slo si estan correlacionadas.
Ejemplo:
Un productor de vino quiere saber como la composicin qumica del vino se relaciona
con las pruebas sensoriales. Se tienen 37 muestras, cada una descrita por 17
concentraciones elementales (Cd, Mo, Mn, Ni, Cu. Al, Ba, Cr, Sr, B, Mg, Si, Na, Ca, P,
K) y una medida del aroma del vino de un panel de catadores. Se quiere predecir la
media del aroma a partir de los 17 elementos y determinar si el modelo PLS es
adecuado, dado que la relacinde muestras a predictores es baja. Los datos son de
I.E. Frank and B.R. Kowalski (1984). "Prediction of Wine Quality and Geographic Origin
from Chemical Measurements by Partial Least-Squares Regression Modeling," Analytica
Chimica Acta, 162, 241251.
Archivo WineAroma.mtw
Cd
Mo
Mn
Ni
Cu
Al
Ba
Cr
Sr
Pb
Mg
Si
Na
Ca
Aroma
0.005
0.044
1.51
0.122
0.83
0.982
0.387
0.029
1.23
0.561
2.63
128
17.3
66.8
80.5
150
1130
3.3
0.055
0.16
1.16
0.149
0.066
1.02
0.312
0.038
0.975
0.697
6.21
193
19.7
53.3
75
118
1010
4.4
0.056
0.146
1.1
0.088
0.643
1.29
0.308
0.035
1.14
0.73
3.05
127
15.8
35.4
91
161
1160
3.9
0.063
0.191
0.96
0.38
0.133
1.05
0.165
0.036
0.927
0.796
2.57
112
13.4
27.5
93.6
120
924
3.9
0.011
0.363
1.38
0.16
0.051
1.32
0.38
0.059
1.13
1.73
3.07
138
16.7
76.6
84.6
164
1090
5.6
0.05
0.106
1.25
0.114
0.055
1.27
0.275
0.019
1.05
0.491
6.56
172
18.7
15.7
112
137
1290
4.6
0.025
0.479
1.07
0.168
0.753
0.715
0.164
0.062
0.823
2.06
4.57
179
17.8
98.5
122
184
1170
4.8
0.024
0.234
0.91
0.466
0.102
0.811
0.271
0.044
0.963
1.09
3.18
145
14.3
10.5
91.9
187
1020
5.3
0.009
0.058
1.84
0.042
0.17
1.8
0.225
0.022
1.13
0.048
6.13
113
13
54.4
70.2
158
1240
4.3
0.033
0.074
1.28
0.098
0.053
1.35
0.329
0.03
1.07
0.552
3.3
140
16.3
70.5
74.7
159
1100
4.3
0.039
0.071
1.19
0.043
0.163
0.971
0.105
0.028
0.491
0.31
6.56
103
9.47
45.3
67.9
133
1090
5.1
0.045
0.147
2.76
0.071
0.074
0.483
0.301
0.087
2.14
0.546
3.5
199
9.18
80.4
66.3
212
1470
3.3
146
0.06
0.116
1.15
0.055
0.18
0.912
0.166
0.041
0.578
0.518
6.43
111
11.1
59.7
83.8
139
1120
5.9
0.067
0.166
1.53
0.041
0.043
0.512
0.132
0.026
0.229
0.699
7.27
107
55.2
44.9
148
854
7.7
0.077
0.261
1.65
0.073
0.285
0.596
0.078
0.063
0.156
1.02
5.04
94.6
6.34
10.4
54.9
132
899
7.1
0.064
0.191
1.78
0.067
0.552
0.633
0.085
0.063
0.192
0.777
5.56
110
6.96
13.6
64.1
167
976
5.5
0.025
0.009
1.57
0.041
0.081
0.655
0.072
0.021
0.172
0.232
3.79
75.9
6.4
11.6
48.1
132
995
6.3
0.02
0.027
1.74
0.046
0.153
1.15
0.094
0.021
0.358
0.025
4.24
80.9
7.92
38.9
57.6
136
876
0.034
0.05
1.15
0.058
0.058
1.35
0.294
0.006
1.12
0.206
2.71
120
14.7
68.1
64.8
133
1050
4.6
0.043
0.268
2.32
0.066
0.314
0.627
0.099
0.045
0.36
1.28
5.68
98.4
9.11
19.5
64.3
176
945
6.4
0.061
0.245
1.61
0.07
0.172
2.07
0.071
0.053
0.186
1.19
4.42
87.6
7.62
11.6
70.6
156
820
5.5
0.047
0.161
1.47
0.154
0.082
0.546
0.181
0.06
0.898
0.747
8.11
160
19.3
12.5
82.1
218
1220
4.7
0.048
0.146
1.85
0.092
0.09
0.889
0.328
0.1
1.32
0.604
6.42
134
19.3
125
83.2
173
1810
4.1
0.049
0.155
1.73
0.051
0.158
0.653
0.081
0.037
0.164
0.767
4.91
86.5
6.46
11.5
53.9
172
1020
0.042
0.126
1.7
0.112
0.21
0.508
0.299
0.054
0.995
0.686
6.94
129
43.6
45
85.9
165
1330
4.3
0.058
0.184
1.28
0.095
0.058
1.3
0.346
0.037
1.17
1.28
3.29
145
16.7
65.8
72.8
175
1140
3.9
0.065
0.211
1.65
0.102
0.055
0.308
0.206
0.028
0.72
1.02
6.12
99.3
27.1
20.5
95.2
194
1260
5.1
0.065
0.129
1.56
0.166
0.151
0.373
0.281
0.034
0.889
0.638
7.28
139
22.2
13.3
84.2
164
1200
3.9
0.068
0.166
3.14
0.104
0.053
0.368
0.292
0.039
1.11
0.831
4.71
125
17.6
13.9
59.5
141
1030
4.5
0.067
0.199
1.65
0.119
0.163
0.447
0.292
0.058
0.927
1.02
6.97
131
38.3
42.9
85.9
164
1390
5.2
0.084
0.266
1.28
0.087
0.071
1.14
0.158
0.049
0.794
1.3
3.77
143
19.7
39.1
128
146
1230
4.2
0.069
0.183
1.94
0.07
0.095
0.465
0.225
0.037
1.19
0.915
123
4.57
7.51
69.4
123
943
3.3
0.087
0.208
1.76
0.061
0.099
0.683
0.087
0.042
0.168
1.33
5.04
92.9
6.96
12
56.3
157
949
6.8
0.074
0.142
2.44
0.051
0.052
0.737
0.408
0.022
1.16
0.745
3.94
143
6.75
36.8
67.6
81.9
1170
0.084
0.171
1.85
0.088
0.038
1.21
0.263
0.072
1.35
0.899
2.38
130
6.18
101
64.4
98.6
1070
3.5
0.106
0.307
1.15
0.063
0.051
0.643
0.29
0.031
0.885
1.61
4.4
151
17.4
7.25
103
177
1100
4.3
0.102
0.342
4.08
0.065
0.077
0.752
0.366
0.048
1.08
1.77
3.37
145
5.33
33.1
58.3
117
1010
5.2
7 Click Graphs, luego seleccionar Model selection plot, Response plot, Std
Coefficient plot, Distance plot, Residual versus leverage plot, y Loading plot. No
seleccionar Coefficient plot. Click OK en cada una de las ventanas de dilogo.
147
El ANOVA muestra que el valor p para Aroma es 0.000 menor a 0.05, proporcionando
suficiente evidencia de que el modelo es significativo.
Analysis of Variance for Aroma
Source
DF
SS
MS
Regression
2 28.8989 14.4494
Residual Error 34 12.3044
0.3619
Total
36 41.2032
F
39.93
148
P
0.000
X Variance
0.225149
0.366697
Error SS
16.5403
12.3044
8.9938
8.2761
7.8763
7.4542
7.2448
7.1581
6.9711
6.8324
6.7488
6.6955
6.6612
6.6435
6.6335
6.6296
6.6289
R-Sq
0.598569
0.701374
0.781720
0.799139
0.808843
0.819087
0.824168
0.826274
0.830811
0.834178
0.836207
0.837501
0.838333
0.838764
0.839005
0.839100
0.839117
PRESS
22.3904
22.1163
23.3055
22.2610
24.1976
28.5973
31.0924
30.9149
32.1611
31.3590
32.1908
34.0891
34.7985
34.5011
34.0829
34.0143
33.8365
R-Sq (pred)
0.456585
0.463238
0.434377
0.459726
0.412726
0.305945
0.245389
0.249699
0.219451
0.238920
0.218732
0.172660
0.155442
0.162660
0.172811
0.174476
0.178789
El modelo con dos componentes, seleccionado por validacin cruzada, tiene una
R2 de 70.1% y una R2 de Prediccin de 46.3%. El modelo de cuatro componentes
tiene una R2 predictora un poco menor, con una mayor R 2, pero tambin se podra
utilizar.
149
Esta grfica muestra la tabla de Model Selection and Validation. La lnea vertical
indica que le modelo ptimo tiene dos componentes. Se puede observar que la
habilidad predictiva de todos los modelos con ms de cuatro componentes, se
reduce significativamente, incluyendo el de 17 componententes con slo 18%.
PLS Model Selection Plot
(response is Aroma)
0.9
optimal
Variable
Fitted
Crossval
0.8
0.7
R-Sq
0.6
0.5
0.4
0.3
0.2
0.1
2
8
10
Components
12
14
16
Como los puntos muestran un patrn de lnea recta, de abajo hacia arriba, la grfica
de respuesta indica que el modelo ajusta los datos adecuadamente. A pesar de
haber diferencias entre las respuestas estimadas (fitted) y las de validacin cruzada
(cross-validated indica que tan bien el modelo estima los datos, de modo que se
puedan omitir), ninguno es suficientemente severo para indicar puntos influyentes
extremos.
PLS Response Plot
(response is Aroma)
2 components
Calculated Response
Variable
Fitted
Crossval
3
3
5
6
Actual Response
150
Standardized Coefficients
0.3
0.2
0.1
0.0
-0.1
-0.2
-0.3
2
8
10
Predictors
12
14
16
151
Distance From Y
7
6
5
4
3
2
1
0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Distance From X
0.7
0.8
0.9
Standardized Residual
-1
-2
0.0
0.2
0.4
0.6
0.8
Leverages
152
1.0
Caractersticas
Ejemplos
Binary
Dos niveles
xito, falla
Si, No
Ordinal 3 o ms
Nominal 3 o ms
Tanto los mtodos de regression logsticos como los mtodos de mnimos cuadrados,
estiman los parmetros en el modelo de manera que el ajuste es optimizado. El de
mnimos cuadrados minimiza la suma de cuadrados de los errores para estimar los
parmetros, mientras que la regresin logstica obtiene la mxima verosimilitud de
los parmetros usando un algoritmo iterativo de mnimos cuadrados reponderados.
Hair., Joseph Jr., Et. Al., Multivariate Data Analysis, Prentice Hall Internacional, Nueva Jersey, 1984, pp. 279325
153
P(y) = 1
P(y) = 0
Bajo
Alto
154
155
Los coeficientes estimados (B0, B1, Bn) son medidas reales de las posibilidades
en la relacin de probabilidades. Como se expresan en logaritmos, al final se
deben regresar con las funciones de antilogaritmo de modo que se pueda el
efecto en las probabilidades de manera ms fcil.
Cuando los coeficientes son positivos, su transformacin ser mayor a uno, en la
razn de posibilidades se incrementa y viceversa en caso contrario.
La medicin global de que tan bien ajusta el modelo, similar a la menor suma de
cuadrados en la regresin mltiple, se da por el valor de verosimilitud (que es
realmente menos 2 veces el logaritmo del valor de verosimilitud = -2LL). Un
modelo ideal tendr una verosimilitud de 1 y un -2LL de cero. Para determinar
un pseudos R2 de la regresin logstica se puede calcular como:
2
Rlog
it
2 LLnull (2 LLmod el )
2 LLnull
156
Ejemplo de Minitab
Un investigador est interesado en comprender el efecto de fumar y el peso en la
tasa de pulso en reposo. Dado que se ha categorizado la tasa de respuesta del
puso en baja y alta, el anlisis de regresin logstica es adecuado para
comprender los efectos de fumar y peso en la tasa de pulso.
DATOS MINITAB. Exh_Regr
Y
X1
X2
Pulso en reposo
Fuma
Peso
Bajo
No
140
Bajo
No
145
Bajo
Si
160
Bajo
Si
190
Bajo
No
155
Bajo
No
165
Alto
No
150
Bajo
No
190
Bajo
No
195
Bajo
No
138
Alto
Si
160
Bajo
No
155
Alto
Si
153
Bajo
No
145
Bajo
No
170
Bajo
No
175
Bajo
Si
175
Bajo
Si
170
Bajo
Si
180
Bajo
No
135
Bajo
No
170
Bajo
No
157
Bajo
No
130
Bajo
Si
185
Alto
No
140
Bajo
No
120
Bajo
Si
130
Alto
No
138
Alto
Si
121
Bajo
No
125
Alto
No
116
Bajo
No
145
Alto
Si
150
Bajo
Si
112
Bajo
No
125
Bajo
No
190
Bajo
No
155
157
Bajo
Si
170
Bajo
No
155
Bajo
No
215
Bajo
Si
150
Bajo
Si
145
Bajo
No
155
Bajo
No
155
Bajo
No
150
Bajo
Si
155
Bajo
No
150
Alto
Si
180
Bajo
No
160
Bajo
No
135
Bajo
No
160
Bajo
Si
130
Bajo
Si
155
Bajo
Si
150
Bajo
No
148
Alto
No
155
Bajo
No
150
Alto
Si
140
Bajo
No
180
Bajo
Si
190
Alto
No
145
Alto
Si
150
Bajo
Si
164
Bajo
No
140
Bajo
No
142
Alto
No
136
Bajo
No
123
Bajo
No
155
Alto
No
130
Bajo
No
120
Bajo
No
130
Alto
Si
131
Bajo
No
120
Bajo
No
118
Bajo
No
125
Alto
Si
135
Bajo
No
125
Alto
No
118
Bajo
No
122
Bajo
No
115
Bajo
No
102
Bajo
No
115
Bajo
No
150
Bajo
No
110
Alto
No
116
Bajo
Si
108
Alto
No
95
158
Alto
Si
125
Bajo
No
133
Bajo
No
110
Alto
No
150
Bajo
No
108
Corrida en Minitab:
1
Count
70
22
(Event)
159
Total
92
Informacin de los factores: muestra todos los factores del modelo, el nmero de
niveles para cada factor, y los valores de nivel de los factores. El nivel del factor que
se ha designado como nivel de referencia es la primera entrada en Values, el sujeto
no fuma.
Factor Information
Factor Levels Values
Fuma
2 No, Si
De la salida, se puede ver que los coeficientes estimados para ambos Fuma
(z=-2.16, p =0.031) y Peso (z= 2.04, p = 0.041), tienen valores p menores a
0.05 indicando que hay suficiente evidencia de que los coeficientes no sean
cero utilizando un alfa de 0.05.
160
indicando que las posibilidades de un sujeto para que tenga un pulso bajo se
incrementan 1.28 veces con cada 10 libras de incremento en peso).
Coef
-1.98717
SE Coef
1.67930
Z
-1.18
P
0.237
-1.19297
0.0250226
0.552980
0.0122551
-2.16
2.04
0.031
0.041
Odds
Ratio
0.30
1.03
95% CI
Lower Upper
0.10
1.00
0.90
1.05
Chi-Square
40.8477
DF
47
P
0.724
161
Deviance
Hosmer-Lemeshow
Brown:
General Alternative
Symmetric Alternative
51.2008
4.7451
47
8
0.312
0.784
0.9051
0.4627
2
1
0.636
0.496
162
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs
Number Percent Summary Measures
Concordant
1045
67.9 Somers' D
0.38
Discordant
461
29.9 Goodman-Kruskal Gamma 0.39
Ties
34
2.2 Kendall's Tau-a
0.14
Total
1540
100.0
163
Delta Chi-Square
5
4
3
2
1
0
0.4
0.5
0.6
0.7
Probability
0.8
0.9
1.0
Delta Chi-Square
5
4
3
2
1
0
0.00
0.02
0.04
0.06
0.08
Leverage
0.10
0.12
0.14
0.16
Si se seleccionar Editor > Brush, se marcan los puntos, y dando clic en ellos, se
identifican como valores de 31 y 66. Estos son individuos con un pulso en
reposo alto, queines no fuman, y quienes tienen menos peso que el promedio
(peso promedio = 116.136 libras). Se pueden hacer ms investigaciones para
ver por qu el modelo no se ajust a ellos.
164
String
Fuma
String
peso
Numeric
Instrucciones:
1. Analyze > Regresin > Binary Logistic
2. Seleccionar en Dependent Pulsorep; Covariates Fuma Peso
3. Con el botn Categorical Fuma > Continue
4. Con boitn Options Seleccionar Calsification Plots, Hosmer Goodness of fit, CI for
Exp(B) > Continue
5. OK
Exportar el reporte a Word con:
Seleccionar el reporte Output1
File > Export > seleccionar All Visible Objects y dar el nombre de archivo
OK
Cargarlo en Word y hacer comentarios:
Logistic Regression
Case Processing Summary
Unweighted Cases(a)
N
Included in Analysis
Selected Cases
Missing Cases
Total
Unselected Cases
Total
Percent
92
100.0
.0
92
100.0
.0
92
100.0
a If weight is in effect, see classification table for the total number of cases.
165
Internal Value
Bajo
Alto
FUMA
Parameter coding
(1)
No
64
1.000
Si
28
.000
Step 0
Bajo
PULSOREP
Alto
Percentage Correct
Bajo
70
100.0
Alto
22
.0
Overall Percentage
76.1
S.E.
Wald
df
Sig.
Exp(B)
1 .000
.314
166
Sig.
Step 0
Variables
FUMA(1)
3.081
1 .079
PESO
2.721
1 .099
7.249
2 .027
Overall Statistics
Sig.
7.574
2 .023
Step 1 Block
7.574
2 .023
Model
7.574
2 .023
Model Summary
Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square
1
93.640
.079
.118
Chi-square df
7.561
Sig.
.477
PULSOREP = Alto
Expected
Total
Step 1 1
8.345
.655
10
9.591
1.409
11
9.322
1.678
11
7.379
1.621
7.119
1.881
6.782
2.218
7.213
2.787
10
5.419
2.581
167
5.532
3.468
10
3.299
3.701
Classification Table(a)
Predicted
PULSOREP
Observed
Step 1
Bajo
PULSOREP
Alto
Percentage Correct
Bajo
68
97.1
Alto
20
9.1
Overall Percentage
76.1
Step 1(a)
FUMA(1)
S.E.
Wald
df
Sig.
Exp(B)
Upper
-1.193
.553 4.654
1 .031
.303
.103
.897
PESO
-.025
.012 4.169
1 .041
.975
.952
.999
Constant
1 .089 24.050
16
R
12
E
8
B
B
B
BA AA
B
BAABA
B A B A
4
BBBBB ABB A B A
B B BBBBBABBB B B B
A
B B BBBBBBBBBABAB B
B
B BBBBBBBBBBBBBBBBBAB BAA AB A A B B
Predicted
168
Prob:
Group:
0
.25
.5
.75
1
BBBBBBBBBBBBBBBBBBBBBBBBBBBBBBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
Predicted Probability is of Membership for Alto
The Cut Value is .50
Symbols: B - Bajo
A - Alto
Each Symbol Represents 1 Case.
169
X1
4.1
1.8
3.4
2.7
6
1.9
4.6
1.3
5.5
4
2.4
3.9
2.8
3.7
4.7
3.4
3.2
4.9
5.3
4.7
3.3
3.4
3
2.4
5.1
4.6
2.4
X2
0.6
3
5.2
1
0.9
3.3
2.4
4.2
1.6
3.5
1.6
2.2
1.4
1.5
1.3
2
4.1
1.8
1.4
1.3
0.9
0.4
4
1.5
1.4
2.1
1.5
X3
6.9
6.3
5.7
7.1
9.6
7.9
9.5
6.2
9.4
6.5
8.8
9.1
8.1
8.6
9.9
9.7
5.7
7.7
9.7
9.9
8.6
8.3
9.1
6.7
8.7
7.9
6.6
X4
4.7
6.6
6
5.9
7.8
4.8
6.6
5.1
4.7
6
4.8
4.6
3.8
5.7
6.7
4.7
5.1
4.3
6.1
6.7
4
2.5
7.1
4.8
4.8
5.8
4.8
X5
2.4
2.5
4.3
1.8
3.4
2.6
3.5
2.8
3.5
3.7
2
3
2.1
2.7
3
2.7
3.6
3.4
3.3
3
2.1
1.2
3.5
1.9
3.3
3.4
1.9
X6
2.3
4
2.7
2.3
4.6
1.9
4.5
2.2
3
3.2
2.8
2.5
1.4
3.7
2.6
1.7
2.9
1.5
3.9
2.6
1.8
1.7
3.4
2.5
2.6
2.8
2.5
X7
5.2
8.4
8.2
7.8
4.5
9.7
7.6
6.9
7.6
8.7
5.8
8.3
6.6
6.7
6.8
4.8
6.2
5.9
6.8
6.8
6.3
5.2
8.4
7.2
3.8
4.7
7.2
X8
0
1
1
1
0
1
0
1
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
1
X9
32
43
48
32
58
45
46
44
63
54
32
47
39
38
54
49
38
40
54
55
41
35
55
36
49
49
36
170
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
5.2
3.5
4.1
3
2.8
5.2
3.4
2.4
1.8
3.6
4
0
2.4
1.9
5.9
4.9
5
2
5
3.1
3.4
5.8
5.4
3.7
2.6
4.5
2.8
3.8
2.9
4.9
5.4
4.3
2.3
3.1
5.1
4.1
3
1.1
3.7
4.2
1.6
5.3
2.3
3.6
5.6
3.6
5.2
3
4.2
3.8
1.3
2.8
3.7
3.2
3.8
2
3.7
1
3.3
4
0.9
2.1
2
3.4
0.9
2.3
1.3
2.6
2.5
1.9
3.9
0.2
2.1
0.7
4.8
4.1
2.4
0.8
2.6
4.4
2.5
1.8
4.5
1.9
1.9
1.1
3.8
2
1.4
2.5
4.5
1.7
3.7
5.4
2.2
2.2
1.3
2
2.4
0.8
9.7
9.9
5.9
6
8.9
9.3
6.4
7.7
7.5
5.8
9.1
6.9
6.4
7.6
9.6
9.3
8.6
6.5
9.4
10
5.6
8.8
8
8.2
8.2
6.3
6.7
6.7
7.7
7.4
9.6
7.6
8
9.9
9.2
9.3
5.5
7.2
9
9.2
6.4
8.5
8.3
5.9
8.2
9.9
9.1
6.6
9.4
8.3
6.1
3.5
5.5
5.3
6.9
5.9
5.7
3.4
4.5
5.8
5.4
5.4
4.5
4.6
7.8
4.5
4.7
3.7
4.6
4.5
5.6
4.5
3
6
5
5.9
4.9
2.9
7
6.9
5.5
5.4
4.7
4.5
5.8
5.5
4.9
4.7
4.5
6.2
5.3
3.7
5.2
6.2
3.1
4.8
4.5
6.6
4.9
6.1
3.2
3.1
3.9
3.1
3.3
3.7
3.5
1.7
2.5
3.7
2.4
1.1
2.1
2.6
3.4
3.6
3.1
2.4
3.7
2.6
3.6
3
3.8
2.1
3.6
4.3
2.5
1.6
2.8
4.6
4
3.1
3.3
2.6
3.6
2.5
3.4
1.6
2.6
3.3
3
3.5
3
4.5
4
2.9
3.3
2.4
3.2
2.2
3.9
1.7
3
3
3.2
2.4
3.4
1.1
2.4
2.5
2.6
2.6
2.2
2.5
4.6
1.3
2.5
1.7
1.4
3.2
2.3
2.4
1.4
2.5
2.5
3.4
2.6
2.1
3.6
4
3
2.5
2.2
3.1
2.3
2.7
2.6
3.2
2.3
3.9
2.5
1.9
2.3
2.9
1.6
1.9
2.7
2.7
2.7
2.6
6.7
5.4
8.4
8
8.2
4.6
8.4
6.2
7.6
9.3
7.3
8.9
8.8
7.7
4.5
6.2
3.7
8.5
6.3
3.8
9.1
6.7
5.2
5.2
9
8.8
9.2
5.6
7.7
9.6
7.7
4.4
8.7
3.8
4.5
7.4
6
10
6.8
7.3
7.1
4.8
9.1
8.4
5.3
4.9
7.3
8.2
8.5
5.3
0
0
1
1
0
0
1
1
1
1
0
1
1
1
0
0
0
1
0
0
1
0
0
0
1
1
1
0
0
1
0
0
1
0
0
0
0
1
0
0
1
0
1
1
0
0
0
1
0
0
54
49
46
43
53
60
47.3
35
39
44
46
29
28
40
58
53
48
38
54
55
43
57
53
41
53
50
32
39
47
62
65
46
50
54
60
47
36
40
45
59
46
58
49
50
55
51
60
41
49
42
171
5.8
5.4
5.1
3.3
5
6.1
3.8
4.1
3.6
4.8
5.1
3.9
3.3
3.7
6.7
5.9
4.8
3.2
6
4.9
4.7
4.9
3.8
5
5.2
5.5
3.7
3.7
4.2
6.2
6
5.6
5
4.8
6.1
5.3
4.2
3.4
4.9
6
4.5
4.3
4.8
5.4
3.9
4.9
5.1
4.1
5.2
5.1
1
1
0
0
1
1
0
0
0
0
1
0
0
0
1
1
1
0
1
1
0
1
1
1
0
0
0
1
1
0
1
1
0
1
1
1
1
0
1
1
0
1
0
0
1
1
1
0
1
1
0
0
1
1
1
0
1
1
1
1
0
1
1
1
0
0
0
1
0
0
1
0
0
0
1
1
1
0
1
1
0
0
1
0
0
0
1
1
0
0
1
0
1
1
0
0
0
1
0
0
1
1
0
0
0
0
0
0
1
1
1
1
1
1
1
0
0
1
0
1
1
1
1
0
1
0
1
0
1
0
0
1
1
1
0
1
1
1
0
0
0
0
1
1
1
0
1
0
1
0
3
3
2
1
3
3
1
1
1
2
3
1
1
1
3
3
2
1
3
3
2
3
3
2
2
2
1
1
2
2
3
3
2
3
3
3
2
1
2
3
2
3
2
2
3
3
3
1
2
2
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
3.3
1
4.5
5.5
3.4
1.6
2.3
2.6
2.5
2.4
2.1
2.9
4.3
3
4.8
3.1
1.9
4
0.6
6.1
2
3.1
2.5
2.6
1.9
1.6
1.8
4.6
2.8
3.7
3
3.1
2.9
3.5
1.2
2.5
2.8
1.7
4.2
2.7
0.5
1.6
0.5
2.8
2.2
1.8
9.7
9.1
8.7
8.7
5.5
6.1
7.6
8.5
7
8.4
7.4
7.3
9.3
7.8
7.6
5.1
5
6.7
6.4
9.2
5.2
6.7
9
3.3
4.5
4.6
3.8
8.2
6.4
5
6
4.2
5.9
4.8
6.1
6.3
7.1
4.2
7.8
4.9
4.5
5
4.8
5
6.8
5
2.9
1.5
3.1
3.6
4
2.3
3
2.8
2.8
2.7
2.8
2
3.4
3
3.3
3.6
2.2
2.2
0.7
3.3
2.4
2.6
2.2
1.5
3.1
2.1
2.1
4.4
3.8
2.5
2.8
2.2
2.7
2.3
2.5
4
3.8
1.4
4
2.5
2.1
2.1
2.8
2.7
2.9
3
5.2
9.9
6.8
4.9
6.3
8.2
7.4
6.8
9
6.7
7.2
8
7.4
7.9
5.8
5.9
8.2
5
8.4
7.1
8.4
8.4
6
0
1
0
0
0
1
0
1
1
1
0
1
0
0
0
0
1
0
1
0
1
1
0
47
39
56
59
47.3
41
37
53
43
51
36
34
60
49
39
43
36
31
25
60
38
42
33
5.1
3.3
5.1
4.5
5.6
4.1
4.4
5.6
3.7
5.5
4.3
4
6.1
4.4
5.5
5.2
3.6
4
3.4
5.2
3.7
4.3
4.4
1
0
1
1
1
0
1
0
0
0
1
0
1
1
1
1
0
1
0
1
0
0
1
0
1
0
0
1
1
1
1
1
1
1
1
0
1
0
1
1
0
1
0
1
1
0
1
1
0
0
1
0
0
0
1
0
0
1
0
1
0
1
0
1
1
1
0
0
0
3
1
3
3
2
1
1
2
1
2
1
1
3
2
2
2
1
1
1
3
1
1
1
172
Value
1
0
Total
Count
60
40
100
(Event)
Coef
-1.37522
0.0759455
-0.349077
2.21451
-2.04458
2.63834
5.10396
-3.39040
SE Coef
5.27926
4.00067
4.00277
0.869462
1.75315
8.25052
2.97675
1.09301
Z
-0.26
0.02
-0.09
2.55
-1.17
0.32
1.71
-3.10
P
0.794
0.985
0.931
0.011
0.244
0.749
0.086
0.002
Odds Ratio
Lower
Upper
1.08
0.71
9.16
0.13
13.99
164.67
0.03
0.00
0.00
1.67
0.00
0.00
0.48
0.00
2744.24
1801.48
50.33
4.02
1.47505E+08
56297.08
0.29
Log-Likelihood = -12.479
Test that all slopes are zero: G = 109.645, DF = 7, P-Value = 0.000
Goodness-of-Fit Tests
Method
Pearson
Deviance
Hosmer-Lemeshow
Brown:
General Alternative
Symmetric Alternative
Chi-Square
41.5472
24.9571
2.0928
DF
91
91
8
P
1.000
1.000
0.978
2.5040
0.0018
2
1
0.286
0.966
Group
5
6
0
0.0
0
0.0
0
0.3
2
2.1
9
8.0
10
10.0
10
10
10.0
10
10
9.7
10
8
7.9
10
1
2.0
10
10
Total
9
9.6
10
9.9
10
10.0
10
10.0
10
10.0
60
1
0.4
10
0
0.1
10
0
0.0
10
0
0.0
10
0
0.0
10
40
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs
Concordant
Discordant
Ties
Total
Number
2375
25
0
2400
Percent
99.0
1.0
0.0
100.0
Summary Measures
Somers' D
Goodman-Kruskal Gamma
Kendall's Tau-a
173
0.98
0.98
0.47
100
Delta Chi-Square
20
15
10
0
0.0
0.2
0.4
0.6
Probability
0.8
1.0
Delta Chi-Square
20
15
10
0
0.0
0.1
0.2
0.3
0.4
Leverage
0.5
174
0.6
0.7
N
Included in Analysis
Missing Cases
Total
Unselected Cases
Total
Percent
100.0
.0
100.0
.0
100.0
100
0
100
0
100
Internal Value
0
1
Iteration
Step
1
0
2
-2 Log
likelihood
134.603
134.602
Coefficien
ts
Constant
.400
.405
Observed
X11
.00
.00
1.00
1.00
0
0
Overall Percentage
a. Constant is included in the model.
b. The cut value is .500
175
40
60
Percentage
Correct
.0
100.0
60.0
Step 0
B
.405
Constant
S.E.
.204
Wald
3.946
df
1
Sig.
.047
1
1
1
1
1
1
1
7
Sig.
.000
.000
.000
.706
.028
.670
.000
.000
Exp(B)
1.500
Variables
Score
39.773
18.312
37.681
.142
4.821
.181
46.796
66.959
X1
X2
X3
X4
X5
X6
X7
Overall Statistics
df
-2 Log
likelihood
59.008
38.779
29.850
26.324
25.175
24.965
24.957
24.957
Iteration
Step
1
1
2
3
4
5
6
7
8
Constant
-1.327
-1.776
-2.073
-1.986
-1.600
-1.397
-1.375
-1.375
X1
.842
1.318
1.594
1.518
.871
.216
.081
.076
X2
.489
.850
1.054
.950
.356
-.226
-.345
-.349
Coefficients
X3
X4
.453
-.048
.747
-.077
1.109
-.251
1.502
-.683
1.887
-1.383
2.149
-1.919
2.212
-2.040
2.215
-2.045
X5
-.913
-1.409
-1.481
-.851
.811
2.313
2.627
2.638
a. Method: Enter
b. Constant is included in the model.
c. Initial -2 Log Likelihood: 134.602
d. Estimation terminated at iteration number 8 because log-likelihood decreased by less than .010 percent.
Omnibus Tests of Model Coefficients
Step 1
Step
Block
Model
Chi-square
109.645
109.645
109.645
df
7
7
7
Sig.
.000
.000
.000
176
X6
.347
.909
1.659
2.695
3.969
4.882
5.096
5.104
X7
-.570
-1.126
-1.757
-2.403
-2.965
-3.307
-3.387
-3.390
Model Summary
Step
1
-2 Log
likelihood
24.957
Nagelkerke
R Square
.900
Chi-square
2.093
df
Sig.
.978
Step
1
1
2
3
4
5
6
7
8
9
10
X11 = .00
Observed
Expected
10
10.000
10
9.969
10
9.727
8
7.909
1
1.965
1
.368
0
.059
0
.002
0
.000
0
.000
X11 = 1.00
Observed
Expected
0
.000
0
.031
0
.273
2
2.091
9
8.035
9
9.632
10
9.941
10
9.998
10
10.000
10
10.000
Total
10
10
10
10
10
10
10
10
10
10
Classification Tablea
Predicted
X11
Step 1
Observed
X11
.00
.00
1.00
1.00
38
2
2
58
Overall Percentage
Percentage
Correct
95.0
96.7
96.0
B
Step
a
1
X1
X2
X3
X4
X5
X6
X7
Constant
.076
-.349
2.215
-2.045
2.638
5.104
-3.390
-1.375
S.E.
4.001
4.003
.869
1.753
8.251
2.977
1.093
5.279
Wald
.000
.008
6.487
1.360
.102
2.940
9.622
.068
df
1
1
1
1
1
1
1
1
a. Variable(s) entered on step 1: X1, X2, X3, X4, X5, X6, X7.
177
Sig.
.985
.931
.011
.244
.749
.086
.002
.794
Exp(B)
1.079
.705
9.157
.129
13.990
164.671
.034
.253
Correlation Matrix
Step
1
Constant
1.000
-.173
-.181
-.300
-.189
.146
.166
-.252
Constant
X1
X2
X3
X4
X5
X6
X7
X1
-.173
1.000
.978
-.285
.516
-.987
-.426
.235
X2
-.181
.978
1.000
-.192
.454
-.980
-.372
.162
X3
-.300
-.285
-.192
1.000
-.701
.309
.717
-.746
X4
-.189
.516
.454
-.701
1.000
-.530
-.938
.631
X5
.146
-.987
-.980
.309
-.530
1.000
.430
-.279
X6
.166
-.426
-.372
.717
-.938
.430
1.000
-.716
Step number: 1
Observed Groups and Predicted Probabilities
80
R
60
E
40
1
N
1
C
1
Y
0
1
20 0
1
0
1
0
1
000
11 1
Predicted
Prob:
0
.25
.5
.75
1
Group: 000000000000000000000000000000111111111111111111111111111111
Predicted Probability is of Membership for 1.00
The Cut Value is .50
Symbols: 0 - .00
1 - 1.00
Each Symbol Represents 5 Cases.
Casewise Listb
Case
85
87
Selected
a
Status
S
S
Observed
X11
0**
0**
Predicted
.950
.926
Predicted
Group
1
1
Temporary Variable
Resid
ZResid
-.950
-4.381
-.926
-3.529
178
X7
-.252
.235
.162
-.746
.631
-.279
-.716
1.000
Landau Sabine y Everitt Brian, Statistical Analysis USing SPSS, Chapman & Hall/ CRC, Chicago, EEUU.,
2004
179
Las tablas de contingencia para las diferentes variables son las siguientes (comando
Crosstabs):
180
Las proporciones de supervivencia son mayores en las mujeres que en los hombres.
181
182
La curva Lowess (locally weighted regresin fit) permite revelar la relacin entre las dos edades en vez
de asumir que es lineal
________________________________________________________________.
183
Para el caso que se est tratando de encontrar la relacin entre edad y supervivencia
se tiene:
A pesar de que las tablas de contingencia y grficas de dispersin son tiles para los
anlisis iniciales, no describen las posibles confusiones o interacciones entre las
variables consideradas.
Haciendo un anlisis de tablas de contingencia adicionales con las variables se
encuentra que:
Los hombres tienden a tener un boleto de tercera clase que las mujeres.
Para clarificar la presentacin de los datos, se puede hacer una clasificacin mltiple
de supervivencia de pasajeros dentro de estratos definidos por variables explicativas.
184
Para lo cual se categorizar las variables edad, parch y sibsp, formando nuevas
variables:
Age_cat para categorizar a los pasajeros en nios (<21 aos) y adultos (>21
aos).
186
Las conclusiones del estudio indican que para los pasajeros sin hermanos o
esposa o sin nios, a los cuales perteneca el 60% de los pasajeros se observa
que:
Las mujeres con boleto de primera clase tenan una probabilidad mayor de
supervivencia.
Por omisin SPSS asume que las variables explicativas se miden en una
escala de intervalo. Para informar a SPSS que la variable pclass es
categrica, se le indica con el botn Categorical y se incluye en la ventana
187
188
La primera parte de esta tabla es una tabla de clasificacin para el modelo nulo,
que compara las predicciones de supervivencia realizadas con base en el
modelo ajustado con el estatus verdadero de supervivencia. Se pronostica a los
pasajeros en la categora de supervivencia si sus probabilidades son superiores
a 0.05 (la cul puede cambiarse en el dilogo Options), de manera que la
proporcin de no supervivencia de 0.382 est por debajo del lmite de 0.5 y as
el modelo calsifica a los no sobrevivientes con una exactitud del 61.8%.
A continuacin la tabla de Variables en la ecuacin proporciona la prueba de Wald
para la hiptesis nula de interseccin cero (o un nmero igual de las proporciones de
supervivientes y no supervivientes). Tambin muestra las pruebas para las variables
an no incluidas en el modelo, aqu pclass. Es claro que la supervivencia est
189
relacionada significativamente con la clase del boleto del pasajero (Chi cuadrada =
127.9, p < 0.001), tambin se incluyen comparaciones entre las clases de pasajeros
con la categora de referencia (tercera clase).
190
191
192
Habiendo analizado que todos los predoctores potenciales tienen asociacin con la
supervivencia cuando se consideran de manera singular, el siguiente paso es estimar
sus efectos simultneamente. De esta manera, se puede estimar el efecto para cada
uno, ajustado por el remanente. El modelo de regresin logstica incluye en su
ventana de Covariates, las cuatro variables categricas y los tres trminos de edad
(con el botn Categorical). Los resultados se muestran a continuacin:
193
Se puede notar que de la tabla Case Processing Summary, los casos incluidos en
el anlisis se reduce a 1046 dado que falta informacin en la variable de edad para
263 pasajeros.
La tabla mnibus.. proporciona el efecto de todas las variables explicativas
simultneamente, la gua de la significancia son las pruebas de Wald. En esta corrida
se observa que la variable Patch1 no contribuye a la explicacin de las
probabilidades de supervivencia, una vez que se introducen las otras variables, de
manera que se excluye del modelo y se hace una nueva corrida, donde ahora el
tercer trmino de la edad no es necesario.
194
El modelo final de efectos principales contiene trminos de edad, clase del boleto,
gnero, y nmero de hermanos/esposas, cada contribuye significativamente a un
nivel del 5% despus de ajustar los otros trminos del modelo.
Ahora se prueban los trminos de interaccin de dos vas, una por una, por medio de
la opcin de bloqueo para agregar los trminos de interaccin de inters, a los
efectos principales significativos identificados previamente. Por ejemplo para Age y
Sex:
195
El primer trmino permite que el efecto del trmino lineal de Age varie con Sex, la
segunda hace lo mismo con el trmino cuadrtico y Age.
Se procede a analizar las otras interacciones.
De la tabla siguiente se observa que se deben incluir en el modelo las interacciones
entre: gnero y clase de boleto; gnero y edad; clase de boleto y nmero de
hermanos/esposa; y edad y nmero de hermanos/esposa. Si se considera el 10%
tambin se debe incluir este ltimo trmino.
196
197
ln(odds).
Usar el comando Split File para organizar la salida en grupos definidos por
sibsp2.
198
199
200
Ejemplo:
Suponiendo que un bilogo cree que la poblacin adulta de salamandras en el Norte
se ha hecho ms pequea durante los ltimos aos. Se quiere determinar si existe
alguna asociacin entre el tiempo que vive una salamandra recien nacida y el nivel
de toxicidad del agua, as como si hay un efecto regional. El tiempo de supervivencia
se codifica como sigue: 1 si es <10 das; 2 = 10 a 30 das; 3 = 31 a 60 das.
Supervivencia
Region
NivelToxico
Supervivencia
Region
NivelToxico
62.00
40.50
46.00
60.00
48.50
57.50
32.00
48.75
63.50
44.50
41.25
49.50
40.00
33.75
34.25
43.50
34.75
48.00
46.25
34.00
43.50
50.00
46.00
35.00
42.50
49.00
53.00
43.50
43.50
37.25
56.00
39.00
201
40.00
34.50
48.00
47.50
46.50
42.00
72.00
45.50
31.00
38.50
48.00
36.50
36.50
37.50
43.75
38.50
34.25
47.00
41.25
39.75
41.75
60.00
45.25
41.00
43.50
41.00
53.00
30.00
38.00
45.00
59.00
51.00
52.50
35.25
42.75
40.50
31.50
39.50
43.50
36.00
40.00
Instrucciones de Minitab
1
202
Para factores numricos, el nivel de referencia es el valor con el menor valor numrico.
Para fechas, el nivel de referencia es el nivel con la fecha/hora ms antigua.
Para factores de texto, el nivel de referencia es el nivel que est primero en orden
alfabtico.
203
Para factores numricos, el nivel de referencia es el valor con el mayor valor numrico.
Para fechas, el nivel de referencia es el nivel con la fecha/hora ms reciente.
Para factores de texto, el nivel de referencia es el nivel que es ltimo en orden alfabtico.
Response Information
Variable
Supervivencia
Value
1
2
3
Total
Count
15
46
12
73
Factor Information
Factor
Region
Levels
2
Values
1, 2
204
Hay un coeficiente estimado para cada covariado, que da lneas paralelas para el
nivel del factor. En este caso, el coeficiente estimado para un covariado simple,
Nivel Toxico, es 0.121, con un valor p < 0.0005. El valor p indica que para la
mayora de niveles alfa, hay evidencia suficiente para concluir que el nivel de
toxicidad afecta la supervivencia. El coeficiente positivo, y una tasa de
posibilidades mayor a uno, indica que los niveles de toxicidad ms altos tienden a
estar asociados con menores valores de superviviencia. Especficamente, un
incremento de una unidad en la toxicidad del agua resulta en un 13% de
incremento en las posibilidades que la salamadra viva menos o igual a 10 das
contra ms de 30 das, y que la salamandra viva menos que o igual a 30 das
versus ms que 30 das.
Coef
-7.04343
-3.52273
SE Coef
1.68017
1.47108
Z
-4.19
-2.39
P
0.000
0.017
0.201456
0.121289
0.496153
0.0340510
0.41
3.56
0.685
0.000
205
Odds
Ratio
1.22
1.13
95% CI
Lower Upper
0.46
1.06
3.23
1.21
Log-Likelihood = -59.290
Test that all slopes are zero: G = 14.713, DF = 2, P-Value = 0.001
Chi-Square
122.799
100.898
DF
122
122
P
0.463
0.918
206
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs
Concordant
Discordant
Ties
Total
Number
1127
288
7
1422
Percent
79.3
20.3
0.5
100.0
Summary Measures
Somers' D
Goodman-Kruskal Gamma
Kendall's Tau-a
207
0.59
0.59
0.32
Ejemplo:
Suponiendo que un director de escuela se interesa por identificar la materia favorita
de los nios, como se asocia con su edad o con el mtodo de enseanza empleado.
Se toman 30 nios, de 10 a 13 aos, con clases de ciencias, matemticas, y
lenguaje, que emplean ya sea tcnicas de enseanza de exposicin o discusin. Al
final del ao escolar, se les pregunt por su materia favorita. Se usa la regresin
logstica nominal porque la respuesta es categrica pero no tiene un rden implcito.
Los datos considerados son los siguientes:
Materia
Matemticas
Ciencias
Ciencias
Matemticas
Matemticas
Ciencias
Matemticas
Matemticas
Artes
Ciencias
Artes
Matemticas
Ciencias
Ciencias
Artes
Ciencias
MetodoEnseanza
Discusin
Discusin
Discusin
Exposicin
Discusin
Exposicin
Discusin
Exposicin
Exposicin
Discusin
Exposicin
Discusin
Exposicin
Discusin
Exposicin
Exposicin
Edad
10
10
10
10
10
10
10
11
11
11
11
11
11
11
11
12
208
Ciencias
Ciencias
Artes
Matemticas
Matemticas
Artes
Artes
Matemticas
Artes
Artes
Matemticas
Ciencias
Matemticas
Artes
Exposicin
Discusin
Exposicin
Discusin
Discusin
Exposicin
Discusin
Discusin
Exposicin
Exposicin
Discusin
Discusin
Exposicin
Exposicin
12
12
12
12
12
12
13
13
13
13
13
13
13
13
Instrucciones de Minitab:
1
Value
Matemticas
Ciencias
Artes
Total
Count
11
10
9
30
(Reference Event)
209
Levels
2
Values
Discusin, Exposicin
210
El coeficiente positivo del mtodo de enseanza indica que los estudiantes que se
les aplica el mtodo de enseanza de exposicin, prefieren las artes del lenguaje
sobre la ciencia comparado a estudiantes que se les da un mtodo de enseanza
de discusin.
Predictor
Logit 1: (math/science)
Constant
TeachingMethod
lecture
Age
Logit 2: (arts/science)
Constant
TeachingMethod
lecture
Age
Coef
SE Coef
-1.12266
4.56425
-0.25
0.806
-0.563115
0.124674
0.937591
0.401079
-0.60
0.31
0.548
0.756
-13.8485
7.24256
-1.91
0.056
2.76992
1.01354
1.37209
0.584494
2.02
1.73
0.044
0.083
Upper
3.58
2.49
234.91
8.66
211
Odds
Ratio
95%
CI
Lower
0.57
1.13
0.09
0.52
15.96
2.76
1.08
0.88
Chi-Square
6.95295
7.88622
DF
10
10
P
0.730
0.640
212
BIBLIOGRAFA
Montgomery, Doglas C., Peck, Elizabeth A., Introduction to Linear Regression
Analysis, John Wiley and Sons, 2 edition, Inc., New York, 1992
Chatterjee, Samprit, Price, Bertram, Regression Analysis by Example, John Wiley
and Sons, Inc., 2 edition, 1991
Draper, Norman R., Smith, Harry, Applied Regression Analysis, John Wiley and Sons,
Inc., New York, 1998
213
PROBLEMA 2.1
Calcular lo siguiente (Y vs X8):
a) La recta de regresin
The regression equation is
Y = 21.8 - 0.00703 X8
b) La tabla ANOVA y prueba de significancia
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
26
27
SS
178.09
148.87
326.96
MS
F
P
178.09 31.10
0.000
5.73
Ftablas=F1,26,0.05=4.23
Coef
21.788
-0.007025
StDev
2.696
0.001260
T
8.08
-5.58
P
0.000
0.000
Predicted Values
Fit StDev Fit 95.0%CI para media
7.738
0.473 (
6.766;
8.710)
0.738234 26
5.58055
1 0.545
R-Sq = 54.8%
R-Sq(adj) = 51.1%
215
Alfa = 0.1
216
4.936<=Ypuntual<=13.35
PROBLEMA 2.3
Calcular lo siguiente:
a) La recta de regresin
The regression equation is
Y1 = 607 - 21.4 X4
b) La tabla ANOVA y prueba de significancia
Analysis of Variance
Source
DF
Regression
1
Residual Error 27
Total
28
SS
10579
4103
14682
MS
F
P
10579
69.61
0.000
152
Ftablas=F1,27,.05=4.21
StDev
42.91
2.565
T
14.15
-8.34
P
0.000
0.000
R-Sq(adj) = 71.0%
217
t0
0.84882 27
8.3427
1 0.7205
218
PROBLEMA 2.7
a) Ecuacin de regresin
The regression equation is
Y78 = 77.9 + 11.8 X78
b) Probar la hiptesis nula de que Ho: 1 = 0
Analysis of Variance
Source
Regressio
Residual
error
Total
DF
1
18
SS
148.31
232.83
19
MS
148.31
12.94
381.15
F
11.47
P
0.003
Ftablas = F0.05,1,18=4.41
Coef
77.863
11.801
StDev
4.199
3.485
T
18.54
3.39
P
0.000
0.003
t0.025,18 = 2.101
b1 t*std dev (Predict.X78) =11.801 2.101* (3.485) =
4.47699 <= 1 <= 19.12301
e) Encontrar el intervalo de confianza para la pureza media si el % de hidrocarbono
es de 1.00
Predicted Values
Fit StDev Fit 95.0% CI p. la media 95.0% PI p. valor futuro
89.664 1.025
( 87.510; 91.818) ( 81.807; 97.521)
219
PROBLEMA 2.8
a) Cul es la correlacin entre las dos variables?
R-Sq = 38.9%
entonces r = 0.6237
0.6237 18
3.38527
1 0.389
PROBLEMA 2.9
a) Ecuacin de regresin
The regression equation is
Y9 = - 6.33 + 9.21 X9
b) Probar la significancia de la regresin
Analysis of Variance
Source
Regressi
Residual
error
Total
DF
1
10
SS
280590
38
11
280627
MS
280590
F
74122.78
P
0.000
220
Predicted Values
Fit StDev Fit
421.862 0.562
431.070 0.563
95.0% CI
( 420.610; 423.113)
( 429.816; 432.324)
95.0% PI
( 417.350; 426.374)
( 426.557; 435.583)
99.0% CI
( 525.593; 529.925)
99.0% PI
( 521.220; 534.298)
PROBLEMA 2.10
a) Encontrar el coeficiente de correlacin r
R-Sq = 100.0%
por tanto r = 1
0.999 10
272.25
1 0.999
221
(3.1)
(3.2)
S ( ) i2 ' (Y X )' (Y X )
i 1
quedando
XX b = X Y
(3.4)
b = (XX)-1 XY
(3.5)
B) VARIANZAS Y COVARIANZAS DE b
Var(b) = C = (XX)-1 2
(3.6)
2
El elemento (ii) de esta matriz cii Var (bi ) es la varianza del elemento bi .
El error estndar de bi es la raz cuadrada positiva de la varianza de b i o sea:
se.bi cii 2
(3.7)
(3.8)
SSE (Y Xb)' (Y Xb) Y ' Y b' X ' Y Y ' Xb b' X ' Xb Y ' Y 2b' X ' Y b' X ' Xb
222
s 2 MSE
SSE
Np
(3.15)
(3.17)
Donde se(bj) es el error estndar del coeficiente de regresin bj.
se(b j )
S 2 C jj
(3.18)
S 2 X ' 0 ( X ' X ) 1 X 0 Y0 Y0 t / 2 ,n p
S 2 X ' 0 ( X ' X ) 1 X 0
(3.21)
Ho se rechazar si Ft >= Fo
Fuente de
variacin
Regresin
Residuos
Total
SS
SSR
SSE
SST=SSR+SSE
df
k= p-1
nk1= N-p
n 1=k+(n-k+1)
MS
MSR
MSE
F0
.
MSR/MSE
Ft=F,p-1,N-p
Donde:
N
__
(3.24)
u 1
N ^
__
SSR (Y ( xu ) Y ) 2
u 1
223
(3.25)
SSE (Yu Y ( xu )) 2
(3.26)
u 1
(3.27)
(3.28)
H1 : j 0
Si no se rechaza Ho quiere decir que el regresor Xj puede ser excluido del modelo,
Ho es rechazada si t 0 t / 2 ,n k 1 , donde:
t0
bj
se(b j )
224
S 2 (1 X ' 0 ( X ' X ) 1 X 0 )
FORMULAS
225
226
227
228
229
230
231
232
233
Bibliografa
[1]
A. Agresti (1984). Analysis of Ordinal Categorical Data. John Wiley & Sons, Inc.
[2]
A. Agresti (1990). Categorical Data Analysis. John Wiley & Sons, Inc.
[3] D.A. Belsley, E. Kuh, and R.E. Welsch (1980). Regression Diagnostics. John Wiley &
Sons, Inc.
[4] A. Bhargava (1989). "Missing Observations and the Use of the Durbin-Watson Statistic,"
Biometrik, 76, 828831.
[5] C.C. Brown (1982). "On a Goodness of Fit Test for the Logistic Model Based on Score
Statistics," Communications in Statistics, 11, 10871105.
[6] D.A. Burn and T.A. Ryan, Jr. (1983). "A Diagnostic Test for Lack of Fit in Regression
Models," ASA 1983 Proceedings of the Statistical Computing Section, 286290.
[7] R.D. Cook (1977). "Detection of Influential Observations in Linear Regression,"
Technometrics, 19, 1518.
[8] R.D. Cook and S. Weisberg (1982). Residuals and Influence in Regression. Chapman and
Hall.
[9] N.R. Draper and H. Smith (1981). Applied Regression Analysis, Second Edition. John
Wiley & Sons, Inc.
[10] S.E. Fienberg (1987). The Analysis of Cross-Classified Categorical Data. The MIT
Press.
[11] I.E. Frank and J.H. Friedman (1993). "A Statistical View of Some Chemometrics
Regression Tool," Technometrics, 35, 109135.
[12] I.E. Frank and B.R. Kowalski (1984). "Prediction of Wine Quality and Geographic
Origin from Chemical Measurements by Partial Least-Squares Regression Modeling,"
Analytica Chimica Acta, 162, 241251.
[13] M.J. Garside (1971). "Some Computational Procedures for the Best Subset Problem,"
Applied Statistics, 20, 815.
[14] P. Geladi and B. Kowalski (1986). "Partial Least-Squares Regression: A Tutorial,"
Analytica Chimica Acta, 185, 117.
[15] P. Geladi and B. Kowalski (1986). "An Example of 2-Block Predictive Partial LeastSquares Regression with Simulated Data," Analytica Chimica Acta, 185, 19-32.
[16] James H. Goodnight (1979). "A Tutorial on the Sweep Operator," The American
Statistician, 33, 149158.
234
[17] W.W. Hauck and A. Donner (1977). "Wald's test as applied to hypotheses in logit
analysis," Journal of the American Statistical Association, 72, 851-853.
[18] D.C. Hoaglin and R.E. Welsch (1978). "The Hat Matrix in Regression and ANOVA,"
The American Statistician, 32, 1722.
[19] R.R. Hocking (1976). "A Biometrics Invited Paper: The Analysis and Selection of
Variables in Linear Regression," Biometrics, 32, 149.
[20] A. Hoskuldsson (1988). "PLS Regression Methods," Journal of Chemometrics, 2,
211228.
[21] D.W. Hosmer and S. Lemeshow (2000). Applied Logistic Regression. 2nd ed. John
Wiley & Sons, Inc.
[22] LINPACK (1979). Linpack User's Guide by J.J. Dongarra, J.R. Bunch, C.B. Moler, and
G.W. Stewart, Society for Industrial and Applied Mathematics, Philadelphia, PA.
[23] A. Lorber, L. Wangen, and B. Kowalski (1987). "A Theoretical Foundation for the PLS
Algorithm," Journal of Chemometrics, 1, 1931.
[24]
J.H. Maindonald (1984). Statistical Computation. John Wiley & Sons, Inc.
[25]
P. McCullagh and J.A. Nelder (1992). Generalized Linear Model. Chapman & Hall.
235
[35]
S. Weisberg (1980). Applied Linear Regression. John Wiley & Sons, Inc.
[36] H. Wold (1975). "Soft Modeling by Latent Variables; the Nonlinear Iterative Partial
Least Squares Approach," in Perspectives in Probability and Statistics, Papers in Honour
of M.S. Bartlett, ed. J. Gani, Academic Press.
236