Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADISTICA
ESTADISTICA
REGRESIN LINEAL
En este captulo, primero se tratar la Regresin Lineal Simple, cuyos aspectos
descriptivos ya fueron considerados en la Seccin 3.8 del texto. La inferencia estadstica
en regresin simple es discutida en gran detalle. Luego se considerar el caso donde hay
ms de una variable predictora y se hacen las inferencias correspondientes. Finalmente se
discutir los mtodos de elegir las mejores variables predictoras que produzcan un modelo
confiable con el menor nmero de variables.
i 1
i 1
s xy
s xx
y x
Edgar Acua
211
las cantidades Sxx y Sxy aparecen definidas en la Seccin 3.8 del texto.
La ecuacin Y X , es llamada la lnea de regresin estimada. Para obtener
esta lnea en MINITAB se sigue la secuencia: STATRegressionRegression. En la
salida, adems de la ecuacin, aparecen los valores de la prueba de t para probar hiptesis
acerca del intercepto y la pendiente. Tambin se muestra la tabla del Anlisis de Varianza
para regresin que permiten hacer inferencia estadstica acerca de la pendiente de la lnea
de regresin poblacional.
Ejemplo 9.1. Se desea hallar una lnea de regresin que permita predecir el precio de una
casa (Y) basado en el rea de la misma (X). Se recolectaron 15 datos:
Casa
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
rea
3060
1600
2000
1300
2000
1956
2400
1200
1800
1248
2025
1800
1100
3000
2000
precio
179000
126500
134500
125000
142000
164000
146000
129000
135000
118500
160000
152000
122500
220000
141000
Edgar Acua
212
Figura 9.2. Ventana de dilogo que aparece al seleccionar el botn results en regression.
El botn Storage permite guardar algunas medidas importantes que aparecen en el anlisis
de regresin y que posteriormente se pueden usar, por ejemplo, en el anlisis de residuales.
La ventana de dilogo se muestra en la Figura 9.3.
Figura 9.3. Ventana de dilogo que aparece al oprimir el botn storage en regression
Edgar Acua
213
Regression Analysis
The regression equation is
precio = 73168 + 38.5 area
Predictor
Constant
area
S = 14118
Coef
73168
38.523
StDev
12674
6.391
R-Sq = 73.6%
T
5.77
6.03
P
0.000
0.000
R-Sq(adj) = 71.6%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
13
14
SS
7241245891
2591087442
9832333333
Unusual Observations
Obs
area
precio
14
3000
220000
MS
7241245891
199314419
Fit
StDev Fit
188737
7923
F
36.33
P
0.000
Residual
St Resid
31263
2.68R
Edgar Acua
214
Asimismo se pueden establecer intervalos de confianza para el valor medio y para el valor
individual de la variable de respuesta dado un valor particular de la variable predictora.
9.2.1 Inferencia acerca de los coeficientes de regresin
Con respecto a prueba de hiptesis lo ms frecuente es probar Ho: = 0 versus Ha:
0 y Ho: = 0 versus Ha: 0. De aceptarse la primera hiptesis significara que la
lnea de regresin pasara por el origen, es decir, que cuando la variable predictora es cero,
entonces el valor promedio de la variable de respuesta es tambin cero. De aceptarse la
segunda hiptesis significara que la pendiente de la lnea de regresin es cero, es decir,
que la variable predictora no se relaciona linealmente con la variable de respuesta. En
ambos casos la prueba estadstica que se usa es una prueba de t de Student.
Slo discutiremos la prueba de hiptesis para la pendiente. La prueba estadstica
viene dada por:
s
s.e( )
S xx
n
( y
i 1
yi ) 2
es
n2
la desviacin estndar del error, Sxx es la suma de cuadrados corregida de la variable X y
s.e( ) es el error estndar de . En el Ejemplo 9.1, s=14,118 y s.e( )= s / s xx =6.391.
En MINITAB aparece el valor de la prueba estadstica y el p-value de la prueba,
l cual se puede usar para llegar a una decisin. Un "p-value" cercano a 0, digamos menor
que 0.05, lleva a la conclusin de rechazar la hiptesis nula. Si se rechaza la hiptesis
nula quiere decir de que de alguna manera la variable X es importante para predecir el
valor de Y usando la regresin lineal. En cambio si se acepta la hiptesis nula se llega a la
conclusin de que, la variable X no es importante para predecir el comportamiento de Y
usando una regresin lineal.
En el Ejemplo 9.1 el valor de la prueba estadstica de t es 6.03 y el P-value = .0000
por lo que se rechaza la hiptesis nula. Luego hay suficiente evidencia estadstica para
concluir que la variable rea de la casa puede ser usada para predecir el precio de la casa.
Tambin se pueden establecer intervalos de confianza para los parmetros de
regresin. Por ejemplo, un intrevalo de confianza del 100 (1-) % para la pendiente ser
de la forma:
t ( / 2,n2)
s
S xx
Edgar Acua
215
(y
i 1
y) 2
n
( y
i 1
(y
i 1
y) 2
y i ) 2
Cada una de estas sumas de cuadrados tiene una distribucin Ji-Cuadrado, SSR tiene
una distribucin Ji-Cuadrado no central con 1 grado de libertad, SSE tiene una
distribucin Ji-Cuadrado con n-2 grado de libertad, y SST se comporta como una JiCuadrado no central con n-1 grados de libertad. Al dividir las sumas de cuadrados por sus
grados de libertad se obtienen los Cuadrados Medios. Si la hiptesis de que la pendiente
es 0 es cierta, entonces la divisin del cuadrado medio de la regresin por el cuadrado
medio del error se distribuye como una F con 1 grado de libertad en el numerador y n-2 en
el denominador. Luego, la hiptesis Ho: = 0 se rechaza si el "p-value" de la prueba de F
es menor que .05. Los clculos se resumen en la siguiente tabla llamada tabla del anlisis
de varianza para la regresin lineal simple.
Fuentes de
Variacin
Debido a la
regresin
Debido al Error
Total
Grados de
Libertad
1
Suma de
Cuadrados
SSR
Cuadrados
Medios
MSR=SSR/1
n-2
n-1
SSE
SST
MSE=SSE/n-2
F
MSR/MSE
Edgar Acua
216
R2
SSR
SST
1 ( x0 x) 2
Y0 t (1 / 2,n 2 ) s
n
S xx
Por otro lado muchas veces estamos interesados en estimar solamente un valor de Y
correspondiente a un valor dado X0. El estimado puntual ser el mismo Yo , y usando
Edgar Acua
217
1 ( x x) 2
Y0 t (1 / 2,n 2) s 1 0
n
S xx
Este intervalo de confianza es llamado intervalo de prediccin.
Es ms riesgoso hacer predicciones para un slo valor que para un valor medio, por
esta razn el intervalo de prediccin de Y es ms ancho que el intervalo de confianza para
el valor medio.
El botn Options de la ventana regression permite hallar estos intervalos de
confianza. La Figura 9.4 muestra la ventana de dilogo que aparece cuando se oprime el
botn Options. En este ejemplo se trata de determinar el intervalo de confianza e
intervalo de prediccin para el precio de la casa cuando sta tiene un rea de 3,500 pies
cuadrados usando un nivel de confianza del 95 %. Para ello hay que seleccionar las
opciones Confidence limits y Prediction limits.
Edgar Acua
218
Area
3500
Edgar Acua
219
Notar que las bandas de confianza son anchas en los extremos del eje X y angostas
en el centro del mismo. En realidad las bandas se van angostando cuando los valores de X
que se toman estn cerca del promedio x .
Edgar Acua
220
Hay tres posibles elecciones de residuales y hasta 5 plots de residuales que se pueden
hacer. Las ventanas de grficas aparecern en cascada como se muestra en la Figura 9.7.
En esta manera cada plot de residual sale en una ventana grfica separada. Hay cinco plots
que se usan:
1) Plot de Normalidad: Permite cotejar normalidad. Si los puntos estn bien cerca de
una lnea recta se concluye, que hay normalidad.
2) Histograma de Residuales: Tambin permite cotejar normalidad. Cuando el
histograma es simtrico, con un nico pico en el centro, se concluye que hay
normalidad.
3) Plot de Residuales versus los valores predichos (FITS): Se usa para detectar si hay
datos anormales, cuando hay datos que caen bastantes alejados, tanto en el sentido
vertical como horizontal. Tambin permite detectar si la varianza de los errores es
constante con respecto a la variable de respuesta.
4) Plot de Residuales versus el indice de la observacin: Es ms especfico para
detectar que observacin es un dato anormal. Si se usan residuales estandarizados,
entonces un dato con residual ms all de 2 -2 es considerado un "outlier" en el
sentido vertical.
5) Plot de Residuales versus la variable predictora: Es usado para detectar datos
anormales as como si la varianza de los errores es constante con respecto a la variable
predictora.
Edgar Acua
221
La segunda manera de obtener los plots de residuales es, escogiendo la opcion Four
in One en el botn Graph de la ventana de dilogo de Regression como aparece en la
Figura 9.8.
Edgar Acua
222
Aparecern en una misma pgina los cuatro primeros plots de la lista mencionada
anteriormente, como se muestra en la Figura 9.9.
Edgar Acua
223
Interpretacin: Los puntos del plot de normalidad no caen cerca de una lnea recta y en
el extreno superior se detecta un outlier. Similarmente, el histograma no es simtrico
con un pico central y tambin muestra un outlier en el extremo superior. En
conclusin, no hay normalidad de los errores. El plot de residuales versus el ndice de la
observacin muestra que la observacion 14 es un "outlier", pues el residual estandarizado
cae ms all de dos. El plot de los residuales versus los valores predichos muestra que la
varianza de los errores no es constante con respecto a la variable de respuesta, pues
tiende ha aumentar cuando el valor de la variable de respuesta aumenta.
Hay maneras de corregir algunas de las anomalas encontradas en el anlisis de residuales,
las cuales pueden ser ledas en un texto especializado de regresin.
i)
ii)
Y a bX cX 2
donde a, b y c son constantes a estimar. Usando la tcnica de mnimos cuadrados se
pueden obtener frmulas explcitas para calcular a, b y c.
En MINITAB, para obtener la ecuacin del modelo cuadrtico, hay que elegir la
opcin Quadratic en la ventana de dilogo de Fitted Line Plot que es una opcin del
men Regression. La ventana de dilogo se muestra en la Figura 9.11.
Edgar Acua
224
Ejemplo 9.2. Ajustar un modelo cuadrtico para los datos del Ejemplo 9.1.
La ventana de dilogo se muestra en la Figura 9.11, y los resultados en la ventana session
sern:
Polynomial Regression
precio = 117591 - 8.29281 area + 1.13E-02 area**2
R-Sq = 76.5 %
Analysis of Variance
SOURCE
Regression
Error
Total
SOURCE
Linear
Quadratic
DF
2
12
14
DF
1
1
SS
7.52E+09
2.31E+09
9.83E+09
Seq SS
7.24E+09
2.77E+08
MS
3.76E+09
1.93E+08
F
36.3308
1.43495
F
19.4906
P
4.25E-05
0.254083
P
1.70E-04
Edgar Acua
225
Interpretacin: El R2 del modelo cuadrtico es 76.5% comparado con 73.6% del modelo
lineal (ver ejemplo 9.1), se ha ganado un 3% en confiabilidad, lo cual no es un aumento
sustancial y se puede seguir usando un modelo lineal ya que hacer inferencias con l es
mucho ms simple que con un modelo cuadrtico.
Tambin se pueden tratar modelos polinmicos ms generales (el modelo cbico
sigue despus del cuadrtico), pero debido a que stos presentan muchos cambios en la
tendencia no son muy adecuados. Otro problema es que se puede llegar a un modelo
sobreajustado, es decir a un modelo que tiene un R2 perfecto porque pasa por todos los
puntos, pero que al momento de predecir fracasa terriblemente. Por ejemplo, si tenemos 8
observaciones, un modelo polinmico de grado 9 tendra un R2 de 100%.
9.4.2 Modelos Nolineales que pueden ser transformados en lineales
La segunda alternativa para aumentar el R2 consiste en usar modelos no lineales que
pueden ser convertidos en lineales, a travs de transformaciones tanto de la variable
independiente como dependiente.
Despus de hacer un plot para visualizar la relacin entre X e Y se puede elegir entre los
siguientes modelos linealizables:
Edgar Acua
226
Transformacin
Z=Ln Y X=X
Y=Y
W=Log X
Z=Log Y W=Log X
Modelo Linealizado
Z=Ln +X
Y= +W
Z= Log +W
Y= +/X
Y=1/( +X)
Y=Y
Z=1/Y
Y= +W
Z= +X
W=1/X
X=X
Para predecir el valor de Y usando el modelo linealizado hay que aplicar la inversa
de la transformacin correspondiente al mismo.
Ejemplo 9.3. Los siguientes datos representan como ha cambiado la poblacion en Puerto
Rico desde 1930 hasta 1990.
Ao
1930
1940
1950
1960
1970
1980
1990
Poblacin
1543913
1869255
2210703
2349544
2712033
3196520
3522037
Edgar Acua
227
Poblac=eyear
Edgar Acua
228
Figura 9.14. Ventana de dilogo para la regresin multiple del ejemplo 9.4
Coef
135.93
1.933
0.19698
0.05688
SE Coef
24.50
3.091
0.03152
0.03140
R-Sq = 56.0%
T
5.55
0.63
6.25
1.81
P
0.000
0.535
0.000
0.077
R-Sq(adj) = 53.2%
Edgar Acua
229
Analysis of Variance
Source
Regression
Residual Error
Total
Source
escuela
aprovech
aptitud
DF
1
1
1
DF
3
46
49
SS
6952.0
5454.8
12406.9
MS
2317.3
118.6
F
19.54
P
0.000
Seq SS
52.9
6510.1
389.0
Unusual Observations
Obs
18
27
48
escuela
1.00
1.00
2.00
igs
263.00
347.00
285.00
Fit
286.58
315.10
307.09
SE Fit
6.47
2.95
2.76
Residual
-23.58
31.90
-22.09
St Resid
-2.69RX
3.04R
-2.10R
Fit
321.66
SE Fit
4.05
95% CI
(313.51, 329.81)
95% PI
(298.28, 345.05)
escuela
2.00
aprovech
750
aptitud
600
Edgar Acua
230
Estimacin de la varianza 2
La estimacin de la varianza de los errores 2 es crucial para hacer inferencias
acerca de los coeficientes de regresin. Si en nuestro modelo hay p variables predictoras
entonces, 2 es estimada por:
n
s2
(Y Y )
i 1
n p 1
SSE
MSE
n p 1
Aqu, SSE representa la suma de cuadrados del error y MSE representa el cuadrado medio
del error.
j
s.e( j )
Edgar Acua
231
SSR
MSR
p
F
SSE
MSE
n p 1
Se distribuye como una F con p grados de libertad en el numerador y n p 1 grados de
libertad en el denominador.
En el Ejemplo 9.4, el "P-value" de la Prueba de F es 0.0000. Esto lleva a la
conclusin de que el al menos una de las variables predictoras presentes en el modelo es
importante para predecir el igs.
Por otro lado, el R2 del 56% indica que el modelo no es muy confiable para hacer
predicciones, porque slo el 56% de la variacin en el igs es explicada por su relacin con
las variables predoctoras.
9.6.3 Prueba de hiptesis para un subconjunto de coeficientes de regresin
Algunas veces estamos interesados en probar si algunos coeficientes del modelo de
regresin son iguales a 0 simultnemente. Por ejemplo, si el modelo tiene p variables
predictoras y quisiramos probar si los k primeros coeficientes son ceros. O sea,
H 0 : 1 2 ... k 0 . En este caso al modelo que tiene las p variables se le llama
el modelo completo y al modelo que queda, asumiendo que la hiptesis nula es cierta, se
le llama modelo reducido. Para probar si la hiptesis nula es cierta se usa una prueba de
F que es llamada F-parcial. La prueba de F parcial se calcula por:
SSR(C ) SSR( R) SSR(C ) SSR( R)
k
k
Fp
SSE (C )
MSE (C )
n p 1
Edgar Acua
232
Ejemplo 9.5. Usando los datos del Ejemplo 9.4, probar la hiptesis H 0 : 1 2 0 ,
versus Ha: al menos uno de los dos: 1 o 2 no es cero. Interpretar sus resultados.
Solucin:
Edgar Acua
233
Percent
90
50
10
1
-3.0
99
-1.5
0.0
1.5
Standardized Residual
3.0
12
8
4
0
-2.4
-1.2
0.0
1.2
Standardized Residual
2.4
1.5
0.0
-1.5
-3.0
300
320
Fitted Value
340
Frequency
16
3.0
3.0
1.5
0.0
-1.5
-3.0
10
15 20 25 30 35
Observation Order
40
45
50
Edgar Acua
234
Nombre
grasa
edad
peso
altura
cuello
pecho
abdomen
cadera
muslo
VARIABLE DE RESPUESTA
en aos
en libras
en pulgadas
en cms
en cms
en cms
en cms
en cms
Edgar Acua
C10
C11
C12
C13
C14
rodilla
tobillo
biceps
antebrazo
mueca
235
en cms
en cms
en cms
en cms
en cms
Coef
-18.19
0.06208
-0.08844
-0.06959
-0.4706
-0.02386
0.95477
-0.2075
0.2361
0.0153
0.1740
-1.6206
0.1816
0.4520
R-Sq = 74.9%
StDev
17.35
0.03235
0.05353
0.09601
0.2325
0.09915
0.08645
0.1459
0.1444
0.2420
0.2215
0.5349
0.1711
0.1991
T
-1.05
1.92
-1.65
-0.72
-2.02
-0.24
11.04
-1.42
1.64
0.06
0.79
-3.03
1.06
2.27
P
0.296
0.056
0.100
0.469
0.044
0.810
0.000
0.156
0.103
0.950
0.433
0.003
0.290
0.024
R-Sq(adj) = 73.5%
Coef
-17.93
0.06259
-0.08758
-0.06907
-0.4728
StDev
16.84
0.03125
0.05165
0.09545
0.2293
T
-1.06
2.00
-1.70
-0.72
-2.06
P
0.288
0.046
0.091
0.470
0.040
Edgar Acua
pecho
abdomen
cadera
muslo
tobillo
mueca
biceps
antebraz
-0.02442
0.95440
-0.2071
0.2386
0.1763
-1.6181
0.1808
0.4532
S = 4.296
R-Sq = 74.9%
0.09855
0.08606
0.1455
0.1384
0.2179
0.5323
0.1703
0.1979
-0.25
11.09
-1.42
1.72
0.81
-3.04
1.06
2.29
0.805
0.000
0.156
0.086
0.419
0.003
0.289
0.023
R-Sq(adj) = 73.6%
Coef
-19.69
0.06249
-0.09271
-0.06378
-0.4754
0.94421
-0.2004
0.2451
0.1785
-1.6149
0.1771
0.4477
R-Sq = 74.9%
StDev
15.24
0.03118
0.04723
0.09285
0.2287
0.07545
0.1427
0.1356
0.2173
0.5311
0.1693
0.1963
T
-1.29
2.00
-1.96
-0.69
-2.08
12.51
-1.41
1.81
0.82
-3.04
1.05
2.28
P
0.198
0.046
0.051
0.493
0.039
0.000
0.161
0.072
0.412
0.003
0.297
0.023
R-Sq(adj) = 73.7%
Coef
Constant
edad
peso
cuello
abdomen
cadera
muslo
tobillo
mueca
biceps
antebraz
-26.00
0.06509
-0.10740
-0.4675
0.95772
-0.1791
0.2593
0.1845
-1.6567
0.1862
0.4530
S = 4.283
R-Sq = 74.8%
StDev
12.15
0.03092
0.04207
0.2281
0.07276
0.1391
0.1339
0.2169
0.5271
0.1686
0.1959
-2.14
2.11
-2.55
-2.05
13.16
-1.29
1.94
0.85
-3.14
1.10
2.31
0.033
0.036
0.011
0.042
0.000
0.199
0.054
0.396
0.002
0.271
0.022
R-Sq(adj) = 73.8%
236
Edgar Acua
237
Paso 5. Regresin sin incluir las variables: rodilla, pecho, altura y tobillo
The regression equation is
grasa = - 23.3 + 0.0635 edad - 0.0984 peso - 0.493 cuello + 0.949 abdomen
- 0.183 cadera + 0.265 muslo - 1.54 mueca + 0.179 biceps
+ 0.451 antebrazo
Predictor
Constant
edad
peso
cuello
abdomen
cadera
muslo
muneca
biceps
antebraz
S = 4.281
Coef
-23.30
0.06348
-0.09843
-0.4933
0.94926
-0.1829
0.2654
-1.5421
0.1789
0.4515
R-Sq = 74.8%
StDev
11.73
0.03084
0.04070
0.2260
0.07204
0.1389
0.1336
0.5093
0.1683
0.1958
T
-1.99
2.06
-2.42
-2.18
13.18
-1.32
1.99
-3.03
1.06
2.31
P
0.048
0.041
0.016
0.030
0.000
0.189
0.048
0.003
0.289
0.022
R-Sq(adj) = 73.8%
Paso 6. Regresin sin incluir las variables: rodilla, pecho, altura, tobillo y biceps
The regression equation is
grasa = - 22.7 + 0.0658 edad - 0.0899 peso - 0.467 cuello + 0.945 abdomen
- 0.195 cadera + 0.302 muslo - 1.54 muneca + 0.516 antebrazo
Predictor
Constant
edad
peso
cuello
abdomen
cadera
muslo
mueca
antebraz
S = 4.282
Coef
-22.66
0.06578
-0.08985
-0.4666
0.94482
-0.1954
0.3024
-1.5367
0.5157
R-Sq = 74.7%
StDev
11.71
0.03078
0.03991
0.2246
0.07193
0.1385
0.1290
0.5094
0.1863
T
-1.93
2.14
-2.25
-2.08
13.13
-1.41
2.34
-3.02
2.77
P
0.054
0.034
0.025
0.039
0.000
0.159
0.020
0.003
0.006
R-Sq(adj) = 73.8%
Paso 7. Regresin sin incluir las variables: rodilla, pecho, altura, tobillo, biceps y
cadera.
The regression equation is
grasa = - 33.3 + 0.0682 edad - 0.119 peso - 0.404 cuello + 0.918 abdomen
+ 0.222 muslo - 1.53 muneca + 0.553 antebrazo
Predictor
Constant
edad
peso
cuello
abdomen
muslo
muneca
Coef
-33.258
0.06817
-0.11944
-0.4038
0.91788
0.2220
-1.5324
StDev
9.007
0.03079
0.03403
0.2206
0.06950
0.1160
0.5104
T
-3.69
2.21
-3.51
-1.83
13.21
1.91
-3.00
P
0.000
0.028
0.001
0.068
0.000
0.057
0.003
Edgar Acua
antebraz
0.5531
S = 4.291
R-Sq = 74.4%
0.1848
2.99
238
0.003
R-Sq(adj) = 73.7%
Paso 8. Regresin sin incluir las variables: rodilla, pecho, altura, tobillo, biceps,
cadera y cuello.
The regression equation is
grasa = - 38.3 + 0.0629 edad - 0.136 peso + 0.912 abdomen + 0.220 muslo
- 1.78 mueca + 0.489 antebrazo
Predictor
Constant
edad
peso
abdomen
muslo
muneca
antebraz
S = 4.311
Coef
-38.322
0.06290
-0.13648
0.91179
0.2202
-1.7788
0.4891
R-Sq = 74.1%
StDev
8.612
0.03080
0.03288
0.06975
0.1166
0.4947
0.1823
T
-4.45
2.04
-4.15
13.07
1.89
-3.60
2.68
P
0.000
0.042
0.000
0.000
0.060
0.000
0.008
R-Sq(adj) = 73.5%
Paso 9. Regresin sin incluir las variables: rodilla, pecho, altura, tobillo, biceps,
cadera, cuello y muslo.
The regression equation is
grasa = - 31.0 + 0.0410 edad - 0.111 peso + 0.939 abdomen - 1.83 mueca
+ 0.508 antebrazo
Predictor
Constant
edad
peso
abdomen
mueca
antebraz
S = 4.334
Coef
-30.970
0.04100
-0.11095
0.93901
-1.8296
0.5085
R-Sq = 73.7%
StDev
7.724
0.02869
0.03014
0.06860
0.4965
0.1830
T
-4.01
1.43
-3.68
13.69
-3.68
2.78
P
0.000
0.154
0.000
0.000
0.000
0.006
R-Sq(adj) = 73.2%
Paso 10. Regresin sin incluir las variables: rodilla, pecho, altura, tobillo, biceps,
cadera, cuello, muslo y edad.
The regression equation is
grasa = - 34.9 - 0.136 peso + 0.996 abdomen - 1.51 mueca + 0.473 antebrazo
Predictor
Constant
peso
abdomen
mueca
antebraz
Coef
-34.854
-0.13563
0.99575
-1.5056
0.4729
StDev
7.245
0.02475
0.05607
0.4427
0.1817
T
-4.81
-5.48
17.76
-3.40
2.60
P
0.000
0.000
0.000
0.001
0.010
Edgar Acua
S = 4.343
R-Sq = 73.5%
239
R-Sq(adj) = 73.1%
El proceso termina, porque todos los "p-values" son menores que 0.05 o las pruebas t en valor
absoluto son mayores que 2. El mejor modelo para predecir el porcentaje de grasa en el cuerpo
ser el que incluyea las variables:peso, circunferencia de abdomen, nueca y antebrazo.
Ahora, haremos todo lo anterior en forma directa. La ventana de dilogo para hacer
seleccin de variables en MINITAB se obtiene al elegir la opcin Stepwise del men
regresin. La ventana de dilogo se completara como se muestra en la Figura 9.16
Edgar Acua
240
grasa
1
-18.19
Alpha-to-Remove: 0.05
on 13 predictors, with N =
2
-17.93
3
-19.69
4
-26.00
252
5
-23.30
6
-22.66
7
-33.26
Edgar Acua
241
edad
T-Value
P-Value
0.062
1.92
0.056
0.063
2.00
0.046
0.062
2.00
0.046
0.065
2.11
0.036
0.063
2.06
0.041
0.066
2.14
0.034
0.068
2.21
0.028
peso
T-Value
P-Value
-0.088
-1.65
0.100
-0.088
-1.70
0.091
-0.093
-1.96
0.051
-0.107
-2.55
0.011
-0.098
-2.42
0.016
-0.090
-2.25
0.025
-0.119
-3.51
0.001
altura
T-Value
P-Value
-0.070
-0.72
0.469
-0.069
-0.72
0.470
-0.064
-0.69
0.493
cuello
T-Value
P-Value
-0.47
-2.02
0.044
-0.47
-2.06
0.040
-0.48
-2.08
0.039
-0.47
-2.05
0.042
-0.49
-2.18
0.030
-0.47
-2.08
0.039
-0.40
-1.83
0.068
pecho
T-Value
P-Value
-0.024
-0.24
0.810
-0.024
-0.25
0.805
abdomen
T-Value
P-Value
0.955
11.04
0.000
0.954
11.09
0.000
0.944
12.51
0.000
0.958
13.16
0.000
0.949
13.18
0.000
0.945
13.13
0.000
0.918
13.21
0.000
cadera
T-Value
P-Value
-0.21
-1.42
0.156
-0.21
-1.42
0.156
-0.20
-1.41
0.161
-0.18
-1.29
0.199
-0.18
-1.32
0.189
-0.20
-1.41
0.159
muslo
T-Value
P-Value
0.24
1.64
0.103
0.24
1.72
0.086
0.25
1.81
0.072
0.26
1.94
0.054
0.27
1.99
0.048
0.30
2.34
0.020
0.22
1.91
0.057
rodilla
T-Value
P-Value
0.02
0.06
0.950
tobillo
T-Value
P-Value
0.17
0.79
0.433
0.18
0.81
0.419
0.18
0.82
0.412
0.18
0.85
0.396
biceps
T-Value
P-Value
0.18
1.06
0.290
0.18
1.06
0.289
0.18
1.05
0.297
0.19
1.10
0.271
0.18
1.06
0.289
antebraz
T-Value
P-Value
0.45
2.27
0.024
0.45
2.29
0.023
0.45
2.28
0.023
0.45
2.31
0.022
0.45
2.31
0.022
0.52
2.77
0.006
0.55
2.99
0.003
muneca
T-Value
P-Value
-1.62
-3.03
0.003
-1.62
-3.04
0.003
-1.61
-3.04
0.003
-1.66
-3.14
0.002
-1.54
-3.03
0.003
-1.54
-3.02
0.003
-1.53
-3.00
0.003
S
R-Sq
R-Sq(adj)
C-p
4.31
74.90
73.53
14.0
4.30
74.90
73.64
12.0
4.29
74.90
73.75
10.1
4.28
74.85
73.81
8.5
4.28
74.77
73.84
7.2
4.28
74.66
73.82
6.4
4.29
74.45
73.71
6.3
8
-38.32
9
-30.97
10
-34.85
edad
T-Value
P-Value
0.063
2.04
0.042
0.041
1.43
0.154
peso
T-Value
-0.136
-4.15
-0.111
-3.68
Step
Constant
-0.136
-5.48
Edgar Acua
P-Value
0.000
0.000
0.000
0.912
13.07
0.000
0.939
13.69
0.000
0.996
17.76
0.000
242
altura
T-Value
P-Value
cuello
T-Value
P-Value
pecho
T-Value
P-Value
abdomen
T-Value
P-Value
cadera
T-Value
P-Value
muslo
T-Value
P-Value
0.22
1.89
0.060
rodilla
T-Value
P-Value
tobillo
T-Value
P-Value
biceps
T-Value
P-Value
antebraz
T-Value
P-Value
0.49
2.68
0.008
0.51
2.78
0.006
0.47
2.60
0.010
muneca
T-Value
P-Value
-1.78
-3.60
0.000
-1.83
-3.68
0.000
-1.51
-3.40
0.001
S
R-Sq
R-Sq(adj)
C-p
4.31
74.10
73.46
7.7
4.33
73.72
73.19
9.2
4.34
73.50
73.07
9.3
Edgar Acua
243
Coef
-39.280
0.63130
R-Sq = 66.2%
StDev
2.660
0.02855
T
-14.77
22.11
P
0.000
0.000
R-Sq(adj) = 66.0%
Paso 2. Se halla todas las regresiones con dos variables predictoras, una de las cuales es
abdomen. Aqui se muestran slo dos de las 12 regresiones posibles.
Con la variables aabdomen y pecho
The regression equation is
grasa = - 30.3 + 0.818 abdomen - 0.261 pecho
Predictor
Constant
abdomen
pecho
S = 4.806
Coef
StDev
T
P
-30.274
4.057
-7.46
0.000
0.81794
0.07006
11.67
0.000
-0.26066
0.08961
-2.91
0.004
R-Sq = 67.3%
R-Sq(adj) = 67.0%
Coef
-45.952
0.98950
-0.14800
R-Sq = 71.9%
StDev
2.605
0.05672
0.02081
T
-17.64
17.45
-7.11
P
0.000
0.000
0.000
R-Sq(adj) = 71.7%
Notar que el valor absoluto de la prueba t para la variable pecho es 2.91 (p-value = .004), y para la
variable peso es 7.11 ( p-value = 0.000). La variable peso entra al modelo porque es aquella con
valor de t ms grande en valor absoluto entre todas las variables que an no estaban includas.
Paso 3. Se hallan todas las regresiones con tres variables predictoras, las dos incluidas en
los dos pasos anteriores y cada una de las variables no incluidas an. Aqui se muestran slo
dos de las 11 regresiones posibles.
The regression equation is
grasa = - 45.8 + 0.990 abdomen - 0.148 peso - 0.002 cadera
Predictor
Constant
abdomen
peso
cadera
S = 4.465
Coef
-45.846
0.98974
-0.14763
-0.0020
R-Sq = 71.9%
StDev
7.059
0.05866
0.03087
0.1199
T
-6.49
16.87
-4.78
-0.02
P
0.000
0.000
0.000
0.987
R-Sq(adj) = 71.5%
Edgar Acua
244
Regression Analysis
The regression equation is
grasa = - 27.9 + 0.975 abdomen - 0.114 peso - 1.24 muneca
Predictor
Constant
abdomen
peso
mueca
S = 4.393
Coef
-27.930
0.97513
-0.11446
-1.2449
R-Sq = 72.8%
StDev
6.817
0.05615
0.02364
0.4362
T
-4.10
17.37
-4.84
-2.85
P
0.000
0.000
0.000
0.005
R-Sq(adj) = 72.4%
La variable mueca entra al modelo porque es aquella con el valor de t ms grande en valor
absoluto entre todas las variables que an no estaban includas.
Paso 4. Se hallan todas las regresiones con cuatro variables predictoras, las tres includas
en los tres pasos anteriores y cada una de las variables no incluidas an. Aqui se muestran
slo dos de las 10 regresiones posibles.
Regression Analysis
The regression equation is
grasa = - 35.1 + 0.979 abdomen - 0.144 peso - 1.10 mueca + 0.158 muslo
Predictor
Constant
abdomen
peso
mueca
muslo
S = 4.383
Coef
-35.117
0.97856
-0.14355
-1.0990
0.1585
R-Sq = 73.0%
StDev
8.414
0.05607
0.03096
0.4467
0.1092
T
-4.17
17.45
-4.64
-2.46
1.45
P
0.000
0.000
0.000
0.015
0.148
R-Sq(adj) = 72.6%
Regression Analysis
The regression equation is
grasa = - 34.9 + 0.996 abdomen - 0.136 peso - 1.51 mueca + 0.473 antebrazo
Predictor
Constant
abdomen
peso
mueca
antebraz
S = 4.343
Coef
-34.854
0.99575
-0.13563
-1.5056
0.4729
R-Sq = 73.5%
StDev
7.245
0.05607
0.02475
0.4427
0.1817
T
-4.81
17.76
-5.48
-3.40
2.60
P
0.000
0.000
0.000
0.001
0.010
R-Sq(adj) = 73.1%
La variable antebrazo entra al modelo porque es aquella con el valor de t ms grande en valor
absoluto entre todas las variables que an no estaban includas.
Aqu termina el proceso porque al hacer las regresiones de grasa con las cuatro variables
consideradas hasta ahora y cada una de las 9 variables no incluidas hasta ahora se obtienen pvalues para la prueba t mayores de 0.05.
Edgar Acua
245
0.631
22.11
0.000
peso
T-Value
P-Value
Alpha-to-Enter: 0.05
on 13 predictors, with N =
2
3
4
-45.95
-27.93
-34.85
0.990
17.45
0.000
0.975
17.37
0.000
0.996
17.76
0.000
-0.148
-7.11
0.000
-0.114
-4.84
0.000
-0.136
-5.48
0.000
-1.24
-2.85
0.005
-1.51
-3.40
0.001
muneca
T-Value
P-Value
antebraz
T-Value
P-Value
S
R-Sq
R-Sq(adj)
C-p
0.47
2.60
0.010
4.88
66.17
66.03
72.9
4.46
71.88
71.65
20.7
4.39
72.77
72.44
14.2
4.34
73.50
73.07
9.3
252
Edgar Acua
246
grasa
Alpha-to-Remove: 0.15
on 13 predictors, with N =
252
1
-39.28
2
-45.95
3
-27.93
4
-34.85
5
-30.65
0.631
22.11
0.000
0.990
17.45
0.000
0.975
17.37
0.000
0.996
17.76
0.000
1.008
17.89
0.000
-0.148
-7.11
0.000
-0.114
-4.84
0.000
-0.136
-5.48
0.000
-0.123
-4.75
0.000
-1.24
-2.85
0.005
-1.51
-3.40
0.001
-1.25
-2.66
0.008
0.47
0.53
Edgar Acua
T-Value
P-Value
2.60
0.010
cuello
T-Value
P-Value
S
R-Sq
R-Sq(adj)
C-p
247
2.86
0.005
-0.37
-1.65
0.100
4.88
66.17
66.03
72.9
4.46
71.88
71.65
20.7
4.39
72.77
72.44
14.2
4.34
73.50
73.07
9.3
4.33
73.79
73.26
8.6
MSR
n 1
1 (1 R 2 )
MST
n p 1
Cp
SSE p
s2
2( p 1) n
Donde SSEp es la suma de cuadrados del error del modelo que incluye p variables
predictoras y s2 es la varianza estimada del error en el modelo que incluye todas las
variables.
El mejor modelo es aquel para el cual se cumple aproximadamente C p p 1 , pero
con el menor nmero de variables posibles. Notar que la igualdad anterior tambin se
cumple cuando se usa el modelo completo.
Edgar Acua
248
Figura 9.19. Ventana de dilogo para Bests Subsets, usando los datos del Ejemplo 9.6
Vars
R-Sq
Adj.
R-Sq
C-p
1
1
2
2
3
3
4
4
5
5
6
6
7
7
8
8
9
9
10
66.2
49.4
71.9
70.2
72.8
72.4
73.5
73.3
73.8
73.7
74.1
74.1
74.4
74.3
74.7
74.6
74.8
74.7
74.8
66.0
49.2
71.7
70.0
72.4
72.0
73.1
72.8
73.3
73.2
73.5
73.4
73.7
73.6
73.8
73.8
73.8
73.8
73.8
72.9
232.2
20.7
36.6
14.2
18.0
9.3
11.4
8.6
9.2
7.7
8.0
6.3
7.4
6.4
7.0
7.2
7.7
8.5
4.8775
5.9668
4.4556
4.5866
4.3930
4.4251
4.3427
4.3609
4.3276
4.3336
4.3111
4.3138
4.2906
4.2998
4.2819
4.2872
4.2808
4.2851
4.2832
e
d
a
d
p
e
s
o
a
l
t
u
r
a
c
u
e
l
l
o
p
e
c
h
o
a
b
d
o
m
e
n
c
a
d
e
r
a
m
u
s
l
o
r
o
d
i
l
l
a
t
o
b
i
l
l
o
b
i
c
e
p
s
a
n
t
e
b
r
a
z
m
u
n
e
c
a
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X X X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X X
X
X X
X X
X X
X
X
X X
X X
X
X X
X X
X X
X X
X X
X X
X X
X X
X X
X X
X X
Edgar Acua
10
11
11
12
12
13
74.8
74.9
74.8
74.9
74.9
74.9
73.8
73.7
73.7
73.6
73.6
73.5
8.7
10.1
10.5
12.0
12.1
14.0
4.2850
4.2879
4.2920
4.2963
4.2968
4.3053
X
X
X
X
X
X
X
X
X
X
X
X
X X
X X X
X X
X X X
X
X X X X X
X
X X X X X X
X
X X
X X X X X
X X X X X X X X
249
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
Interpretacin: De acuerdo al R2 el mejor modelo podra ser aqul con las dos variables
predoctoras peso y abdomen que an cundo su R2 es de 71.9 est cerca del mayor posible
que es de 74.9 y adems es donde el R2 ha tenido un mayor incremento. Un resultado
similar cuando se usa el R2 ajustado. De acuerdo al Cp de Mallows, el mejor modelo es
aqul que tiene las siguientes 6 variables predictoras: edad, peso, muslo, abdomen,
antebrazo y cadera con un valor de C p 7.7 muy prximo a p 1 6 1 7 .
Edgar Acua
250
EJERCICIOS
Para conseguir los archivos de datos accesar a la siguiente direccin en la internet
www.math.uprm.edu/~edgar.datos.html o mandar un mensaje al autor.
1.
2
42
3
35
10
20
7
28
6
31
5
32
7
19
1
39
8
25
148 116
196 116 124 95
109.3 96.8 140.8 77.8 105 98.6
Edgar Acua
3.
251
4.
a)
b)
c)
d)
e)
Edgar Acua
252
f)
g)
h)
i)
j)
k)
6.
Edgar Acua
253
pres. Sisto
130
100
130
140
130
115
120
125
110
125
pres. Dias
80
70
80
80
70
75
85
75
65
70
Persona
11
12
13
14
15
16
17
18
19
20
pres. Sisto
120
130
130
140
110
160
150
130
125
130
pres. Dias
75
95
80
90
80
95
110
95
75
80
La siguiente tabla muestra el nmero (en cientos) de bacterias que sobreviven despus
de ser expuestas a rayos X de 200 kilovoltios por perodos de tiempo T de 6 minutos
de duracin cada uno:
Tiempo
Bacterias
1
355
2
211
3
197
4
166
5
142
6
106
7
104
8
60
9
56
10
38
11
36
12
32
13
21
14
19
15
13
Edgar Acua
254
Usar los archivos de datos homedat.mtw, salary.mtw y pulse.mtw que estn dentro
de MINITAB. Para homedat escoger Y=c1, para salary escoger Y=C7 y no usar las
columnas c1 y c2, para Pulse escoger Y=c2.
a) Hallar el modelo de regresin mltiple e interpretar tres de los coeficientes de
regresin.
b) Interpretar el coeficiente de Determinacin.
c) Probar que todos los coeficientes del modelo de regresin son ceros. Comentar el
resultado.
d) Probar que cada uno de los coeficientes del modelo de regresin es cero. Comentar
el resultado.
e) Probar la hiptesis Ho: B2=B4=0. Comentar su resultado.
f) Hallar un Intervalo de Confianza para el valor medio de Y y el valor Predicho del
99% para Y, escogiendo valores adecuados de las variables predictoras. Comentar
sus resultados
g) Usar los mtodos Backward y "Forward" para elegir el modelo de Regresin.
Interpretar la salida de MINITAB. Osea explicar cada paso del mtodo y porqu es
que se detiene.
X1
7
7
6
15
11
10
8
14
10
9
8
8
X2
25
33
19
29
21
24
21
22
26
32
22
19
X3
22
61
30
50
43
54
28
35
22
43
48
27
X4
94
18
103
17
109
0
33
21
76
97
104
37
X5
0
1
0
1
0
1
0
1
0
1
0
0
Edgar Acua
51
48
36
9
8
8
28
22
19
32
62
37
87
131
53
255
1
0
0
Edgar Acua
256
Cuartos
5
20
5
20
5
10
4
11
20
32
26
13
9
6
11
5
20
4
8
4
4
4
14
4
4
Antiguedad
41
7
33
32
28
32
41
12
9
36
37
28
38
11
12
9
31
35
10
29
41
25
5
41
42
rea
463
1779
594
1775
520
1250
730
515
1175
1750
1121
1200
1600
550
1180
530
1500
600
908
650
658
460
11200
762
910
Patio
243
340
379
395
175
150
426
160
750
1400
821
400
469
100
280
150
160
100
158
100
248
80
8820
372
510
Edgar Acua
257
14. Los siguientes datos corresponden a las mediciones de peso (en libras), estatura (en
pulgadas) y edad de 26 personas
Peso (y)
123
111
130
150
164
151
147
138
159
160
150
175
152
156
145
143
171
172
177
202
199
174
186
170
210
199
Talla (x1)
4.7
4.9
4.9
5.1
5.3
5
5.2
5.1
5.2
5.1
4.8
5
4.9
5.2
4.8
5.3
5.4
5.2
5.5
5.3
5.5
5.1
5.3
5.2
5.3
5.4
Edad (x2)
17
19
19
19
23
23
26
27
28
28
28
28
29
30
30
30
30
30
31
36
38
40
44
44
50
55