Está en la página 1de 12

STATGRAPHICS – Rev.

4/25/2007

Selección del Modelo de Regresión

Resumen
El procedimiento Selección del Modelo de Regresión está diseñado para ayudar a elegir las
variables independientes que se usarán para construir un modelo de regresión múltiple para
predecir una única variable dependiente Y. El procedimiento considera todas las posibles
regresiones que implican diferentes combinaciones de las variables independientes. Compara los
modelos con base en la R-Cuadrada ajustada, la estadística Cp de Mallows, y el cuadrado medio
del error.

StatFolio de Ejemplo: select reg.sgp

Datos de Ejemplo:
El archivo 93cars.sf6 contiene información de 26 variables para n = 93 marcas (Make) y modelos
(Model) de automóviles, tomada de Lock (1993). La tabla a continuación muestra una lista
parcial de varias columnas de ese archivo:

Make Model MPG Weight Horsepower Wheelbase Passengers


Highway
Acura Integra 31 2705 140 102 5
Acura Legend 25 3560 200 115 5
Audi 90 26 3375 172 102 5
Audi 100 26 3405 172 106 6
BMW 535i 30 3640 208 109 4
Buick Century 31 2880 110 105 6
Buick LeSabre 28 3470 170 111 6
Buick Roadmaster 25 4105 180 116 6
Buick Riviera 27 3495 170 108 5
Cadillac DeVille 25 3620 200 114 6
Cadillac Seville 25 3935 295 111 5
Chevrolet Cavalier 36 2490 110 101 5

Se desea construir un modelo para predecir MPG Highway (millas por galón en carretera). Se
considerarán 10 posibles variables predictoras:

1. Horsepower (caballos de fuerza)


2. Fueltank (tanque de gasolina)
3. Passengers (pasajeros)
4. Length (longitud)
5. Wheelbase (distancia entre ejes)
6. Width (ancho)
7. U-Turn Space (espacio para vuelta en U)
8. Rear seat (asiento trasero)
9. Luggage (equipaje)
10. Weight (peso)

© 2006 por StatPoint, Inc. Selección del Modelo de Regresión - 1


STATGRAPHICS – Rev. 4/25/2007
Se desea un modelo parsimonioso, i.e., un modelo que incluya tan pocas variables como sea
posible, siempre que ninguna de las variables omitidas agregue capacidad predictiva significativa
al modelo.

Ingreso de Datos
La caja de diálogo del ingreso de los datos solicita el nombre de la variable dependiente Y y
todos las variables independientes candidatas:

• Variable Dependiente: columna numérica que contiene las n observaciones de la variable


dependiente Y.

• Variables Independientes: columnas numéricas que contienen los n valores de todas las
variables independientes X que se considerarán para usarse en el modelo. Este campo puede
desplazarse en caso necesario.

• Selección: selección de un subgrupo de datos.

• Pesos: una columna numérica opcional que contiene los pesos que se aplicarán a los residuos
cuadrados cuando se realice un ajuste de mínimos cuadrados ponderados.

© 2006 por StatPoint, Inc. Selección del Modelo de Regresión - 2


STATGRAPHICS – Rev. 4/25/2007

Resumen del Análisis


El Resumen del Análisis presenta información sobre los datos de entrada y los modelos
ajustados. La sección superior de la salida indica el número de observaciones n y el número de
modelos ajustados.

Selección del Modelo de Regresión - MPG Highway


Variable dependiente: MPG Highway (miles per gallon in highway driving)
Variables independientes:
A=Horsepower (maximum)
B=Fueltank (gallons)
C=Passengers (persons)
D=Length (inches)
E=Wheelbase (inches)
F=Width (inches)
G=U Turn Space (feet)
H=Rear seat (inches)
I=Luggage (cu. ft.)
J=Weight (pounds)

Número de casos completos: 82


Número de modelos ajustados: 1024

Los modelos se ajustan incluyendo todas las combinaciones de variables hasta el número
especificado en la caja de diálogo Opciones de Análisis.

La segunda sección de la salida muestra un resumen de todos los modelos ajustados. A


continuación se muestra una porción de esa tabla.

Resultados de los Modelos


R-Cuadrada Variables
MSE R-Cuadrada Ajustada Cp Incluidas
25.1105 0.0 0.0 177.237
13.4123 47.2463 46.5868 57.7023 A
11.5449 54.5913 54.0237 38.8081 B
21.0657 17.1435 16.1078 135.138 C
15.738 38.0989 37.3252 81.2326 D
17.1595 32.5077 31.664 95.6153 E
16.6421 34.5426 33.7244 90.3808 F
17.4867 31.2207 30.3609 98.9261 G
23.4678 7.69584 6.54204 159.441 H
21.9131 13.8108 12.7335 143.711 I
10.0846 60.3349 59.8391 24.0333 J
10.9961 57.2905 56.2092 33.8648 AB
11.8965 53.793 52.6232 42.8616 AC
12.2353 52.4773 51.2742 46.246 AD
12.9804 49.5831 48.3067 53.6911 AE
12.941 49.7363 48.4638 53.297 AF
12.7091 50.6371 49.3874 50.9799 AG
13.3785 48.037 46.7215 57.6682 AH
13.1223 49.0322 47.7418 55.1083 AI
10.174 60.4834 59.483 25.6514 AJ
11.4782 55.4178 54.2891 38.6821 BC

En la tabla se incluye:

• MSE: el cuadrado medio del error (mean squared error). Éste es una estimación de la
varianza de las desviaciones con respecto al modelo ajustado, dada por:
© 2006 por StatPoint, Inc. Selección del Modelo de Regresión - 3
STATGRAPHICS – Rev. 4/25/2007
n

∑ (y − yˆ i )
2
i
MSE = i =1
(1)
n − p −1

donde yi es el valor observado de Y, ŷ i es el valor predicho con el modelo ajustado, y p es el


número de variables independientes incluidas en el modelo.

• R-Cuadrada: el coeficiente de determinación, calculado con

⎛ 2 ⎞
n
⎜ ∑ ( y i − yˆ i ) ⎟
R 2 = 100⎜1 − i =n1 ⎟% (2)
⎜ ⎟
⎜ ∑ ( y i − y )2 ⎟
⎝ i =1 ⎠

La R-Cuadrada mide el porcentaje de la variabilidad de Y que explica el modelo ajustado.

• R-Cuadrada Ajustada: el coeficiente de determinación ajustado, calculado con


( yi − yˆ i )2 ⎞⎟
n
⎜ ∑
⎛ n − 1 ⎞ i =1
2
Radj = 100⎜1 − ⎜⎜ ⎟ ⎟% (3)
⎜ ⎝ n − p − 1 ⎟⎠ n ⎟
⎜ ∑ ( y i − y )2 ⎟
⎝ i =1 ⎠

La R-Cuadrada ajustada compensa el número de variables independientes en el modelo. Es


más útil que la R-cuadrada ordinaria cuando se comparan modelos con diferente número de
variables independientes, ya que esta última estadística nunca disminuirá aunque se agreguen
al modelo variables no relacionadas.

• Cp: estadística Cp de Mallows, calculada con


n

∑ (y − yˆ i )
2
i
Cp = i =1
− (n − 2 p ) (4)
MSE (completo)

donde MSE(completo) es el cuadrado medio del error del modelo cuando todas las variables
independientes están incluidas en el ajuste. Si el modelo ajustado tiene poco sesgo, la Cp
debiera estar cerca de p. Es deseable tener un valor pequeño de Cp, siempre que no sea
mucho mayor que p.

• Variables Incluidas: una indicación de qué variables independientes se incluyen en el


modelo.

En los datos de muestra, se ajustó cada combinación posible de variables, desde el modelo más
simple, que incluye sólo un término constante:

© 2006 por StatPoint, Inc. Selección del Modelo de Regresión - 4


STATGRAPHICS – Rev. 4/25/2007
MPG Highway = β0 (5)

hasta el más complejo, que incluye todas las 10 variables candidatas:

MPG Highway = β0 + β1Horsepower + β2Fueltank + β3Passengers + β4Length


+ β5Wheelbase + β6Width + β7U Turn Space + β8Rear Seat
+ β9Luggage + β10Weight (6)

Esto representa un total de 1,024 modelos.

Opciones de Análisis

Se ajustarán todos los modelos de regresión posibles que contengan al menos el número Mínimo
de variables independientes pero no más del Máximo.

Mejor R-Cuadrada Ajustada


Esta tabla resume los modelos ajustados, ordenados de forma descendente con respecto a la
estadística R-cuadrada ajustada:

Modelos con Mayor R-Cuadrada Ajustada


R-Cuadrada Variables
MSE R-Cuadrada Ajustada Cp Incluidas
7.67032 72.0935 69.4537 5.78582 BCEFHIJ
7.69476 72.3829 69.3564 7.04138 ABCEFHIJ
7.7374 71.4691 69.1866 5.39211 BCEFIJ
7.75017 71.041 69.1358 4.49343 BCEIJ
7.79712 72.3989 68.9488 9.00031 ABCDEFHIJ
7.90691 72.399 68.5116 11.0 ABCDEFGHIJ
8.01411 69.6607 68.0846 6.04399 CEIJ
8.26017 68.3231 67.1047 7.4849 CEJ
8.7836 65.8839 65.0202 11.7592 EJ
10.0846 60.3349 59.8391 24.0333 J
25.1105 0.0 0.0 177.237

Por omisión, la tabla muestra el mejor modelo para cada número de variables independientes.
Por ejemplo, el mejor modelo que involucra sólo 3 variables independientes incluye las variables
C, E, y J, y da una R-cuadrada de 67.1%.

El modelo con la mejor R-cuadrada ajustada incluye las 7 variables, BCEFHIJ.

© 2006 por StatPoint, Inc. Selección del Modelo de Regresión - 5


STATGRAPHICS – Rev. 4/25/2007
Opciones de Ventana

• Número Máximo por Subconjunto: el máximo número de modelos incluidos en la tabla


que contiene el número indicado de variables independientes.

Gráfica de R-Cuadrada Ajustada


Esta gráfica muestra los modelos con los valores más altos de R-Cuadrada ajustada.

Gráfica de R-Cuadrada Ajustada para MPG Highway

80
R-Cuadrada ajustada

60

40

20

0
0 2 4 6 8 10 12
Número de Coeficientes

La línea conecta los modelos con los mejores valores de R-cuadrada ajustada para cada número
de coeficientes. Advierta que la mejor R-cuadrada ajustada aumenta notablemente hasta que el
número de coeficientes es igual a 6 (correspondiendo a 5 variables independientes).
Remitiéndonos a la tabla anterior, el mejor modelo con 5 variables es BCEIJ, que tiene una R-
cuadrada ajustada = 69.1%.

Opciones de Ventana

• Etiquetar Modelos: si se selecciona, se agregarán etiquetas de modelo al gráfico.


© 2006 por StatPoint, Inc. Selección del Modelo de Regresión - 6
STATGRAPHICS – Rev. 4/25/2007

• Número Máximo por Subconjunto: el máximo número de modelos incluidos en el gráfico


que contiene el mismo número de variables independientes.

Mejor Cp
Esta tabla muestra los modelos, ordenados de forma ascendente con respecto a la estadística Cp:

Modelos con Menor Cp


R-Cuadrada Variables
MSE R-Cuadrada Ajustada Cp Incluidas
7.75017 71.041 69.1358 4.49343 BCEIJ
7.7374 71.4691 69.1866 5.39211 BCEFIJ
7.67032 72.0935 69.4537 5.78582 BCEFHIJ
8.01411 69.6607 68.0846 6.04399 CEIJ
7.69476 72.3829 69.3564 7.04138 ABCEFHIJ
8.26017 68.3231 67.1047 7.4849 CEJ
7.79712 72.3989 68.9488 9.00031 ABCDEFHIJ
7.90691 72.399 68.5116 11.0 ABCDEFGHIJ
8.7836 65.8839 65.0202 11.7592 EJ
10.0846 60.3349 59.8391 24.0333 J
25.1105 0.0 0.0 177.237

Por omisión, la tabla muestra el mejor modelo para cada número de variables independientes.
Por ejemplo, el mejor modelo que involucra sólo 3 variables independientes incluye las variables
C, E, y J, y da una Cp igual a 7.48. Es deseable un valor pequeño de Cp, siempre que sea menor
que el número de variables independientes en el modelo.

El modelo con la menor Cp es BCEIJ. Dado que su valor de Cp es menor que 5, ese modelo
parecería ser el mejor.

Opciones de Ventana

• Número Máximo por Subconjunto: el máximo número de modelos incluidos en la tabla


que contiene el mismo número de variables independientes.

© 2006 por StatPoint, Inc. Selección del Modelo de Regresión - 7


STATGRAPHICS – Rev. 4/25/2007

Gráfica de Cp de Mallows
Esta gráfica muestra los modelos con los valores menores de Cp. Después de escalar el eje
vertical, la gráfica se muestra:

Gráfica de Cp de Mallows para MPG Highway

180

150

120
Cp

90

60

30

0
0 2 4 6 8 10 12
Número de Coeficientes

Son deseables valores pequeños, siempre que se encuentren debajo de la línea diagonal, definida
por Cp = p. Aumentando el número de variables independientes hasta 5 (más una constante)
mejora la estadística. Más allá de p = 5, Cp aumenta.

Opciones de Ventana

• Etiquetar Modelos: si se selecciona, se agregarán etiquetas de modelo al gráfico.

• Número Máximo por Subconunto: el máximo número de modelos incluidos en el gráfico


que contiene el mismo número de variables independientes.

© 2006 por StatPoint, Inc. Selección del Modelo de Regresión - 8


STATGRAPHICS – Rev. 4/25/2007

Gráfica del MSE


Esta gráfica muestra los modelos con los valores menores del cuadrado medio del error. Después
de escalar el eje vertical, esta gráfica se muestra:

MSE para MPG Highway

27

23

19
MSE

15

11

7
0 2 4 6 8 10 12
Número de Coeficientes

El MSE continúa cayendo hasta 8 coeficientes, aunque la caída después de 6 es muy pequeña.

Opciones de Ventana

• Etiquetar Modelos: si se selecciona, se agregarán etiquetas de modelo al gráfico.

• Número Máximo por Subconjunto: el máximo número de modelos incluidos en el gráfico


que contiene el mismo número de variables independientes.

© 2006 por StatPoint, Inc. Selección del Modelo de Regresión - 9


STATGRAPHICS – Rev. 4/25/2007

Gráfica de R-Cuadrada
Esta gráfica muestra los modelos con los valores más altos de R-Cuadrada:

Gráfica de R-Cuadrada para MPG Highway

80

60
R-Cuadrada

40

20

0
0 2 4 6 8 10 12
Número de Coeficientes

Opciones de Ventana

• Etiquetar Modelos: si se selecciona, se agregarán etiquetas de modelo al gráfico.

• Número Máximo por Subconjunto: el máximo número de modelos incluidos en el gráfico


que contiene el mismo número de variables independientes.

Salvar Resultados
Se puede salvar en la hoja de datos una fila por cada modelo ajustado, que incluya:

1. Identificadores del Modelo – una indicación de las variables independientes incluidas en


el modelo.
2. R-Cuadrada Ajustada – la estadística R-cuadrada ajustada.
3. Cp – la estadística Cp de Mallows.
4. MSE – el cuadrado medio del error.
5. R-Cuadrada – la estadística R-cuadrada sin ajustar.

© 2006 por StatPoint, Inc. Selección del Modelo de Regresión - 10


STATGRAPHICS – Rev. 4/25/2007

Ajuste del Mejor Modelo


Si se juzga el modelo BCEIJ como el mejor, puede ajustarse con el procedimiento Regresión
Múltiple.

La salida se muestra a continuación:

Multiple Regression - MPG Highway


Dependent variable: MPG Highway

Standard T
Parameter Estimate Error Statistic P-Value
CONSTANT 22.9571 8.36713 2.74372 0.0076
Fueltank -0.454275 0.238684 -1.90325 0.0608
Passengers -1.96767 0.621566 -3.16567 0.0022
Wheelbase 0.451142 0.120719 3.73713 0.0004
Luggage 0.34953 0.163638 2.136 0.0359
Weight -0.0091559 0.00161292 -5.67659 0.0000

Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 1444.94 5 288.988 37.29 0.0000
Residual 589.013 76 7.75017
Total (Corr.) 2033.95 81

R-squared = 71.041 percent


R-squared (adjusted for d.f.) = 69.1358 percent
Standard Error of Est. = 2.78391
Mean absolute error = 2.00394
Durbin-Watson statistic = 1.55279 (P=0.0179)
Lag 1 residual autocorrelation = 0.221875

El modelo final es:


MPG Highway = 22.9571 - 0.454275 Fueltank - 1.96767 Passengers
© 2006 por StatPoint, Inc. Selección del Modelo de Regresión - 11
STATGRAPHICS – Rev. 4/25/2007
+ 0.451142 Wheelbase + 0.34953 Luggage - 0.0091559 Weight (7)

© 2006 por StatPoint, Inc. Selección del Modelo de Regresión - 12

También podría gustarte