Documentos de Académico
Documentos de Profesional
Documentos de Cultura
4/25/2007
Resumen
El procedimiento Selección del Modelo de Regresión está diseñado para ayudar a elegir las
variables independientes que se usarán para construir un modelo de regresión múltiple para
predecir una única variable dependiente Y. El procedimiento considera todas las posibles
regresiones que implican diferentes combinaciones de las variables independientes. Compara los
modelos con base en la R-Cuadrada ajustada, la estadística Cp de Mallows, y el cuadrado medio
del error.
Datos de Ejemplo:
El archivo 93cars.sf6 contiene información de 26 variables para n = 93 marcas (Make) y modelos
(Model) de automóviles, tomada de Lock (1993). La tabla a continuación muestra una lista
parcial de varias columnas de ese archivo:
Se desea construir un modelo para predecir MPG Highway (millas por galón en carretera). Se
considerarán 10 posibles variables predictoras:
Ingreso de Datos
La caja de diálogo del ingreso de los datos solicita el nombre de la variable dependiente Y y
todos las variables independientes candidatas:
• Variables Independientes: columnas numéricas que contienen los n valores de todas las
variables independientes X que se considerarán para usarse en el modelo. Este campo puede
desplazarse en caso necesario.
• Pesos: una columna numérica opcional que contiene los pesos que se aplicarán a los residuos
cuadrados cuando se realice un ajuste de mínimos cuadrados ponderados.
Los modelos se ajustan incluyendo todas las combinaciones de variables hasta el número
especificado en la caja de diálogo Opciones de Análisis.
En la tabla se incluye:
• MSE: el cuadrado medio del error (mean squared error). Éste es una estimación de la
varianza de las desviaciones con respecto al modelo ajustado, dada por:
© 2006 por StatPoint, Inc. Selección del Modelo de Regresión - 3
STATGRAPHICS – Rev. 4/25/2007
n
∑ (y − yˆ i )
2
i
MSE = i =1
(1)
n − p −1
⎛ 2 ⎞
n
⎜ ∑ ( y i − yˆ i ) ⎟
R 2 = 100⎜1 − i =n1 ⎟% (2)
⎜ ⎟
⎜ ∑ ( y i − y )2 ⎟
⎝ i =1 ⎠
⎛
( yi − yˆ i )2 ⎞⎟
n
⎜ ∑
⎛ n − 1 ⎞ i =1
2
Radj = 100⎜1 − ⎜⎜ ⎟ ⎟% (3)
⎜ ⎝ n − p − 1 ⎟⎠ n ⎟
⎜ ∑ ( y i − y )2 ⎟
⎝ i =1 ⎠
∑ (y − yˆ i )
2
i
Cp = i =1
− (n − 2 p ) (4)
MSE (completo)
donde MSE(completo) es el cuadrado medio del error del modelo cuando todas las variables
independientes están incluidas en el ajuste. Si el modelo ajustado tiene poco sesgo, la Cp
debiera estar cerca de p. Es deseable tener un valor pequeño de Cp, siempre que no sea
mucho mayor que p.
En los datos de muestra, se ajustó cada combinación posible de variables, desde el modelo más
simple, que incluye sólo un término constante:
Opciones de Análisis
Se ajustarán todos los modelos de regresión posibles que contengan al menos el número Mínimo
de variables independientes pero no más del Máximo.
Por omisión, la tabla muestra el mejor modelo para cada número de variables independientes.
Por ejemplo, el mejor modelo que involucra sólo 3 variables independientes incluye las variables
C, E, y J, y da una R-cuadrada de 67.1%.
80
R-Cuadrada ajustada
60
40
20
0
0 2 4 6 8 10 12
Número de Coeficientes
La línea conecta los modelos con los mejores valores de R-cuadrada ajustada para cada número
de coeficientes. Advierta que la mejor R-cuadrada ajustada aumenta notablemente hasta que el
número de coeficientes es igual a 6 (correspondiendo a 5 variables independientes).
Remitiéndonos a la tabla anterior, el mejor modelo con 5 variables es BCEIJ, que tiene una R-
cuadrada ajustada = 69.1%.
Opciones de Ventana
Mejor Cp
Esta tabla muestra los modelos, ordenados de forma ascendente con respecto a la estadística Cp:
Por omisión, la tabla muestra el mejor modelo para cada número de variables independientes.
Por ejemplo, el mejor modelo que involucra sólo 3 variables independientes incluye las variables
C, E, y J, y da una Cp igual a 7.48. Es deseable un valor pequeño de Cp, siempre que sea menor
que el número de variables independientes en el modelo.
El modelo con la menor Cp es BCEIJ. Dado que su valor de Cp es menor que 5, ese modelo
parecería ser el mejor.
Opciones de Ventana
Gráfica de Cp de Mallows
Esta gráfica muestra los modelos con los valores menores de Cp. Después de escalar el eje
vertical, la gráfica se muestra:
180
150
120
Cp
90
60
30
0
0 2 4 6 8 10 12
Número de Coeficientes
Son deseables valores pequeños, siempre que se encuentren debajo de la línea diagonal, definida
por Cp = p. Aumentando el número de variables independientes hasta 5 (más una constante)
mejora la estadística. Más allá de p = 5, Cp aumenta.
Opciones de Ventana
27
23
19
MSE
15
11
7
0 2 4 6 8 10 12
Número de Coeficientes
El MSE continúa cayendo hasta 8 coeficientes, aunque la caída después de 6 es muy pequeña.
Opciones de Ventana
Gráfica de R-Cuadrada
Esta gráfica muestra los modelos con los valores más altos de R-Cuadrada:
80
60
R-Cuadrada
40
20
0
0 2 4 6 8 10 12
Número de Coeficientes
Opciones de Ventana
Salvar Resultados
Se puede salvar en la hoja de datos una fila por cada modelo ajustado, que incluya:
Standard T
Parameter Estimate Error Statistic P-Value
CONSTANT 22.9571 8.36713 2.74372 0.0076
Fueltank -0.454275 0.238684 -1.90325 0.0608
Passengers -1.96767 0.621566 -3.16567 0.0022
Wheelbase 0.451142 0.120719 3.73713 0.0004
Luggage 0.34953 0.163638 2.136 0.0359
Weight -0.0091559 0.00161292 -5.67659 0.0000
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 1444.94 5 288.988 37.29 0.0000
Residual 589.013 76 7.75017
Total (Corr.) 2033.95 81