Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión Múltiple
y Polinominal
Contenido
• Usa los Datos Históricos Primero
• Regresión Polinominal
• Qué es la Regresión Múltiple
• El Problema de las Variables Correlacionadas
• Método de Construcción de Modelos
• Concentración de Variables Cuantitativas
• Regresión Stepwise
Regresión Múltiple y
Polinominal - Objetivos de Aprendizaje
Al terminar este módulo, tendrás la capacidad de...
Por ejemplo…
Seguiremos con el
análisis sólo con fines
30
explicativos.
Y
Se completó una
corrida de regresión,
incluyendo la prueba
20 de error puro por falta
de ajuste, error puro y
10 15 20 25 30 35 una gráfica de
X residuos vs x.
Descarte del Modelo Lineal
Para el modelo lineal se considera
Regression Analysis: Y versus X el 19.7% de variabilidad.
Analysis of Variance
Source DF SS MS F P
Regression 1 124.46 124.46 3.69 0.084
Residual Error 10 337.21 33.72
Lack of Fit 4 318.21 79.55 25.12 0.001
Pure Error 6 19.00 3.17
Total 11 461.67 La prueba de falta de ajuste
descarta la adecuación del
modelo lineal.
Patrón de Residuos no Aleatorio
La gráfica de
Residuos vs X
residuos muestra (la respuesta es Y)
claramente un patrón
no aleatorio. 10
Residuos
-10
10 15 20 25 30 35
X
Ahora pasaremos a un modelo cuadrático.
El Modelo Cuadrático Se Ve Mejor
Gráfica de Regresión
Y = -12.9143 + 4.07357 X
- 0.0821429 X**2 Selecciona: Stat >
Cuad = 1.57510 R-C = 95.2 % R-C (adj) = 94.1 % Regression >
40
Fitted line plot.
Haz clic en
Quadratic y luego
en OK.
30
Y
El modelo cuadrático
parece ser una
buena opción. El
20 porcentaje de
10 15 20 25 30 35
variabilidad que se
X representa es 94.1%.
Creación de un
Término Cuadrático
Para crear un término cuadrático para el análisis de
regresión:
• Abre el archivo JC7.
• Nombra una columna en blanco como X2 .
• Selecciona: Calc > Calculator.
• y después....
Calculadora Guarda el
resultado en ‘X2’
C1 Y
C2 X Expresión:
C3 X2 X*X
Interpretación de los
Resultados de Minitab
Regression Analysis: Y versus X, X2
The regression equation is
Y = - 12.9 + 4.07 X - 0.0821 X2
Analysis of Variance
Source DF SS MS F P
Regression 2 439.34 219.67 88.54 0.000
Residual Error 9 22.33 2.48
Lack of Fit 3 3.33 1.11 0.35 0.791
Pure Error 6 19.00 3.17
Total 11 461.67
Source DF Seq SS
La falta de prueba de ajuste
X 1 124.46 no descarta el modelo
X2 1 314.88
cuadrático.
Del SST = 461.67, la x representa 124.46
unidades. Cuando se suma a x2,
representa 314.88 unidades adicionales.
Comparación de Modelos
Lineales y Cuadráticos
En este ejemplo...
1
Residuos
-1
-2
10 15 20 25 30 35
X
.999
.99
.95
Probabilidad
.80
.50
.20
.05
.01
.001
-2 -1 0 1 2
RESI3
Promedio : 0 Prueba de Normalidad Anderson-Darling
Desv. Est. 1.42474 A Cuadrada: 0.219
N: 12 Valor P: 0.790
2.6
% imp
2.1
1.6
15 16 17 18 19 20
tiempo
2.6
% imp
2.1
1.6
75 85 95 105 115 125
temp
La y vs x1 (% de impurezas vs temperatura) muestra una relación
lineal más clara.
Prueba el Modelo Lineal
• Con base en las gráficas, probaremos el modelo lineal.
y = b 0 + b1 x 1 + b 2 x 2
• Nuestras selecciones de Minitab son:
– Stat > Regression > Regression.
– % de impurezas en el cuadro de respuesta, temperatura y tiempo en
el cuadro de predicción.
– Haz clic en Graphs (gráficas) y luego en Residuals versus fits
(residuos vs ajustes).
– Introduce tiempo y temperatura en el cuadro Residuals versus
variables (residuos vs variables) y haz clic en OK.
– Haz clic en Options (opciones), y luego en Pure error (error puro),
introduce 15 120 en el cuadro de intervalos de predicción y haz clic
en OK.
– Haz clic en Results (resultados), selecciona la tercera opción, y
luego OK.
– Haz clic en Storage (almacenamiento) y verifica Residuals
(residuos).
– Corre el programa ahora.
Resultado de Minitab
– Regresión Múltiple
Regression Analysis: %imp versus time, temp Cada variable tiene significancia,
dado que la otra variable se
The regression equation is incluye en el modelo.
%imp = 2.86 + 0.0433 time - 0.0146 temp
•Residuos vs Tiempo
•Residuos vs Temperatura
•Residuos vs Valores Ajustados
0.1
Residuos
0.0
-0.1
0.1
Residuos
0.0
-0.1
15 16 17 18 19 20
tiempo
Residuos vs Valores Ajustados
Residuos vs Valores Ajustados
(la respuesta es % de imp)
0.1
Residuos
0.0
-0.1
Valor Ajustado
Prueba de Normalidad
La gráfica .999
normal y la .99
prueba no
Probabilidad .95
.80
muestran
problemas con .50
la suposición de .20
normalidad. .05
.01
Nuestro modelo
.001
lineal queda
validado. -0.1 0.0 0.1
RESI1
Promedio: -0.0000000 Prueba de Normalidad Anderson-Darling
Desv. Est.: 0.0631497 A Cuadrada: 0.220
N: 12 Valor P: 0.786
El Problema de las
Variables Correlacionadas
En la regresión múltiple, si las variables de entrada x1, x2,
ect., no están correlacionadas, el análisis es más directo
que en el caso de variables correlacionadas.
Analysis of Variance
Source DF SS MS F P
Regression 3 22316.0 7438.7 60.48 0.001
Residual Error 4 492.0 123.0
Lack of Fit 2 344.0 172.0 2.32 0.301
Pure Error 2 148.0 74.0
Total 7 22808.0
Analysis of Variance
Source DF SS MS F P
Regression 2 22216 11108 93.82 0.000
Residual Error 5 592 118
Lack of Fit 1 200 200 2.04 0.226
Pure Error 4 392 98
Total 7 22808
x2
correlación lineal
más fuerte
1 2 3 x
x2
sin correlación
lineal
-1 0 1 x
¿Qué es la Regresión Stepwise?
La Regresión Stepwise es un enfoque donde las
variables y otros elementos (cuadráticos, interacciones,
ect.) se…
Después “OK”.
Adición de Columnas para
Elementos Cuadráticos
•Titula tres columnas en blanco como Coctane2, Cspeed2, Cload2
•Selecciona Calc > Calculator…
•Y luego...
Step 1 2 3
Constant 30.23 30.23 30.23 La regresión stepwise se detiene en el
Paso 3.
Coctane 0.900 0.878 1.210
T-Value 4.67 5.94 13.73
P-Value 0.000 0.000 0.000 Las variables seleccionadas se indican
Cload -0.0086 -0.0098 señalando sus coeficientes y valores T.
T-Value -3.70 -8.26
P-Value 0.002 0.000 El procedimiento stepwise seleccionó
Cspeed -0.297 octano (x1), carga (x2), y velocidad (x3)
T-Value -7.10
P-Value 0.000 así que el modelo seleccionado es
S 1.90 1.45 0.735 y = b 0 + b1 x 1 + b 2 x 2 + b 3 x 3
R-Sq 54.79 74.95 93.97
R-Sq(adj) 52.28 72.00 92.84
C-p 79.5 38.9 (Se eliminan todos los elementos
0.7
cuadráticos.)
Ahora correremos el programa de regresión para verificar la validez de este
modelo.
Regresión con Elementos
Seleccionados
Regression Analysis: mile versus Coctane, Cspeed, Cload
Analysis of Variance
Source DF SS MS F P
Regression 3 134.596 44.865 83.07 0.000
Residual Error 16 8.641 0.540
Total 19 143.238
Source DF Seq SS
Coctane 1 78.476
Cspeed 1 19.306
Cload 1 36.815
La Ecuación de Regresión
La ecuación es: y = 30.2 + 1.21 x1 - .297x2 - .00983x3.
Como las variables están concentradas, la ecuación real
es:
y = 30.2 + 1.21(x1 – 90.25) - .297(x2 – 54.40) - 0.00983(x3
– 471.85). octane
88
speed
52
load
646
93 60 465
91 58 359
90 52 665
90 55 214
89 46 606
92 58 458
87 46 557
94 55 605
95 62 407
88 47 259
89 58 423
90 63 596
93 54 286
91 53 612
92 52 399
89 52 444
94 53 697
93 54 376
91 58 363
90.95 54.4 471.85
Análisis Residual
Residuals Versus the Fitted Values Residuals Versus Cspeed
(response is mile) (response is mile)
1 1
Residual
Residual
0
0
-1
-1
25 26 27 28 29 30 31 32 33 34 35
-10 0 10
Fitted Value
Cspeed
1
1
Residual
Residual
0 0
-1 -1
.999
.99
.95
Probabilidad
.80
.50
.20
.05
.01
.001
-1 0 1
RESI1
Promedio: -0.0000000 Prueba de Normalidad Anderson-Darling
Desv Est: 0.674399 A Cuadrada: 0.330
N: 20 Valor P: 0.487