Está en la página 1de 48

Regresión Múltiple y Polinominal

Regresión Múltiple
y Polinominal
Contenido
• Usa los Datos Históricos Primero
• Regresión Polinominal
• Qué es la Regresión Múltiple
• El Problema de las Variables Correlacionadas
• Método de Construcción de Modelos
• Concentración de Variables Cuantitativas
• Regresión Stepwise
Regresión Múltiple y
Polinominal - Objetivos de Aprendizaje
Al terminar este módulo, tendrás la capacidad de...

1. Usar el análisis de regresión para identificar y verificar


los KPIVs (causas), y determinar los mejores niveles de
operación.

2. Realizar un análisis de regresión cuando haya múltiples


variables independientes y/o términos de orden superior.

3. Seguir un método sólido para la construcción de modelos


y así obtener la ecuación predictiva más confiable
posible en una situación determinada.
Usa los Datos Históricos Primero
• Antes de realizar un DOE, aprende lo que puedas de los
datos existentes.
• Con frecuencia, las bases de datos existentes tienen varias
variables.
• Mediante técnicas de Regresión sólidas, podemos analizar
los datos existentes para…

– Identificar las variables que tienen mayor impacto sobre la


salida (Y).
– Identificar las variables que debemos incluir en un DOE.
– Determinar los mejores niveles de operación a partir de la
ecuación predictiva resultante.
En otras palabras, con frecuencia el análisis de regresión
identifica y verifica las causas. Algunas veces, sólo con éste
podemos establecer los mejores niveles de operación.
Técnicas de Regresión
Y = f (x1, x2, x3…)
Las técnicas de regresión avanzadas son necesarias ya
que muchas bases de datos tienen numerosas variables
independientes (Xs) y muchos valores para cada una.

Por ejemplo…

• El modelo lineal tal vez no funcione. Es posible que se


necesiten términos de orden superior, como x2.
• Pueden existir varias relaciones entre las variables, como
interacciones y correlaciones.
Este módulo presenta…
1. Técnicas de regresión múltiple y polinominal para manejar
estas situaciones.
2. Un procedimiento sólido para realizar el análisis de regresión.
Modelos Polinominales
Si el diagrama de dispersión muestra un patrón "de curva", puede ser
apropiado un modelo polinominal.
y

Modelo: y = b 0 + b1x + b 2 x 2 (cuadrático))

: y = b0+ b1x + b2 x 2 + b3 x 3 (cúbico)


Modelo:
x

En el caso de la regresión polinominal, generalmente se usa el


polinomio de grado inferior que funcione.
Ejemplo: Modelo Polinominal
Gráfica de Regresión
Considera los datos
Y = 22.6810 + 0.377143 X pares en JC7.
Cuad = 5.80697 R-Cuad= 27.0% R-Cuad (aj) = 19.7%
Vemos que el modelo
40
lineal no es muy
conveniente.

Seguiremos con el
análisis sólo con fines
30
explicativos.
Y

Se completó una
corrida de regresión,
incluyendo la prueba
20 de error puro por falta
de ajuste, error puro y
10 15 20 25 30 35 una gráfica de
X residuos vs x.
Descarte del Modelo Lineal
Para el modelo lineal se considera
Regression Analysis: Y versus X el 19.7% de variabilidad.

The regression equation is


Y = 22.7 + 0.377 X
El 19.7% no es
Predictor Coef SE Coef T P muy significativo.
Constant 22.681 4.724 4.80 0.001
X 0.3771 0.1963 1.92 0.084

S = 5.807 R-Sq = 27.0% R-Sq(adj) = 19.7%

Analysis of Variance

Source DF SS MS F P
Regression 1 124.46 124.46 3.69 0.084
Residual Error 10 337.21 33.72
Lack of Fit 4 318.21 79.55 25.12 0.001
Pure Error 6 19.00 3.17
Total 11 461.67 La prueba de falta de ajuste
descarta la adecuación del
modelo lineal.
Patrón de Residuos no Aleatorio
La gráfica de
Residuos vs X
residuos muestra (la respuesta es Y)
claramente un patrón
no aleatorio. 10
Residuos

-10
10 15 20 25 30 35
X
Ahora pasaremos a un modelo cuadrático.
El Modelo Cuadrático Se Ve Mejor
Gráfica de Regresión
Y = -12.9143 + 4.07357 X
- 0.0821429 X**2 Selecciona: Stat >
Cuad = 1.57510 R-C = 95.2 % R-C (adj) = 94.1 % Regression >
40
Fitted line plot.
Haz clic en
Quadratic y luego
en OK.
30
Y

El modelo cuadrático
parece ser una
buena opción. El
20 porcentaje de
10 15 20 25 30 35
variabilidad que se
X representa es 94.1%.
Creación de un
Término Cuadrático
Para crear un término cuadrático para el análisis de
regresión:
• Abre el archivo JC7.
• Nombra una columna en blanco como X2 .
• Selecciona: Calc > Calculator.
• y después....

Calculadora Guarda el
resultado en ‘X2’
C1 Y
C2 X Expresión:
C3 X2 X*X
Interpretación de los
Resultados de Minitab
Regression Analysis: Y versus X, X2
The regression equation is
Y = - 12.9 + 4.07 X - 0.0821 X2

Predictor Coef SE Coef T P La variabilidad del 94.1%


Constant -12.914 3.410 -3.79 0.004
X 4.0736 0.3324 12.25 0.000 que explica este modelo
X2 -0.082143 0.007291 -11.27 0.000
tiene significancia.
S = 1.575 R-Sq = 95.2% R-Sq(adj) = 94.1%

Analysis of Variance
Source DF SS MS F P
Regression 2 439.34 219.67 88.54 0.000
Residual Error 9 22.33 2.48
Lack of Fit 3 3.33 1.11 0.35 0.791
Pure Error 6 19.00 3.17
Total 11 461.67

Source DF Seq SS
La falta de prueba de ajuste
X 1 124.46 no descarta el modelo
X2 1 314.88
cuadrático.
Del SST = 461.67, la x representa 124.46
unidades. Cuando se suma a x2,
representa 314.88 unidades adicionales.
Comparación de Modelos
Lineales y Cuadráticos
En este ejemplo...

El modelo lineal tiene una R2 (aj) = 19.7%

El modelo cuadrático tiene una R2 (aj) = 94.1%

Cuando se comparan los modelos, se debe usar una R2


Nota ajustada ya que cuando se suman términos (ya sea que
tengan o no significancia estadística) la R2 siempre
aumenta.
Modelo Cuadrático
–Verificación de Residuos
Residuos vs X
(la respuesta es Y)

1
Residuos

-1

-2

10 15 20 25 30 35
X

La gráfica de residuos vs x no muestra problemas.


Modelo Cuadrático
–Prueba de Normalidad

.999
.99
.95
Probabilidad

.80
.50
.20
.05
.01
.001

-2 -1 0 1 2
RESI3
Promedio : 0 Prueba de Normalidad Anderson-Darling
Desv. Est. 1.42474 A Cuadrada: 0.219
N: 12 Valor P: 0.790

La prueba de normalidad no muestra evidencia de no


normalidad, con un valor P de .79. El modelo cuadrático
¡ajusta bien!
¿Qué es la Regresión Múltiple?
Si tenemos diversas variables que sospechamos/
sabemos están relacionadas con una variable de
respuesta, y, de interés, podemos construir un modelo
de regresión múltiple.
Si usamos dos o más variables de entrada, x1, x2, etc.,
los modelos se tornan mucho más complejos, pero
tienen el potencial de producir información más útil y
arrojar predicciones más precisas que los modelos de
una sola variable.
Uno de los problemas principales para construir
modelos de regresión múltiple es la imposibilidad de
ver la relación entre x1, x2… y la y.
Ejemplo de Regresión Múltiple
• Los datos en JC3 son:
y = % de impurezas en una solución química
x1 = temperatura (C)
x2= tiempo de esterilización (minutos)
• Nuestro objetivo es construir un modelo de regresión y
usarlo para predecir el % medio de impurezas cuando se
establece un tiempo de 15 minutos y una temperatura de
120.
• Estrategia
– Propón un modelo.
– Corre un programa de regresión, incluyendo todos los
procedimientos de verificación de modelos.
– Usa/interpreta el modelo una vez que esté validado.
% de Impurezas vs Tiempo

2.6
% imp

2.1

1.6
15 16 17 18 19 20
tiempo

La y vs x2 (% de impurezas vs tiempo) muestra una relación


ligeramente lineal. Aún cuando parece que no hay mucha
relación, puede ser útil en combinación con x (temperatura).
% de Impurezas
vs Temperatura

2.6
% imp

2.1

1.6
75 85 95 105 115 125
temp
La y vs x1 (% de impurezas vs temperatura) muestra una relación
lineal más clara.
Prueba el Modelo Lineal
• Con base en las gráficas, probaremos el modelo lineal.
y = b 0 + b1 x 1 + b 2 x 2
• Nuestras selecciones de Minitab son:
– Stat > Regression > Regression.
– % de impurezas en el cuadro de respuesta, temperatura y tiempo en
el cuadro de predicción.
– Haz clic en Graphs (gráficas) y luego en Residuals versus fits
(residuos vs ajustes).
– Introduce tiempo y temperatura en el cuadro Residuals versus
variables (residuos vs variables) y haz clic en OK.
– Haz clic en Options (opciones), y luego en Pure error (error puro),
introduce 15 120 en el cuadro de intervalos de predicción y haz clic
en OK.
– Haz clic en Results (resultados), selecciona la tercera opción, y
luego OK.
– Haz clic en Storage (almacenamiento) y verifica Residuals
(residuos).
– Corre el programa ahora.
Resultado de Minitab
– Regresión Múltiple
Regression Analysis: %imp versus time, temp Cada variable tiene significancia,
dado que la otra variable se
The regression equation is incluye en el modelo.
%imp = 2.86 + 0.0433 time - 0.0146 temp

Predictor Coef SE Coef T P


Constant 2.8567 0.1734 16.48 0.000
time 0.043333 0.008061 5.38 0.000
temp -0.0146000 0.0009873 -14.79 0.000

S = 0.06981 R-Sq = 96.5% R-Sq(adj) = 95.7%

El modelo representa 95.7% de la


variabilidad.
Resultado de Minitab (continuación)
Analysis of Variance
El 95.7% tiene
Source DF SS MS F P significancia.
Regression 2 1.20663 0.60332 123.78 0.000
Residual Error 9 0.04387 0.00487
Lack of Fit 3 0.01367 0.00456 0.91 0.492 La prueba de falta de
Pure Error 6 0.03020 0.00503 ajuste no descarta el
Total 11 1.25050 modelo.

Source DF Seq SS De la SST = 1.25050, 1.0658 se


time 1 0.14083
debe a la temperatura. El .14083
temp 1 1.06580
adicional se debe al tiempo.
Predicted Values for New Observations
New Obs Fit SE Fit 95.0% CI 95.0% PI
1 1.7547 0.0347 ( 1.6762, 1.8331) ( 1.5783, 1.9310)
Values of Predictors for New Observations

New Obs time temp


1 15.0 120

Se predice que la media del % de impurezas será


1.7547 cuando la temperatura es de 120 y el tiempo
es de 15 minutos.
Análisis Residual
Se examinaron tres gráficas de residuos (las
tres diapositivas siguientes):

•Residuos vs Tiempo
•Residuos vs Temperatura
•Residuos vs Valores Ajustados

Las gráficas de residuos no muestran


problemas de modelo.
Residuos vs Temperatura
Residuos vs temperatura
(la respuesta es % de imp)

0.1
Residuos

0.0

-0.1

75 85 95 105 115 125


temperatura
Residuos vs Tiempo
Residuos vs Tiempo
(la respuesta es % de imp)

0.1
Residuos

0.0

-0.1

15 16 17 18 19 20

tiempo
Residuos vs Valores Ajustados
Residuos vs Valores Ajustados
(la respuesta es % de imp)

0.1
Residuos

0.0

-0.1

1.6 2.1 2.6

Valor Ajustado
Prueba de Normalidad

La gráfica .999
normal y la .99

prueba no
Probabilidad .95
.80
muestran
problemas con .50

la suposición de .20

normalidad. .05
.01
Nuestro modelo
.001
lineal queda
validado. -0.1 0.0 0.1
RESI1
Promedio: -0.0000000 Prueba de Normalidad Anderson-Darling
Desv. Est.: 0.0631497 A Cuadrada: 0.220
N: 12 Valor P: 0.786
El Problema de las
Variables Correlacionadas
En la regresión múltiple, si las variables de entrada x1, x2,
ect., no están correlacionadas, el análisis es más directo
que en el caso de variables correlacionadas.

Por lo general en un experimento diseñado, como en el


caso de este ejemplo, las variables no están, o casi no
están correlacionadas.

En nuestro ejemplo, con un coeficiente de correlación = 0


para x1, x2, tenemos y = 2.86 - .0146x1 + .0433x2 con R2
(aj) = 95.7%.
Variables No
Correlacionadas – las R2 de Adición
Regression Analysis: % imp versus temp Si hacemos la regresión de y
The regression equation is
sólo en x2 obtenemos:
% imp = 3.62 – 0.0146 temp y = 3.62 - .0146x1
con R2 = 85.2%
Predictor Coef SE Coef T P
Constant 3.6150 0.1962 18.43 0.000 Si hacemos la regresión de y
Temp -0.014600 0.001922 -7.60 0.000
sólo en x1 obtenemos:
S = 0.1359 R-Sq = 85.2% R-Sq (adj) = 83.8% y = 1.40 + .0433 x2
con R2 = 11.3%
Regression Analysis: % imp versus time
NOTA:
The regression equation is
% imp = 1.40 + 0.0433 time Los coeficientes de x1, x2 no
cambian.
Predictor Coef SE Coef T P
Constant 1.3967 0.6800 2.05 0.067 •Los valores individuales de R2 se
Time 0.04333 0.03846 1.13 0.286 suman para obtener el valor
S = 0.3331 R-Sq = 11.3% R-Sq (adj) = 2.4% combinado de R2 del 96.5%. Esto
no sucede cuando las variables de
entrada están correlacionadas.
Regresión Múltiple:
Variables X Correlacionadas

Los datos en JC6 son:


y = diámetro de la parte extruída
x1 = temperatura de dado
x2 = velocidad de extrusión
x3 = temperatura del material

Para ver las correlaciones, selecciona:


Stat > Basic stat > Correlation.
Matriz de Correlación
Correlations: diam, dtemp, rate, mtemp

diam dtemp rate


Observa que la correlación
dtemp 0.824
0.012
entre dtemp y mtemp es
muy alta. Esto significa que
rate 0.543 0.000 las dos variables
0.164 1.000 proporcionan casi la misma
información en relación con
mtemp 0.689 0.965 -0.214 y = diámetro.
0.059 0.000 0.610

Cell Contents: Pearson correlation


P-Value

La correlación alta entre las variables x puede causar problemas.


Regresión con Todas las Variables
Regression Analysis: diam versus dtemp, rate, mtemp

The regression equation is


diam = - 518 + 1.43 dtemp + 5.67 rate + 2.00 mtemp

Predictor Coef SE Coef T P


Constant -518.33 64.84 -7.99 0.001
dtemp 1.433 1.684 0.85 0.443
rate 5.667 1.132 5.01 0.007
mtemp 2.000 2.218 0.90 0.418

S = 11.09 R-Sq = 97.8% R-Sq(adj) = 96.2%

Analysis of Variance

Source DF SS MS F P
Regression 3 22316.0 7438.7 60.48 0.001
Residual Error 4 492.0 123.0
Lack of Fit 2 344.0 172.0 2.32 0.301
Pure Error 2 148.0 74.0
Total 7 22808.0

4 rows with no replicates

dtemp y mtemp parecen no tener significancia.


Regresión sin Mtemp
Regression Analysis: diam versus dtemp, rate

The regression equation is


diam = - 533 + 2.93 dtemp + 4.83 rate

Predictor Coef SE Coef T P


Constant -533.33 61.49 -8.67 0.000
dtemp 2.9333 0.2565 11.44 0.000
rate 4.8333 0.6412 7.54 0.001

S = 10.88 R-Sq = 97.4% R-Sq(adj) = 96.4%

Analysis of Variance

Source DF SS MS F P
Regression 2 22216 11108 93.82 0.000
Residual Error 5 592 118
Lack of Fit 1 200 200 2.04 0.226
Pure Error 4 392 98
Total 7 22808

Una vez que se elimina mtemp, dtemp muestra mayor


significancia.
Por Qué Usar Variables
No Correlacionadas
Observa que x1, x2, x3 R2-aj = 96.2%; y con x1, x2 solamente arroja
96.4%, no hay una diferencia real.

En ambos casos la prueba de error puro por falta de ajuste no


descarta los modelos.

El análisis de residuos y las pruebas de normalidad (que no


aparecen aquí) no muestran problemas en ninguno de los modelos.

Con las variables correlacionadas, el intervalo de confianza es


de un ancho de  49 unidades; sólo con las variables no
correlacionadas, x1, x2, es de  35, mucha mayor precisión.
Método para Construcción
de Modelos
Debido a la complejidad que implica construir un modelo con
múltiples variables, posiblemente muy correlacionadas,
proponemos un modelo más sencillo.
1.) Concentra todas las variables cuantitativas: x = x– x, o
estandarízalas. Esto reduce las correlaciones entre los
elementos x, x2, x3, etc.
2.) Introduce modelos cuadráticos completos al Procedimiento de
Regresión Stepwise de Minitab. Este es un procedimiento que
toma un grupo de variables de entrada y, con base en pruebas
estadísticas, produce un modelo con la R2-aj máxima (o lo más
próximo a ella).
3.) Verifica la adecuación del modelo de la selección stepwise.
¿Por qué Concentrar las
Variables Cuantitativas?
Para reducir la correlación entre los elementos
de 1er orden y de orden superior.

x2
correlación lineal
más fuerte

1 2 3 x

x2
sin correlación
lineal

-1 0 1 x
¿Qué es la Regresión Stepwise?
La Regresión Stepwise es un enfoque donde las
variables y otros elementos (cuadráticos, interacciones,
ect.) se…

Agregan al modelo uno a la vez


y
Eliminan del modelo uno a la vez.

Minitab corre esta rutina para encontrar el mejor modelo.


La regresión stepwise soluciona el problema de las
variables correlacionadas. Sin embargo, todavía debes
concentrar las variables para reducir la correlación entre
una variable determinada y sus elementos de orden
superior.
Ejemplo de Regresión Múltiple
Para ilustrar este modelo de método de construcción de modelos,
vamos a usar los datos en el archivo JC5:
y = Millas
X1 = octano
X2 = velocidad
X3 = carga

Primero generamos columnas para:

•Las variables concentradas


•Elementos cuadráticos
•Elementos de interacción
Adición de Columnas para
Variables Concentradas
•Titula tres columnas en blanco como, Coctane, Cspeed, Cload
•Selecciona Calc > Standardize…
•Y luego...

Después “OK”.
Adición de Columnas para
Elementos Cuadráticos
•Titula tres columnas en blanco como Coctane2, Cspeed2, Cload2
•Selecciona Calc > Calculator…
•Y luego...

Después “OK” y repite


los mismos pasos para
Cspeed2 y Cload2.
Adición de Columnas para
Elementos de Interacción
•Titula tres columnas en blanco como Coct*Cspe, Coct*Clo, Cspe*Clo
•Selección Calc > Calculator…
•Y luego...

Después “OK” y repite


los mismos pasos para
Coct*Clo y Cspe*Clo.
La Hoja de Trabajo Completa
Regresión Stepwise
Stepwise Regression: mile versus Coctane, Cspeed, ...
Alpha-to-Enter: 0.15 Alpha-to-Remove: 0.15

Response is mile on 9 predictors, with N = 20

Step 1 2 3
Constant 30.23 30.23 30.23 La regresión stepwise se detiene en el
Paso 3.
Coctane 0.900 0.878 1.210
T-Value 4.67 5.94 13.73
P-Value 0.000 0.000 0.000 Las variables seleccionadas se indican
Cload -0.0086 -0.0098 señalando sus coeficientes y valores T.
T-Value -3.70 -8.26
P-Value 0.002 0.000 El procedimiento stepwise seleccionó
Cspeed -0.297 octano (x1), carga (x2), y velocidad (x3)
T-Value -7.10
P-Value 0.000 así que el modelo seleccionado es
S 1.90 1.45 0.735 y = b 0 + b1 x 1 + b 2 x 2 + b 3 x 3
R-Sq 54.79 74.95 93.97
R-Sq(adj) 52.28 72.00 92.84
C-p 79.5 38.9 (Se eliminan todos los elementos
0.7
cuadráticos.)
Ahora correremos el programa de regresión para verificar la validez de este
modelo.
Regresión con Elementos
Seleccionados
Regression Analysis: mile versus Coctane, Cspeed, Cload

The regression equation is


mile = 30.2 + 1.21 Coctane - 0.297 Cspeed - 0.00983 Cload

Predictor Coef SE Coef T P


Constant 30.2250 0.1643 183.93 0.000 R2 (aj) = 92.8%
Coctane 1.20973 0.08812 13.73 0.000
Cspeed -0.29697 0.04182 -7.10 0.000
tiene significancia
Cload -0.009833 0.001191 -8.26 0.000

S = 0.7349 R-Sq = 94.0% R-Sq(adj) = 92.8%

Analysis of Variance

Source DF SS MS F P
Regression 3 134.596 44.865 83.07 0.000
Residual Error 16 8.641 0.540
Total 19 143.238

Source DF Seq SS
Coctane 1 78.476
Cspeed 1 19.306
Cload 1 36.815
La Ecuación de Regresión
La ecuación es: y = 30.2 + 1.21 x1 - .297x2 - .00983x3.
Como las variables están concentradas, la ecuación real
es:
y = 30.2 + 1.21(x1 – 90.25) - .297(x2 – 54.40) - 0.00983(x3
– 471.85). octane
88
speed
52
load
646
93 60 465
91 58 359
90 52 665
90 55 214
89 46 606
92 58 458
87 46 557
94 55 605
95 62 407
88 47 259
89 58 423
90 63 596
93 54 286
91 53 612
92 52 399
89 52 444
94 53 697
93 54 376
91 58 363
90.95 54.4 471.85
Análisis Residual
Residuals Versus the Fitted Values Residuals Versus Cspeed
(response is mile) (response is mile)

1 1
Residual

Residual
0
0

-1
-1

25 26 27 28 29 30 31 32 33 34 35
-10 0 10
Fitted Value
Cspeed

Residuals Versus Cload


Residuals Versus Coctane
(response is mile)
(response is mile)

1
1

Residual
Residual

0 0

-1 -1

-4 -3 -2 -1 0 1 2 3 4 -300 -200 -100 0 100 200


Coctane Cload

Todos los residuos están razonablemente al azar, así que no se


detectaron problemas en el modelo.
Prueba de Normalidad

.999
.99
.95
Probabilidad

.80
.50
.20
.05
.01
.001

-1 0 1
RESI1
Promedio: -0.0000000 Prueba de Normalidad Anderson-Darling
Desv Est: 0.674399 A Cuadrada: 0.330
N: 20 Valor P: 0.487

La gráfica normal y la prueba no muestran problemas con la


suposición de normalidad.
Ejercicio en Grupo 1.1
– Regresión Múltiple
• Consulta tu cuaderno de trabajo.

• Utilice el simulador Logicon Process Simulator


para el escenario Blood Assay.

• Lleve a cabo una regresión múltiple de acuerdo


a lo que se te pide.

También podría gustarte