Capitulo 5 Sesion 2

CAPITULO 5: ANALISIS ESTADISTICO IV
Sesión 2: Correlación y Regresión III

Regresión múltiple
Y= f (X1, X2, X3, etc.)
 La regresión múltiple es el mismo concepto que la regresión lineal, pero es una ecuación para
mostrar la relación matemática entre varias X y una Y.
 La regresión múltiple se usa para seleccionar entre muchas X (variables de aporte y del
proceso) al mismo tiempo para encontrar la variable más importante que afectan a Y (la
variable del resultado). Esto permite seleccionar la mejor solución para la mejora.
Ecuación de regresión múltiple:
Y= b0 + b1 X1 + b2 X2 + b3 X3 + …etc.
Donde…
Y = variable de resultado
XS = variables predictivas (variables de aporte o del proceso)
b0 = intercepción (valor previsto de Y cuando cada X = 0)
b1 = inclinación de la relación lineal entre Y y X1,
o el cambio en Y por incremento de unidad en X1 que
sostienen todas las demás XS constantes
b2 = inclinación para X2
b3 = inclinación para X3
etc….
Ejemplo de regresión múltiple
Situación:
Un equipo de Lean Six Sigma que trabaja
en una central telefónica y enfocado en
mejorar la velocidad de respuesta deseaba
comprobar si la cantidad de llamadas Hoja de datos:
dirigidas al área de atención al cliente y la
cantidad de preguntas sobre las cuentas Velocidad de
respuesta
Número de
llamadas
Número de
preguntas
activas estaban correlacionadas con la (segundos) (por hora) (por hora)
velocidad de respuesta. 21 503 45
24 654 52
Para esta situación, las variables
predictivas y de respuesta fueron: 30 709 22
Y = Velocidad de respuesta 16 598 16
X1 = cantidad de llamadas
X2 = cantidad de preguntas
Ejemplo de regresión múltiple
(continuación)
Resultados: La cantidad de
llamadas causa la
R-Sq = 94.3%
variación en la
Valor-p para la cantidad de llamadas = 0.0 velocidad de
respuesta
Valor-P para la cantidad de preguntas = 0.785
Interpretación:
 El valor R-sq indica que las variables de aporte en la regresión representan un 94.3% de
la variación en velocidad de respuesta, sin embargo…
 Puesto que el valor-p de la cantidad de preguntas es mayor a 0.05 no influye en la
velocidad de respuesta
 Puesto que el valor-p de la cantidad de llamadas es menor que 0.05, sí influye en la
velocidad de respuesta y por consiguiente es una X fundamental.
Conclusión:
Debe ser la cantidad de llamadas lo que está creando toda la variación en la velocidad
de respuesta.
Correlación de Múltiples Factores
Un Black Belt, evaluando un proceso de fabricación de hilo, desea determinar
las variables de entrada al proceso claves (KPIVs; las “x’s”) para la
resistencia de la madeja “y” (skein strength).
Su equipo usó una matriz causa-efecto para seleccionar la resistencia
,longitud y acabado de la fibra como las más idóneas
\DataFile\Yarn.mtw
Minitab: Stat>Basicstat>Correlation
Correlación con Minitab
Minitab
Minitab
Minitab
Fitted Line Plot
Skeinstr = 267.5 - 5.380 Fiberlen
+ 0.04042 Fiberlen^2
130 S 7.96133
R-Sq 60.7%
R-Sq(adj) 56.1%
120
110
Skeinstr
100
90
80
70
60 70 80 90 100
Fiberlen
Minitab
Best Subsets Regression: Skeinstr versus Fiberlen, Fiberstr, Fiberfin
Response is Skeinstr
F F F
i i i
b b b
e e e
r r r
l s f
R-Sq R-Sq Mallows e t i
Vars R-Sq (adj) (pred) Cp S n r n
1 53.2 50.6 36.2 13.6 8.4445 X
1 23.7 19.5 2.3 32.2 10.780 X
2 74.5 71.5 63.4 2.1 6.4101 X X
2 64.6 60.4 46.9 8.4 7.5573 X X
3 74.7 70.0 55.9 4.0 6.5859 X X X
Fitted Line Plot
Skeinstr = - 3850 + 152.2 Fiberlen
- 1.953 Fiberlen^2 + 0.008326 Fiberlen^3
140
S 5.53762
R-Sq 82.1%
130 R-Sq(adj) 78.8%
120
Skeinstr
110
100
90
80
70
60 70 80 90 100
Fiberlen
Minitab
Regression Analysis: Skeinstr versus Fiberlen, Fiber 2, Fiber 3, Fiberfin
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value

Regression 4 2431.1 607.77 29.24 0.000
Fiberlen 1 333.4 333.36 16.04 0.001
Fiber 2 1 337.3 337.25 16.23 0.001
Fiber 3 1 345.9 345.85 16.64 0.001
Fiberfin 1 178.9 178.90 8.61 0.010
Error 15 311.7 20.78
Total 19 2742.8
Model Summary
S R-sq R-sq(adj) R-sq(pred)

4.55880 88.63% 85.60% 78.12%
Coefficients
Term Coef SE Coef T-Value P-Value VIF

Constant -3139 816 -3.85 0.002
Fiberlen 124.8 31.2 4.01 0.001 56865.60
Fiber 2 -1.591 0.395 -4.03 0.001 235468.00
Fiber 3 0.00676 0.00166 4.08 0.001 61531.03
Fiberfin -0.632 0.216 -2.93 0.010 1.27
Regression Equation
Skeinstr = -3139 + 124.8 Fiberlen - 1.591 Fiber 2 + 0.00676 Fiber 3 - 0.632 Fiberfin
Fits and Diagnostics for Unusual Observations
Obs Skeinstr Fit Resid Std Resid

8 130.00 131.36 -1.36 -0.61 X
20 80.00 77.98 2.02 0.91 X
X Unusual X
Un Ejemplo más Complejo:
Tratamiento de agua
Se tienen 17 observaciones relacionadas con el
tratamiento del agua en una planta de fabricación. Hay
cinco variables de proceso conocidas y una variable
resultado, Y:
X1 = temperatura media mensual (oF)

X2 = cantidad de producción (libras)
X3 = número de días de operación de la planta en el mes.
X4 = número de personas en la nómina mensual de la planta
X5 = variable desconocida importante para el “dueño” del proceso
Y = tratamiento de agua mensual
Use los datos para extraer las variables vitales del proceso que
pueden influir en el tratamiento del agua.
Datos
\DataFile\water.mtw
Tratamiento
X1 X2 X3
deX4
agua
X5 Y
52.6 7438 19 119 43 3364
58.3 6670 20 130 57 3102
63.4 7113 20 141 24 3171
69.2 9637 18 152 19 3284
70.9 15482 23 177 33 3381
72.4 15243 21 174 12 4276
64.3 12522 18 161 80 3841
57.1 14157 21 171 78 3356
48.7 13246 18 175 45 3522
35.3 14777 18 172 31 3604
39.8 17469 20 179 35 3885
39.0 15250 17 189 18 3428
50.1 14254 20 182 23 3315
57.9 15255 20 176 6 3205
65.3 15235 19 175 35 4333
70.6 19439 19 184 27 4923
71.0 16346 20 184 76 3614
Primer Gráfico de los Datos
Graph>Matrix Plot>Select all variables
Gráfica de matriz de X1, X2, X3, X4, X5, Y
10000 15000 20000 120 150 180 3000 4000 5000
60
X1 45
20000 30
15000
X2
10000
22
20
X3
18
180
150
X4
120
80
40
X5
5000 0
4000
Y
3000
30 45 60 18 20 22 0 40 80
¿Observa alguna tendencia?

Datos
\DataFile\water.mtw
Tratamiento
X1 X2 X3
deX4
agua
X5 Y
52.6 7438 19 119 43 3364
58.3 6670 20 130 57 3102
63.4 7113 20 141 24 3171
69.2 9637 18 152 19 3284
70.9 15482 23 177 33 3381
72.4 15243 21 174 12 4276
64.3 12522 18 161 80 3841
57.1 14157 21 171 78 3356
48.7 13246 18 175 45 3522
35.3 14777 18 172 31 3604
39.8 17469 20 179 35 3885
39.0 15250 17 189 18 3428
50.1 14254 20 182 23 3315
57.9 15255 20 176 6 3205
65.3 15235 19 175 35 4333
70.6 19439 19 184 27 4923
71.0 16346 20 184 76 3614
Minitab
10000 15000 20000 120 150 180 3000 4000 5000
60
X1 45
20000 30
15000
X2
10000
22
20
X3
18
180
150
X4
120
80
40
X5
5000 0
4000
Y
3000
30 45 60 18 20 22 0 40 80

Minitab
10000 15000 20000 120 150 180 3000 4000 5000
60
X1 45
20000 30
15000
X2
10000
22
20
X3
18
180
150
X4
120
80
40
X5
5000 0
4000
Y
3000
30 45 60 18 20 22 0 40 80

Water Usage
Nuestro objetivo es ajustar una regresión de la forma:
Y  b0  b1 X 1  b2 X 2  b3 X 3  b4 X 4  b5 X 5
Este problema ilustrará los siguientes aspectos adicionales de la regresión múltiple:
(1) Eliminación de variables X que no explican la variación

(2) Análisis de Residuos
Minitab
Análisis Minitab de los datos del
“Tratamiento de agua” 2
Regression Analysis
The regression equation is

Y = 6805 + 17.2 X1 + 0.222 X2 - 139 X3 - 26.4 X4 - 1.59 X5
Como siempre, esto es un ajuste por mínimos cuadrados.

¿Todas las variables X´s son lo suficientemente importantes para incluirlas
en la ecuación de regresión?
¿Cómo lo sabe?
Predictor Coef SE Coef T P
Constant 6805 1462 4.66 0.001
X1 17.229 6.643 2.59 0.025
X2 0.22178 0.05024 4.41 0.001
X3 -138.58 55.09 -2.52 0.029
X4 -26.430 9.268 -2.85 0.016
X5 -1.591 3.189 -0.50 0.628
P < 0.05 para cada “predictor” excepto para la X5.

Cuando se ve que un “predictor” no es importante, se realiza de nuevo la regresión
sin el mismo.
Minitab
Regression Analysis
The regression equation is
Y = 6687 + 17.0 X1 + 0.220 X2 - 138 X3 - 25.9 X4
Predictor Coef SE Coef T P

Constant 6687 1396 4.79 0.000
X1 16.964 6.412 2.65 0.021
X2 0.22016 0.04854 4.54 0.001
X3 -138.35 53.34 -2.59 0.023
X4 -25.885 8.910 -2.91 0.013
Ahora, P < 0.05 para todos los “predictors”.

S = 276.6 R-Sq = 76.1% R-Sq(adj) = 68.1%
R-Sq (Adj) = 68.1% de la variación de Y está explicada por el cuarto factor

incluido en la regresión.
(Aunque razonablemente bueno,esto significa que aproximadamente el
31,9% de la variación aún no está explicada.)
El análisis de residuos nos indica si se viola alguno de los supuestos de
partida del ajuste por mínimos cuadrados. Esto nos guia en la mejora del
ajuste.
Supuestos de partida en Mínimos Cuadrados:
1. La varianza de los residuales no depende de ninguna

variable predictora, X.
2. Los Residuos se distribuyen según una Normal.
3. Ordenados en función del tiempo, los residuos son

independientes unos de otros.
Para examinar los residuales, rehaga la regresión seleccionando:
Stat > Regression > Regression
Seleccione “storage” y luego seleccione “residuals and fits”.
Stat>Regression>Residuals plots select residuals and fits

Minitab
Residual Plots for Y
Normal Probability Plot Residuals Versus the Fitted Values
99 500
N 17
AD 0.159
90
P-Value 0.938
Residual
Percent
50 0
10
-500
1
-500 -250 0 250 500 3000 3500 4000 4500 5000
Residual Fitted Value
Histogram of the Residuals Residuals Versus the Order of the Data

4.5 500
Frequency
3.0
Residual
0
1.5
-500
0.0
-400 -200 0 200 400 2 4 6 8 10 12 14 16
Residual Observation Order
Worksheet: Water.MTW
Prediciendo Tratamiento de agua
Predecir Tratamiento de agua mensual con los siguientes factores :
X1 = temperatura media mensual (oF) 55
X2 = cantidad de producción (libras) 7500
X3 = número de días de operación de la planta en el mes. 22
X4 = número personas en nómina mensual de la planta 50
Minitab
Salida con el mejor modelo
Primero fíjese en el modelo con el mayor “R2 adjusted” y un C-p bajo y más ajustado al
número de variables.
(Ver Minitab Statistics Coach y la siguiente página)
Este output es una guía. No es un substituto del conocimientop del proceso ni de un
análisis en profundidad.
Interpretando la “salida con el mejor modelo”
Localizada entre la primera y la última General; fíjese en modelos donde
del conjunto de columnas está el C-p es pequeño y próximo a p.
estadístico usado para examinar el
grado de ajuste del modelo a los Si el modelo es adecuado (se
datos. ajusta bien a los datos), el valor
R-Sq describe la proporción de
C-p esperado es aproximadamente
variación en la respuesta explicada = a p ( # parámetros en el modelo).
por los predictores en el modelo Un C-p pequeño indica que el
Adj. R-Sq es R ajustado para el modelo es relativamente preciso
número de predictores en el (pequeña varianza) al estimar el
modelo. coeficiente de regresión verdadero
C-p es otro estadístico para y al predecir futuras respuestas.
comprobar el grado de ajuste a los Esta precisión no mejora mucho
datos. añadiendo mas “predictors”.
s es la desviación estandar del error. Modelos con considerable falta de
ajuste tienen una C-p mayor que p.
© All Rights Reserved. 2000 Minitab, Inc.

Capitulo 5 Sesion 2

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capitulo 5 Sesion 2

Cargado por

Copyright:

Formatos disponibles

CAPITULO 5: ANALISIS ESTADISTICO IV

Sesión 2: Correlación y Regresión III

Y = Velocidad de respuesta 16 598 16

Source DF Adj SS Adj MS F-Value P-Value

S R-sq R-sq(adj) R-sq(pred)

Term Coef SE Coef T-Value P-Value VIF

Fits and Diagnostics for Unusual Observations

Obs Skeinstr Fit Resid Std Resid

X1 = temperatura media mensual (oF)

¿Observa alguna tendencia?

¿Observa alguna tendencia?

¿Observa alguna tendencia?

Este problema ilustrará los siguientes aspectos adicionales de la regresión múltiple:

(1) Eliminación de variables X que no explican la variación

The regression equation is

Como siempre, esto es un ajuste por mínimos cuadrados.

P < 0.05 para cada “predictor” excepto para la X5.

Predictor Coef SE Coef T P

Ahora, P < 0.05 para todos los “predictors”.

R-Sq (Adj) = 68.1% de la variación de Y está explicada por el cuarto factor

Supuestos de partida en Mínimos Cuadrados:

1. La varianza de los residuales no depende de ninguna

2. Los Residuos se distribuyen según una Normal.

3. Ordenados en función del tiempo, los residuos son

Stat > Regression > Regression

Seleccione “storage” y luego seleccione “residuals and fits”.

Stat>Regression>Residuals plots select residuals and fits

Histogram of the Residuals Residuals Versus the Order of the Data

También podría gustarte