Está en la página 1de 40

CAPITULO 5: ANALISIS ESTADISTICO IV

Sesión 2: Correlación y Regresión III


Regresión múltiple
Y= f (X1, X2, X3, etc.)
 La regresión múltiple es el mismo concepto que la regresión lineal, pero es una ecuación para
mostrar la relación matemática entre varias X y una Y.
 La regresión múltiple se usa para seleccionar entre muchas X (variables de aporte y del
proceso) al mismo tiempo para encontrar la variable más importante que afectan a Y (la
variable del resultado). Esto permite seleccionar la mejor solución para la mejora.
Ecuación de regresión múltiple:

Y= b0 + b1 X1 + b2 X2 + b3 X3 + …etc.
Donde…
Y = variable de resultado
XS = variables predictivas (variables de aporte o del proceso)
b0 = intercepción (valor previsto de Y cuando cada X = 0)
b1 = inclinación de la relación lineal entre Y y X1,
o el cambio en Y por incremento de unidad en X1 que
sostienen todas las demás XS constantes
b2 = inclinación para X2
b3 = inclinación para X3
etc….
Ejemplo de regresión múltiple
Situación:
Un equipo de Lean Six Sigma que trabaja
en una central telefónica y enfocado en
mejorar la velocidad de respuesta deseaba
comprobar si la cantidad de llamadas Hoja de datos:
dirigidas al área de atención al cliente y la
cantidad de preguntas sobre las cuentas Velocidad de
respuesta
Número de
llamadas
Número de
preguntas
activas estaban correlacionadas con la (segundos) (por hora) (por hora)
velocidad de respuesta. 21 503 45

24 654 52
Para esta situación, las variables
predictivas y de respuesta fueron: 30 709 22

Y = Velocidad de respuesta 16 598 16

X1 = cantidad de llamadas
X2 = cantidad de preguntas
Ejemplo de regresión múltiple
(continuación)
Resultados: La cantidad de
llamadas causa la
R-Sq = 94.3%
variación en la
Valor-p para la cantidad de llamadas = 0.0 velocidad de
respuesta
Valor-P para la cantidad de preguntas = 0.785
Interpretación:
 El valor R-sq indica que las variables de aporte en la regresión representan un 94.3% de
la variación en velocidad de respuesta, sin embargo…
 Puesto que el valor-p de la cantidad de preguntas es mayor a 0.05 no influye en la
velocidad de respuesta
 Puesto que el valor-p de la cantidad de llamadas es menor que 0.05, sí influye en la
velocidad de respuesta y por consiguiente es una X fundamental.
Conclusión:
Debe ser la cantidad de llamadas lo que está creando toda la variación en la velocidad
de respuesta.
Correlación de Múltiples Factores
Un Black Belt, evaluando un proceso de fabricación de hilo, desea determinar
las variables de entrada al proceso claves (KPIVs; las “x’s”) para la
resistencia de la madeja “y” (skein strength).
Su equipo usó una matriz causa-efecto para seleccionar la resistencia
,longitud y acabado de la fibra como las más idóneas

\DataFile\Yarn.mtw

Minitab: Stat>Basicstat>Correlation
Correlación con Minitab
Minitab
Correlación con Minitab
Minitab
Correlación con Minitab
Minitab
Fitted Line Plot
Skeinstr = 267.5 - 5.380 Fiberlen
+ 0.04042 Fiberlen^2

130 S 7.96133
R-Sq 60.7%
R-Sq(adj) 56.1%
120

110
Skeinstr

100

90

80

70
60 70 80 90 100
Fiberlen
Minitab
Best Subsets Regression: Skeinstr versus Fiberlen, Fiberstr, Fiberfin

Response is Skeinstr

F F F
i i i
b b b
e e e
r r r
l s f
R-Sq R-Sq Mallows e t i
Vars R-Sq (adj) (pred) Cp S n r n
1 53.2 50.6 36.2 13.6 8.4445 X
1 23.7 19.5 2.3 32.2 10.780 X
2 74.5 71.5 63.4 2.1 6.4101 X X
2 64.6 60.4 46.9 8.4 7.5573 X X
3 74.7 70.0 55.9 4.0 6.5859 X X X
Fitted Line Plot
Skeinstr = - 3850 + 152.2 Fiberlen
- 1.953 Fiberlen^2 + 0.008326 Fiberlen^3
140
S 5.53762
R-Sq 82.1%
130 R-Sq(adj) 78.8%

120
Skeinstr

110

100

90

80

70
60 70 80 90 100
Fiberlen
Minitab
Regression Analysis: Skeinstr versus Fiberlen, Fiber 2, Fiber 3, Fiberfin

Analysis of Variance

Source DF Adj SS Adj MS F-Value P-Value


Regression 4 2431.1 607.77 29.24 0.000
Fiberlen 1 333.4 333.36 16.04 0.001
Fiber 2 1 337.3 337.25 16.23 0.001
Fiber 3 1 345.9 345.85 16.64 0.001
Fiberfin 1 178.9 178.90 8.61 0.010
Error 15 311.7 20.78
Total 19 2742.8

Model Summary

S R-sq R-sq(adj) R-sq(pred)


4.55880 88.63% 85.60% 78.12%

Coefficients

Term Coef SE Coef T-Value P-Value VIF


Constant -3139 816 -3.85 0.002
Fiberlen 124.8 31.2 4.01 0.001 56865.60
Fiber 2 -1.591 0.395 -4.03 0.001 235468.00
Fiber 3 0.00676 0.00166 4.08 0.001 61531.03
Fiberfin -0.632 0.216 -2.93 0.010 1.27

Regression Equation

Skeinstr = -3139 + 124.8 Fiberlen - 1.591 Fiber 2 + 0.00676 Fiber 3 - 0.632 Fiberfin

Fits and Diagnostics for Unusual Observations

Obs Skeinstr Fit Resid Std Resid


8 130.00 131.36 -1.36 -0.61 X
20 80.00 77.98 2.02 0.91 X

X Unusual X
Un Ejemplo más Complejo:
Tratamiento de agua
Se tienen 17 observaciones relacionadas con el
tratamiento del agua en una planta de fabricación. Hay
cinco variables de proceso conocidas y una variable
resultado, Y:

X1 = temperatura media mensual (oF)


X2 = cantidad de producción (libras)
X3 = número de días de operación de la planta en el mes.
X4 = número de personas en la nómina mensual de la planta
X5 = variable desconocida importante para el “dueño” del proceso
Y = tratamiento de agua mensual

Use los datos para extraer las variables vitales del proceso que
pueden influir en el tratamiento del agua.
Datos
\DataFile\water.mtw
Tratamiento
X1 X2 X3
deX4
agua
X5 Y
52.6 7438 19 119 43 3364
58.3 6670 20 130 57 3102
63.4 7113 20 141 24 3171
69.2 9637 18 152 19 3284
70.9 15482 23 177 33 3381
72.4 15243 21 174 12 4276
64.3 12522 18 161 80 3841
57.1 14157 21 171 78 3356
48.7 13246 18 175 45 3522
35.3 14777 18 172 31 3604
39.8 17469 20 179 35 3885
39.0 15250 17 189 18 3428
50.1 14254 20 182 23 3315
57.9 15255 20 176 6 3205
65.3 15235 19 175 35 4333
70.6 19439 19 184 27 4923
71.0 16346 20 184 76 3614
Primer Gráfico de los Datos
Graph>Matrix Plot>Select all variables
Gráfica de matriz de X1, X2, X3, X4, X5, Y
10000 15000 20000 120 150 180 3000 4000 5000

60

X1 45

20000 30

15000
X2
10000

22

20
X3
18

180

150
X4
120
80

40
X5

5000 0

4000
Y

3000
30 45 60 18 20 22 0 40 80

¿Observa alguna tendencia?


Datos
\DataFile\water.mtw
Tratamiento
X1 X2 X3
deX4
agua
X5 Y
52.6 7438 19 119 43 3364
58.3 6670 20 130 57 3102
63.4 7113 20 141 24 3171
69.2 9637 18 152 19 3284
70.9 15482 23 177 33 3381
72.4 15243 21 174 12 4276
64.3 12522 18 161 80 3841
57.1 14157 21 171 78 3356
48.7 13246 18 175 45 3522
35.3 14777 18 172 31 3604
39.8 17469 20 179 35 3885
39.0 15250 17 189 18 3428
50.1 14254 20 182 23 3315
57.9 15255 20 176 6 3205
65.3 15235 19 175 35 4333
70.6 19439 19 184 27 4923
71.0 16346 20 184 76 3614
Minitab
Primer Gráfico de los Datos
Graph>Matrix Plot>Select all variables
Gráfica de matriz de X1, X2, X3, X4, X5, Y
10000 15000 20000 120 150 180 3000 4000 5000

60

X1 45

20000 30

15000
X2
10000

22

20
X3
18

180

150
X4
120
80

40
X5

5000 0

4000
Y

3000
30 45 60 18 20 22 0 40 80

¿Observa alguna tendencia?


Minitab
Primer Gráfico de los Datos
Graph>Matrix Plot>Select all variables
Gráfica de matriz de X1, X2, X3, X4, X5, Y
10000 15000 20000 120 150 180 3000 4000 5000

60

X1 45

20000 30

15000
X2
10000

22

20
X3
18

180

150
X4
120
80

40
X5

5000 0

4000
Y

3000
30 45 60 18 20 22 0 40 80

¿Observa alguna tendencia?


Water Usage
Nuestro objetivo es ajustar una regresión de la forma:

Y  b0  b1 X 1  b2 X 2  b3 X 3  b4 X 4  b5 X 5

Este problema ilustrará los siguientes aspectos adicionales de la regresión múltiple:

(1) Eliminación de variables X que no explican la variación


(2) Análisis de Residuos
Minitab
Análisis Minitab de los datos del
“Tratamiento de agua” 2
Regression Analysis

The regression equation is


Y = 6805 + 17.2 X1 + 0.222 X2 - 139 X3 - 26.4 X4 - 1.59 X5

Como siempre, esto es un ajuste por mínimos cuadrados.


¿Todas las variables X´s son lo suficientemente importantes para incluirlas
en la ecuación de regresión?

¿Cómo lo sabe?
Análisis Minitab de los datos del
“Tratamiento de agua” 3
Predictor Coef SE Coef T P
Constant 6805 1462 4.66 0.001
X1 17.229 6.643 2.59 0.025
X2 0.22178 0.05024 4.41 0.001
X3 -138.58 55.09 -2.52 0.029
X4 -26.430 9.268 -2.85 0.016
X5 -1.591 3.189 -0.50 0.628

P < 0.05 para cada “predictor” excepto para la X5.


Cuando se ve que un “predictor” no es importante, se realiza de nuevo la regresión
sin el mismo.
Minitab
Análisis Minitab de los datos del
“Tratamiento de agua” 4
Regression Analysis
The regression equation is
Y = 6687 + 17.0 X1 + 0.220 X2 - 138 X3 - 25.9 X4

Predictor Coef SE Coef T P


Constant 6687 1396 4.79 0.000
X1 16.964 6.412 2.65 0.021
X2 0.22016 0.04854 4.54 0.001
X3 -138.35 53.34 -2.59 0.023
X4 -25.885 8.910 -2.91 0.013

Ahora, P < 0.05 para todos los “predictors”.


Análisis Minitab de los datos del
“Tratamiento de agua” 5
S = 276.6 R-Sq = 76.1% R-Sq(adj) = 68.1%

R-Sq (Adj) = 68.1% de la variación de Y está explicada por el cuarto factor


incluido en la regresión.
(Aunque razonablemente bueno,esto significa que aproximadamente el
31,9% de la variación aún no está explicada.)
Análisis Minitab de los datos del
“Tratamiento de agua” 6
El análisis de residuos nos indica si se viola alguno de los supuestos de
partida del ajuste por mínimos cuadrados. Esto nos guia en la mejora del
ajuste.

Supuestos de partida en Mínimos Cuadrados:

1. La varianza de los residuales no depende de ninguna


variable predictora, X.

2. Los Residuos se distribuyen según una Normal.

3. Ordenados en función del tiempo, los residuos son


independientes unos de otros.
Análisis Minitab de los datos del
“Tratamiento de agua” 7
Para examinar los residuales, rehaga la regresión seleccionando:

Stat > Regression > Regression

Seleccione “storage” y luego seleccione “residuals and fits”.

Stat>Regression>Residuals plots select residuals and fits


Minitab
Análisis Minitab de los datos del
“Tratamiento de agua” 8
Residual Plots for Y
Normal Probability Plot Residuals Versus the Fitted Values
99 500
N 17
AD 0.159
90
P-Value 0.938

Residual
Percent

50 0

10
-500
1
-500 -250 0 250 500 3000 3500 4000 4500 5000
Residual Fitted Value

Histogram of the Residuals Residuals Versus the Order of the Data


4.5 500
Frequency

3.0

Residual
0

1.5

-500
0.0
-400 -200 0 200 400 2 4 6 8 10 12 14 16
Residual Observation Order

Worksheet: Water.MTW
Prediciendo Tratamiento de agua
Predecir Tratamiento de agua mensual con los siguientes factores :
X1 = temperatura media mensual (oF) 55
X2 = cantidad de producción (libras) 7500
X3 = número de días de operación de la planta en el mes. 22
X4 = número personas en nómina mensual de la planta 50
Minitab
Salida con el mejor modelo

Primero fíjese en el modelo con el mayor “R2 adjusted” y un C-p bajo y más ajustado al
número de variables.
(Ver Minitab Statistics Coach y la siguiente página)
Este output es una guía. No es un substituto del conocimientop del proceso ni de un
análisis en profundidad.
Interpretando la “salida con el mejor modelo”
Localizada entre la primera y la última General; fíjese en modelos donde
del conjunto de columnas está el C-p es pequeño y próximo a p.
estadístico usado para examinar el
grado de ajuste del modelo a los Si el modelo es adecuado (se
datos. ajusta bien a los datos), el valor
R-Sq describe la proporción de
C-p esperado es aproximadamente
variación en la respuesta explicada = a p ( # parámetros en el modelo).
por los predictores en el modelo Un C-p pequeño indica que el
Adj. R-Sq es R ajustado para el modelo es relativamente preciso
número de predictores en el (pequeña varianza) al estimar el
modelo. coeficiente de regresión verdadero
C-p es otro estadístico para y al predecir futuras respuestas.
comprobar el grado de ajuste a los Esta precisión no mejora mucho
datos. añadiendo mas “predictors”.
s es la desviación estandar del error. Modelos con considerable falta de
ajuste tienen una C-p mayor que p.
© All Rights Reserved. 2000 Minitab, Inc.

También podría gustarte