Está en la página 1de 25

Implantacin de programas de mejora Seis Sigma

Anlisis de Regresin y Correlacin


con MINITAB

Primeras definiciones y conceptos de la


regresin

Regresin

El anlisis de la regresin es una tcnica estadstica que se utiliza


para estudiar la relacin entre variables o factores cuantitativos
referidos a un mismo grupo de unidades observadas.

Se trata de comprobar estadsticamente si tal relacin es posible,


y de serlo, expresarlo matemticamente mediante una ecuacin.

Su uso ms frecuente es el de la prediccin de resultados de una


de ellas para valores fijos de las otras.

Implantacin de programas de mejora Seis Sigma

Primeras definiciones y conceptos de la


regresin

Cuando se cree que algunas de las variables pueden causar ( o al


menos explicar) los cambios observados en otra, a stas se les llama
variables explicativas (Xs)

La que mide el resultado del estudio se le llama variable respuesta


(Y)

Se intentar establecer una ecuacin de la forma Y=g(x)

Metodologa de un anlisis de regresin

Regresin

1.

Representar los datos en un grfico

2.

Identificar su aspecto y sus desviaciones

3.

Descripciones numricas que informen sobre los datos y su


posible relacin

4.

Descripcin matemtica resumida del aspecto general del


problema

Implantacin de programas de mejora Seis Sigma

1. Representacin de los datos


La manera de mostrar grficamente los datos observados en un
grfico es a travs de un diagrama de dispersin.
Y, la respuesta se marca en el eje vertical; la X, variable
explicativa, en el eje horizontal. Cada observacin, es un punto
del grfico

2. Identificacin del aspecto del diagrama


de dispersin

Regresin

El aspecto general del grfico viene dado por la direccin,


forma y fuerza del mismo:

Direccin: positiva o negativa

Forma: disposicin de los puntos (rectilnea o curvilnea)

Fuerza: cuanta ms amorfa sea la disposicin de los puntos


en el grfico, menor su relacin

Implantacin de programas de mejora Seis Sigma

2. Identificacin del aspecto del diagrama


de dispersin

Es interesante en esta primera identificacin del aspecto


del grfico, identificar observaciones atpicas (aquellas que
se distinguen del aspecto general del grfico)

El diagrama de dispersin slo muestra el aspecto general


de la relacin entre las dos variables.

En situaciones no muy evidentes, un simple cambio de


escala puede hacernos cambiar la forma de pensar.

2. Identificacin del aspecto del diagrama


de dispersin

Scatterplot of Tiempo vs Edad


450

Tiempo

400

350

300

30

32

34

36

38

40

42

44

46

48

Edad

Regresin

Implantacin de programas de mejora Seis Sigma

3. Descripciones numricas
Se necesita una medida numrica que complemente al grfico y
que, independientemente de las dimensiones de los valores de las
variables, nos informe sobre la fuerza de la relacin existente.
Una medida es el Coeficiente de correlacin

Caractersticas del coeficiente de correlacin


de Pearson

Regresin

r utiliza valores estandarizados, luego no le influyen las unidades:


tomara el mismo valor aunque se cambiara de unidad de medida.

r se ve afectada por las observaciones atpicas

Una r positiva (negativa)indica una relacin positiva (negativa)


entre las variables.

Valores de r cercanos al 0 indican una relacin lineal muy dbil.


La fuerza de la relacin lineal aumenta a medida que r se aleja del
0 y se acerca al +1 o al 1.

Implantacin de programas de mejora Seis Sigma

Ejemplos reales
Situacin 1

Situacin 2

Situacin 3

95

95

95

90

90

90

85

85

85

80

80

80
75

75

75
150

160

170

180

Temperatura

150

160
170
Temperatura

180

r = 0,983

r = 0,887

p-value: 0,000

p-value: 0,000

150

160
170
Temperatura

180

r = 0,230
p-value: 0,108

Un valor de r distinto de 0 no implica relacin lineal


Es necesario que sea significativamente distinto de cero

Coeficiente de correlacin: Precaucin


El coeficiente de correlacin de Pearson slo mide relacin LINEAL

200

r = 0,5 pero ...


Relacin casi perfecta,

100

aunque no lineal.

0
0

Regresin

10

20

30

Implantacin de programas de mejora Seis Sigma

4. Descripcin matemtica de la forma del


grfico

Si la correlacin entre las dos variables indica una relacin fuerte,


sera muy interesante poder resumir el grfico en forma de una
ecuacin matemtica.

En el caso de una forma lineal, a la recta que ajusta la nube de


puntos se le llama recta de regresin.

Esta recta se calcula teniendo en cuenta dos cosas:


Puesto que describe un cambio en la respuesta a medida que
cambia la otra variable, se necesita tener presente esta
distincin a la hora de calcularla.
Puesto que ninguna recta puede pasar exactamente por todos
los puntos, se necesita una manera de construirla que asegure
su paso tan cerca de todos los puntos como sea posible.

4. Descripcin matemtica de la forma del


grfico

Fitted Line Plot


Tiempo = - 1550 + 95,80 Edad
- 1,193 Edad**2
S
R-Sq
R-Sq(adj)

450

38,3533
37,1%
35,0%

Tiempo

400

350

300

250
30

Regresin

32

34

36

38
40
Edad

42

44

46

48

Implantacin de programas de mejora Seis Sigma

Modelo de regresin simple

Modelo terico para la poblacin:


y = 0 + 1x +
~ N (0, )

distancia entre lo real y lo que se predice

y = b0 + b1x
Recta ajustada:

y i prediccin de la recta

(a partir de una muestra)

yi observado

y = y +

r sy
sx

(x x)
xi

Modelo de regresin simple

La pendiente de la recta , b1, representa la tasa de cambio, es


decir, la cantidad en que cambia y cuando x aumenta en una
unidad.
y
y = b0 + b1x

b1 =

r sy
sx

b1
1
b0
x

Regresin

Implantacin de programas de mejora Seis Sigma

Modelo de regresin simple

r2, representa la fraccin de la variacin de Y que se explica


por la regresin de Y sobre X y sirve de medida de bondad
de la regresin para explicar la respuesta.

La parte de la variable Y que no es explicada por el modelo


se llama residual.

Una vez dibujada la recta de regresin, existe un valor

residual para cada dato: e = y y

Modelo de regresin simple

e i = y i y i
ei

Regresin

Implantacin de programas de mejora Seis Sigma

Anlisis de los residuos

La disposicin de los residuos sirve para comprobar si la


recta sirve para ajustar los datos

Dibujando sus valores en el eje de ordenadas frente a las


predicciones deben presentar una forma uniforme ,
centrada en el valor 0, a lo largo de toda la recta, sin que
aparezca ningun valor extrao

Inferencia para la regresin lineal


Regression Plot
Rendi2 = 10,2163 + 0,447563 Temperatura
S = 2,01711

R-Sq = 78,6 %

R-Sq(adj) = 78,2 %

95

Intervalo para las predicciones

Rendi2

Intervalo para la recta


85

Regression
95% CI

75

95% PI
150

160

170

180

Temperatura

Regresin

10

Implantacin de programas de mejora Seis Sigma

Regresin no lineal

La relacin entre x e y no tiene porqu ser lineal.

Los softwares informticos ajustan los datos a curvas no lineales


(exponenciales, parablicas, etc.) y calculan el valor de r2 para
medir la fuerza de esa relacin.
Fitted Line Plot
Tiempo = - 1550 + 95,80 Edad
- 1,193 Edad**2
S
R-Sq
R-Sq(adj)

450

38,3533
37,1%
35,0%

Tiempo

400

350

300

250
30

32

34

36

38
40
Edad

42

44

46

48

Regresin mltiple

La regresin mltiple expresa el valor de la variable dependiente


Y, como funcin de las variables independientes X1, X2, ...,Xk

La ms simple es la regresin lineal y el modelo al que se


debieran ajustar los datos es:

Yi = + 1 X 1i + 2 X 2i + ... + + k X ki + i

Regresin

11

Implantacin de programas de mejora Seis Sigma

Regresin mltiple
Comprobar si el rendimiento de un proceso qumico depende,
adems de la temperatura de la presin a la que se realiza.

Regresin mltiple lineal: Interpretacin de


resultados
Regression Analysis: Rendi versus
Presion; Temperatura
The regression equation is
Rendi = 48,9 + 1,84 Presion + 0,208 Temperatura
Predictor
Constant
Presion
Temperat
S = 0,7947

Coef

SE Coef

48,941

2,709

18,07

0,000

1,8437

0,4699

3,92

0,001

0,20807

0,01562

13,32

0,000

R-Sq = 90,8%

Desviacin tipo de los residuos


y 2s

R-Sq(adj) = 89,9%

Pruebas de significacin
para los coeficientes

Media de calidad del ajuste

Regresin

12

Implantacin de programas de mejora Seis Sigma

Regresin mltiple lineal: Interpretacin de


resultados

Coeficiente de correlacin mltiple

R 2 = r2 = 1

(y
(y

y i ) 2

yi ) 2

El r2 proporciona, al igual que en el caso simple, una


medida de la fuerza de la relacin entre Y y sus
predicciones, a partir del modelo de regresin propuesto
(plano de regresin)
Se pueden definir tambin, coeficientes de correlacin
parciales, rYXi , miden la relacin entre Y y Xi eliminando los
efectos del resto de Xj

Regresin mltiple lineal: Inferencias

Regresin

Al igual que en el caso simple, pueden calcularse intervalos de


confianza para los coeficientes del plano

Tambin al igual que en el caso simple, ser necesaria la


comprobacin de la adecuidad del modelo con el anlisis y
estudio de sus residuos: stos deben de ser normales, centrados
en 0 y con variabilidad constante.

13

Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB

Deducir una ecuacin que relacione el tiempo marcado por una


atleta (en minutos) en una carrera de triatln con los siguientes
posibles factores:

Edad del deportista


Peso del deportista
Experiencia en la prctica del triatln, en aos
Kilmetros en carrera en entrenamientos
Kilmetros en bicicleta en entrenamientos
Kilmetros nadadndo en entrenamientos
Consumo de oxgeno corriendo
Consumo de oxgeno en bicicleta
Cosumo de oxgeno nadando

Ejemplo prctico con MINITAB

Regresin

14

Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB

Para la Regresin Simple: Stat/Regression/Fitted Line Plot

Residual Plots for Tiempo

Fitted Line Plot

Normal Probability Plot of the Residuals

Tiempo = 205,2 + 3,585 Edad

Residuals Versus the Fitted Values

99,9

50
10

-100

0
Residual

-100

100

Histogram of the Residuals

32

34

36

38
40
Edad

42

44

46

48

16

100

12

50

-80

-40

0
40
Residual

Normal Probability Plot of the Residuals

Percent

38,3533
37,1%
35,0%

90

Residuals Versus the Fitted Values

50
10
1

400

0,1

-100

350

-50

0
Residual

50

38
40
Edad

42

44

46

48

8
4
0

280

300

320
340
Fitted Value

360

100

12

Residual

Frequency

250

Residuals Versus the Order of the Data

16

300

50

-50

100

Histogram of the Residuals

36

1 5 10 15 20 25 30 35 40 45 50 55 60 65
Observation Order

100

99

450

34

-100

80

99,9

S
R-Sq
R-Sq(adj)

32

380

Residual Plots for Tiempo

Fitted Line Plot


Tiempo = - 1550 + 95,80 Edad
- 1,193 Edad**2

30

340
360
Fitted Value

-50

Residual

30

320

Residuals Versus the Order of the Data

Residual

350

300

Regresin

50

-50

0,1

Frequency

Tiempo

90

400

Tiempo

100

99

Residual

450

44,7224
13,0%
11,7%

Percent

S
R-Sq
R-Sq(adj)

-40

-20

20
40
Residual

60

80

100

50
0
-50

1 5 10 15 20 25 30 35 40 45 50 55 60 65
Observation Order

15

Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB

Lo ms habitual en la prctica es querer establecer una relacin


entre una variable respuesta (Y) y varias explicativas (Xs)

Para la Regresin Mltiple, existen varias opciones:


Stat/Regression/Regression
Stat/Regression/Best Subsets
Stat/Regression/Stepwise

Ejemplo prctico con MINITAB


Ejemplo con la opcin Stat/Regression/Regression
Regression Analysis: Tiempo versus Edad; Peso; ...
The regression equation is
Tiempo = 486 + 3,41 Edad + 0,347 Peso - 21,4 Experiencia + 0,702 EnCarrera
- 0,173 EnBici - 1,37 EnNatacion - 3,36 COCarrera - 1,38 COBici
+ 0,893 CONatacion
Predictor
Constant
Edad
Peso
Experien
EnCarrer
EnBici
EnNataci
COCarrer
COBici
CONataci

Coef
486,3
3,410
0,3470
-21,424
0,7025
-0,17251
-1,3727
-3,3550
-1,3845
0,8934

S = 22,70

SE Coef
114,5
1,091
0,7862
3,697
0,2771
0,06920
0,9566
0,8338
0,9098
0,9217

R-Sq = 80,4%

T
4,25
3,13
0,44
-5,80
2,54
-2,49
-1,43
-4,02
-1,52
0,97

P
0,000
0,003
0,661
0,000
0,014
0,016
0,157
0,000
0,134
0,337

R-Sq(adj) = 77,2%

Cuidado!!

Bondad del ajuste

Analysis of Variance
Source
Regression
Residual Error
Total

DF
9
55
64

Unusual Observations
Obs
Edad
Tiempo
19
36,0
408,00
32
37,0
407,00
36
37,0
325,00

SS
116566
28339
144905

Fit
359,05
364,39
367,72

MS
12952
515

F
25,14

SE Fit
10,03
10,96
8,39

P
0,000

Residual
48,95
42,61
-42,72

Linealidad significativa

St Resid
2,40R
2,14R
-2,03R

R denotes an observation with a large standardized residual

Regresin

16

Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB

Realizar un anlisis de regresin multivariante tiene el siguiente


inconveniente: si dos variables X estn muy relacionadas entre s
y aportan mucho a la hora de conocer Y, una de ellas tendr un pvalor grande y la otra no. Pero, de eliminar una cul
eliminaramos? Una la conozco, pero no s con cual est
correlacionada....

Posibilidades:

Representar grficamente las relaciones: Grfico matriz


Calcular los coeficientes de correlacin entre las variables

Ejemplo prctico con MINITAB

Regresin

17

Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB


Matrix Plot of Tiempo; Edad; Peso; Experiencia; EnCarrera; EnBici; ...
32

40

4860

70

80
0,0

2,5

5,0

30

60

90

150

300

4500

10

20

50

60

70

50

60

70
40

50

60
420
360

Tiempo

300
48
40

Edad

32
80
70

Peso

60
5,0

Experiencia

2,5
0,0
90
60

EnCarrera

30
450
300

EnBici

150
20
10

EnNatacin

0
70
60

CoCarrera

50
70
60

CoBici

50

CoNatacin

Ejemplo prctico con MINITAB

Regresin

18

Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB

Correlations: Tiempo; Edad; Peso; Experiencia; EnCarrera; EnBici; EnNatacin; Co

Tiempo
Edad

0,361

Peso

0,249

Edad

Peso Experien EnCarrer

EnBici EnNataci CoCarrer CoBici

0,342

Experien -0,436

0,414

0,254

EnCarrer -0,469

-0,288

-0,090

0,349

EnBici

-0,492

-0,356

-0,091

0,137

0,792

EnNataci -0,430

-0,419

0,132

-0,005

0,479

CoCarrer -0,695

-0,306

-0,506

0,183

0,255

0,147

0,160

CoBici

-0,647

-0,441

-0,474

0,146

0,376

0,323

0,090

0,695

CoNataci -0,596

-0,635

-0,340

0,134

0,478

0,415

0,380

0,548

0,691

0,652

Ejemplo prctico con MINITAB

Cuando existen muchas variables X que pueden influir en la


respuesta Y, estas opciones pueden resultar complicadas de
interpretar.

Cmo resuelve este problema MINITAB?

Regresin

Stepwise:crea un modelo paso a paso, eligiendo primero la variable X


que mejor explica la Y, aadiendo despus una a una, otras X que
junto con las anteriores aporten informacin. Para, cuando no
encuentra ninguna ms de las que quedan fuera que aada
informacin
Best Subsets: Crea subconjuntos de n variables X que mejor explican
Y

19

Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB

Step

687,9

709,7

704,1

532,8

516,1

CoCarrer

-5,68

-5,20

-4,82

-3,96

-4,09

T-Value

-7,67

-8,24

-8,37

-6,81

-7,45

P-Value

0,000

0,000

0,000

0,000

0,000

EnBici

-0,203

-0,187

-0,128

-0,242

T-Value

-5,15

-5,24

-3,51

-4,69

P-Value

0,000

0,000

0,001

0,000

Experien

-10,7

-16,9

-20,8

T-Value

-3,94

-5,56

-6,61

P-Value

0,000

0,000

0,000

Edad

3,03

3,53

T-Value

3,56

4,32

P-Value

0,001

0,000

EnCarrer

0,80

T-Value

2,96

P-Value

0,004

34,5

29,1

26,2

24,0

22,6

R-Sq

48,31

63,82

71,15

76,17

79,25

R-Sq(adj)

47,49

62,65

69,73

74,59

77,50

84,4

42,8

24,1

12,0

5,3

C-p

Regresin

Constant

20

Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB

Response is Tiempo
E E

E C

x n

n o

p C E N C C N
e a n a a o a
E P r r B t r B t
d e i r i a r i a
a s e e c c e c c

Regresin

Vars

R-Sq

R-Sq(adj)

C-p

48,3

41,8

47,5

84,4

34,482

40,9

102,6

36,578

63,8

62,6

42,8

29,081

58,8

57,4

57,0

31,050

71,3

69,9

23,8

26,117

71,2

69,7

24,1

26,177

76,2

74,6

12,0

23,987

75,1

73,5

14,9

79,3

77,5

76,9

75,0

79,5

77,4

79,5

77,3

80,1

79,7

d o n r i i r i i
X
X
X

X
X X

24,500

5,3

22,573

X X X

11,9

23,801

6,7

22,631

X X X

6,8

22,651

X X X X X

77,6

7,0

22,506

X X X X X X

77,2

8,1

22,721

X X X

80,4

77,6

8,2

22,535

X X X X X X X

80,1

77,3

8,9

22,687

X X X X X X X X

80,4

77,2

10,0

22,699

X X X X X X X X X

X
X X
X
X X X
X X

X X X

21

Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB

Regresin-Stepwise: crea un modelo paso a paso, eligiendo


primero la variable X que mejor explica la Y, aadiendo despus
una a una, otras X que junto con las anteriores aporten
informacin. Para cuando no encuentra ninguna ms, de las que
quedan fuera que aada informacin

Inconveniente:
el modelo es muy dependiente de la primera elegida (la que ms
informacin aporta por si sola, pero puede no ser la mejor para
trabajar con ella)

Ejemplo prctico con MINITAB

Regresin Best Subsets: Crea subconjuntos de n variables X que


mejor explican Y

Inconvenientes:

Regresin

No dice cual es la mejor opcin, luego hay que decidirse.


Su lista se basa en el valor R2, luego habr que comprobar si las variables
del modelo son significativas

22

Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB

Si elegimos el modelo con 5 variables (R2=77,5%) y hacemos


regresin multivariante:
The regression equation is
Tiempo = 516 + 3,53 Edad - 20,8 Experiencia + 0,796 EnCarrera - 0,242 EnBici
- 4,09 CoCarrera
Predictor
Constant
Edad

Coef

SE Coef

516,10

54,51

9,47

0,000

3,5335

0,8188

4,32

0,000

Experien

-20,752

3,141

-6,61

0,000

EnCarrer

0,7958

0,2689

2,96

0,004

-0,24185

0,05154

-4,69

0,000

-4,0886

0,5490

-7,45

0,000

EnBici
CoCarrer
S = 22,57

R-Sq = 79,3%

R-Sq(adj) = 77,5%

Analysis of Variance
Source
Regression

DF

SS

MS

114844

22969

45,08

0,000

510

Residual Error

59

30062

Total

64

144905

Ejemplo prctico con MINITAB

Qu pasara con el de 6 variables aadiendo Ennatacin?

The regression equation is


Tiempo = 521 + 3,39 Edad - 20,6 Experiencia + 0,758 EnCarrera - 0,215 EnBici
- 4,07 CoCarrera - 0,582 EnNatacin
Predictor
Constant
Edad

SE Coef

55,06

9,46

0,000

3,3875

0,8434

4,02

0,000

Experien

-20,612

3,157

-6,53

0,000

EnCarrer

0,7583

0,2742

2,77

0,008

-0,21535

0,06217

-3,46

0,001

CoCarrer

-4,0746

0,5512

-7,39

0,000

EnNataci

-0,5823

0,7581

-0,77

0,446

EnBici

S = 22,65

Regresin

Coef
520,92

R-Sq = 79,5%

R-Sq(adj) = 77,3%

23

Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB


Y qu pasara con el de 4 variables quitando Encarrera?

The regression equation is


Tiempo = 533 + 3,03 Edad - 16,9 Experiencia - 0,128 EnBici - 3,96
CoCarrera
Predictor
Constant
Edad

SE Coef

57,62

9,25

0,000

3,0256

0,8508

3,56

0,001

-16,867

3,033

-5,56

0,000

-0,12825

0,03655

-3,51

0,001

-3,9574

0,5815

-6,81

0,000

Experien
EnBici

Coef
532,77

CoCarrer
S = 23,99

R-Sq = 76,2%

R-Sq(adj) = 74,6%

Analysis of Variance
Source
Regression

DF

SS

MS

110381

27595

47,96

0,000

575

Residual Error

60

34524

Total

64

144905

Ejemplo prctico con MINITAB

Regresin

Antes de dar por vlido el estudio y con las opciones elegidas se


debern analizar los residuos:

24

Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB

Residual Plots for Tiempo


Normal Probability Plot of the Residuals

Residuals Versus the Fitted Values

99

50

90

25

Residual

Percent

99,9

50
10
1

-50

0,1

-80

-40

0
Residual

40

80

250

50

25

6
3
0

300

350
Fitted Value

400

450

Residuals Versus the Order of the Data

12

Residual

Frequency

Histogram of the Residuals

Regresin

0
-25

0
-25
-50

-40

-20

0
20
Residual

40

60

1 5 10 15 20 25 30 35 40 45 50 55 60 65
Observation Order

25

También podría gustarte