Está en la página 1de 25

Anlisis de Regresin y Correlacin con MINITAB

Primeras definiciones y conceptos de la regresin


El anlisis de la regresin es una tcnica estadstica que se utiliza para estudiar la relacin entre variables o factores cuantitativos referidos a un mismo grupo de unidades observadas. Se trata de comprobar estadsticamente si tal relacin es posible, y de serlo, expresarlo matemticamente mediante una ecuacin. Su uso ms frecuente es el de la prediccin de resultados de una de ellas para valores fijos de las otras.

Primeras definiciones y conceptos de la regresin


Cuando se cree que algunas de las variables pueden causar ( o al menos explicar) los cambios observados en otra, a stas se les llama variables explicativas (Xs) La que mide el resultado del estudio se le llama variable respuesta (Y) Se intentar establecer una ecuacin de la forma Y=g(x)

Metodologa de un anlisis de regresin


Representar los datos en un grfico Identificar su aspecto y sus desviaciones Descripciones numricas que informen sobre los datos y su posible relacin Descripcin matemtica resumida del aspecto general del problema

1.

2.

3.

4.

1. Representacin de los datos


La manera de mostrar grficamente los datos observados en un grfico es a travs de un diagrama de dispersin. Y, la respuesta se marca en el eje vertical; la X, variable explicativa, en el eje horizontal. Cada observacin, es un punto del grfico

2. Identificacin del aspecto del diagrama de dispersin


El aspecto general del grfico viene dado por la direccin, forma y fuerza del mismo:
Direccin: positiva o negativa Forma: disposicin de los puntos (rectilnea o curvilnea) Fuerza: cuanta ms amorfa sea la disposicin de los puntos en el grfico, menor su relacin

2. Identificacin del aspecto del diagrama de dispersin


Es interesante en esta primera identificacin del aspecto del grfico, identificar observaciones atpicas (aquellas que se distinguen del aspecto general del grfico) El diagrama de dispersin slo muestra el aspecto general de la relacin entre las dos variables. En situaciones no muy evidentes, un simple cambio de escala puede hacernos cambiar la forma de pensar.

2. Identificacin del aspecto del diagrama de dispersin

Scatterplot of Tiempo vs Edad


450

400 Tiempo 350 300

30

32

34

36

38 Edad

40

42

44

46

48

3. Descripciones numricas
Se necesita una medida numrica que complemente al grfico y que, independientemente de las dimensiones de los valores de las variables, nos informe sobre la fuerza de la relacin existente. Una medida es el Coeficiente de correlacin

Caractersticas del coeficiente de correlacin de Pearson


r utiliza valores estandarizados, luego no le influyen las unidades: tomara el mismo valor aunque se cambiara de unidad de medida. r se ve afectada por las observaciones atpicas Una r positiva (negativa)indica una relacin positiva (negativa) entre las variables. Valores de r cercanos al 0 indican una relacin lineal muy dbil. La fuerza de la relacin lineal aumenta a medida que r se aleja del 0 y se acerca al +1 o al 1.

Ejemplos reales
Situacin 1
95 90 85 80 75 150 160 170 180 Temperatura
95 90 85 80 75 150 160 170 Temperatura 180

Situacin 2
95 90 85 80 75 150

Situacin 3

160 170 Temperatura

180

r = 0,983
p-value: 0,000

r = 0,887
p-value: 0,000

r = 0,230
p-value: 0,108

Un valor de r distinto de 0 no implica relacin lineal Es necesario que sea significativamente distinto de cero

Coeficiente de correlacin: Precaucin


El coeficiente de correlacin de Pearson slo mide relacin LINEAL

200

r = 0,5 pero ... Relacin casi perfecta, aunque no lineal.

100

0 0 10 20 30

4. Descripcin matemtica de la forma del grfico


Si la correlacin entre las dos variables indica una relacin fuerte, sera muy interesante poder resumir el grfico en forma de una ecuacin matemtica. En el caso de una forma lineal, a la recta que ajusta la nube de puntos se le llama recta de regresin. Esta recta se calcula teniendo en cuenta dos cosas: Puesto que describe un cambio en la respuesta a medida que cambia la otra variable, se necesita tener presente esta distincin a la hora de calcularla. Puesto que ninguna recta puede pasar exactamente por todos los puntos, se necesita una manera de construirla que asegure su paso tan cerca de todos los puntos como sea posible.

4. Descripcin matemtica de la forma del grfico

Fitted Line Plot


Tiempo = - 1550 + 95,80 Edad - 1,193 Edad**2 450
S R-Sq R-Sq(adj) 38,3533 37,1% 35,0%

400 Tiempo

350

300

250 30 32 34 36 38 40 Edad 42 44 46 48

Modelo de regresin simple

Modelo terico para la poblacin: y = 0 + 1x + ~ N (0, )

distancia entre lo real y lo que se predice

y = b0 + b1x Recta ajustada:


(a partir de una muestra)

y i prediccin de la recta yi observado

y=y+

r sy sx

(x x)
xi X

Modelo de regresin simple


La pendiente de la recta , b1, representa la tasa de cambio, es decir, la cantidad en que cambia y cuando x aumenta en una unidad.
y y = b0 + b1x

b1 =

r sy sx

b1 1 b0 x

Modelo de regresin simple


r2, representa la fraccin de la variacin de Y que se explica por la regresin de Y sobre X y sirve de medida de bondad de la regresin para explicar la respuesta. La parte de la variable Y que no es explicada por el modelo se llama residual. Una vez dibujada la recta de regresin, existe un valor residual para cada dato: e = y y

Modelo de regresin simple

ei = yi yi
ei

Anlisis de los residuos


La disposicin de los residuos sirve para comprobar si la recta sirve para ajustar los datos Dibujando sus valores en el eje de ordenadas frente a las predicciones deben presentar una forma uniforme , centrada en el valor 0, a lo largo de toda la recta, sin que aparezca ningun valor extrao

Inferencia para la regresin lineal


Regression Plot
Rendi2 = 10,2163 + 0,447563 Temperatura S = 2,01711
95

R-Sq = 78,6 %

R-Sq(adj) = 78,2 %

Intervalo para las predicciones Intervalo para la recta

Rendi2

85

Regression
75

95% CI 95% PI
150 160 170 180

Temperatura

Regresin no lineal
La relacin entre x e y no tiene porqu ser lineal. Los softwares informticos ajustan los datos a curvas no lineales (exponenciales, parablicas, etc.) y calculan el valor de r2 para medir la fuerza de esa relacin.
Fitted Line Plot
Tiempo = - 1550 + 95,80 Edad - 1,193 Edad**2 450
S R-Sq R-Sq(adj) 38,3533 37,1% 35,0%

400 Tiempo

350

300

250 30 32 34 36 38 40 Edad 42 44 46 48

Regresin mltiple

La regresin mltiple expresa el valor de la variable dependiente Y, como funcin de las variables independientes X1, X2, ...,Xk La ms simple es la regresin lineal y el modelo al que se debieran ajustar los datos es:

Yi = + 1 X 1i + 2 X 2i + ... + + k X ki + i

Regresin mltiple
Comprobar si el rendimiento de un proceso qumico depende, adems de la temperatura de la presin a la que se realiza.

Regresin mltiple lineal: Interpretacin de resultados


Regression Analysis: Rendi versus Presion; Temperatura The regression equation is Rendi = 48,9 + 1,84 Presion + 0,208 Temperatura Predictor Constant Presion Temperat S = 0,7947 Coef 48,941 1,8437 0,20807 SE Coef 2,709 0,4699 0,01562 T 18,07 3,92 13,32 P 0,000 0,001 0,000

R-Sq = 90,8%

R-Sq(adj) = 89,9%

Desviacin tipo de los residuos y 2s

Pruebas de significacin para los coeficientes

Media de calidad del ajuste

Regresin mltiple lineal: Interpretacin de resultados


Coeficiente de correlacin mltiple

R =r

(y = 1 (y

i i

yi ) 2 yi ) 2

El r2 proporciona, al igual que en el caso simple, una medida de la fuerza de la relacin entre Y y sus predicciones, a partir del modelo de regresin propuesto (plano de regresin) Se pueden definir tambin, coeficientes de correlacin parciales, rYXi , miden la relacin entre Y y Xi eliminando los efectos del resto de Xj

Regresin mltiple lineal: Inferencias


Al igual que en el caso simple, pueden calcularse intervalos de confianza para los coeficientes del plano

Tambin al igual que en el caso simple, ser necesaria la comprobacin de la adecuidad del modelo con el anlisis y estudio de sus residuos: stos deben de ser normales, centrados en 0 y con variabilidad constante.

Ejemplo prctico con MINITAB


Deducir una ecuacin que relacione el tiempo marcado por una atleta (en minutos) en una carrera de triatln con los siguientes posibles factores:
Edad del deportista Peso del deportista Experiencia en la prctica del triatln, en aos Kilmetros en carrera en entrenamientos Kilmetros en bicicleta en entrenamientos Kilmetros nadadndo en entrenamientos Consumo de oxgeno corriendo Consumo de oxgeno en bicicleta Cosumo de oxgeno nadando

Ejemplo prctico con MINITAB

Ejemplo prctico con MINITAB


Para la Regresin Simple: Stat/Regression/Fitted Line Plot

Fitted Line Plot


Tiempo = 205,2 + 3,585 Edad
S R-Sq R-Sq(adj) 44,7224 13,0% 11,7%

Residual Plots for Tiempo


Normal Probability Plot of the Residuals
99,9 99

Residuals Versus the Fitted Values


100 Residual 50 0 -50

Percent

450

90 50 10 1 0,1

400 Tiempo

-100

0 Residual

100

-100

320

340 360 Fitted Value

380

350
Frequency

Histogram of the Residuals


16 Residual -80 -40 0 40 Residual 80 12 8 4 0

Residuals Versus the Order of the Data


100 50 0 -50 -100

300

30

32

34

36

38 40 Edad

42

44

46

48

1 5 10 15 20 25 30 35 40 45 50 55 60 65 Observation Order

Fitted Line Plot


Tiempo = - 1550 + 95,80 Edad - 1,193 Edad**2 450
Percent S R-Sq R-Sq(adj) 38,3533 37,1% 35,0%

Residual Plots for Tiempo


Normal Probability Plot of the Residuals
99,9 99

Residuals Versus the Fitted Values


100 Residual 50 0 -50

90 50 10 1 0,1

400 Tiempo

-100

-50

0 Residual

50

100

280

300

320 340 Fitted Value

360

350
16 Frequency

Histogram of the Residuals

Residuals Versus the Order of the Data


100 Residual 50 0 -50

300

12 8 4 0

250 30 32 34 36 38 40 Edad 42 44 46 48

-40

-20

20 40 Residual

60

80

100

1 5 10 15 20 25 30 35 40 45 50 55 60 65 Observation Order

Ejemplo prctico con MINITAB


Lo ms habitual en la prctica es querer establecer una relacin entre una variable respuesta (Y) y varias explicativas (Xs)

Para la Regresin Mltiple, existen varias opciones: Stat/Regression/Regression Stat/Regression/Best Subsets Stat/Regression/Stepwise

Ejemplo prctico con MINITAB


Ejemplo con la opcin Stat/Regression/Regression
Regression Analysis: Tiempo versus Edad; Peso; ...
The regression equation is Tiempo = 486 + 3,41 Edad + 0,347 Peso - 21,4 Experiencia + 0,702 EnCarrera - 0,173 EnBici - 1,37 EnNatacion - 3,36 COCarrera - 1,38 COBici + 0,893 CONatacion Predictor Constant Edad Peso Experien EnCarrer EnBici EnNataci COCarrer COBici CONataci S = 22,70 Coef 486,3 3,410 0,3470 -21,424 0,7025 -0,17251 -1,3727 -3,3550 -1,3845 0,8934 SE Coef 114,5 1,091 0,7862 3,697 0,2771 0,06920 0,9566 0,8338 0,9098 0,9217 T 4,25 3,13 0,44 -5,80 2,54 -2,49 -1,43 -4,02 -1,52 0,97 P 0,000 0,003 0,661 0,000 0,014 0,016 0,157 0,000 0,134 0,337

Cuidado!!

R-Sq = 80,4%

R-Sq(adj) = 77,2%

Bondad del ajuste


P 0,000

Analysis of Variance Source Regression Residual Error Total DF 9 55 64 SS 116566 28339 144905 MS 12952 515 F 25,14

Linealidad significativa

Unusual Observations Obs Edad Tiempo 19 36,0 408,00 32 37,0 407,00 36 37,0 325,00

Fit 359,05 364,39 367,72

SE Fit 10,03 10,96 8,39

Residual 48,95 42,61 -42,72

St Resid 2,40R 2,14R -2,03R

R denotes an observation with a large standardized residual

Ejemplo prctico con MINITAB


Realizar un anlisis de regresin multivariante tiene el siguiente inconveniente: si dos variables X estn muy relacionadas entre s y aportan mucho a la hora de conocer Y, una de ellas tendr un pvalor grande y la otra no. Pero, de eliminar una cul eliminaramos? Una la conozco, pero no s con cual est correlacionada.... Posibilidades:
Representar grficamente las relaciones: Grfico matriz Calcular los coeficientes de correlacin entre las variables

Ejemplo prctico con MINITAB

Ejemplo prctico con MINITAB


Matrix Plot of Tiempo; Edad; Peso; Experiencia; EnCarrera; EnBici; ...
32 40 48 60 70 80 0,0 2,5 5,0 30 60 90 150 300 450 0 10 20 50 60 70 50 60 70 40 50 60
420

Tiempo

360 300 48

Edad

40 32 80

Peso

70 60 5,0

Experiencia

2,5 0,0 90

EnCarrera

60 30 450

EnBici

300 150 20

EnNatacin

10 0 70

CoCarrera

60 50 70

CoBici

60 50

CoNatacin

Ejemplo prctico con MINITAB

Ejemplo prctico con MINITAB

Correlations: Tiempo; Edad; Peso; Experiencia; EnCarrera; EnBici; EnNatacin; Co

Tiempo Edad Peso 0,361 0,249

Edad 0,342 0,414 -0,288 -0,356 -0,419 -0,306 -0,441 -0,635

Peso Experien EnCarrer

EnBici EnNataci CoCarrer CoBici

Experien -0,436 EnCarrer -0,469 EnBici -0,492 EnNataci -0,430 CoCarrer -0,695 CoBici -0,647 CoNataci -0,596

0,254 -0,090 -0,091 0,132 -0,506 -0,474 -0,340 0,349 0,137 -0,005 0,183 0,146 0,134 0,792 0,479 0,255 0,376 0,478 0,691 0,147 0,323 0,415 0,160 0,090 0,380 0,695 0,548 0,652

Ejemplo prctico con MINITAB


Cuando existen muchas variables X que pueden influir en la respuesta Y, estas opciones pueden resultar complicadas de interpretar. Cmo resuelve este problema MINITAB?
Stepwise:crea un modelo paso a paso, eligiendo primero la variable X que mejor explica la Y, aadiendo despus una a una, otras X que junto con las anteriores aporten informacin. Para, cuando no encuentra ninguna ms de las que quedan fuera que aada informacin Best Subsets: Crea subconjuntos de n variables X que mejor explican Y

Ejemplo prctico con MINITAB

Step Constant CoCarrer T-Value P-Value EnBici T-Value P-Value Experien T-Value P-Value Edad T-Value P-Value EnCarrer T-Value P-Value S R-Sq R-Sq(adj) C-p

1 687,9 -5,68 -7,67 0,000

2 709,7 -5,20 -8,24 0,000 -0,203 -5,15 0,000

3 704,1 -4,82 -8,37 0,000 -0,187 -5,24 0,000 -10,7 -3,94 0,000

4 532,8 -3,96 -6,81 0,000 -0,128 -3,51 0,001 -16,9 -5,56 0,000 3,03 3,56 0,001

5 516,1 -4,09 -7,45 0,000 -0,242 -4,69 0,000 -20,8 -6,61 0,000 3,53 4,32 0,000 0,80 2,96 0,004

34,5 48,31 47,49 84,4

29,1 63,82 62,65 42,8

26,2 71,15 69,73 24,1

24,0 76,17 74,59 12,0

22,6 79,25 77,50 5,3

Ejemplo prctico con MINITAB

Response is Tiempo E E x n E C n o C o

p C E N C C N e a n a a o a E P r r B t r B t d e i r i a r i a a s e e c c e c c Vars 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 R-Sq 48,3 41,8 63,8 58,8 71,3 71,2 76,2 75,1 79,3 76,9 79,5 79,5 80,1 79,7 80,4 80,1 80,4 R-Sq(adj) 47,5 40,9 62,6 57,4 69,9 69,7 74,6 73,5 77,5 75,0 77,4 77,3 77,6 77,2 77,6 77,3 77,2 C-p 84,4 102,6 42,8 57,0 23,8 24,1 12,0 14,9 5,3 11,9 6,7 6,8 7,0 8,1 8,2 8,9 10,0 S 34,482 36,578 29,081 31,050 26,117 26,177 23,987 24,500 22,573 23,801 22,631 22,651 22,506 22,721 22,535 22,687 22,699 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X d o n r i i r i i X X

X X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X

Ejemplo prctico con MINITAB


Regresin-Stepwise: crea un modelo paso a paso, eligiendo primero la variable X que mejor explica la Y, aadiendo despus una a una, otras X que junto con las anteriores aporten informacin. Para cuando no encuentra ninguna ms, de las que quedan fuera que aada informacin Inconveniente:
el modelo es muy dependiente de la primera elegida (la que ms informacin aporta por si sola, pero puede no ser la mejor para trabajar con ella)

Ejemplo prctico con MINITAB


Regresin Best Subsets: Crea subconjuntos de n variables X que mejor explican Y Inconvenientes:
No dice cual es la mejor opcin, luego hay que decidirse. Su lista se basa en el valor R2, luego habr que comprobar si las variables del modelo son significativas

Ejemplo prctico con MINITAB


Si elegimos el modelo con 5 variables (R2=77,5%) y hacemos regresin multivariante:
The regression equation is Tiempo = 516 + 3,53 Edad - 20,8 Experiencia + 0,796 EnCarrera - 0,242 EnBici - 4,09 CoCarrera Predictor Constant Edad Experien EnCarrer EnBici CoCarrer S = 22,57 Coef 516,10 3,5335 -20,752 0,7958 -0,24185 -4,0886 SE Coef 54,51 0,8188 3,141 0,2689 0,05154 0,5490 T 9,47 4,32 -6,61 2,96 -4,69 -7,45 P 0,000 0,000 0,000 0,004 0,000 0,000

R-Sq = 79,3%

R-Sq(adj) = 77,5%

Analysis of Variance Source Regression Residual Error Total DF 5 59 64 SS 114844 30062 144905 MS 22969 510 F 45,08 P 0,000

Ejemplo prctico con MINITAB


Qu pasara con el de 6 variables aadiendo Ennatacin?

The regression equation is Tiempo = 521 + 3,39 Edad - 20,6 Experiencia + 0,758 EnCarrera - 0,215 EnBici - 4,07 CoCarrera - 0,582 EnNatacin Predictor Constant Edad Experien EnCarrer EnBici CoCarrer EnNataci S = 22,65 Coef 520,92 3,3875 -20,612 0,7583 -0,21535 -4,0746 -0,5823 SE Coef 55,06 0,8434 3,157 0,2742 0,06217 0,5512 0,7581 T 9,46 4,02 -6,53 2,77 -3,46 -7,39 -0,77 P 0,000 0,000 0,000 0,008 0,001 0,000 0,446

R-Sq = 79,5%

R-Sq(adj) = 77,3%

Ejemplo prctico con MINITAB


Y qu pasara con el de 4 variables quitando Encarrera?
The regression equation is Tiempo = 533 + 3,03 Edad - 16,9 Experiencia - 0,128 EnBici - 3,96 CoCarrera Predictor Constant Edad Experien EnBici CoCarrer S = 23,99 Coef 532,77 3,0256 -16,867 -0,12825 -3,9574 SE Coef 57,62 0,8508 3,033 0,03655 0,5815 T 9,25 3,56 -5,56 -3,51 -6,81 P 0,000 0,001 0,000 0,001 0,000

R-Sq = 76,2%

R-Sq(adj) = 74,6%

Analysis of Variance Source Regression Residual Error Total DF 4 60 64 SS 110381 34524 144905 MS 27595 575 F 47,96 P 0,000

Ejemplo prctico con MINITAB


Antes de dar por vlido el estudio y con las opciones elegidas se debern analizar los residuos:

Ejemplo prctico con MINITAB

Residual Plots for Tiempo


Normal Probability Plot of the Residuals
99,9 99

Residuals Versus the Fitted Values


50

50 10 1 0,1

Residual
-40 0 Residual 40 80

Percent

90

25 0 -25 -50 250 300 350 Fitted Value 400 450

-80

Histogram of the Residuals


12

Residuals Versus the Order of the Data


50

Frequency

Residual
-40 -20 0 20 Residual 40 60

9 6 3 0

25 0 -25 -50 1 5 10 15 20 25 30 35 40 45 50 55 60 65 Observation Order

También podría gustarte