Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Correlacin/Regresin
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
Reconocer
Definir
Medir
Analizar
Mejorar
Controlar
\DataFile\Correl.mtw
\DataFile\RegressAnova.mtw
\DataFile\Correg Your Turn.mtw
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
Que aprenderemos . . .
Correlacin
Como medir una relacin lineal entre dos variables
Como interpretar el coeficiente de correlacin r de
Pearson
Regresin
Y = f(X): como encontrar la funcin que relacione una
variable dependiente , Y, con una variable independiente,
X (regresin lineal simple)
Como interpretar el coeficiente de determinacin, R-Sq
Como interpretar la tabla ANOVA para regresin lineal
simple
Como analizar residuales
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
Trminos
Correlacin
No existe relacin, r = 0
Relacin negativa perfecta, r = -1
Regresin
Coeficientes de correlacin:
Ilustracin
SCATTERPLOT OF Y VERSUS X
SCATTERPLOT OF Y VERSUS X
-98
r = 102
+1.0
-99
101
-100
r = -1.0
-Y
103
100
-101
99
-102
98
-103
98
99
100
101
102
98
103
99
100
101
102
103
SCATTERPLOT OF Y VERSUS X
210
200
190
r = 0.0
180
200
210
220
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
4
2
1. Seleccione C1 Station 1
and C2 Station 2
2. Presione Select
3. Observe Station 1 y
Station 2 como
Variables:
4. Seleccione Display pvalues
5. Seleccione OK
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
Station 1
9.0
8.9
8.8
8.7
8.6
8.5
8.6
8.8
9.0
9.2
Station 2
9.4
9.6
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
= b +b X
Y
0
1
es un estimado (" valor ajustado' )
donde Y
del valor correspondiente a la poblacin, Y
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
Desarrollo:
Abrir Datafile\CORREL.mtw (los datos se
muestran en la Data Window)
Ir a Stat > Regression > Fitted Line Plot
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
4
5
1. Seleccione C1 Station 1
and C2 Station 2
2. Presione Select
3. Observe Station 1 como
Response (Y): y Station 2
como Predictor (X):
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
S
R-Sq
9.4
R-Sq(adj)
Station 1
Lnea
9.3
ajustada:
obedece la
9.2
ecuacin de la
9.1
prediccin
0.0557288
92.0%
91.5%
Coeficiente de
Determinacin: use
R-Sq para la
regresin lineal
simple (una X)
9.0
8.9
8.8
8.7
8.6
8.6
8.8
9.0
9.2
Station 2
9.4
9.6
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
Interseccin, b0
Pendiente, b1
Diagrama de Dispersin
100
90
80
???
70
60
50
40
40
50
60
70
80
90
100
El mtodo de
cuadrados mnimos
minimiza la suma de
los cuadrados de los
residuales
Las ecuaciones
resultantes para la
interseccin y
pendiente se
denominan
ecuaciones normales
100
90
80
70
60
50
40
40
50
60
70
80
90
100
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
100
90
80
Residual
Positivo
Residual
Cero
70
60
Residual
Negativo
50
40
40
50
60
70
80
90
100
Cero: punto en la
lnea de ajuste
Negativo: punto
bajo la lnea de
ajuste
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
Significancia Estadstica
Una tabla de anlisis de varianza (ANOVA) nos informa sobre la
significancia estadstica del anlisis de regresin
La hiptesis nula, H0 indica: la regresin es el resultado de variacin
por causas comunes.
Si H0 es verdadera, entonces no hay regresin estadstica significativa
y la mejor prediccin de Y es el valor medio de Y
Como antes, el valor p es usado para evaluar la hiptesis nula: si p es
menor que 0.05, la hiptesis nula es falsa, y la regresin es
estadsticamente significativa
Desarrollo:
Use Datafile\REGRESSANOVA.mtw
Ir a Stat > Regression >Regression
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
Regresin es
significativa:
p < 0.05
Ninguna carencia
del ajuste:
p >=valor
0.05
La suma de los cuadrados (SS) para la regresin implica cada
(X4,Y4)
Yi Y
residuo
Y
(X3,Y3)
(X2,Y2)
(X1,Y1)
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
= b0 + b1x
(X3,Y3)
(X2,Y2)
Y = b0 b1X
Donde:
SS xy
b1 = SS
xx
X
b0 = Y b1 X
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
Fuente
DF
SS
MS
f
p
Regresin 1 14.458,9 14.458,9 293,08 0,000
Error
21 1.036,0
49,3
Total
22 15.494,9
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
Y
(X4,Y4)
Y4 Y
Y2 Y
(X3,Y3)
(X2,Y2)
Y1 Y
Y3 Y
(X1,Y1)
X
Fuente
DF
SS
MS
f
p
Regresin 1 14.458,9 14.458,9 293,08 0,000
Error
21 1.036,0
49,3
Total
22 15.494,9
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
Y
(X4,Y4)
Y 4 Y
Y 3 Y
Y 2 Y
(X3,Y3)
Y 1 Y
Y)2
SSR = (Y
(X2,Y2)
i =1
(X1,Y1)
Fuente
DF
SS
MS
f
p
Regresin 1 14.458,9 14.458,9 293,08 0,000
Error
21 1.036,0
49,3
Total
22 15.494,9
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
Y3 Y
(X4,Y4)
Y4 Y 4
Y3 Y 3
(X3,Y3)
Y2 Y 2
SSE
(X2,Y2)
= ( Yi Y i ) 2
i =1
Y Y
1
(X1,Y1)
Fuente
DF
SS
MS
f
p
Regresin 1 14.458,9 14.458,9 293,08 0,000
Error
21 1.036,0
49,3
Total
22 15.494,9
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
21 1.036,0
22 15.494,9
49,3
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
MSR =
SSR
dfReg
MSE =
SSE
dfError
f =
MSR
MSE
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
Anlisis de residuales
1. Abanico
3. Bandas curvas
Desarrollo
Abrir Datafile\Residuals
Ir a Stat > Regression > Fitted Line Plot
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
Anlisis de residuales
(Continuacin)
1. En el cuadro de dilogo
Fitted Line Plot ,
Seleccione Graphs
2. Seleccione grfico Four
in One
3. Seleccione OK
4. Seleccione OK
2
3
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
20
R-Sq es 89.7%
15
La regresin
es significativa
Podemos hacerlo mejor?
Como se 10ven los residuales?
Units
1.78117
89.7%
89.2%
0
0
50
100
Minutes
150
200
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
99
Residual
Percent
90
50
10
2
0
-2
1
-5.0
-2.5
0.0
Residual
2.5
5.0
12
16
Residual
Frequency
8
Fitted Value
4
2
0
2
0
-2
-3
-2
-1
0
1
Residual
8 10 12 14 16 18 20 22 24
Observation Order
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
p > 0.05
Se puede asumir que
los residuales son
normales
99
95
90
70
60
50
40
30
20
10
5
-4
-3
-2
-1
0
1
Residual
Normal
99
Mean
StDev
N
AD
P-Value
95
90
-9.69595E-15
1.742
24
0.336
0.479
80
Percent
Percent
80
70
60
50
40
30
20
10
5
-4
-3
-2
-1
0
1
RESI1
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
Anlisis de residuales
(Continuacin)
Residuals Versus the Fitted Values
4
3
2
Residual
(response is Units)
1
0
-1
-2
-3
8
10
Fitted Value
12
14
16
18
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
Anlisis de residuales
(Continuacin)
Mejorando la
adecuacin del modelo,
increment R-Sq de
89.7% a 95.0%
20
1.26903
95.0%
94.5%
10
99
50
100
Minutes
150
Residual
Percent
90
50
200
10
1
1
0
-1
-2
-3.0
-1.5
0.0
Residual
1.5
3.0
4.5
3.0
1.5
0.0
10
Fitted Value
15
20
Residual
Frequency
Units
15
0
-1
-2
-2
-1
0
Residual
8 10 12 14 16 18 20 22 24
Observation Order
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.
Su turno
Abra Datefile\CORREG YOUR TURN
Analice los conjuntos de datos:
1.
2.
3.
4.
Otro desarrollo:
Stat > Regression > Regression > Options > Lack of Fit Tests
Seleccione Pure Error cuando sus datos estn replicados
Seleccione Data Sub setting cuando sus datos no estn
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
replicados
Universidad Catlica del Per.
Hemos aprendido . . .
Correlacin
Como medir una relacin lineal entre dos variables
Como interpretar el coeficiente de correlacin r de
Pearson
Regresin
Y = f(X): como regresionar una variable dependiente , Y,
en una variable independiente, X (regresin lineal simple)
Como interpretar el coeficiente de determinacin, R-Sq
Como interpretar la tabla ANOVA para regresin lineal
simple
Como analizar residuales
INSTITUTO PARA LA CALIDAD 2008. Prohibida su reproduccin total o parcial sin permiso del autor y del Instituto para la Calidad de la Pontificia
Universidad Catlica del Per.