Documentos de Académico
Documentos de Profesional
Documentos de Cultura
COEFICIENTE DE CORRELACIN LINEAL Anteriormente hemos analizado la relacin lineal que puede o no existir entre dos variables X e Y a travs de la covarianza pero no tenemos el grado de asociacin entre ellas, para determinar un indicador que mida esta asociacin. Examinemos la siguiente funcin y = ax + bx + c la cual representa una parbola como se muestra en la figura
2
siguiente;
b 2 4ac 0 .
Por otra parte analicemos la expresin
(a x + b )
i =1 i i
0,
ai , bi , i = 1, 2,3, , n
(a x + b ) = (a x)
2 i =1 i i i =1 n i i =1
51
As hemos obtenido una expresin semejante a la funcin cuadrtica planteada anteriormente por tanto, su discriminante es
n n n 4 ai bi 4 ai2 bi2 0 i =1 i =1 i =1
Es decir,
n n n 4 ai bi 4 ai2 bi2 i =1 i =1 i =1
Si extraemos raz cuadrada se obtiene
aibi
i =1
ai2
i =1
b
i =1
2 i
Que es equivalente a:
a b
i =1 2 i
i i
a
i =1
b
i =1
1
2 i
Si ai = xi X y bi = yi Y , i = 1, 2,3, , n , se tiene
( x X )( y Y )
i =1 i i
(x X )
i =1 i
(y Y )
i =1 i
1
2
1 n ( xi X )( yi Y ) n i =1 1 n
(x X )
i =1 i
(y Y )
i =1 i
1
2
1 n ( xi X )( yi Y ) n i =1 1 n 1 ( xi X ) n i =1
2 n
(y Y )
i =1 i
1
2
Podemos observar que la expresin del numerador es la covarianza y el producto del denominador es el producto de las desviaciones estndar de las variables X e Y , luego podemos escribirla en la siguiente forma
Cov( X ; Y ) 1 S X SY
52
interpretacin de la covarianza, de esta forma podemos obtener una interpretacin ms sencilla del grado de asociacin lineal que tienen las variables X e Y dado que aplicando propiedad del valor absoluto se obtiene que
1 rXY 1
En el supuesto que la variable Y se relacione perfectamente con la variable X segn la relacin para cada par observado
yi = a + bxi
rXY =
Si
b es positivo, entonces rXY = 1 , el que indicar una correlacin lineal directa perfecta entre las variables X e Y . Si b es negativo, entonces rXY = 1 , el que indicar una correlacin lineal indirecta perfecta entre las
variables. Si rXY > 0 , la relacin lineal entre X e Y es directa (directamente proporcional) y si (inversamente proporcional). Ejemplo: La tabla siguiente da la resistencia de corte y el dimetro de la barra de 10 diferentes soldaduras.
Resistencia de corte (X) (libras 680 800 780 885 975 1025 1100 1030 1175 1300
Dimetro de soldadura (Y) (0,001 pulgadas 190 200 209 215 215 215 230 250 265 250
53
250
200
150
100
50
0 0 200 400 600 800 1000 1200 1400 Resistencia al corte (libras)
Como se puede observar este diagrama hay una relacin directa entre ambas variables. Para analizar el grado de asociacin calculemos el coeficiente de correlacin lineal entre las variables, para esto recurrimos a la siguiente tabla para facilitar el clculo.
Resistencia de corte (X) (libras 680 800 780 885 975 1025 1100 1030 1175 1300 9750
Dimetro de soldadura (Y) (0,001 pulgadas 190 200 209 215 215 215 230 250 265 250 2239
X Y
129200 160000 163020 190275 209625 220375 253000 257500 311375 325000 2219370
X2
462400 640000 608400 783225 950625 1050625 1210000 1060900 1380625 1690000 9836800
Y2
36100 40000 43681 46225 46225 46225 52900 62500 70225 62500 506581
54
Cov( X ; Y ) = XY X Y =
rXY =
Cuando
rXY sea satisfactorio, se puede iniciar el estudio que permita estimar el modelo que mejor se ajusta a la nube de puntos. Para ello se debe efectuar las estimaciones de a y b en el modelo y = a + bx
( xi , yi ), i = 1, 2,3, , n , que representan datos de las variables X e Y , se desea ahora encontrar la recta y = a + bx que mejor represente la nube de puntos correspondientes
55
Como se puede observar en la figura se tiene que el error de la i sima observacin es dado por:
ei = yi yi
Si suponemos que la suma de todos los errores son ceros, es decir, varianza de los errores ser
e
i =1
Se2 =
1 n
n i =1
(ei e) 2 =
1 n
e
n i =1
2 i
Si se quiere minimizar el error debemos minimizar la varianza de los errores es decir debemos minimizar
e .
n 2 i
El proceso de minimizacin de esta suma de errores al cuadrado se conoce como Mtodo de mnimos cuadrados. Sea la siguiente funcin que representa los errores cuadrticos E, la cual podemos definir en trminos de los parmetros a y b en la forma siguiente
i =1
E ( a, b) =
n n
ei2 =
( yi yi ) 2 =
i =1
i =1
( y (a + bx ))
n i i i =1
Como podemos observar esta es una funcin de dos variables y determinaremos para qu valores de a y b se minimiza la funcin E ( a, b) . Aplicando las nociones del clculo se tiene que debemos resolver el siguiente sistema
E (a, b) =0 a E (a, b) =0 b
Primero calculemos
E (a, b) = a E (a, b) = 2 a
[ y (a + bx )]
n 2 i i i =1
a
n i i
n i =1
[ yi (a + bxi )]2 = a
2[ y (a + bx )](1)
n i i i =1
[ y (a + bx )]
i =1
Como
E (a, b) =0 2 a
[ y (a + bx )] = 0
n i i i =1
56
Adems,
E (a, b) = b
n i =1 n i =1
[ yi (a + bxi )]2 = b
i i
n i =1
[ yi (a + bxi )]2 = b
2[ y (a + bx )]( x )
n i i i i =1
E (a, b) = 2 b
[ y (a + bx )]
E (a, b) = 0 2 Entonces b
[ y (a + bx )] = 0
n i i i =1
E (a, b) =0 a E (a, b) =0 b
a X i + b X i2 = X iYi
i =1 i =1 n i =1
na + b X i = Yi
i =2 i =1
Este sistema es llamado Sistema de ecuaciones normales El cual conduce a los valores de a y b en la forma siguiente:
n n n n X iYi X i Yi i =1 i =1 = Cov( X , Y ) b = i =1 2 2 n SX n 2 n X i X i i =1 i =1
a = Y bX
e = [ y y ] = [ y (a + bx )] = [ y (Y bX + bx )]
i =1 n i i =1 n i i i =1 i i i =1 i i
ei = [ yi Y + bX bxi ] = [( yi Y ) b( xi x)]
i =1 n i =1 n i =1
e = ( y Y ) b ( x X ) = 0
i =1 n i i =1 i i =1 i
e
i =1
=0
57
y = a + bx
Con esta ecuacin podemos efectuar predicciones de valores de Y para valores dados de X. Las predicciones sern aceptables cuando los valores de X flucten en [ X min , X max ] . Pero podemos preguntarnos como podemos medir la calidad del modelo, para dar respuesta a esta pregunta observemos que una de las formas es el Coeficiente de Correlacin de Pearson, rXY , con las interpretaciones que ya han sido comentadas anteriormente. Ejemplo: Se ha observado que para predecir la demanda (consumo) de combustibles para calefaccin, resulta ser ms preciso el pronstico a largo plazo de las temperaturas y el uso de la relacin temperatura-consumo que el tratar de pronosticar directamente demanda analizando las ventas de combustibles. Un distribuidor de combustibles mantiene un registro de ventas mensuales de combustibles y de temperaturas (Fahrenheint) promedio mximas en esos meses. A continuacin aparecen los datos de nueve de estos meses seleccionados al azar. Volumen de Ventas ( Y ) Temperaturas ( X ) a) 26,2 46,5 17,4 54,6 7,8 65,2 12,3 62,3 35,9 41,9 42,1 38,6 26,4 43,7 19,0 52,0 10,1 59,8
respuesta.
Cree usted que a mayor temperatura mayor volumen de ventas?. Justifique estadsticamente su
40,0
35,0
25,0
20,0
15,0
10,0
5,0
0,0 0,0 10,0 20,0 30,0 40,0 50,0 60,0 70,0 Temperaturas
58
Como se observa en el diagrama de dispersin podemos decir que a mayor temperatura menor volumen en las ventas de combustible, por tanto no estaramos de acuerdo con la pregunta. Para justificar esta afirmacin estadsticamente debemos calcular la covarianza entre X e Y , para realizar esto podemos construir la siguiente tabla
Temperatura V. de ventas (X) (Y) 46,5 26,2 54,6 17,4 65,2 7,8 62,3 12,3 41,9 35,9 38,6 42,1 43,7 26,4 52,0 19,0 59,8 10,1 464,6 197,2
XY
1218,3 950,04 508,56 766,29 1504,21 1625,06 1153,68 988 603,98 9318,1
X2
2162,3 2981,2 4251,0 3881,3 1755,6 1490,0 1909,7 2704,0 3576,0 24711,0
Cov( X ; Y ) = XY X Y =
Por tanto Cov ( X ; Y ) < 0 , luego podemos decir que existe una relacin lineal indirecta, es decir, que la temperatura y el volumen de ventas son inversamente proporcionales, lo que quiere decir que a mayor temperatura es menor el volumen de venta de combustible. b) Encuentre la recta de mnimos cuadrados para la relacin entre la temperatura y el volumen de ventas. Solucin: La recta de mnimos cuadrados es dada por Y = a + bX , donde los estimadores mnimos cuadrticos de a y b estn dados por
n n n n X iYi X i Yi i =1 i =1 = Cov( X , Y ) b = i =1 2 2 n SX n 2 n X i X i i =1 i =1
a = Y bX
59
40,0
35,0
25,0
y = -1,1848x + 83,074
20,0
15,0
10,0
5,0
0,0 0,0 10,0 20,0 30,0 40,0 50,0 60,0 70,0 Temperaturas
c)
Determine la calidad del modelo. Solucin: Para determinar la calidad del modelo debemos calcular el Coeficiente de Correlacin de Pearson
Temperatura V. de ventas (X) (Y) 46,5 26,2 54,6 17,4 65,2 7,8 62,3 12,3 41,9 35,9 38,6 42,1 43,7 26,4 52,0 19,0 59,8 10,1 464,6 197,2
XY
1218,3 950,04 508,56 766,29 1504,21 1625,06 1153,68 988 603,98 9318,1
X2
2162,3 2981,2 4251,0 3881,3 1755,6 1490,0 1909,7 2704,0 3576,0 24711,0
Y2
686,4 302,8 60,8 151,3 1288,8 1772,4 697,0 361,0 102,0 5422,5
60
Cov( X ; Y ) = XY X Y =
rXY =
Luego la calidad del ajuste del modelo es dado por podemos decir que la calidad del ajuste es ptimo. De la figura siguiente podemos observar que
yi Y = ( yi yi ) + ( yi Y ) ; i = 1, 2,3, , n , elevando al
200
yi
175
yi
Y
150
Y = a + bX
125
X
100 100 125 150 175
xi
200 225 250
61
( y y ) + ( y Y ) (y Y ) =
2 i =1 i i =1 n i i i n
= ( yi yi ) 2 + 2 ( yi yi )( yi Y ) + ( yi Y ) 2
i =1 n i =1 i =1
= ( yi yi ) 2 + ( yi Y ) 2
i =1 i =1
( y y )( y Y ) = 0
i =1 i i i
(y Y ) = (y y ) + (y Y )
2 2
i =1
i =1
i =1
Dividiendo por
SCE es lo ms pequeo posible, diremos que el error al predecir a travs de la recta de regresin es SCT SCR ser lo ms grande posible la que nos explicar el comportamiento de la mnimo, por tanto la expresin SCT variable Y a travs del modelo Y = a + bX .
Si
62
1 se obtiene lo siguiente: n
1 1 n SCR ( yi yi )2 = 1 + 2 SY n i =1 SCT
1 n ( yi yi )2 e.e.e = n i =1
Por otra parte sabemos que
yi = a + bxi
b=
Y a , luego X
Y yi + bxi bX = Y yi + bxi X b( xi X ) = yi Y b=
bX bxi = Y yi
Elevando al cuadrado esta ltima igualdad y sumando a travs de todas las observaciones se tiene:
2 n
( x X )( y Y )
i =1 i i
i =1
i =1
(x X )
i =1 i
63
Entonces
n ( xi X )( yi Y ) i =1 n 2 ( xi X ) i =1
( xi X )2 = ( yi Y )2
i =1 i =1
n n 2 ( xi X )( yi Y ) ( xi X ) i =1 i =1 n ( xi X ) 2 i =1 2
n = ( y Y )2 i i =1
n ( xi X )( yi Y ) n i =1 = ( y Y )2 i n i =1 2 ( xi X ) i =1
Amplificando por
(y Y )
i =1 i
se tiene:
2
n ( xi X )( yi Y ) i =1 n 2 ( ) x X i i =1
n
2 n
(y Y )
i =1 i 2
=
2
(y Y )
i =1 i
2 i =1
(y Y )
i
n ( )( ) ( yi Y )2 x X y Y i i i =1 = i =1 n n n 2 2 ( yi Y )2 ( xi X ) ( yi Y ) i =1 i =1 i =1
2 rXY =
SCR SCT
Por tanto
64
Evaporacin (X) 1 2 3 4 5
Determine: a) Qu tipo de asociacin lineal existe entre la Evaporizacin y la Densidad. b) Una ecuacin lineal para estimar la densidad. c) La calidad del modelo encontrado en la parte (b). d) En que porcentaje es explicada la densidad a travs de la evaporizacin. Solucin: a) Un diagrama de dispersin de esta informacin se muestra en la figura siguiente
4,50
4,00
3,50
3,00 Densidad
2,50
2,00
1,50
1,00
0,50
0,00 0 1 2 3 Tiempo 4 5 6
Segn el diagrama se puede observar una asociacin directa, es decir, la densidad y los tiempos de evaporizacin son directamente proporcional, para afirmar esto estadsticamente debemos calcular la covarianza entre X e Y
Cov ( X ; Y ) = XY X Y
65
Evaporacin (X) 1 2 3 4 5 15
X Y
2,00 5,00 9,75 11,80 23,00 51,55
Cov( X ; Y ) = XY X Y =
b)
Sea el modelo lineal Y = a + bX que representa la densidad en funcin de los tiempos de evaporizacin, luego debemos estimar los parmetros a y b , a travs del mtodo de mnimos cuadrados.
Evaporacin (X) 1 2 3 4 5 15
X Y
2,00 5,00 9,75 11,80 23,00 51,55
X2
1 4 9 16 25 55
b=
Por tanto el modelo de regresin para estimar la densidad est dado por c)
y = 1,365 + 0,565 x
Para determinar la calidad del modelo debemos calcular el Coeficiente de Correlacin de Pearson.
Evaporacin (X) 1 2 3 4 5 15
X Y
2,00 5,00 9,75 11,80 23,00 51,55
X2
1 4 9 16 25 55
Y2
4,00 6,25 10,56 8,70 21,16 50,675
rXY =
d)
66