Está en la página 1de 16

ESTADSTICA Y PROBABILIDAD REN ZIGA FLORES

DEPARTAMENTO DE MATEMTICA UNIVERSIDAD DE ANTOFAGASTA

COEFICIENTE DE CORRELACIN LINEAL Anteriormente hemos analizado la relacin lineal que puede o no existir entre dos variables X e Y a travs de la covarianza pero no tenemos el grado de asociacin entre ellas, para determinar un indicador que mida esta asociacin. Examinemos la siguiente funcin y = ax + bx + c la cual representa una parbola como se muestra en la figura
2

siguiente;

Como se puede observar en esta figura y 0 , es decir, ax + bx + c 0 , la cual se verificar si y slo si


2

b 2 4ac 0 .
Por otra parte analicemos la expresin

(a x + b )
i =1 i i

0,

ai , bi , i = 1, 2,3, , n

Desarrollando esta expresin se obtiene:

(a x + b ) = (a x)
2 i =1 i i i =1 n i i =1

+ 2(ai x)(bi ) + (bi ) 2


n n

= ai2 x 2 + 2 xai bi + bi2


i =1 i =1 n n n = ai2 x 2 + 2 ai bi x + bi2 0 i =1 i =1 i =1

51

ESTADSTICA Y PROBABILIDAD REN ZIGA FLORES

DEPARTAMENTO DE MATEMTICA UNIVERSIDAD DE ANTOFAGASTA

As hemos obtenido una expresin semejante a la funcin cuadrtica planteada anteriormente por tanto, su discriminante es

n n n 4 ai bi 4 ai2 bi2 0 i =1 i =1 i =1
Es decir,

n n n 4 ai bi 4 ai2 bi2 i =1 i =1 i =1
Si extraemos raz cuadrada se obtiene

aibi
i =1

ai2
i =1

b
i =1

2 i

Que es equivalente a:

a b
i =1 2 i

i i

a
i =1

b
i =1

1
2 i

Si ai = xi X y bi = yi Y , i = 1, 2,3, , n , se tiene

( x X )( y Y )
i =1 i i

(x X )
i =1 i

(y Y )
i =1 i

1
2

Amplificando el numerador y denominador por

1 se obtiene la siguiente expresin: n

1 n ( xi X )( yi Y ) n i =1 1 n

(x X )
i =1 i

(y Y )
i =1 i

1
2

1 n ( xi X )( yi Y ) n i =1 1 n 1 ( xi X ) n i =1
2 n

(y Y )
i =1 i

1
2

Podemos observar que la expresin del numerador es la covarianza y el producto del denominador es el producto de las desviaciones estndar de las variables X e Y , luego podemos escribirla en la siguiente forma

Cov( X ; Y ) 1 S X SY
52

ESTADSTICA Y PROBABILIDAD REN ZIGA FLORES

DEPARTAMENTO DE MATEMTICA UNIVERSIDAD DE ANTOFAGASTA

Denotando este cuociente por

rXY el cual llamaremos coeficiente de correlacin lineal es decir,


rXY = Cov( X ; Y ) S X SY

Observando este cuociente se tiene que

S X SY > 0 , por tanto el coeficiente de correlacin hereda la

interpretacin de la covarianza, de esta forma podemos obtener una interpretacin ms sencilla del grado de asociacin lineal que tienen las variables X e Y dado que aplicando propiedad del valor absoluto se obtiene que

1 rXY 1
En el supuesto que la variable Y se relacione perfectamente con la variable X segn la relacin para cada par observado

yi = a + bxi

( xi , yi ) , el coeficiente de correlacin lineal rXY estar dado por


2 Cov( X ; a + bX ) bCov( X ; X ) bS X b = = = 2 2 S X S a +bX b SX b SX b

rXY =
Si

b es positivo, entonces rXY = 1 , el que indicar una correlacin lineal directa perfecta entre las variables X e Y . Si b es negativo, entonces rXY = 1 , el que indicar una correlacin lineal indirecta perfecta entre las
variables. Si rXY > 0 , la relacin lineal entre X e Y es directa (directamente proporcional) y si (inversamente proporcional). Ejemplo: La tabla siguiente da la resistencia de corte y el dimetro de la barra de 10 diferentes soldaduras.

rXY < 0 es indirecta

Resistencia de corte (X) (libras 680 800 780 885 975 1025 1100 1030 1175 1300

Dimetro de soldadura (Y) (0,001 pulgadas 190 200 209 215 215 215 230 250 265 250

El diagrama de dispersin se muestra en siguiente figura:

53

ESTADSTICA Y PROBABILIDAD REN ZIGA FLORES

DEPARTAMENTO DE MATEMTICA UNIVERSIDAD DE ANTOFAGASTA

Diagrama de dispersin de 10 muestras


300

250

Dimetro de soldadura (0,001pulg.)

200

150

100

50

0 0 200 400 600 800 1000 1200 1400 Resistencia al corte (libras)

Como se puede observar este diagrama hay una relacin directa entre ambas variables. Para analizar el grado de asociacin calculemos el coeficiente de correlacin lineal entre las variables, para esto recurrimos a la siguiente tabla para facilitar el clculo.

Resistencia de corte (X) (libras 680 800 780 885 975 1025 1100 1030 1175 1300 9750

Dimetro de soldadura (Y) (0,001 pulgadas 190 200 209 215 215 215 230 250 265 250 2239

X Y
129200 160000 163020 190275 209625 220375 253000 257500 311375 325000 2219370

X2
462400 640000 608400 783225 950625 1050625 1210000 1060900 1380625 1690000 9836800

Y2
36100 40000 43681 46225 46225 46225 52900 62500 70225 62500 506581

54

ESTADSTICA Y PROBABILIDAD REN ZIGA FLORES

DEPARTAMENTO DE MATEMTICA UNIVERSIDAD DE ANTOFAGASTA

Cov( X ; Y ) = XY X Y =

2219370 9750 2239 = 3634,5 10 10 10


2

1 n 2 1 9750 (9836800) SX = xi X 2 = = 181,8103407 10 n i =1 10 1 n 2 1 2239 (506581) SY = yi Y 2 = = 22,9540846 10 n i =1 10


Por tanto el coeficiente de correlacin es:
2

rXY =

Cov( X ; Y ) 3634,5 = = 0,8708956365 0,871 S X SY (181,8103407)(22,9540846)

Cuando

rXY sea satisfactorio, se puede iniciar el estudio que permita estimar el modelo que mejor se ajusta a la nube de puntos. Para ello se debe efectuar las estimaciones de a y b en el modelo y = a + bx

Regresin Lineal Simple Dados los pares

( xi , yi ), i = 1, 2,3, , n , que representan datos de las variables X e Y , se desea ahora encontrar la recta y = a + bx que mejor represente la nube de puntos correspondientes

55

ESTADSTICA Y PROBABILIDAD REN ZIGA FLORES

DEPARTAMENTO DE MATEMTICA UNIVERSIDAD DE ANTOFAGASTA

Como se puede observar en la figura se tiene que el error de la i sima observacin es dado por:

ei = yi yi
Si suponemos que la suma de todos los errores son ceros, es decir, varianza de los errores ser

e
i =1

= 0 , entonces e = 0 por tanto la

Se2 =

1 n

n i =1

(ei e) 2 =

1 n

e
n i =1

2 i

Si se quiere minimizar el error debemos minimizar la varianza de los errores es decir debemos minimizar

e .
n 2 i

El proceso de minimizacin de esta suma de errores al cuadrado se conoce como Mtodo de mnimos cuadrados. Sea la siguiente funcin que representa los errores cuadrticos E, la cual podemos definir en trminos de los parmetros a y b en la forma siguiente

i =1

E ( a, b) =


n n

ei2 =

( yi yi ) 2 =

i =1

i =1

( y (a + bx ))
n i i i =1

Como podemos observar esta es una funcin de dos variables y determinaremos para qu valores de a y b se minimiza la funcin E ( a, b) . Aplicando las nociones del clculo se tiene que debemos resolver el siguiente sistema

E (a, b) =0 a E (a, b) =0 b
Primero calculemos

E (a, b) = a E (a, b) = 2 a

[ y (a + bx )]
n 2 i i i =1

a
n i i

n i =1

[ yi (a + bxi )]2 = a

2[ y (a + bx )](1)
n i i i =1

[ y (a + bx )]
i =1

Como

E (a, b) =0 2 a

[ y (a + bx )] = 0
n i i i =1

56

ESTADSTICA Y PROBABILIDAD REN ZIGA FLORES

DEPARTAMENTO DE MATEMTICA UNIVERSIDAD DE ANTOFAGASTA

Adems,

E (a, b) = b

n i =1 n i =1

[ yi (a + bxi )]2 = b
i i

n i =1

[ yi (a + bxi )]2 = b

2[ y (a + bx )]( x )
n i i i i =1

E (a, b) = 2 b

[ y (a + bx )]

E (a, b) = 0 2 Entonces b

[ y (a + bx )] = 0
n i i i =1

Luego el sistema queda de la siguiente manera

E (a, b) =0 a E (a, b) =0 b

a X i + b X i2 = X iYi
i =1 i =1 n i =1

na + b X i = Yi
i =2 i =1

Este sistema es llamado Sistema de ecuaciones normales El cual conduce a los valores de a y b en la forma siguiente:
n n n n X iYi X i Yi i =1 i =1 = Cov( X , Y ) b = i =1 2 2 n SX n 2 n X i X i i =1 i =1

a = Y bX

Ahora con estos valores podemos probar que


n n n

e = 0 . En efecto, basta observar que


n

e = [ y y ] = [ y (a + bx )] = [ y (Y bX + bx )]
i =1 n i i =1 n i i i =1 i i i =1 i i

ei = [ yi Y + bX bxi ] = [( yi Y ) b( xi x)]
i =1 n i =1 n i =1

e = ( y Y ) b ( x X ) = 0
i =1 n i i =1 i i =1 i

e
i =1

=0

57

ESTADSTICA Y PROBABILIDAD REN ZIGA FLORES

DEPARTAMENTO DE MATEMTICA UNIVERSIDAD DE ANTOFAGASTA

Por tanto con los valores encontrados de forma siguiente:

a y b se puede escribir la Ecuacin de Regresin de Y en X, en la

y = a + bx
Con esta ecuacin podemos efectuar predicciones de valores de Y para valores dados de X. Las predicciones sern aceptables cuando los valores de X flucten en [ X min , X max ] . Pero podemos preguntarnos como podemos medir la calidad del modelo, para dar respuesta a esta pregunta observemos que una de las formas es el Coeficiente de Correlacin de Pearson, rXY , con las interpretaciones que ya han sido comentadas anteriormente. Ejemplo: Se ha observado que para predecir la demanda (consumo) de combustibles para calefaccin, resulta ser ms preciso el pronstico a largo plazo de las temperaturas y el uso de la relacin temperatura-consumo que el tratar de pronosticar directamente demanda analizando las ventas de combustibles. Un distribuidor de combustibles mantiene un registro de ventas mensuales de combustibles y de temperaturas (Fahrenheint) promedio mximas en esos meses. A continuacin aparecen los datos de nueve de estos meses seleccionados al azar. Volumen de Ventas ( Y ) Temperaturas ( X ) a) 26,2 46,5 17,4 54,6 7,8 65,2 12,3 62,3 35,9 41,9 42,1 38,6 26,4 43,7 19,0 52,0 10,1 59,8

Solucin: Primero observemos el diagrama de dispersin de esta informacin


Demanda del consumo de combustibles para calefaccin
45,0

respuesta.

Cree usted que a mayor temperatura mayor volumen de ventas?. Justifique estadsticamente su

40,0

35,0

30,0 Volumen de ventas

25,0

20,0

15,0

10,0

5,0

0,0 0,0 10,0 20,0 30,0 40,0 50,0 60,0 70,0 Temperaturas

58

ESTADSTICA Y PROBABILIDAD REN ZIGA FLORES

DEPARTAMENTO DE MATEMTICA UNIVERSIDAD DE ANTOFAGASTA

Como se observa en el diagrama de dispersin podemos decir que a mayor temperatura menor volumen en las ventas de combustible, por tanto no estaramos de acuerdo con la pregunta. Para justificar esta afirmacin estadsticamente debemos calcular la covarianza entre X e Y , para realizar esto podemos construir la siguiente tabla

Temperatura V. de ventas (X) (Y) 46,5 26,2 54,6 17,4 65,2 7,8 62,3 12,3 41,9 35,9 38,6 42,1 43,7 26,4 52,0 19,0 59,8 10,1 464,6 197,2

XY
1218,3 950,04 508,56 766,29 1504,21 1625,06 1153,68 988 603,98 9318,1

X2
2162,3 2981,2 4251,0 3881,3 1755,6 1490,0 1909,7 2704,0 3576,0 24711,0

Cov( X ; Y ) = XY X Y =

Por tanto Cov ( X ; Y ) < 0 , luego podemos decir que existe una relacin lineal indirecta, es decir, que la temperatura y el volumen de ventas son inversamente proporcionales, lo que quiere decir que a mayor temperatura es menor el volumen de venta de combustible. b) Encuentre la recta de mnimos cuadrados para la relacin entre la temperatura y el volumen de ventas. Solucin: La recta de mnimos cuadrados es dada por Y = a + bX , donde los estimadores mnimos cuadrticos de a y b estn dados por
n n n n X iYi X i Yi i =1 i =1 = Cov( X , Y ) b = i =1 2 2 n SX n 2 n X i X i i =1 i =1

9318,1 464, 6 197, 2 = 95, 75580247 9 9 9

a = Y bX

9318,1 464, 6 197, 2 9 9 = 1,184908277 b= 9 2 24711, 0 464, 6 9 9


197, 2 464, 6 a= ( 1,184908277 ) = 83, 0787095 9 9

59

ESTADSTICA Y PROBABILIDAD REN ZIGA FLORES

DEPARTAMENTO DE MATEMTICA UNIVERSIDAD DE ANTOFAGASTA

Por tanto la recta de mnimos cuadrados pedida es:

y = 83, 0787095 1,184908277 x


La grfica de esta recta de regresin se muestra en la figura siguiente:
Demanda del consumo de combustibles para calefaccin
45,0

40,0

35,0

30,0 Volumen de ventas

25,0

y = -1,1848x + 83,074
20,0

15,0

10,0

5,0

0,0 0,0 10,0 20,0 30,0 40,0 50,0 60,0 70,0 Temperaturas

c)

Determine la calidad del modelo. Solucin: Para determinar la calidad del modelo debemos calcular el Coeficiente de Correlacin de Pearson

Temperatura V. de ventas (X) (Y) 46,5 26,2 54,6 17,4 65,2 7,8 62,3 12,3 41,9 35,9 38,6 42,1 43,7 26,4 52,0 19,0 59,8 10,1 464,6 197,2

XY
1218,3 950,04 508,56 766,29 1504,21 1625,06 1153,68 988 603,98 9318,1

X2
2162,3 2981,2 4251,0 3881,3 1755,6 1490,0 1909,7 2704,0 3576,0 24711,0

Y2
686,4 302,8 60,8 151,3 1288,8 1772,4 697,0 361,0 102,0 5422,5

60

ESTADSTICA Y PROBABILIDAD REN ZIGA FLORES

DEPARTAMENTO DE MATEMTICA UNIVERSIDAD DE ANTOFAGASTA

Cov( X ; Y ) = XY X Y =

9318,1 464, 6 197, 2 = 95, 75580247 9 9 9


2

1 n 2 1 464, 6 (24711, 0) SX = xi X 2 = = 8,989596182 9 n i =1 9 SY = 1 n 2 1 197, 2 (5422,5) yi Y 2 = = 11, 06359841 9 n i =1 9


2

Por tanto el coeficiente de correlacin es:

rXY =

95, 75580247 Cov( X ; Y ) = = 0,9627832223 0,9628 S X SY (8,989596182)(11, 06359841)

Luego la calidad del ajuste del modelo es dado por podemos decir que la calidad del ajuste es ptimo. De la figura siguiente podemos observar que

rXY = 0,9628 = 0,9628 , como este valor es cercano a 1

yi Y = ( yi yi ) + ( yi Y ) ; i = 1, 2,3, , n , elevando al

cuadrado y sumando todas estas diferencias cuadrticas se obtiene lo siguiente:


225

200

yi
175

yi

Y
150

Y = a + bX

125

X
100 100 125 150 175

xi
200 225 250

61

ESTADSTICA Y PROBABILIDAD REN ZIGA FLORES


n n

DEPARTAMENTO DE MATEMTICA UNIVERSIDAD DE ANTOFAGASTA

( y y ) + ( y Y ) (y Y ) =
2 i =1 i i =1 n i i i n

= ( yi yi ) 2 + 2 ( yi yi )( yi Y ) + ( yi Y ) 2
i =1 n i =1 i =1

= ( yi yi ) 2 + ( yi Y ) 2
i =1 i =1

Nota: Se deja como ejercicio para el alumno probar que:

( y y )( y Y ) = 0
i =1 i i i

Por tanto se tiene que

(y Y ) = (y y ) + (y Y )
2 2

i =1

i =1

i =1

Podemos identificar las sumas anteriores como:

SCT = ( yi Y ) 2 : Suma de cuadrados totales


i =1

SCE = ( yi yi ) 2 : Suma de cuadrados del error


i =1

SCR = ( yi Y ) 2 : Suma de cuadrados de la regresin


i =1

Por tanto podemos decir que:

Dividiendo por

SCT = SCE + SCR SCT se obtiene lo siguiente:


SCE SCR + =1 SCT SCT

SCE es lo ms pequeo posible, diremos que el error al predecir a travs de la recta de regresin es SCT SCR ser lo ms grande posible la que nos explicar el comportamiento de la mnimo, por tanto la expresin SCT variable Y a travs del modelo Y = a + bX .
Si

62

ESTADSTICA Y PROBABILIDAD REN ZIGA FLORES

DEPARTAMENTO DE MATEMTICA UNIVERSIDAD DE ANTOFAGASTA

Adems si observamos la expresin denominador por

SCE es la varianza de los errores dado que si amplificamos el numerador y SCT

1 se obtiene lo siguiente: n

1 n 1 n 2 1 ( yi yi ) ( yi yi ) 2 SCE SCE n n 1 n = = i= = i =1 2 n 1 1 SCT SY SCT ( yi Y ) 2 n n i =1 SCE 1 1 n = 2 ( yi yi ) 2 SCT SY n i =1


Pero

SCE SCR = 1+ SCT SCT


Por tanto

1 1 n SCR ( yi yi )2 = 1 + 2 SY n i =1 SCT

1 n 1 n SCR , donde la expresin ( yi yi ) 2 = SY2 1 + ( yi yi ) 2 es conocida como la varianza de los n i =1 n i =1 SCT


errores, luego si se extrae raz cuadrada de esta expresin se tiene

1 n ( yi yi )2 , la que es llamada Error n i =1

Estndar de Estimacin, es decir,

1 n ( yi yi )2 e.e.e = n i =1
Por otra parte sabemos que

yi = a + bxi

a = yi bxi , pero tambin sabemos que a = Y bX

b=

Y a , luego X

Y yi + bxi bX = Y yi + bxi X b( xi X ) = yi Y b=

bX bxi = Y yi

Elevando al cuadrado esta ltima igualdad y sumando a travs de todas las observaciones se tiene:

2 n

( xi X ) = ( yi Y ) , pero por otra parte b =


2 2

( x X )( y Y )
i =1 i i

i =1

i =1

(x X )
i =1 i

63

ESTADSTICA Y PROBABILIDAD REN ZIGA FLORES

DEPARTAMENTO DE MATEMTICA UNIVERSIDAD DE ANTOFAGASTA

Entonces

n ( xi X )( yi Y ) i =1 n 2 ( xi X ) i =1

( xi X )2 = ( yi Y )2
i =1 i =1

n n 2 ( xi X )( yi Y ) ( xi X ) i =1 i =1 n ( xi X ) 2 i =1 2

n = ( y Y )2 i i =1

n ( xi X )( yi Y ) n i =1 = ( y Y )2 i n i =1 2 ( xi X ) i =1
Amplificando por

(y Y )
i =1 i

se tiene:
2

n ( xi X )( yi Y ) i =1 n 2 ( ) x X i i =1
n

2 n

(y Y )
i =1 i 2

=
2

(y Y )
i =1 i

2 i =1

(y Y )
i

n ( )( ) ( yi Y )2 x X y Y i i i =1 = i =1 n n n 2 2 ( yi Y )2 ( xi X ) ( yi Y ) i =1 i =1 i =1

2 rXY =

SCR SCT

Por tanto

SCR SCR 2 2 2 2 (e.e.e) 2 = SY 1 + e.e.e = SY 1 + = SY (1 + rXY ) SCT SCT

64

ESTADSTICA Y PROBABILIDAD REN ZIGA FLORES

DEPARTAMENTO DE MATEMTICA UNIVERSIDAD DE ANTOFAGASTA

Ejemplo: Los siguientes datos representan la densidad Y en diferentes tiempos de evaporizacin X

Evaporacin (X) 1 2 3 4 5

Densidad (Y) 2,00 2,50 3,25 2,95 4,60

Determine: a) Qu tipo de asociacin lineal existe entre la Evaporizacin y la Densidad. b) Una ecuacin lineal para estimar la densidad. c) La calidad del modelo encontrado en la parte (b). d) En que porcentaje es explicada la densidad a travs de la evaporizacin. Solucin: a) Un diagrama de dispersin de esta informacin se muestra en la figura siguiente

Densidad en diferentes tiempos de Evaporizacin


5,00

4,50

4,00

3,50

3,00 Densidad

2,50

2,00

1,50

1,00

0,50

0,00 0 1 2 3 Tiempo 4 5 6

Segn el diagrama se puede observar una asociacin directa, es decir, la densidad y los tiempos de evaporizacin son directamente proporcional, para afirmar esto estadsticamente debemos calcular la covarianza entre X e Y

Cov ( X ; Y ) = XY X Y

65

ESTADSTICA Y PROBABILIDAD REN ZIGA FLORES

DEPARTAMENTO DE MATEMTICA UNIVERSIDAD DE ANTOFAGASTA

Evaporacin (X) 1 2 3 4 5 15

Densidad (Y) 2,00 2,50 3,25 2,95 4,60 15,3

X Y
2,00 5,00 9,75 11,80 23,00 51,55

Cov( X ; Y ) = XY X Y =
b)

Como la Cov ( X ; Y ) > 0 , entonces existe una asociacin directa.

51,55 15 15,3 = 1,13 > 0 5 5 5

Sea el modelo lineal Y = a + bX que representa la densidad en funcin de los tiempos de evaporizacin, luego debemos estimar los parmetros a y b , a travs del mtodo de mnimos cuadrados.

Evaporacin (X) 1 2 3 4 5 15

Densidad (Y) 2,00 2,50 3,25 2,95 4,60 15,3

X Y
2,00 5,00 9,75 11,80 23,00 51,55

X2
1 4 9 16 25 55

b=

Cov( X ; Y ) 1,13 1,13 = = = 0,565 2 2 SX 2 55 15 5 5 15,3 15 a = Y bX = 0,565 = 1,365 5 5

Por tanto el modelo de regresin para estimar la densidad est dado por c)

y = 1,365 + 0,565 x

Para determinar la calidad del modelo debemos calcular el Coeficiente de Correlacin de Pearson.

Evaporacin (X) 1 2 3 4 5 15

Densidad (Y) 2,00 2,50 3,25 2,95 4,60 15,3

X Y
2,00 5,00 9,75 11,80 23,00 51,55

X2
1 4 9 16 25 55

Y2
4,00 6,25 10,56 8,70 21,16 50,675

rXY =
d)

Cov( X ; Y ) 1,13 = = 0,90975327 S X SY 2 0, 7714

2 rXY = 0,8276 el modelo explica en un 82,76% el comportamiento de la densidad.

66

También podría gustarte