Está en la página 1de 14

Estadística I 97

Unidad 6 –TEORIA DE LA CORRELACION LINEAL

1. CONCEPTO Y APLICACIONES

La Teoría de la Correlación Lineal reúne el conjunto de procedimientos matemáticos


para calcular determinadas medidas que permiten saber cuán bueno es el ajustamiento realizado,
el grado de relación existente entre las variables y determinar el porcentaje de variación de la
variable dependiente que está explicado por el modelo lineal adoptado.

La covarianza es la primera medida que nos aproxima a la existencia de relación o no en-


tre dos variables:

S xy 
 
 xi  x yi  y 
n

Es una medida absoluta de correlación que varía entre menos infinito y más infinito.

Su desventaja radica en que depende de las unidades de medida de las variables intervi-
nientes y por eso una gran covarianza no implica una fuerte correlación entre las variables y por
el contrario una pequeña covarianza no implica una relación débil entre las variables.

En los gráficos se presentan diferentes tipos de correlación lineal.


Estadística I 98

El caso 1 presenta un conjunto de puntos con una relación lineal directa entre las dos va-
riables bajo estudio, es decir que a un crecimiento de cualquiera de las dos variables, le co-
rresponde un crecimiento de la otra. En cambio, el caso 2 muestra al conjunto de puntos con
una relación lineal inversa, lo que significa que al crecimiento de una variable le corresponde
el decrecimiento de la otra, y viceversa. Los puntos del caso 3 muestran una situación en la que
la correlación lineal es inexistente, pero podría existir una correlación de cualquier otro
tipo (se observa que la disposición de los puntos tiene una apariencia más bien circular). En ese
caso, el valor del coeficiente de correlación lineal debería indicar que no existe una relación
lineal entre las variables, pero eso no significa que no pueda existir una relación circular entre
ellas. Aquí se puede observar el importante detalle que las rectas de ajustamiento Yi y X i se
cruzan formando un ángulo de 90 grados.

Existe un caso extremo poco frecuente desde el punto de vista empírico denominado de
correlación lineal perfecta (directa o inversa), en el cual todos lo puntos del diagrama de dis-
persión se encuentran perfectamente alineados y, por consiguiente, coinciden con las dos rectas
de ajustamiento Yi y X i . Se presenta en sus dos versiones en los siguientes gráficos:

Correlación lineal perfecta Correlación lineal perfecta


directa inversa
Estadística I 99

2. COEFICIENTE DE CORRELACIÓN LINEAL. FÓRMULA DE LOS MOMENTOS.


EL COEFICIENTE DE CORRELACIÓN LINEAL COMO PRODUCTO DE LOS
COEFICIENTES DE REGRESIÓN. VALORES LÍMITES PARA EL COEFICIENTE
DE CORRELACIÓN LINEAL.

El coeficiente de correlación lineal r mide


 en forma directa, el grado de relación lineal entre dos variables Xi e Yi.
 en forma indirecta, si un ajustamiento lineal es o no es buen.

El coeficiente de correlación lineal, suministra al investigador un valor objetivo me-


diante el cual él puede decidir si resulta conveniente o apropiado realizar el ajuste lineal o,
en caso contrario, buscar una solución diferente, tal vez no lineal

Puede calcularse mediante la fórmula de los momentos propuesta por el matemático


Pearson y cuya expresión es la siguiente:

COV ( XY ) S
r  xy
DS  X  DS Y  S x S y

La fórmula algebraica tiene la siguiente expresión:

 X i  X Yi  Y 
r n ,
 X i  X   Yi  Y 
2 2

n n

a partir de la cual, recordando que la covariancia y los desvíos estándar tienen sus correspondien-
tes fórmulas de trabajo, puede construirse la “fórmula de trabajo” del coeficiente de correla-
ción
 X i Yi  X Y
r n
 X i 2  Yi2 2
2

X Y
n n

que es utilizada empíricamente para calcular el coeficiente de correlación en la mayoría de


los casos. Finalmente, mediante la simplificación de los términos 1 del numerador y denomina-
n
dor de la fórmula algebraica, se obtiene una nueva expresión para el r denominada fórmula
abreviada, que será utilizada fundamentalmente en demostraciones teóricas por su sencillez y
brevedad:
Estadística I 100

r
 X i  X Yi  Y  
 xi yi
 X i  X  Yi  Y 
2 2
 x i2  y i2
(recordando que xi  X  X y que yi  Yi  Y ).
i

Para calcular r mediante la aplicación de la fórmula de trabajo, se utiliza una tabla de da-
tos empíricos con tantas columnas como sean necesarias para obtener los resultados que requiere
la fórmula, según el siguiente formato:

Xi Yi XiYi Xi2 Yi 2
X1 Y1 X1 Y1 X1 2 Y12
X2 Y2 X2 Y2 X2 2 Y22
… … … … …
Xn Yn XnYn Xn2 Yn2
Xi Yi XiYi Xi2 Yi2
Con los cinco resultados del cuadro anterior, se calcula el coeficiente de correlación.
Obsérvese que las primeras cuatro sumas coinciden con las requeridas para calcular los
parámetros en el ajustamiento lineal, de modo que en caso de disponerse de ellas sólo se de-
berá agregar la  Yi2 .

Retomando el ejemplo de la concesionaria:

Xi Yi Xi2 Xi Yi Yi2  X i Yi  X Y
33 80,620 1.089 2.660,460 6.499,584 n
r 
26 62,184 676 1.616,784 3.866,850 2 2
44 81,424 1.936 3.582,656 6.629,868
 X i  X 2  Yi  Y 2
56 96,208 3.136 5.387,648 9.255,979 n n
43 87,924 1.849 3.780,732 7.730,630
25.360,368
41 89,768 1.681 3.680,488 8.058,294  38,5 . 80,007
8
35 78,752 1.225 2.756,320 6.201,878   0,8908
12.492 2 52.234,289 2
30 63,176 900 1.895,280 3.991,207  38,5  80,007
8 8
308 640,056 12.492 25.360,368 52.234,289

Más adelante se verá qué significa que el coeficiente de correlación tenga ese valor y que
adopte el signo positivo.

Para calcular el coeficiente de correlación lineal como producto de los coeficientes de


regresión partimos del método abreviado de cálculo, desarrollado en el tema ajustamiento lineal,
que permite encontrar la pendiente b1 de la recta de ajustamiento Yi mediante la fórmula
Estadística I 101

 x i Yi .
b 
1
 x i2
Como se sabe que yi  Yi  Y , efectuando un pasaje de términos, resultará Yi  yi  Y , y
reemplazando Yi en la fórmula de b1´, finalmente quedará

b  b 
 x i y i  Y    x i y i  Y x i   x i y i
1 1
(debido a que  xi  0 ).
 x i2  x i2  x i2
Con idéntico criterio, como xi  X i  X , tendremos que Xi  xi  X , de modo que en la
fórmula de b 2´, al reemplazar Xi y operar algebraicamente, se obtendrá una nueva versión para
calcular ese parámetro, resultando
 xi yi
b  b  .
2 2 2
 y
i

Se multiplican las pendientes de ambas rectas de ajustamiento y se obtiene:


2

 xi yi 
b1b2   2  2   2  2  r 2
xi yi xi yi
 xi  yi  xi  yi
Esta expresión, además de permitir el cálculo del r, permite extraer dos conclusiones:
 las pendientes de las rectas de ajustamiento Yi y X i tienen el mismo signo (lo cual
las hace crecientes o decrecientes simultáneamente) o ambas son nulas. De lo contra-
rio el r no podría ser calculado.
 el signo del coeficiente de correlación es, por convención, similar al de las pen-
dientes. Si la relación es directa, el signo del r será positivo; si la relación es inversa,
el signo del r será negativo.

3. VARIACIONES: TOTAL, EXPLICADA Y NO EXPLICADA. EL COEFICIENTE DE


CORRELACIÓN A PARTIR DE LAS VARIACIONES.

Definiremos las variaciones, fácilmente observables en el gráfico que se presenta más


abajo, y que muestra la situación referida a un solo punto Yj con el propósito de simplificar la
observación:
Estadística I 102

 Variación total: es la sumatoria de los desvíos al cuadrado entre los puntos empíricos Yi
y la media aritmética Y. Se llama también suma total de cuadrados, es una medida de la
variación de lo valores de Yi alrededor de su media.


VT   Y  Y
i
2

Si dividimos la VT por n, obtendremos la varianza de Yi:

VT
 S y2 
 Y  Y ,
n n

y la raíz cuadrada de la variancia de y permite calcular el Error Estándar de y (Sy).

 Variación explicada: es la sumatoria de los desvíos al cuadrado entre los puntos teóricos
Yi y la media aritmética Y. Llamada también suma de cuadrados de regresión, que se de-
be a la relación entre X e Y

VE   Ŷ  Y  i
 2

 Variación no explicada: es la sumatoria de los desvíos al cuadrado entre los puntos


empíricos Yi y los teóricos (dados por la recta de ajustamiento) Yi . Llamada también error
de la suma de cuadrados, que se debe a factores diferentes a la relación entre X e Y.

2
VE   Yi  Yi 
 

Dividiendo por n, se obtiene


2

Y  Y 
VE    i i   Sy2. x .
n n
Estadística I 103

Recordando que se definió a la recta de ajustamiento como una media dinámica, al obser-
var la expresión precedente se ve claramente que ella tiene el aspecto de una varianza, y efecti-
vamente lo es, porque mide cómo se alejan los puntos del diagrama de dispersión respecto
de la “media dinámica”, que es la recta de ajustamiento Yi . Por eso se la simboliza con Sy.x2,
y se la denomina varianza del estimador de Y en X o simplemente varianza del estimador.

La raíz cuadrada de la varianza del estimador permite obtener el error estándar del es-
timador (Sy.x). El gráfico siguiente permite observar cómo se presentan los errores estándar Sy y
Sy.x. El error estándar del estimador tiene una interpretación similar a la del desvío estándar en el
análisis de una variable y tiene propiedades análogas a las del desvío estándar.

Cuanto más grande sea el error estándar del estimador más grande será la dispersión de
los puntos empíricos alrededor de la recta de regresión. Si Sy.x = 0 la estimación sería exacta por-
que todos los puntos empíricos pertenecerían a la recta de regresión.

El nombre que reciben las variaciones se debe a la siguiente circunstancia:


 la variación explicada se denomina así porque en su cálculo intervienen los puntos
teóricos Yˆ cuya disposición en el diagrama de dispersión se encuentra explicada
i
por el modelo lineal calculado de acuerdo con la Teoría del ajustamiento.
 la variación no explicada se denomina así porque en su cálculo intervienen los pun-
tos empíricos Yi , cuya presencia en el diagrama de dispersión no se encuentra expli-
cada por ningún modelo ya que responden a datos originados en observaciones ex-
perimentales y, por ende, sujetos al azar.
 la variación total se denomina así porque resulta ser la suma de las dos anteriores.

Observando detenidamente las expresiones correspondientes a cada una de las variacio-


nes, se puede verificar que:
 las tres son positivas, ya que son calculadas como sumas de desvíos al cuadrado. No
pueden adoptar valores negativos.
Estadística I 104

 la VE y VE pueden ser nulas. Eso ocurre cuando los puntos teóricos coinciden con la
media aritmética de Yi, en el primer caso, y cuando los puntos empíricos coinciden
con los teóricos Yi , en el segundo caso.
VT  0

Por consiguiente VE  0

VE  0

La variación total es la suma de las variaciones explicada y no explicada, es decir


queVT  VE VE . A continuación se demostrará esta relación:

Sea Yi  Y  Yi  Y  Yi  Yi   Yi  Yi    Yi  Y 


   

Elevando al cuadrado ambos miembros, quedará:

2 2 2 2
 Y    Yi  Yi    Yi  Y     Yi  Yi    Yi  Y   2 Yi  Yi   Yi  Y 
  
 Yi

           

Se aplica sumatoria en ambos miembros:

2 2 2

 Yi  Y   Yi  Yi   Yi  Y   2 Yi  Yi  Yi  Y 


   
  

La última de las sumatorias precedentes se anula:

 Yi  Yi  Yi  Y    Yi  a1  b1 X i  a1  b1 X i  Y  


  

 a1  Yi  a1  b1 X i   b1 X i Yi  a1  b1 X i   Y  Yi  a1  b1 X i   0

Esto es así debido a las propiedades de las ecuaciones normales de Gauss, ya que
  i a1  b1 X i   0 y  Yi X i  a1 X i  b1 X i2   0
Y 

Las variaciones pueden ser calculadas en forma particular e independiente. Analizaremos


cada una de ellas caso por caso:

Cálculo de la variación no explicada:

  Y  a  b X  
VE   Y  Ŷ  i i
2

i 1 1 i
2


  Y a  b X Y  a  b X   Y Y  a  b X   a Y  a 
b X b X Y a b X   
i 1 1 i i 1 1 i i i 1 1 i 1 i 1 1 i 1 i i 1 1 i

  Y2  a
i 1
 Yi  b1  Yi X i  a 1  Yi  a 1  b1X i   b1  X i Yi  a 1  b1 X i 
Estadística I 105

Las dos últimas sumatorias se anulan por la propiedad de las ecuaciones normales de
Gauss, de modo que, en definitiva, resulta

VE   Y 2  a  Yi  b1  Yi Xi
i 1

Cálculo de la variación explicada:

A partir de la existencia de la relación entre las variaciones, se efectúa la siguiente opera-


ción:
2
VE  VT VE    Yi  Y    Yi2  a1 Yi  b1 Yi X i  
 

 2 
   Yi2  Y  2Yi Y   Yi2  a1 Yi  b1 Yi X i 
 

2
  Yi2  nY  2Y  Yi  Yi2  a1 Yi  b1 Yi X i ,

simplificando  Yi2

 2Yn  
2 Y
  Yi 2  nY n  Yi2  a1  Yi  b1  Yi X i ,

reordenando los términos

2
 a1  Yi  b1 Yi X i  nY  2nYY 

2
a
1
 Yi  b1  Yi Xi  n Y
La fórmula del r se puede deducir a partir de las variaciones. En función de todas las
definiciones y relaciones indicadas anteriormente, recordando además que a   Y ; que

b1   xi yi y que la recta de ajustamiento se puede escribir como Yi  a1  b1xi , en esta última
 xi2
ecuación se efectúa un pasaje de términos que permite escribir Yi  a1  b1xi o, lo que es lo mis-
mo, Y  Y  b x .
i 1 i

Elevando al cuadrado en ambos miembros de la igualdad y sumando para todo i, se tiene

2
 Yi  Y  b12  xi2 .

Ahora partamos de la fórmula del r2 escrita por el método abreviado de cálculo


Estadística I 106

r2 
 xi yi 


 xi2  yi2
Multiplicando y dividiendo por  xi2 , tenemos
2 2

r2 
 xi yi   xi2    xi yi   xi2  b12  xi2


 xi2  yi2  xi2   xi2  2  yi2  yi2


Reemplazando adecuadamente el numerador y el denominador de esta última expresión
por los términos hallados en este mismo punto más arriba, se obtiene
 Ŷi  Y 
2
VE
r2  
 Yi  Y 
2
VT

4. VALORES LÍMITES PARA EL COEFICIENTE DE CORRELACIÓN LINEAL. CO-


EFICIENTE DE DETERMINACIÓN. CALIDAD DEL AJUSTAMIENTO LINEAL.

La fórmula r   VE , es poco utilizada para calcular el coeficiente de correlación, pero


VT
permite extraer las siguientes conclusiones:

 De acuerdo con la demostración que dice que VE VE  VT y con el hecho que las variacio-
nes explicada y no explicada pueden ser, o nulas o positivas, tenemos que

si VE  0  VE  VT  r 2  0  r  0
si VE  VT  VE  0  r 2  1  r  1

 Si ahora consideramos que r  1  r 2  1  VE  VT  VE  0 . Observando las fórmu-


las de las variaciones explicada y total, se verifica que VE=VT si Yi  Yi , es decir, si los pun-
tos empíricos coinciden con Y , esto es, están perfectamente alineados. El gráfico ilustra
i
cuándo ocurre esto: cuando las dos rectas coinciden entre sí y con los puntos empíricos. En
ese caso, la correlación es perfecta con pendiente positiva.

 Idéntica situación se presenta cuando r  1  r 2  1  VE  VT  VE  0 . Sólo que en


este caso la correlación es perfecta pero con pendiente negativa. Véase, en el gráfico esta
circunstancia.

 Si r  0  r 2  0  VE  0  VE  VT. Esto ocurre cuando Yi  Y , es decir cuando los


puntos teóricos de la recta Y coinciden con la media de Yi, y, en ese caso, la correlación
i
Estadística I 107

lineal es nula y las rectas de ajustamiento se cruzan a 90º. Eso también se ilustra en el
gráfico.

Caso en que r =+1 Caso en que r =-1 Caso en que r = 0

Conclusión: De todo lo deducido precedentemente, se concluye que

 1  r  1 y que 0  r 2  1

El coeficiente de determinación es el coeficiente de correlación lineal al cuadrado


2
(r ), e indica cuál es la proporción de la Variación Total que se encuentra explicada por el
modelo aplicado en un determinado ajustamiento lineal.

El coeficiente de determinación, que se calcula dividiendo VE sobre VT y que puede


multiplicarse por cien, es un excelente indicador objetivo para determinar (de allí su nombre)
qué porcentaje de la variación total está explicada por el modelo lineal.

A modo exclusivamente orientativo, se agrega a continuación un cuadro en el que se pre-


sentan diferentes valores del coeficiente de correlación con su correspondiente valor del coefi-
ciente de determinación, y una calificación respecto de la calidad del ajustamiento lineal en cada
caso:

Si r r2 Porcentaje Calidad del


vale vale explicado ajuste lineal
 0,90 /  1,00 0,81 a 1,00 81% a 100 % Muy bueno
 0,80/  0,90 0,64 a 0,81 64% a 81 % Bueno
 0,70/  0,80 0,49 a 0,64 49 % a 64 % Regular
 0,60/  0,70 0,36 a 0,49 36 % a 49 % Malo
Menos de 0,60 Menos de 0,36 Menos del 36 % Muy Malo

A partir de todo lo desarrollado, deben considerarse las siguientes conclusiones:

 La existencia de dependencia estadística entre dos variables implica que entre


ellas existe algún grado de correlación, pero la inversa no es cierta: la existencia de
correlación entre dos variables no implica que exista dependencia estadística en-
tre ellas. Eso quiere decir que la relación entre dos variables puede existir y ser alta,
pero esa relación no significa que dependan estadísticamente la una de la otra. Por
ejemplo: entre las variables “número de fallecidos en una ciudad” y “cantidad de
Estadística I 108

pájaros en la misma ciudad” puede haber un grado de relación inversa muy estrecha
(a menor número de pájaros mayor número de fallecidos), pero sin embargo entre
ellas no existe ninguna dependencia, ni funcional ni estadística. Lo que sí existe en
este caso es una tercera variable no visible, la temperatura, o, en otras palabras, los
meses del año para los cuales se toma la información, (el investigador debe profundi-
zar en su búsqueda para descubrir la posible existencia de esas variables ocultas
cuando realiza una investigación de cualquier naturaleza), ya que se puede comprobar
fácilmente que en los meses de baja temperatura, tradicionalmente los de invierno,
aumenta el número de fallecidos y disminuye el número de pájaros debido a las mi-
graciones. En realidad, entonces, las variables “número de fallecidos” y “cantidad de
pájaros”, si bien tienen un grado de correlación, son estadísticamente independien-
tes.

 La obtención de un resultado nulo para el coeficiente de correlación lineal r, indica


que las variables bajo estudio no tienen correlación lineal o, lo que es lo mismo,
indica que las variables bajo estudio son linealmente independientes. Sin embargo
entre las variables sí puede existir alguna correlación de tipo no lineal (circular,
elíptica, parabólica, etc.). El coeficiente de correlación r sólo mide el grado de re-
lación lineal entre dos variables, pero permite abrir juicio sobre la existencia de otro
tipo de relación no lineal.

 En el tema Medidas de dispersión se demostró cuál es el resultado de calcular la va-


riancia de una suma o de una diferencia de variables (5ª propiedad), a través de la cual
se verificó
V (x  y)  V (x) V ( y)  2Cov(x, y)
o bien que

V ( x  y)  V ( x) V ( y)  2Cov( x, y) .
Cov(x, y)
Recordando que r  , se puede efectuar el siguiente proceso de análisis:
Sx Sy
 Si las variables son linealmente independientes, luego r  0.

 Un resultado r  0 se presenta únicamente cuando Cov(x, y)  0

 Si Cov(x, y)  0 , eso quiere decir que V ( x  y)  V ( x) V ( y) o que


V ( x  y )  V ( x )  V ( y)

 Por consiguiente cuando dos variables Xi e Yi son linealmente indepen-


dientes, la variancia de su suma o de su diferencia es siempre igual a
la suma de sus respectivas variancias.

Retomando el ejemplo de la concesionaria:


Estadística I 109

Xi Yi Xi2 Xi Yi Yi 2 2
VE  a
1
 Yi  b1  Yi X i  nY 
33 80,620 1.089 2.660,460 6.499,584
 36,3932 . 640,056  1,1328 . 25.360,368  8 . 80,007 2 
26 62,184 676 1.616,784 3.866,850
 812,9505
44 81,424 1.936 3.582,656 6.629,868
56 96,208 3.136 5.387,648 9.255,979
VE   Y 2  a  Y  b  X i Yi 
43 87,924 1.849 3.780,732 7.730,630 i 1 i 1

41 89,768 1.681 3.680,488 8.058,294  52.234,289  36,3932 . 640,056  1,1328 . 25.360,368 


35 78,752 1.225 2.756,320 6.201,878  212,3785
30 63,176 900 1.895,280 3.991,207
308 640,056 12.492 25.360,368 52.234,289 VT  VE  VE  812,9505  212,3785  1.025,329

812,9505 VE 812.9505
r2   0,7929  r     0,8904
1.025,329 VT 1.025,329

La relación entre el precio de los autos y la edad de los compradores es buena. El 79,29
% de la variación total es explicada por el modelo.

PREGUNTAS TEORICAS

1) Suponga que en un problema de ajustamiento lineal se obtienen los siguientes datos:


a1  11 ; X  8 ; Y  6 . En ese caso, ¿cómo es el coeficiente de correlación lineal?
a) positivo
b) negativo
c) nulo

2) La recta de ajustamiento Yi  10  1,5X i y la recta de ajustamiento X i  1,9  0,65Yi . En


ese caso:
a) la correlación es perfecta
b) la correlación no es perfecta
Estadística I 110

c) el problema es insoluble

3) Si el coeficiente de correlación r =0,50, entonces


a) VE  VE
b) VE  VE
c) VE  VE