Está en la página 1de 6

coeficiente de correlación: fórmulas,

cálculo, interpretación, ejemplo


El coeficiente de correlación en estadística es un indicador que mide la tendencia de dos
variables cuantitativas X e Y a tener una relación de linealidad o proporcionalidad entre
ellas.

Generalmente, los pares de variables X e Y son dos características de una misma población.
Por ejemplo, X puede ser la altura de una persona e Y su peso.

Figura
1. Coeficiente de correlación para cuatro pares de datos (X,Y). Fuente: F. Zapata.

En este caso, el coeficiente de correlación indicaría si hay tendencia o no hacia una relación
de proporcionalidad entre la altura y el peso de una población dada.

El coeficiente de correlación lineal de Pearson se denota con la letra r minúscula y sus


valores mínimo y máximo son -1 y +1 respectivamente.

Un valor r = +1 indicaría que el conjunto de pares (X,Y) están perfectamente alineados y


que cuando X crece, Y crecerá en la misma proporción. En cambio, si ocurriese que r = -1,
el conjunto de pares también estaría perfectamente alineado, pero en tal caso cuando X
crece, Y decrece en la misma proporción.
Figura 2. Distintos valores del coeficiente de correlación lineal. Fuente: Wikimedia Commons.

Por otro lado, un valor r = 0 indicaría que no hay correlación lineal alguna entre las
variables X e Y. Mientras que un valor de r = +0,8 indicaría que los pares (X,Y) tienden a
agruparse a un lado y otro de una cierta recta.

La fórmula para calcular el coeficiente de correlación r es la siguiente:

Donde el numerador representa la covarianza entre las variables X e Y, mientras


que el denominador es el producto de la desviación estándar para la variable X y la
desviación estándar para la variable Y.

¿Cómo calcular el coeficiente de correlación?


El coeficiente de correlación lineal es una cantidad estadística que se encuentra incorporada
en las calculadoras científicas, en la mayoría de las hojas de cálculo y en los programas
estadísticos.

Puede servirte: Álgebra vectorial

Sin embargo, conviene saber cómo se aplica la fórmula que lo define, y para ello se
mostrará un cálculo detallado, llevado a cabo sobre un conjunto de datos pequeño.
Y tal como se dijo en la sección anterior, el coeficiente de correlación es la covarianza Sxy
dividida entre el producto de la desviación estándar Sx para la variables X y Sy para la
variable Y.

Covarianza y varianza
La covarianza Sxy es:

Sxy = [ Σ (Xi – <X>)(Yi – <Y>) ] / (N-1)

Donde la sumatoria va desde 1 hasta los N pares de datos (Xi, Yi). <X> e <Y> son las
medias aritméticas de los datos Xi e Yi respectivamente.

Por su parte, la desviación estándar para la variable X es la raíz cuadrada de la varianza del
conjunto de datos Xi, con i de 1 a N:

Sx = √ [Σ (Xi – <X>)^2 ) / (N-1)]

En forma similar, la desviación estándar para la variable Y es la raíz cuadrada de la


varianza del conjunto de datos Yi, con i de 1 a N:

Sy = √ [Σ (Yi – <Y>)2 ) / (N-1)]

Caso ilustrativo
Con la finalidad de mostrar con detalle la forma de realizar el cálculo del coeficiente de
correlación, tomaremos el siguiente conjunto de cuatro pares de datos

(X, Y): {(1, 1); (2, 3); (3, 6) y (4, 7)}.

En primer lugar calculamos la media aritmética para X e Y, como sigue:

<X> = (1 + 2 + 3 + 4) / 4 = 2.5

<Y> = (1 + 3 + 6 + 7) / 4 = 4.25

Luego se calculan los restantes parámetros:

Covarianza Sxy
Sxy = [ (1 – 2.5)(1 – 4.25) + (2 – 2.5)(3 – 4.25) + (3 – 2.5)(6 – 4.25) +…. ….(4 – 2.5)(7 –
4.25) ] / (4-1)

Sxy = [ (-1.5)(-3.25) + (-0.5)(-1.25) + (0.5)(1.75) +….

Puede servirte: Componentes Rectangulares de un Vector (con Ejercicios)


….(1.5)(2.75) ] / (3) = 10.5 / 3 = 3.5

Desviación estándar Sx
Sx = √ [ (-1.5)2 + (-0.5)2 + (0.5)2 + (1.5)2) / (4-1)] = √[5/3] = 1.29

Desviación estándar Sy
Sx = √ [ (-3.25)2 + (-1.25)2 + (1.75)2 + (2.75)2) / (4-1)] =

√[22.75/3] = 2.75

Coeficiente de correlación r
r = 3.5 / (1.29 * 2.75) = 0.98

Interpretación
En el conjunto de datos del caso anterior se observa una fuerte correlación lineal entre las
variables X e Y, que se manifiesta tanto en el gráfico de dispersión (que se aprecia en la
figura 1) como en el coeficiente de correlación, el cual arrojó un valor bastante cercano a la
unidad.

En la medida que el coeficiente de correlación sea más cercano a 1 o a -1, más sentido tiene
el ajuste de los datos a una recta, resultado de la regresión lineal.

Regresión lineal
La recta de regresión lineal se obtiene del método de los mínimos cuadrados. en el que los
parámetro de la recta de regresión se obtienen a partir de la minimización de la suma del
cuadrado de la diferencia entre el valor Y estimado y el Yi de los N datos.

Por su parte, los parámetros a y b de la recta de regresión y = a + bx, obtenidos por el


método de los mínimos cuadrados, son:

*b= Sxy / (Sx2) para la pendiente

*a= <Y> – b <X> para la intersección de la recta de regresión con el eje de las Y.

Recordemos que Sxy es la covarianza definida más arriba y Sx2 es la varianza o el cuadrado
de la desviación estándar antes definida. <X> e <Y> son las medias aritméticas de los datos
X e Y respectivamente.

Ejemplo
El coeficiente de correlación se usa para determinar si hay correlación de tipo lineal entre
dos variables. Es aplicable cuando las variables a ser estudiadas son de tipo cuantitativo y
además, se supone que ellas siguen una distribución de tipo normal.
Puede servirte: Las 13 Aplicaciones de la Trigonometría Más Destacadas

Un ejemplo ilustrativo lo tenemos a continuación: una medida del grado de obesidad es el


índice de masa corporal, el cual se obtiene al dividir el peso de una persona en kilogramos
entre la altura al cuadrado de la misma en unidades de metros al cuadrado.

Se desea saber si hay una correlación fuerte entre el índice de masa corporal y la
concentración de colesterol HDL en sangre, medida en milimoles por litro. Para este fin se
ha hecho un estudio con 533 personas que se resume en el siguiente gráfico, en el que cada
punto representa los datos de una persona.

Figura 3. Estudio de IMC y colesterol HDL en 533 pacientes. Fuente: Instituto Aragonés de Ciencias
de Salud (IACS).

De la observación cuidadosa de la gráfica, se deduce que existe cierta tendencia lineal (no
muy marcada) entre la concentración de colesterol HDL y el índice de masa corporal. La
medida cuantitativa de esta tendencia es el coeficiente de correlación que para este caso
resultó ser r = -0,276.

Referencias
Cita este artículo

También podría gustarte