Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Coeficiente de Correlación
Coeficiente de Correlación
Generalmente, los pares de variables X e Y son dos características de una misma población.
Por ejemplo, X puede ser la altura de una persona e Y su peso.
Figura
1. Coeficiente de correlación para cuatro pares de datos (X,Y). Fuente: F. Zapata.
En este caso, el coeficiente de correlación indicaría si hay tendencia o no hacia una relación
de proporcionalidad entre la altura y el peso de una población dada.
Por otro lado, un valor r = 0 indicaría que no hay correlación lineal alguna entre las
variables X e Y. Mientras que un valor de r = +0,8 indicaría que los pares (X,Y) tienden a
agruparse a un lado y otro de una cierta recta.
Sin embargo, conviene saber cómo se aplica la fórmula que lo define, y para ello se
mostrará un cálculo detallado, llevado a cabo sobre un conjunto de datos pequeño.
Y tal como se dijo en la sección anterior, el coeficiente de correlación es la covarianza Sxy
dividida entre el producto de la desviación estándar Sx para la variables X y Sy para la
variable Y.
Covarianza y varianza
La covarianza Sxy es:
Donde la sumatoria va desde 1 hasta los N pares de datos (Xi, Yi). <X> e <Y> son las
medias aritméticas de los datos Xi e Yi respectivamente.
Por su parte, la desviación estándar para la variable X es la raíz cuadrada de la varianza del
conjunto de datos Xi, con i de 1 a N:
Caso ilustrativo
Con la finalidad de mostrar con detalle la forma de realizar el cálculo del coeficiente de
correlación, tomaremos el siguiente conjunto de cuatro pares de datos
<X> = (1 + 2 + 3 + 4) / 4 = 2.5
<Y> = (1 + 3 + 6 + 7) / 4 = 4.25
Covarianza Sxy
Sxy = [ (1 – 2.5)(1 – 4.25) + (2 – 2.5)(3 – 4.25) + (3 – 2.5)(6 – 4.25) +…. ….(4 – 2.5)(7 –
4.25) ] / (4-1)
Desviación estándar Sx
Sx = √ [ (-1.5)2 + (-0.5)2 + (0.5)2 + (1.5)2) / (4-1)] = √[5/3] = 1.29
Desviación estándar Sy
Sx = √ [ (-3.25)2 + (-1.25)2 + (1.75)2 + (2.75)2) / (4-1)] =
√[22.75/3] = 2.75
Coeficiente de correlación r
r = 3.5 / (1.29 * 2.75) = 0.98
Interpretación
En el conjunto de datos del caso anterior se observa una fuerte correlación lineal entre las
variables X e Y, que se manifiesta tanto en el gráfico de dispersión (que se aprecia en la
figura 1) como en el coeficiente de correlación, el cual arrojó un valor bastante cercano a la
unidad.
En la medida que el coeficiente de correlación sea más cercano a 1 o a -1, más sentido tiene
el ajuste de los datos a una recta, resultado de la regresión lineal.
Regresión lineal
La recta de regresión lineal se obtiene del método de los mínimos cuadrados. en el que los
parámetro de la recta de regresión se obtienen a partir de la minimización de la suma del
cuadrado de la diferencia entre el valor Y estimado y el Yi de los N datos.
*a= <Y> – b <X> para la intersección de la recta de regresión con el eje de las Y.
Recordemos que Sxy es la covarianza definida más arriba y Sx2 es la varianza o el cuadrado
de la desviación estándar antes definida. <X> e <Y> son las medias aritméticas de los datos
X e Y respectivamente.
Ejemplo
El coeficiente de correlación se usa para determinar si hay correlación de tipo lineal entre
dos variables. Es aplicable cuando las variables a ser estudiadas son de tipo cuantitativo y
además, se supone que ellas siguen una distribución de tipo normal.
Puede servirte: Las 13 Aplicaciones de la Trigonometría Más Destacadas
Se desea saber si hay una correlación fuerte entre el índice de masa corporal y la
concentración de colesterol HDL en sangre, medida en milimoles por litro. Para este fin se
ha hecho un estudio con 533 personas que se resume en el siguiente gráfico, en el que cada
punto representa los datos de una persona.
Figura 3. Estudio de IMC y colesterol HDL en 533 pacientes. Fuente: Instituto Aragonés de Ciencias
de Salud (IACS).
De la observación cuidadosa de la gráfica, se deduce que existe cierta tendencia lineal (no
muy marcada) entre la concentración de colesterol HDL y el índice de masa corporal. La
medida cuantitativa de esta tendencia es el coeficiente de correlación que para este caso
resultó ser r = -0,276.
Referencias
Cita este artículo