Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Correlación y Regresión
Bioestadística, Epidemiología e Informática Resumen
Distribución Bivariada
Distribución bidimensional o bivariada, es la distribución estadística en la que intervienen dos
variables X e Y de la misma población, por tanto, a cada individuo o unidad de estudio le corresponden
dos valores, xi, yi. Si se representan las variables en un gráfico de ejes coordenados
x e y, estos dos valores se pueden considerar como coordenadas de un punto (x i, yi) representado en
un diagrama cartesiano. Así, a cada individuo de la distribución le corresponderá un punto, y toda la
distribución se verá representada mediante un conjunto de puntos también llamada nube de puntos.
La forma que presenta esta nube de puntos refleja el grado de relación entre las dos variables, como
veremos más adelante.
Deberá tenerse presente que, dado que las variables utilizadas son cuantitativas, este
desarrollo es utilizado cuando se trabaja con escalas de intervalos iguales o con escalas de
cocientes.
Por ejemplo, supongamos que si a los cinco hijos, A, B, C, D y E, de una familia se les
toman unas pruebas que miden la aptitud musical (x:Mu) y la aptitud para las matemáticas (y:Ma), se
obtienen los siguientes resultados:
Esta tabla es una distribución bidimensional porque intervienen dos variables: valoración
Mu, valoración Ma. A cada individuo le corresponden dos valores: A(5,6), B(7,10), C(4,5), D(8,6),
E(2,4). De este modo se asocia a cada individuo un punto en un diagrama cartesiano:
1
10
Correlación: Entre las dos variables que determinan una distribución bidimensional puede
existir una relación más o menos estrecha que se llama correlación, y se puede medir mediante
el coeficiente de correlación r, que es un número, asociado a los valores de las dos variables. El
coeficiente de correlación puede valer entre -1 y 1.
Cuando r = 1 existe una correlación directa y absoluta entre las dos variables de modo que
el valor de cada variable se puede obtener a partir de la otra. Los puntos de la nube están todos
situados sobre una recta de pendiente positiva.
Esto ocurre, por ejemplo, cuando una barra metálica se somete a distintas temperaturas, X 1,
X2,,...,Xn , y se miden con precisión sus correspondientes longitudes, y 1,y2,...,yn . Las longitudes se
obtienen funcionalmente a partir de las temperaturas de modo que, conociendo la temperatura a que
Cuando r es positivo y grande (próximo a 1) se dice que hay una correlación fuerte y positiva.
Los valores de cada variable tienden a aumentar cuando aumentan los de la otra. Los puntos de la
nube se sitúan próximos a una recta de pendiente positiva.
2
Es el caso de las estaturas: X1, X2,,...,Xn y pesos: y1,y2,...,yn. de diversos atletas de una misma
especialidad. A mayor estatura cabe esperar que tengan mayor peso, pero puede haber excepciones.
Cuando r es próximo a cero (por ejemplo, r = - 0,12 o r = 0,08) se dice que la correlación es muy débil
(prácticamente no hay correlación). La nube de puntos es amorfa.
Cuando r es próximo a -1 (por ejemplo, r = -0,93) se dice que hay una correlación fuerte y negativa.
Los valores de cada variable tienden a disminuir cuando aumentan los de la otra. Los puntos de la nube están
próximos a una recta de pendiente negativa.
Si en un conjunto de países en vías de desarrollo se miden sus rentas per cápita, xi, y sus índices de
natalidad, y¡, se obtiene una distribución de este tipo, pues suele ocurrir que, grosso modo, cuanto mayor
sea la renta per cápita menor será el índice de natalidad.
Cuando r = -1 todos los puntos de la recta están sobre una recta de pendiente negativa y entonces
existe una existe una correlación negativa y absoluta entre las dos variables.
3
El coeficiente de correlación r, denominado coeficiente de correlación de Pearson se obtiene
mediante la siguiente fórmula:
Donde:
variables estadísticas. Cuando la correlación se determina sobre una muestra de la población el símbolo
que se usa para representar el coeficiente de correlación de Pearson es r y si es sobre una población se
designa con p.
El valor y el signo del coeficiente de correlación puede variar según sea la fuerza de la misma y su
sentido. Cuanto más cerca 1 ó -1 más fuerte es la correlación y cuanto más cerca de 0 es más
despreciable.
En síntesis, el coeficiente de correlación brinda tres informaciones: si hay o no correlación, la
fuerza y el sentido de la misma.
Ecuación de Regresión
Se llama recta de regresión a una recta que marca la tendencia de la nube de puntos. Si la
correlación es fuerte (tanto positiva como negativa) y, por tanto, los puntos de la nube están próximos a
una recta, el uso de la recta de regresión permite predecir el valor de una variable a partir del valor de la
otra.
Matemáticamente hay dos rectas de regresión, la recta de regresión de Y sobre X y la de X sobre Y.
La ecuación de regresión correspondiente a la recta de regresión de Y sobre X es del tipo:
y = a1.x + b1 para la cual la suma de los cuadrados de las desviaciones en el sentido de las ordenadas de
cada punto a ella es mínima. Siendo d1, d2, d3 las desviaciones verticales (errores) a la recta de regresión.
La ecuación 4 de regresión
correspondiente a la recta de regresión de X sobre Y es del tipo:
x = a2.y + b2 para la cual la suma de los cuadrados de las desviaciones en el sentido de las abscisas de
cada punto a ella es mínima. Siendo d ҆ 1, d ҆ 2, d ҆ 3 las desviaciones horizontales (errores) a la recta de
regresión.
• Sólo es válida la estimación de una variable a partir de la otra cuando no se exceden los límites de
valores experimentales que se utilizaron para calcular la recta.
Dónde: y ó x son los valores a determinar en base al conocimiento de los restantes datos:
5
Resumen de la Interpretación del Coeficiente de correlación de Pearson
En base a lo desarrollado en los puntos anteriores y a modo de resumen es posible afirmar
que:
• Cuando la correlación es fuerte, las dos rectas de regresión son muy próximas (son la misma sí r
= ±1). Si la correlación es débil, las dos rectas de regresión forman un ángulo grande.
• Cuando r = 1 existe una correlación directa y absoluta entre las dos variables de modo que el valor
de cada variable se puede obtener exactamente a partir de la otra.
• Cuando r es próximo a cero (por ejemplo, r = -0,12 o r = 0,08) se dice que la correlación es muy
débil (prácticamente no hay correlación).
• Cuando r es positivo y grande (próximo a 1, por ej. r = 0,90) se dice que hay una correlación fuerte
y positiva. Los valores de cada variable tienden a aumentar cuando aumentan los de la otra.
• Cuando r es negativo y de valor absoluto grande (próximo a 1, por ej. r = -0,93) se dice que hay
una correlación fuerte y negativa. Los valores de cada variable tienden a disminuir cuando aumentan
los de la otra.
• Cuando r = -1 todos los puntos de la recta están sobre una recta de pendiente negativa y entonces
existe una existe una correlación negativa y absoluta entre las dos variables.
• Naturalmente existe toda una gama de valores intermedios entre las correlaciones fuertes y
débiles, ya sean éstas positivas o negativas.
En base a lo anterior es posible afirmar que el coeficiente de correlación brinda información respecto:
6
Para calcular el coeficiente de correlación entre dos variables de estas características se cuenta con
una fórmula especial que toma en cuenta las posiciones relativas de cada serie, para calcular el
denominado coeficiente de correlación de Spearman,
Donde:
Di: Diferencia de rango de una prueba respecto a la otra para el mismo individuo.
N: Número total de individuos.
A modo de ejemplo se desea calcular el coeficiente de correlación de Spearman, entre las
posiciones logradas por 6 alumnos en las olimpíadas de matemática e historia realizadas en un colegio de
nivel medio. Los resultados se muestran en la siguiente tabla:
6.8
p = 1 - -------------- = 0,77
6 (36 - 1)
correlación de Pearson. Por tal motivo, la interpretación de los valores del coeficiente de Spearman es