Está en la página 1de 7

Clase Virtual N° 5.

Correlación y Regresión
Bioestadística, Epidemiología e Informática Resumen

Distribución Bivariada
Distribución bidimensional o bivariada, es la distribución estadística en la que intervienen dos
variables X e Y de la misma población, por tanto, a cada individuo o unidad de estudio le corresponden
dos valores, xi, yi. Si se representan las variables en un gráfico de ejes coordenados
x e y, estos dos valores se pueden considerar como coordenadas de un punto (x i, yi) representado en
un diagrama cartesiano. Así, a cada individuo de la distribución le corresponderá un punto, y toda la
distribución se verá representada mediante un conjunto de puntos también llamada nube de puntos.
La forma que presenta esta nube de puntos refleja el grado de relación entre las dos variables, como
veremos más adelante.
Deberá tenerse presente que, dado que las variables utilizadas son cuantitativas, este
desarrollo es utilizado cuando se trabaja con escalas de intervalos iguales o con escalas de
cocientes.
Por ejemplo, supongamos que si a los cinco hijos, A, B, C, D y E, de una familia se les
toman unas pruebas que miden la aptitud musical (x:Mu) y la aptitud para las matemáticas (y:Ma), se
obtienen los siguientes resultados:

Esta tabla es una distribución bidimensional porque intervienen dos variables: valoración
Mu, valoración Ma. A cada individuo le corresponden dos valores: A(5,6), B(7,10), C(4,5), D(8,6),
E(2,4). De este modo se asocia a cada individuo un punto en un diagrama cartesiano:

Esta representación gráfica de una distribución bidimensional se llama nube de puntos o


diagrama de dispersión. Y aquí la representamos:

1
10

Correlación: Entre las dos variables que determinan una distribución bidimensional puede
existir una relación más o menos estrecha que se llama correlación, y se puede medir mediante
el coeficiente de correlación r, que es un número, asociado a los valores de las dos variables. El
coeficiente de correlación puede valer entre -1 y 1.
Cuando r = 1 existe una correlación directa y absoluta entre las dos variables de modo que
el valor de cada variable se puede obtener a partir de la otra. Los puntos de la nube están todos
situados sobre una recta de pendiente positiva.

Esto ocurre, por ejemplo, cuando una barra metálica se somete a distintas temperaturas, X 1,
X2,,...,Xn , y se miden con precisión sus correspondientes longitudes, y 1,y2,...,yn . Las longitudes se

obtienen funcionalmente a partir de las temperaturas de modo que, conociendo la temperatura a que

se va a calentar, se podría obtener la longitud que tendría la barra.

Cuando r es positivo y grande (próximo a 1) se dice que hay una correlación fuerte y positiva.
Los valores de cada variable tienden a aumentar cuando aumentan los de la otra. Los puntos de la
nube se sitúan próximos a una recta de pendiente positiva.

2
Es el caso de las estaturas: X1, X2,,...,Xn y pesos: y1,y2,...,yn. de diversos atletas de una misma
especialidad. A mayor estatura cabe esperar que tengan mayor peso, pero puede haber excepciones.
Cuando r es próximo a cero (por ejemplo, r = - 0,12 o r = 0,08) se dice que la correlación es muy débil
(prácticamente no hay correlación). La nube de puntos es amorfa.

Es lo que ocurriría si lanzáramos simultáneamente dos dados y anotáramos sus resultados:


puntuación del dado rojo: xi, puntuación del dado verde: yi. No existe en este caso ninguna relación entre las
puntuaciones de los dados en las diversas tiradas.

Cuando r es próximo a -1 (por ejemplo, r = -0,93) se dice que hay una correlación fuerte y negativa.
Los valores de cada variable tienden a disminuir cuando aumentan los de la otra. Los puntos de la nube están
próximos a una recta de pendiente negativa.

Si en un conjunto de países en vías de desarrollo se miden sus rentas per cápita, xi, y sus índices de
natalidad, y¡, se obtiene una distribución de este tipo, pues suele ocurrir que, grosso modo, cuanto mayor
sea la renta per cápita menor será el índice de natalidad.
Cuando r = -1 todos los puntos de la recta están sobre una recta de pendiente negativa y entonces
existe una existe una correlación negativa y absoluta entre las dos variables.

Cálculo del Coeficiente de Correlación en una distribución bidimensional


Para estudiar la relación entre dos variables se introduce este nuevo estadístico, que en una
población se constituye en un parámetro de la relación.

3
El coeficiente de correlación r, denominado coeficiente de correlación de Pearson se obtiene
mediante la siguiente fórmula:

Donde:

Este parámetro no tiene dimensiones. El coeficiente de correlación es un número abstracto cuyo


valor no depende de las unidades en que se hallen los valores de las variables. Además, el hecho de que r
tome valores entre -1 y 1 hace que resulte muy cómodo interpretar sus resultados.
Por todo ello, r es un parámetro sumamente adecuado para calcular la correlación entre dos

variables estadísticas. Cuando la correlación se determina sobre una muestra de la población el símbolo
que se usa para representar el coeficiente de correlación de Pearson es r y si es sobre una población se

designa con p.
El valor y el signo del coeficiente de correlación puede variar según sea la fuerza de la misma y su
sentido. Cuanto más cerca 1 ó -1 más fuerte es la correlación y cuanto más cerca de 0 es más
despreciable.
En síntesis, el coeficiente de correlación brinda tres informaciones: si hay o no correlación, la
fuerza y el sentido de la misma.

Ecuación de Regresión
Se llama recta de regresión a una recta que marca la tendencia de la nube de puntos. Si la
correlación es fuerte (tanto positiva como negativa) y, por tanto, los puntos de la nube están próximos a
una recta, el uso de la recta de regresión permite predecir el valor de una variable a partir del valor de la
otra.
Matemáticamente hay dos rectas de regresión, la recta de regresión de Y sobre X y la de X sobre Y.
La ecuación de regresión correspondiente a la recta de regresión de Y sobre X es del tipo:
y = a1.x + b1 para la cual la suma de los cuadrados de las desviaciones en el sentido de las ordenadas de
cada punto a ella es mínima. Siendo d1, d2, d3 las desviaciones verticales (errores) a la recta de regresión.

La ecuación 4 de regresión
correspondiente a la recta de regresión de X sobre Y es del tipo:
x = a2.y + b2 para la cual la suma de los cuadrados de las desviaciones en el sentido de las abscisas de
cada punto a ella es mínima. Siendo d ҆ 1, d ҆ 2, d ҆ 3 las desviaciones horizontales (errores) a la recta de
regresión.

Las rectas de regresión tienen las siguientes peculiaridades:

• Ambas pasan por el punto llamado centro de gravedad de la distribución.

• Sólo es válida la estimación de una variable a partir de la otra cuando no se exceden los límites de
valores experimentales que se utilizaron para calcular la recta.

Las 2 rectas de regresión se determinan mediante un método matemático que se denomina el


método de los cuadrados mínimos partiendo de la condición por la cual la suma de los cuadrados de las
desviaciones vistas en los gráficos sea la mínima posible.
Una forma habitual de presentar las fórmulas de las rectas de regresión (que no demostraremos) es
utilizando los desvíos standard de las variables x e y, siendo las fórmulas las siguientes:

Dónde: y ó x son los valores a determinar en base al conocimiento de los restantes datos:

r: Coeficiente de Correlación de Pearson

Sx: Desvío Standard de x

Sy: Desvío Standard de y

5
Resumen de la Interpretación del Coeficiente de correlación de Pearson
En base a lo desarrollado en los puntos anteriores y a modo de resumen es posible afirmar
que:
• Cuando la correlación es fuerte, las dos rectas de regresión son muy próximas (son la misma sí r
= ±1). Si la correlación es débil, las dos rectas de regresión forman un ángulo grande.
• Cuando r = 1 existe una correlación directa y absoluta entre las dos variables de modo que el valor
de cada variable se puede obtener exactamente a partir de la otra.
• Cuando r es próximo a cero (por ejemplo, r = -0,12 o r = 0,08) se dice que la correlación es muy
débil (prácticamente no hay correlación).
• Cuando r es positivo y grande (próximo a 1, por ej. r = 0,90) se dice que hay una correlación fuerte
y positiva. Los valores de cada variable tienden a aumentar cuando aumentan los de la otra.
• Cuando r es negativo y de valor absoluto grande (próximo a 1, por ej. r = -0,93) se dice que hay
una correlación fuerte y negativa. Los valores de cada variable tienden a disminuir cuando aumentan
los de la otra.
• Cuando r = -1 todos los puntos de la recta están sobre una recta de pendiente negativa y entonces
existe una existe una correlación negativa y absoluta entre las dos variables.
• Naturalmente existe toda una gama de valores intermedios entre las correlaciones fuertes y
débiles, ya sean éstas positivas o negativas.
En base a lo anterior es posible afirmar que el coeficiente de correlación brinda información respecto:

1. - La existencia de la relación entre 2 variables.


2. - El grado o intensidad de tal relación.
3. - El sentido o dirección de la relación (de acuerdo al signo + ó - de r).
El estudio de la correlación entre variables presta grandes servicios en los dominios donde la
experimentación es en general muy difícil: biometría, psicología aplicada, ciencias económicas, etc. Es
necesario, sin embargo, tener presente que una correlación, aunque sea fuerte, no implica necesariamente
una relación de causa a efecto entre ambas variables. Por ejemplo, si en un recinto en que se hace aumentar
la temperatura se colocan un hilo metálico y un caldo de cultivo con microorganismos y se miden
simultáneamente el alargamiento del hilo y el desarrollo de los microorganismos, se hallará entre esas dos
variables una fuerte correlación. La “causa”, origen de la correlación observada, es evidentemente externa a
las variables mismas.
Con respecto a la utilidad del estudio de la correlación es de destacar que la recta de regresión sirve
para realizar estimaciones fiables de una de las variables para valores de la otra variable.

Coeficiente de correlación por rangos. Spearman


En algunas situaciones el científico no dispone de una escala de valores medibles para las variables
de su investigación, por ser estas características de difícil o imposible medición. Por ejemplo: adaptación
social, aspectos estéticos, honestidad, humor, habilidad para las ventas, etc.
Sin embargo, en muchos casos, una variable puede clasificarse con un nivel de medición ordinal, por
rangos u órdenes de jerarquía, para diferenciar cada unidad de análisis.

6
Para calcular el coeficiente de correlación entre dos variables de estas características se cuenta con
una fórmula especial que toma en cuenta las posiciones relativas de cada serie, para calcular el
denominado coeficiente de correlación de Spearman,

Siendo p: coeficiente de correlación por rangos de Spearman.

Donde:
Di: Diferencia de rango de una prueba respecto a la otra para el mismo individuo.
N: Número total de individuos.
A modo de ejemplo se desea calcular el coeficiente de correlación de Spearman, entre las
posiciones logradas por 6 alumnos en las olimpíadas de matemática e historia realizadas en un colegio de
nivel medio. Los resultados se muestran en la siguiente tabla:

Alumno Matemática Historia Di 2Di²


A 1 2 -1 1
B 2 1 1 1
C 3 3 0 0
D 4 6 -2 4
E 5 4 1 1
F 6 5 1 1

Reemplazando valores en la fórmula:

6.8
p = 1 - -------------- = 0,77
6 (36 - 1)

El coeficiente de correlación por rangos posee propiedades análogas a la del coeficiente de

correlación de Pearson. Por tal motivo, la interpretación de los valores del coeficiente de Spearman es

análoga a la ya vista en el punto anterior.

También podría gustarte