Está en la página 1de 4

6. ¿Qué se entiende por correlación?

La correlación es una medida estadística que expresa hasta qué punto dos variables están
relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante). Es una
herramienta común para describir relaciones simples sin hacer afirmaciones sobre causa y
efecto.
Como se interpreta la correlación
La correlación nos permite medir el signo y magnitud de la tendencia entre dos variables. En
la figura 1 vemos diferentes valores del coeficiente de correlación y sus diagramas de dispersión
correspondientes. Podemos ver que:
1. El signo nos indica la dirección de la relación, como hemos visto en el diagrama de
dispersión.
o un valor positivo indica una relación directa o positiva,

o un valor negativo indica relación indirecta, inversa o negativa,

o un valor nulo indica que no existe una tendencia entre ambas variables (puede
ocurrir que no exista relación o que la relación sea más compleja que una
tendencia, por ejemplo, una relación en forma de U).
2. La magnitud nos indica la fuerza de la relación, y toma valores entre -1 a 1. Cuanto
más cercano sea el valor a los extremos del intervalo (1 o -1) más fuerte será la
tendencia de las variables, o será menor la dispersión que existe en los puntos alrededor
de dicha tendencia. Cuanto más cerca del cero esté el coeficiente de correlación, más
débil será la tendencia, es decir, habrá más dispersión en la nube de puntos.
o si la correlación vale 1 o -1 diremos que la correlación es “perfecta”,

o si la correlación vale 0 diremos que las variables no están correlacionadas.

¿Cuáles son algunas limitaciones del análisis de correlación?


La correlación no puede medir la presencia o el efecto de otras variables aparte de las dos que se
están explorando. Es importante saber que la correlación no nos informa sobre causas y efectos.
Además, la correlación no puede describir con precisión las relaciones curvilíneas.
La correlación describe datos que varían conjuntamente
La correlación es útil para describir relaciones simples entre datos. Por ejemplo, imaginemos
que está consultando un conjunto de datos sobre campings en un parque de montaña. Se quiere
averiguar si hay una relación entre la altura del camping (qué tan alto está en la montaña) y la
temperatura máxima promedio durante el verano.
Para cada camping se tienen dos mediciones: la elevación y la temperatura. Si usa la correlación
para comparar estas dos variables en toda la muestra, se puede ver que hay una relación lineal:
cuanto más sube la altura, más baja la temperatura. Estas variables tienen una correlación
negativa.
¿Qué significan los números de las correlaciones?
Describimos la correlación mediante una medida sin unidades llamada coeficiente de
correlación, que va desde -1 a +1 y se indica mediante la letra r. La significancia estadística se
indica mediante un valor p. Por tanto, usualmente las correlaciones se escriben con dos números
clave: r = y p = .

Cuanto más se aproxima r a cero, más débil es la relación lineal.


Los valores de r positivos indican una correlación positiva, en la que los valores de ambas
variables tienden a incrementarse juntos.
Los valores de r negativos indican una correlación negativa, en la que los valores de una
variable tienden a incrementarse mientras que los valores de la otra variable descienden.
El valor p aporta evidencia de que podemos concluir de manera significativa que es probable
que el coeficiente de correlación de la población sea diferente a cero, basándonos en lo que
hemos observado en la muestra.
"Medida sin unidades" significa que la correlación tiene su propia escala: en nuestro ejemplo, el
número de r no está en la misma escala que la altura ni que la temperatura. Esto es diferente a
otros estadísticos de resumen. Por ejemplo, la media de las medidas de altura está en la misma
escala que su variable.
Una vez que hemos obtenido una correlación significativa, también podemos observar su
magnitud. Una correlación positiva perfecta tiene un valor de 1, y una correlación negativa
perfecta tiene un valor de -1. Pero en el mundo real, nunca esperaríamos una correlación
perfecta, a no ser que una medida sea efectivamente equivalente a la otra. Es más, una
correlación perfecta puede avisarnos de que hay un error en los datos. Por ejemplo, si ha medido
accidentalmente la distancia sobre el nivel del mar de cada camping en lugar de la temperatura,
obtendría una correlación perfecta con la altura.
Otro dato útil es N, o número de observaciones. Como ocurre con la mayoría de pruebas
estadísticas, conocer el tamaño de la muestra nos ayuda a juzgar la robustez de la misma y que
tan bien representa a la población. Por ejemplo, si solo hemos medido la altura y la temperatura
de 5 campings, pero el parque tiene 2000, quizás queramos añadir más campings a la muestra.

Cómo visualizar la correlación con gráficos de dispersión


Volviendo al ejemplo anterior: a medida que la altura del camping aumenta, la temperatura baja.
Podemos observar esto directamente con un gráfico de dispersión. Imagine que hemos
representado los datos de nuestros campings: Cada punto del gráfico representa a un camping,
que podemos ubicar en un eje x e y, con la temperatura máxima en verano en función de la
altura.
El coeficiente de correlación (r) también ilustra nuestro gráfico de dispersión. Nos dice, en
términos numéricos, que tan próximos están los puntos representados en el gráfico de dispersión
a una relación lineal. Las relaciones más estrechas o los valores de r más grandes son relaciones
en las que los puntos están muy cerca de la línea que hemos ajustado a los datos.

¿Qué ocurre con las relaciones más complejas?


Los gráficos de dispersión también son útiles para determinar si hay algo en nuestros datos que
pueda afectar a una correlación precisa, como patrones poco habituales (por ejemplo, una
relación curvilínea o un valor extremadamente atípico).
Las correlaciones no pueden capturar con precisión las relaciones curvilíneas. En una relación
curvilínea, las variables están correlacionadas en una dirección determinada hasta cierto punto,
en el cual la relación cambia.
Por ejemplo, imagine que estamos observando la altura de los campings y la puntuación media
que les dan los acampantes. Quizás la altura y la puntuación estén correlacionadas de manera
positiva al principio, porque los campings que están más altos tienen mejores vistas del parque.
Pero a partir de cierto punto, las alturas más elevadas se correlacionan negativamente con las
puntuaciones, porque los acampantes pasan frío por las noches.

Podemos obtener aún más información añadiendo elipses de densidad sombreadas a nuestro
gráfico de dispersión. Una elipse de densidad ilustra la región con mayor densidad de puntos de
un gráfico de dispersión, lo que a su vez nos ayuda a ver la intensidad y la dirección de la
correlación.
Las elipses de densidad pueden tener diferentes tamaños. Una elección común para examinar la
correlación son las elipses de densidad del 95 %, que muestran aproximadamente el 95 % más
denso de las observaciones. Si las dos variables varían conjuntamente, como la altura y la
temperatura en nuestros campings, esperaríamos que la elipse de densidad refleje la forma de la
línea. Y podemos ver que en una relación curvilínea, la elipse de densidad es circular: la
correlación no nos aportará una descripción significativa de esta relación.

También podría gustarte