Está en la página 1de 9

La Correlación Estadística

La correlación estadística constituye una técnica estadística que nos


indica si dos variables están relacionadas o no.

Por ejemplo, considera que las variables son el ingreso familiar y el gasto familiar. Se sabe
que los aumentos de ingresos y gastos disminuyen juntos. Por lo tanto, están relacionados en
el sentido de que el cambio en cualquier variable estará acompañado por un cambio en la
otra variable.
De la misma manera, los precios y la demanda de un producto son variables relacionadas;
cuando los precios aumentan la demanda tenderá a disminuir y viceversa.

Si el cambio en una variable está acompañado de un cambio en la otra, entonces se dice que
las variables están correlacionadas. Por lo tanto, podemos decir que el ingreso familiar y
gastos familiares y el precio y la demanda están correlacionados.

Relación Entre las Variables

La correlación puede decir algo acerca de la relación entre las variables. Se utiliza para
entender:
1. si la relación es positiva o negativa
2. la fuerza de la relación.

La correlación es una herramienta poderosa que brinda piezas vitales de información.

En el caso del ingreso familiar y el gasto familiar, es fácil ver que ambos suben o bajan juntos
en la misma dirección. Esto se denomina correlación positiva.

En caso del precio y la demanda, el cambio se produce en la dirección opuesta, de modo que
el aumento de uno está acompañado de un descenso en el otro. Esto se conoce como
correlación negativa.
Coeficiente de Correlación

La correlación estadística es medida por lo que se denomina coeficiente de correlación (r). Su


valor numérico varía de 1,0 a -1,0. Nos indica la fuerza de la relación.
En general, r> 0 indica una relación positiva y r <0 indica una relación negativa, mientras que r
= 0 indica que no hay relación (o que las variables son independientes y no están
relacionadas). Aquí, r = 1,0 describe una correlación positiva perfecta y r = -1,0 describe una
correlación negativa perfecta.

Cuanto más cerca estén los coeficientes de +1,0 y -1,0, mayor será la fuerza de la relación
entre las variables.

Como norma general, las siguientes directrices sobre la fuerza de la relación son útiles
(aunque muchos expertos podrían disentir con la elección de los límites).

Valor de r Fuerza de relación

-1,0 A -0,5 o 1,0 a


0,5 Fuerte

-0,5 A -0,3 o 0,3 a


0,5 Moderada

-0,3 A -0,1 o 0,1 a


0,3 Débil

-0,1 A 0,1 Ninguna o muy débil

La correlación es solamente apropiada para examinar la relación entre datos cuantificables


significativos (por ejemplo, la presión atmosférica o la temperatura) en vez de datos
categóricos, tales como el sexo, el color favorito, etc.

Desventajas

Si bien 'r' (coeficiente de correlación) es una herramienta poderosa, debe ser utilizada con
cuidado.
1. Los coeficientes de correlación más utilizados sólo miden una relación lineal.
Por lo tanto, es perfectamente posible que, si bien existe una fuerte relación no
lineal entre las variables, r está cerca de 0 o igual a 0. En tal caso, un diagrama de
dispersión puede indicar aproximadamente la existencia o no de una relación no
lineal.
2. Hay que tener cuidado al interpretar el valor de 'r'. Por ejemplo, se podría
calcular 'r' entre el número de calzado y la inteligencia de las personas, la altura y
los ingresos. Cualquiera sea el valor de 'r', no tiene sentido y por lo tanto es llamado
correlación de oportunidad o sin sentido.
3. 'R' no debe ser utilizado para decir algo sobre la relación entre causa y efecto.
Dicho de otra manera, al examinar el valor de 'r' podríamos concluir que las
variables X e Y están relacionadas. Sin embargo, el mismo valor de 'r no nos dice si
X ínfluencia a Y o al revés. La correlación estadística no debe ser la herramienta
principal para estudiar la causalidad, por el problema con las terceras variables.

4. La importancia de la correlación en estadística.


Cómo interpretar relaciones lineales sin
volverse loco – Estadística Descriptiva
# Te explico la correlación con un ejemplo
Fíjate que todas las preguntas que has visto relacionan dos variables. Y estas variables son
numéricas. Para poder responder estas preguntas puedes utilizar una medida de relación
lineal: el coeficiente de correlación o correlación de Pearson.

Para no agobiarte voy a trabajar con un ejemplo muy sencillo. He cojido los datos de la
clasificación de la liga española de fútbol del 2016. Puedes ver los datos aquí:
Como siempre el análisis de datos es una ciencia viva y quiere resolver problemas.
Contestar preguntas. En este caso te planteo la siguiente:

¿Qué es más importante en un partido de fútbol: marcar goles o que no te marquen?

He decidido coger tres variable: partidos Ganados (ya que son 3 puntos), goles en contra y
goles a favor.

# Para empezar mejor relacionar dos variables


Es mejor empezar por lo más sencillo. Te voy a mostrar la relación que hay entre los
goles a favor y los partidos ganados. ¿Cómo se hace?

Pintas un scatter plot 2D o diagrama de dispersión.

De esta manera puedes intuir cómo crece una variable con la otra. O decrece. Recuerda
que el signo de la covarianza te indica el sentido de la relación.
¿Qué recta puedes intuir que siga los puntos? Podría ser una recta como la que ves en la
figura. Como la lógica dice la relación es creciente. La recta tiene pendiente positiva
¿Cómo sería la Covarianza? Positiva 😉 también.

Fíjate que con un scatter plot 2D tienes mucho ganado. Puedes relacionar las variables dos
a dos de manera muy visual.

¿Y si haces lo mismo con la otra variable? Sería mirar la relación entre goles en contra vs
partidos ganados
Tienes una relación decreciente. El signo de la Covarianza sería negativo y también el
signo de la correlación 😉 ¿Ahora lo verás!

# La relación lineal entre dos variables: la correlación


Como te he dicho al principio la correlación es el indicador para saber si hay relación
(LINEAL) entre dos variables numéricas es el coeficiente de correlación o correlación de
Pearson.

Y como pasaba con la covarianza la correlación es una matriz.

En el caso de trabajar con dos variables tienes una matriz 2×2. La diagonal de la matriz son
unos. Porque la relación es perfecta cuando relacionados una variable consigo misma. No te
preocupes si no los has entendido. Ahora te lo explico.

¿De qué te informa la Correlación?


Qué es lo que tienes que saber de la correlación:
1. La correlación indica el grado de relación lineal entre 2 variables numéricas
2. No tiene unidades y puede tener valores entre -1 y 1.
3. El signo positivo indica relación lineal creciente.
4. El signo negativo indica relación lineal decreciente.
5. Si la correlación es igual a -1 >> la relación lineal es perfecta. Es decreciente. Los puntos
estarían encima de una recta perfecta con pendiente positiva.
6. Si la correlación es igual a 1 >> la relación lineal es perfecta. Es creciente. Los puntos
estarían encima de una recta perfecta con pendiente negativa.
7. Si la correlación es 0 significa que la variables NO tienen ninguna relación lineal.

He dibujado una recta porque la correlación indica grado de relación LINEAL. Muy


importante. ¿Qué significa linealidad?

Para los más matemáticos. La correlación es un ratio entre la dispersión entre las dos
variables conjuntamente (covarianza) entre la dispersión de cada
variable (desviaciones típicas de cada variable). En palabras es algo así:

correlación Partidos ganados vs Goles a Favor =

Covarianza entre Partidos Ganados y Goles Favor

dividido

Desv. Típica Partidos Gandaos · Desv. Típica Goles a Favor

En notación matemática:

  

# La matriz de correlación con 3 variables


Fíjate ahora que la matriz de correlación es 3×3. Ahora estás relacionando parejas de
variables dos a dos:

 Partidos Ganados vs Goles a Favor

 Partidos Ganados vs Goles en Contra


 Goles a Favor vs Goles en Contra

En números puedes cuantificar la relación entre las parejas que acabas de ver. Fíjate en la
figura:

 Partidos Ganados vs Goles a Favor >> 0.843

 Partidos Ganados vs Goles en Contra >> -0.808

 Goles a Favor vs Goles en Contra >> -0.545


¿Cuál dirías que es la relación lineal más importante?

Según los datos que tienes la relación más importante es Partidos Ganados vs Goles a
Favor.

¡Recuerda! Seguro que te has fijado que la diagonal tiene valores de 1. Es decir, que la
relación es perfecta. Porque estás relacionando la variable consigo misma. Tienes un scatter
plot 2D con los puntos encima de una línea recta.

# La importancia de la correlación estadística y cómo interpretarla


A partir de 0.8 se puede decir que la relación es ALTA.

Así que según los valores que has visto antes:

 Partidos Ganados vs Goles a Favor >> 0.843

 Partidos Ganados vs Goles en Contra >> -0.808

 Goles a Favor vs Goles en Contra >> -0.545

Los Partidos Ganados tienen una relación BUENA con los Goles a Favor y los Goles en
Contra.

Pero tienen una relación más alta con los Goles a Favor.

Con los datos de la temporada 2016 los goles a favor son más importantes que los goles en
contra. (si no marcas goles difícilmente vas a ganar partidos).

La correlación es una herramienta estadística muy interesante para la comparación de


variables numéricas de manera sencilla.

 Bibliografia:

https://conceptosclaros.com/importancia-correlacion-estadistica/

https://explorable.com/es/la-correlacion-estadistica

También podría gustarte