Está en la página 1de 24

CORRELACIÓN

Definición

Correlación, un término que se utiliza comúnmente en el contexto de una


relación entre dos variables. De acuerdo con el autor Mario F. Triola existe una
correlación entre dos variables cuando los valores de una de ellas están
relacionados de alguna manera con los valores de la otra.

Es un tipo de asociación entre dos variables numéricas, específicamente evalúa


la tendencia (creciente o decreciente) en los datos. Dos variables están asociadas
cuando una variable nos da información acerca de la otra. Por el contrario, cuando
no existe asociación, el aumento o disminución de una variable no nos dice nada
sobre el comportamiento de la otra variable.

Dos variables se correlacionan cuando muestran una tendencia creciente o


decreciente.

Tipos de correlación

Correlación directa

La correlación directa se da cuando al aumentar una de las variables la otra


aumenta.

La recta correspondiente a la nube de puntos de la distribución es una recta


creciente.
Correlación inversa

La correlación inversa se da cuando al aumentar una de las variables la otra


disminuye.

La recta correspondiente a la nube de puntos de la distribución es una recta


decreciente.
Correlación nula

La correlación nula se da cuando no hay dependencia de ningún tipo entre las


variables.

En este caso se dice que las variables son incorreladas y la nube de puntos tiene
una forma redondeada.

Grado de correlación

El grado de correlación indica la proximidad que hay entre los puntos de la


nube de puntos.

Correlación fuerte

La correlación será fuerte cuanto más cerca estén los puntos de la recta.
Correlación débil

La correlación será débil cuanto más separados estén los puntos de la recta.

¿Cómo se interpreta la correlación?

La correlación nos permite medir el signo y magnitud de la tendencia entre dos


variables. En la figura 1 vemos diferentes valores del coeficiente de correlación y
sus diagramas de dispersión correspondientes. Podemos ver que:
El signo nos indica la dirección de la relación, como hemos visto en el diagrama de
dispersión.

 Un valor positivo indica una relación directa o positiva,


 Un valor negativo indica relación indirecta, inversa o negativa,
 Un valor nulo indica que no existe una tendencia entre ambas variables
(puede ocurrir que no exista relación o que la relación sea más compleja
que una tendencia, por ejemplo, una relación en forma de U).

La magnitud nos indica la fuerza de la relación, y toma valores entre -1 a 1.


Cuanto más cercano sea el valor a los extremos del intervalo (1 o -1) más fuerte
será la tendencia de las variables, o será menor la dispersión que existe en los
puntos alrededor de dicha tendencia. Cuanto más cerca del cero esté el
coeficiente de correlación, más débil será la tendencia, es decir, habrá más
dispersión en la nube de puntos.

 si la correlación vale 1 o -1 diremos que la correlación es “perfecta”,


 si la correlación vale 0 diremos que las variables no están correlacionadas.

Figura 1: Diferentes valores del coeficiente de correlación y su correspondiente diagrama de


dispersión.
¿Cómo se mide la correlación?

Tenemos el coeficiente de correlación lineal de Pearson que se sirve para


cuantificar tendencias lineales, y el coeficiente de correlación de Spearman que
se utiliza para tendencias de aumento o disminución, no necesariamente lineales,
pero sí monótonas (las variables tienden a moverse en la misma dirección relativa,
pero no necesariamente a un ritmo constante; Figura 2).

Figura 2. Relación lineal y relación no lineal (monótona). Vemos representado con una "r" negra el
coeficiente de Pearson y con una "s" en rojo el de Spearman. Cuando la relación es lineal, ambos
coeficientes coinciden (valen 1), pero cuando la relación no es lineal el coeficiente de correlación
de Spearman representa mejor la relación entre las variables.

¿Qué significan los valores del coeficiente de correlación?

El coeficiente de correlación r es un valor sin unidades entre -1 y 1. La


significancia estadística se indica con un valor p. Por lo tanto, usualmente
las correlaciones se escriben con dos números clave: r = y p = .

 Cuanto más se aproxima r a cero, más débil es la relación lineal.

 Los valores de r positivos indican una correlación positiva, en la que los valores de
ambas variables tienden a incrementarse juntos.
 Los valores de r negativos indican una correlación negativa, en la que los valores
de una variable tienden a incrementarse mientras que los valores de la otra
variable descienden.

 Los valores 1 y -1 representan una correlación "perfecta" positiva y negativa,


respectivamente. Dos variables perfectamente correlacionadas cambian
conjuntamente a una tasa fija. Decimos que tienen una relación linear; cuando
representados en un gráfico de dispersión, todos los puntos correspondientes a
los datos pueden conectarse con una misma línea recta.

 El valor p nos ayuda a determinar si podemos o no concluir de manera significativa


que el coeficiente de correlación de la población es diferente a cero, basándonos
en lo que observamos en la muestra.

¿Qué es el valor p?

El valor p es una medida de probabilidad empleada para hacer pruebas de


hipótesis. El objetivo de una prueba de hipótesis es determinar si hay evidencia
suficiente para apoyar una determinada hipótesis sobre los datos. De hecho,
formulamos dos hipótesis: la hipótesis nula y la hipótesis alternativa. En el análisis
de correlación, usualmente, la hipótesis nula expresa que la relación observada
entre las variables es producto del mero azar (esto es, que el coeficiente de
correlación en realidad es cero y no hay una relación lineal). La hipótesis
alternativa expresa que la correlación que hemos medido está legítimamente
presente en nuestros datos (esto es, que el coeficiente de correlación es distinto a
cero).

El valor p es la probabilidad de observar un coeficiente de correlación distinto a


cero en los datos de nuestra muestra cuando en realidad la hipótesis nula es
verdadera. Un valor p bajo nos lleva a rechazar la hipótesis nula. Un umbral típico
para rechazar la hipótesis nula es un valor p de 0,05. Esto es, si el valor p es
inferior a 0,05, rechazaríamos la hipótesis nula en favor de la hipótesis alternativa:
que el coeficiente de correlación es diferente a cero.

El coeficiente de correlación lineal de Pearson mide una tendencia lineal


entre dos variables numéricas.

Es el método de correlación más utilizado, pero asume que:

 La tendencia debe ser de tipo lineal.


 No existen valores atípicos (outliers).
 Las variables deben ser numé Si las variables son de tipo ordinal (como las
preguntas en escala de likert), no podremos aplicar la correlación de
Pearson.
 Tenemos suficientes datos (algunos autores recomiendan tener más de 30
puntos u observaciones).

Los dos primeros supuestos se pueden evaluar simplemente con un diagrama


de dispersión, mientras que para los últimos basta con mirar los datos y evaluar el
diseño que tenemos.

El coeficiente de correlación de Spearman mide una tendencia monótona


(creciente o decreciente) entre dos variables. Está basado en los rangos de
los valores.

En los casos donde no se cumplen los requisitos del coeficiente de correlación


lineal de Pearson, es conveniente utilizar la correlación de Spearman. Es una
prueba no paramétrica (no asume una distribución previa de los datos) y es más
robusta frente a la presencia de outliers que la prueba paramétrica de Pearson
Existen cuatro niveles de medición: la escala nominal, la escala ordinal, la
escala de intervalo y la escala de razón. Estas escalas de medición sirven para
categorizar diferentes variables (un elemento, característica o factor que es
probable que varíe). Para efecto de nuestro estudio analizaremos la escala
nominal y escala ordinal.

Escala Nominal

Es una escala de medición en la cual los números sirven como “etiquetas”


solamente para identificar o clasificar un objeto. Una escala de medición nominal
normalmente trata sólo con variables no numéricas (no cuantitativas).

Por ejemplo, supongamos que se realiza esta pregunta: “¿Podrías seleccionar el


grado de incomodidad de tu enfermedad?”

Las opciones de respuesta utilizadas para este tipo de escala serían:

1. Leve
2. Moderado
3. Severo

En este ejemplo en particular, 1 = leve, 2 = Moderado y 3 = Severo. Aquí los


números simplemente son utilizados como etiquetas y no tienen ni un solo valor.

La escala nominal posee solo la característica de descripción, y esto significa


que posee etiquetas únicas que sirven para identificar o delegar valores a los
artículos. Cuando la escala nominal se utiliza con fines de identificación, existe
una correlación uno a uno entre un objeto y el valor asignado a él.
Por ejemplo, los números que están escritos en los autos de carrera simplemente
están ahí para identificar al conductor asociado con el automóvil, la realidad es
que estos números no tienen nada que ver con las características del automóvil.

Pero cuando se utiliza la escala nominal para fines de clasificación, los


números asignados al objeto sirven como etiquetas para categorizar y organizar
objetos por clase.

Por ejemplo, en el caso de una escala de género, un individuo puede clasificarse


como masculino o femenino. En este caso, todos los objetos de la categoría tienen
el mismo número, por ejemplo, todos los hombres pueden ser número 1 y todas
las mujeres pueden ser número 2. Ten en cuenta que ese valor es puramente
utilizado para fines de conteo.

Desde el punto de vista estadístico, la escala nominal es una de las escalas de


medición más fáciles de comprender. Como se mencionó anteriormente, la escala
nominal se asigna a artículos, objetos o elementos que no son cuantitativos, ni
están orientados a un número.

Por ejemplo, supongamos que tenemos 5 colores, naranja, azul, rojo, negro y
amarillo. Podríamos enumerar estos en cualquier orden que nos guste, ya sea del
1 al 5 o del 5 al 1 en orden ascendente o descendente. Aquí los números se
asignan a los colores sólo con el propósito de identificación. Otro ejemplo de
escala nominal es una escala de si / no. Estas dos palabras igual básicamente no
tienen orden.
Características de la escala nominal

 En una escala nominal, una variable se divide en dos o más categorías, por
ejemplo, de acuerdo / en desacuerdo, si / no, etc. Es un mecanismo de
medición en el que la respuesta a una pregunta en particular puede caer en
cualquier categoría.

 La escala nominal es de naturaleza cualitativa, lo que significa que los


números se usan únicamente para categorizar o identificar objetos. Por
ejemplo, en el fútbol, ¿has notado que los jugadores tienen un número en
su camiseta? (cada uno tiene un número diferente). La realidad es que
estos números no tienen nada que ver con la capacidad de los jugadores,
sin embargo, pueden ayudar a identificar al jugador.

 En una escala nominal, los números no definen las características


relacionadas con el objeto, lo que significa que cada número se asigna a un
objeto aleatorio o por decisión propia. El único aspecto permitido
relacionado con los números en una escala nominal es que sirven para
“contar”. Si volvemos al ejemplo de la clasificación de hombres y mujeres, 1
siendo hombres y 2 siendo mujeres, los números nos servirán para saber
cuántos hombres (1) hay y cuántas mujeres (2) hay.

Ejemplos de escala nominal

Estos son algunos ejemplos de escalas de medición nominal que te ayudarán a


comprender un poco mejor qué es esta escala de medición y para qué sirve.

¿Cómo describirías tu comportamiento?

E – extrovertido

I – introvertido
A – ambas

¿Cuál es tu género?

H – hombre

M – mujer

Podrías seleccionar una opción que describa tu color de pelo:

Negro

Café

Rojo

Amarillo

Otro

Existe también un subtipo de escala nominal con solo dos categorías, tal y como el
ejemplo de género mencionado anteriormente.

¿Tienes un iPhone?

Si

No

Escala ordinal

Es uno de los niveles de medición que nos otorga la clasificación y el orden de


los datos sin que realmente se establezca el grado de variación entre ellos.
Los datos ordinales son básicamente datos estadísticos que tienen la misma
naturalidad, pero existe una diferencia entre ellos que es desconocida. Estos datos
pueden ser agrupados o clasificados.

Por ejemplo, una escala ordinal puede responder preguntas como:

¿Qué tan satisfecho estás con nuestros productos?

Totalmente satisfecho

Satisfecho

Neural

Insatisfecho

Totalmente insatisfecho

¿Qué tan feliz estás con el servicio al cliente?

Muy infeliz

Infeliz

Neutral

Feliz

Muy feliz

Lo que hacen los encuestados es elegir entre las opciones de satisfacción,


pero claro la respuesta a la pregunta “¿cuánto exactamente?” permanece sin
respuesta. Comprender las diversas escalas de medición ayudan a los
investigadores a obtener datos que pueden ser aplicados a favor en el futuro.
Por lo tanto, se utiliza una escala ordinal como parámetro para comprender si
las variables son mayores o menores. La tendencia central de la escala ordinal es
mediana.

La escala de Likert es un ejemplo de porque la diferencia de intervalo entre las


variables ordinales no se puede concluir. En esta escala de hecho, las opciones
de respuesta suelen ser polares, como, por ejemplo, algo como “totalmente
satisfecho” o “totalmente insatisfecho”.

La intensidad de la diferencia entre estas dos opciones no puede ser


relacionada a valores específicos, ya que el valor de la diferencia entre totalmente
satisfecho y totalmente insatisfecho es mucho mayor que la distancia entre
satisfecho y neutral.

Supongamos que a una persona le encantan los automóviles Mercedes Benz, y


a este se le aplica una encuesta que consta de una pregunta que dice “¿qué tan
probable es que le recomiendes los automóviles de Mercedes Benz a tus amigos y
familiares?” Supongamos que será muy fácil que este elija “Extremadamente
probable” en lugar de “probable”. Pero qué pasa si fuera una persona “neutral”, a
esta persona si le costaría tal vez un poco de trabajo elegir. Es por eso que se
utiliza una escala ordinal cuando se debe deducir el orden de las opciones, y no
cuando se debe establecer una diferencia de intervalo.

Propiedades de la escala ordinal


 Además de identificar y describir la magnitud, la escala ordinal suele
mostrar el rango relativo de variables.

 Las propiedades del intervalo no se conocen.

 Se miden atributos no numéricos como frecuencia, satisfacción, felicidad,


etc.

 Además de la información proporcionada por la escala nominal, la escala


ordinal identifica el rango de las variables.

 Utilizando esta escala, los encuestadores pueden analizar el grado de


acuerdo o desacuerdo de los encuestados con respecto a la pregunta
realizada.

 Quizá te interese conocer los tipos de escalas de medición que todo


investigador debería recordar.

Ejemplos de escala ordinal

Ranking de los estudiantes de secundaria: 1ero, 3ero, 4to, 5to , etc. Un estudiante
con un puntaje de 99/100 sería el primer rango, otro estudiante con puntaje de
98/100 sería el segundo, y así sucesivamente.

Encuestas de calificación en restaurantes: cuando se recibe una encuesta con una


pregunta como: “¿Qué tan satisfecho está con la experiencia gastronómica?” En
esta las opciones de respuesta pueden ser algo como calificar del 0 al 10, siendo
10 extremadamente satisfecho y 0 extremadamente insatisfecho.

Escala de Likert: la escala de Likert es una variante de la escala ordinal que se


utiliza para calcular la satisfacción de un cliente o la satisfacción de un empleado.
Aquí 5 ejemplos de escalas Likert para tu próxima encuesta.

Esta escala sirve también para comprender los antecedentes socioeconómicos de


una audiencia objetivo: ricos, clase media, pobres, etc. (estos datos entran en la
categoría de datos ordinales).

La frecuencia de ocurrencia: preguntas como: “¿con qué frecuencia lavas tu


coche?” Muy a menudo, a menudo, no a menudo, nunca.

Otro ejemplo de uso es para la evaluación de grado de acuerdo, por ejemplo, algo
como: “indica el nivel de acuerdo o desacuerdo que tienes con las políticas de la
empresa en la que estás trabajando:” Totalmente de acuerdo, de acuerdo, neutral,
en desacuerdo, totalmente en desacuerdo.

De igual manera, las escalas ordinales sirven para comprender las preferencias de
las personas: si un profesional de marketing realiza una encuesta en línea con el
propósito de saber que marca de computadoras portátiles prefieren los
participantes, lo que este puede hacer es utilizar una escala ordinal. La pregunta
puede ser algo como, “De las cinco marcas de computadoras mencionadas a
continuación, clasifícalas según tu orden de preferencia:” HP, Apple, Lenovo, Dell,
Acer”.

Ventajas de la escala ordinal


La principal ventaja de utilizar la escala ordinal es la facilidad de comparación
entre variables. Este tipo de escalas son extremadamente convenientes para
agrupar variables después de que sean ordenadas.

Utilizando estas escalas de manera correcta en encuestas o cuestionarios


obtendrás respuestas útiles para tu empresa. Las respuestas que se recopilan se
pueden comparar fácilmente y obtener conclusiones impactantes sobre el público
objetivo. Además, cabe mencionar que como los valores se indican de forma
relativa utilizando una escala lineal, los resultados suelen ser más informativos
que la escala nominal.

¿Cómo calculamos efectivamente el coeficiente de correlación?

El coeficiente de correlación de la muestra puede representarse con una fórmula:

Vamos a ver cómo calcular el coeficiente de correlación a través de un ejemplo


con un conjunto pequeño de números, para que sea fácil seguir las operaciones.

Supongamos que queremos saber si podemos esperar más ventas de helado en


nuestra ciudad en los días de calor. Las heladerías empiezan a abrir en primavera;
tal vez porque la gente compra más helado en los días que hace calor.
Alternativamente, a lo mejor la gente compra helado de manera regular porque les
gusta mucho.
Para empezar a responder a esta pregunta, recopilaremos los datos de los
promedios diarios de venta de helado y la temperatura máxima diaria. Por tanto,
las ventas de helado y la temperatura son las dos variables que usaremos para
calcular el coeficiente de correlación. A veces a este tipo de datos se los llama
datos bivariados, porque cada observación (o instante de tiempo en el que hemos
medido tanto las ventas como la temperatura) tiene dos datos que podemos usar
para describirla. En otras palabras, nos estamos preguntando si las ventas de
helado y la temperatura varían conjuntamente.

Tal como lo hemos hecho antes, un gráfico de dispersión es útil para echar un
primer vistazo:

También podemos ver los datos en una tabla, ya que nos ayuda a seguir el
cálculo del coeficiente a partir de cada dato bivariado. Cuando hablamos de datos
bivariados, lo común es llamar a una variable X y a la otra Y (esto también nos
ayuda a orientarnos en un plano visual, como los ejes de un gráfico). Vamos a
llamar X a las ventas de helado e Y a la temperatura.
Observe que todos los datos bivariados se dan por pares. Recuerde que
estamos observando en instantes individuales en el tiempo, y cada uno de ellos
tiene un valor tanto para las ventas como para la temperatura.

1. Comience averiguando las medias de la muestra

Ahora que hemos orientado nuestros datos, podemos empezar con dos
subcálculos importantes de la fórmula anterior: la media de la muestra y la
diferencia entre cada dato puntual y esta media (durante estos pasos, también
podrá ver los cimientos iniciales de la desviación estándar).

Las medias de la muestra se representan con los símbolos x̅ e y̅, a veces llamados
"X-Barra" e "Y-Barra". Las medias de venta de helados (x̅ ) y temperatura (y̅)
pueden calcularse fácilmente de la siguiente manera:

2. Calcule la distancia de cada dato puntual respecto a su media


Una vez que hemos obtenido la media de cada una de las dos variables, el
siguiente paso es restar la media de ventas de helado (6) de cada uno de los
datos puntuales de ventas (x_i en la fórmula) y la media de temperatura (75) de
cada uno de los datos puntuales de temperatura (y_i en la fórmula). Tenga en
cuenta que esta operación a veces da lugar a un número negativo o a cero.

3. Complete el numerador de la ecuación del coeficiente

Esta parte de la ecuación se llama la suma de los productos. Un producto es un


número que se obtiene tras una multiplicación, así que esta fórmula es justo lo que
parece: la suma de los números que ha multiplicado.

Tomamos los pares de valores de cada fila de las últimas dos columnas de la
tabla de arriba, los multiplicamos (recuerde que al multiplicar dos números
negativos se obtiene un resultado positivo) y sumamos los resultados:

4. Complete el denominador de la ecuación del coeficiente

El denominador de nuestra ecuación del coeficiente de correlación tiene este


aspecto:
Vamos a ver las expresiones de esta ecuación por separado con los números de
nuestro ejemplo de ventas de helado:

Cuando multiplicamos el resultado de las dos expresiones entre sí, obtenemos:

Y el denominador de la ecuación quedaría así:

5. Complete el cálculo y compare el resultado con el gráfico de dispersión

Transcribimos de nuevo nuestra ecuación para el coeficiente de correlación


completa:
Introduzcamos en el numerador y el denominador los números que hemos
calculado en los pasos anteriores:

¡Hay una correlación perfecta entre las ventas de helado y los días
calurosos de verano! Por supuesto, en el mundo real encontrar una correlación
perfecta es tan improbable que, si estuviéramos trabajando con datos reales,
sospecharíamos que hemos hecho algo mal para obtener este resultado.

Pero con los datos simplificados de nuestro ejemplo, este resultado debería
tener sentido de manera intuitiva, simplemente mirando los puntos
correspondientes a los datos. Vamos a ver de nuevo nuestro gráfico de dispersión:
Ahora imagínese que dibuja una línea en el gráfico. ¿Mostraría un ajuste lineal
perfecto?
Bibliografía

https://www.maximaformacion.es/blog-dat/que-es-la-correlacion-estadistica-y-
como-interpretarla/

https://www.questionpro.com/blog/es/escala-nominal/

https://www.questionpro.com/blog/es/escala-ordinal/

https://www.superprof.es/apuntes/escolar/matematicas/estadistica/
disbidimension/correlacion.html

https://www.jmp.com/es_co/statistics-knowledge-portal/what-is-correlation/
correlation-coefficient.html

También podría gustarte