Está en la página 1de 16

ANALISIS

EXPLORATORIO
DE DATOS
BIVARIADOS

ANÁLISIS DE
CORRELACIÓN
LINEAL SIMPLE
Introducción
Objetivos de un ACLS
Un ACLS tiene como objetivos principales:

1. Establecer si existe o no una relación o


interrelación de tipo lineal entre dos
variables numéricas X e Y, es decir conocer si
las variaciones (o el comportamiento) en una de
las variables se vinculan con variaciones o
comportamiento de la otra variable, en forma
lineal.

En el caso que tal relación lineal entre las


variables exista, decimos que ambas están
“correlacionadas”, mientras que si tal vinculación
no es significativa, decimos que son
“independientes”. Por lo tanto, en Estadística, lo
contrario a “independencia” es el concepto de
“correlación” (no hablamos de “dependencia” ya
que esto implicaría una relación perfecta entre
ambas variables, lo cual no tiene interés para la
Estadística, que trabaja con “desviaciones”)
Introducción
Objetivos de un ACLS
Un ACLS tiene como objetivos principales:

2. En caso de existir una relación de


naturaleza lineal entre X e Y, un segundo
objetivo consiste en medir la intensidad de
dicha relación, de manera de poder
categorizarla como débil, moderada o fuerte
según el caso.

Es evidente que en la medida que la nube de


puntos o huella empírica haga más evidente una
tendencia de tipo lineal (positiva o negativa),
mayor será la intensidad de la correlación entre
las variables.

El adjetivo de “Simple” en el título de este Análisis


(ACLS) se debe a que se toman en consideración
sólo dos variables (genéricamente designadas
como X e Y). En tanto que un Análisis de
Correlación Lineal Múltiple es aquel que considera
las vinculaciones entre 3 o más variables
numéricas.
Introducción
Características de un ACLS
Las características sobresalientes de un ACLS son
las siguientes:

1. Tanto la variable X como la variable Y son de


naturaleza numérica (discretas o continuas) y
además tienen carácter ALEATORIO, es decir
varían libremente o “al azar”. Esto significa
que ninguna de las dos variables involucradas
en el Análisis se encuentran bajo control del
observador o del investigador.

2. No se distinguen “roles” diferentes a cada


variable. Esto es, no resulta necesario
diferenciar si una de las variables cumple el
papel o la función de “variable explicativa” y la
otra de “variable explicada” (como sí se verá
en la próxima Unidad de la materia en el
Análisis de Regresión Lineal Simple). De
manera que no tiene interés cuál de las
variables se localice en el eje X y cuál en el
eje Y del Diagrama de Dispersión.
Introducción
Limitaciones de la Covarianza

Al presentar la Covarianza se estableció que se


trata de una medida estadística relativa a la
variación conjunta, simultánea o concomitante
entre dos variables numéricas X e Y, esto es la co-
variación entre ambas, siguiendo una tendencia
lineal, que puede ser positiva o negativa, hecho
que resulta asociado al signo de la Covarianza.

Aunque se trata de una medida de gran


importancia, la Covarianza presenta limitaciones
que deben considerarse.

Probablemente la más notoria de estas


limitaciones tenga que ver con que su valor
absoluto no es informativo. Esto significa que el
valor que asuma la Covarianza en un ejemplo
concreto, nunca podría ser evaluado en su
magnitud (como alto o bajo), debido a que no se
cuenta con valores de referencia o límites para
contrastar en una situación determinada.

En otras palabras: -∞ < Cov(X;Y) < +∞

Es decir, la Covarianza no tiene límites superior ni


inferior.
Introducción
Limitaciones de la Covarianza

Asociado a lo anterior, también debería notarse


que la Covarianza depende de las Unidades de
Medida que empleen las variables consideradas.
Veamos el siguiente ejemplo, para el caso de una
Distribución Bidimensional Simple

Distancia Tiempo Distancia


(Km) (Horas) * Tiempo
5 2 10
8 3 24
6 2,5 15
10 5 50
9 4 36

M(Distancia)=7,6 km
M(Tiempo)=3,3 hs
Cov(Distancia;Tiempo)=135/5-7,6*3.3=+1,92
Introducción
Limitaciones de la Covarianza

Ahora consideremos la misma situación práctica


pero con la variable Distancia medida en “metros”
y la variable Tiempo medida en “segundos”

Distancia Tiempo Distancia *


(m) (segundos) Tiempo
5.000 7.200 36.000.000
8.000 10.800 86.400.000
6.000 9.000 54.000.000
10.000 18.000 180.000.000
9.000 14.400 129.600.000

M(Distancia)=7.600 m
M(Tiempo)=11.880 seg
Cov(Distancia;Tiempo)=486.000.000/5-
7.600*11.880= 97.200.000-90.288.000=6.912.000

Al observar este valor, mucho más grande que


1,92, podríamos preguntarnos si la relación entre
ambas variables es más intensa en este caso. De
ninguna manera. El problema reside en que la
Covarianza está afectada por las Unidades de
Medida empleadas.
Introducción
El Coeficiente de Correlación Lineal
de Pearson

Para superar las limitaciones que presenta la


Covarianza, es preciso construir una nueva
medida estadística, que tome como base a la
Covarianza pero que resulte acotada en su rango
de variación, esto es que tenga límites superior e
inferior, de manera que cualquier resultado pueda
contrastarse o compararse con estos límites y
entonces permitir categorizar su valor como
correspondiente a una intensidad débil, moderada
o fuerte en cuanto a la intensidad de la relación
lineal.

Esta medida se logra dividiendo la Covarianza en


el producto de los Desvíos Estándar Marginales de
ambas variables y se conoce como el Coeficiente
de Correlación Lineal de Pearson:

𝐶𝑜𝑣(𝑋; 𝑌)
𝑟=
𝐷 𝑋 ∗ 𝐷(𝑌)

Observación: El Coeficiente de Correlación


Lineal de Pearson suele designarse como “r”
para datos muestrales y como ρ (rho) para
datos poblacionales.
Introducción
El Coeficiente de Correlación Lineal
de Pearson

Rango de Variación de “r”


El Coeficiente de Correlación Lineal de Pearson
tiene su rango de variación en el intervalo cerrado
[-1 ; +1], es decir

-1 ≤ r ≤ +1
Introducción
El Coeficiente de Correlación Lineal de
Pearson

Ejemplos:
Calcular el Coeficiente de Correlación Lineal de Pearson en
los siguientes casos:
X Y X*Y
7 8 56
8 8 64
Y
6 7 42 12
5 5 25 10
3 5 15 8
7 9 63
6
5 6 30
8 9 72 4

9 10 90 2
4 6 24 0
SUMA 62 73 481 0 2 4 6 8 10
MEDIA MARGINAL 6,20 7,30 45,26 M(X)*M(Y)
DESV EST MARGINAL 1,83 1,68 3,07 D(X)*D(Y)
COVARIANZA (X;Y) 2,84
r DE PEARSON 0,92

X Y X*Y
7 6 42 Y
8 9 72 10
6 4 24
8
5 9 45
3 9 27 6
7 2 14
4
5 6 30
8 6 48 2
9 4 36 0
4 3 12 0 2 4 6 8 10
SUMA 62 58 350
MEDIA MARGINAL 6,20 5,80 35,96 M(X)*M(Y)
DESV EST MARGINAL 1,83 2,44 4,47 D(X)*D(Y)
COVARIANZA (X;Y) -0,96
r DE PEARSON -0,21
Introducción
El Coeficiente de Correlación Lineal de
Pearson

Ejemplos:

M(Salario)=$49.651
D(Salario)=$10,29
M(Ausencia Anual)= 2,34 días
D(Ausencia Anual)=2,52 días
Cov(Salario;Ausencia)=-7,40

r=Cov(Salario;Ausencia)/[D(Salario)*D(Ausencia)]
r=-7,40 / (10,29*2,52) = -7,40 / 25,93 = - 0,28

En consecuencia la correlación entre Salario y


Ausencia Anual es débil.
Introducción
El Coeficiente de Correlación Lineal de
Pearson

Casos en que r próximo a 0

El Coeficiente de Correlación Lineal de Pearson es


una medida de la fuerza o intensidad de la
RELACION LINEAL entre las variables
consideradas X e Y. De manera entonces que hay
dos situaciones en general en las que toma un valor
próximo a cero (indicando que no hay “correlación
lineal”):

 Cuando hay una correlación entre ambas


variables PERO ES DE NATURALEZA NO LINEAL
(Ej. Cuadrática, Cúbica, Exponencial, Logarítmica,
etc.). En este caso, la nube de puntos muestra un
patrón de comportamiento, pero no es una
tendencia lineal sino con la forma de una
parábola cuadrática, cúbica o de tipo Exponencial,
Logarítmica, etc.
Introducción
El Coeficiente de Correlación Lineal de
Pearson

Casos en que r próximo a 0

 Cuando no hay ningún tipo de correlación entre


las variables, es decir NI LINEAL, NI “NO LINEAL”.
En este caso, la nube de puntos no muestra
ningún patrón de relación determinado y “se
podría encerrar en un círculo”.
Introducción
El Coeficiente de Correlación Lineal de
Pearson

Correlaciones Espúreas

La existencia de correlación lineal entre dos variables


no es sinónimo de un fenómeno de causa-efecto.

En otras palabras “correlación” no equivale a


“causalidad”. El análisis de las causas de un
fenómeno requiere de otros tipos de metodologías
específicas que están fuera de los alcances de este
curso introductorio.

De esta forma, siempre conviene interpretar la


correlación encontrada entre dos variables numéricas
en el contexto de un marco teórico, donde adquiera
significado la vinculación hallada.

En ciertas ocasiones, es posible encontrar un


coeficiente de correlación lineal elevado entre dos
variables, pero carente de significado. Entonces se
habla de una “correlación espúrea”.
Introducción
El Coeficiente de Correlación Lineal de
Pearson

Correlaciones Espúreas

En un conocido ejemplo didáctico, un autor encontró


una correlación lineal intensa entre la cantidad de
cigüeñas de ciudades costeras y la cantidad de
nacimientos ocurridos en un cierto período de
tiempo en esas ciudades.

¿Significa esto alguna relación entre las cigüeñas y


los nacimientos? ¿Cuántas más cigüeñas, más
nacimientos ocurren? De ninguna manera. Se trata
de una correlación espúrea.

Por lo general, cuando la correlación es espúrea


entre dos variables, el fenómeno se puede explicar
haciendo intervenir una tercera variable, llamada
comúnmente “variable de confusión”, que está
vinculada a cada una de los dos variables originales
por separado.
Introducción
El Coeficiente de Correlación Lineal de
Pearson

Correlaciones Espúreas

En el ejemplo anterior la variable “longitud de la


costa de la ciudad” es una variable de confusión.
Cuanto mayor es la longitud de la costa de la ciudad
es probable que albergue una mayor cantidad de
cigüeñas.
Pero también, cuanto mayor es la longitud de la
costa de la ciudad, probablemente más grande será
el tamaño de la ciudad y por ende, la cantidad de
habitantes que residen en ella y en consecuencia
mayor será la cantidad de nacimientos ocurridos en
un cierto intervalo de tiempo.

También podría gustarte