Parte III - Análisis Exploratorio Bivariado - Análisis de Correlación Lineal Simple (ACLS)

ANALISIS
EXPLORATORIO
DE DATOS
BIVARIADOS
ANÁLISIS DE
CORRELACIÓN
LINEAL SIMPLE
Introducción
Objetivos de un ACLS
Un ACLS tiene como objetivos principales:
1. Establecer si existe o no una relación o

interrelación de tipo lineal entre dos
variables numéricas X e Y, es decir conocer si
las variaciones (o el comportamiento) en una de
las variables se vinculan con variaciones o
comportamiento de la otra variable, en forma
lineal.
En el caso que tal relación lineal entre las

variables exista, decimos que ambas están
“correlacionadas”, mientras que si tal vinculación
no es significativa, decimos que son
“independientes”. Por lo tanto, en Estadística, lo
contrario a “independencia” es el concepto de
“correlación” (no hablamos de “dependencia” ya
que esto implicaría una relación perfecta entre
ambas variables, lo cual no tiene interés para la
Estadística, que trabaja con “desviaciones”)
Introducción
Objetivos de un ACLS
Un ACLS tiene como objetivos principales:
2. En caso de existir una relación de

naturaleza lineal entre X e Y, un segundo
objetivo consiste en medir la intensidad de
dicha relación, de manera de poder
categorizarla como débil, moderada o fuerte
según el caso.
Es evidente que en la medida que la nube de

puntos o huella empírica haga más evidente una
tendencia de tipo lineal (positiva o negativa),
mayor será la intensidad de la correlación entre
las variables.
El adjetivo de “Simple” en el título de este Análisis

(ACLS) se debe a que se toman en consideración
sólo dos variables (genéricamente designadas
como X e Y). En tanto que un Análisis de
Correlación Lineal Múltiple es aquel que considera
las vinculaciones entre 3 o más variables
numéricas.
Introducción
Características de un ACLS
Las características sobresalientes de un ACLS son
las siguientes:
1. Tanto la variable X como la variable Y son de

naturaleza numérica (discretas o continuas) y
además tienen carácter ALEATORIO, es decir
varían libremente o “al azar”. Esto significa
que ninguna de las dos variables involucradas
en el Análisis se encuentran bajo control del
observador o del investigador.
2. No se distinguen “roles” diferentes a cada

variable. Esto es, no resulta necesario
diferenciar si una de las variables cumple el
papel o la función de “variable explicativa” y la
otra de “variable explicada” (como sí se verá
en la próxima Unidad de la materia en el
Análisis de Regresión Lineal Simple). De
manera que no tiene interés cuál de las
variables se localice en el eje X y cuál en el
eje Y del Diagrama de Dispersión.
Introducción
Limitaciones de la Covarianza
Al presentar la Covarianza se estableció que se

trata de una medida estadística relativa a la
variación conjunta, simultánea o concomitante
entre dos variables numéricas X e Y, esto es la co-
variación entre ambas, siguiendo una tendencia
lineal, que puede ser positiva o negativa, hecho
que resulta asociado al signo de la Covarianza.
Aunque se trata de una medida de gran

importancia, la Covarianza presenta limitaciones
que deben considerarse.
Probablemente la más notoria de estas

limitaciones tenga que ver con que su valor
absoluto no es informativo. Esto significa que el
valor que asuma la Covarianza en un ejemplo
concreto, nunca podría ser evaluado en su
magnitud (como alto o bajo), debido a que no se
cuenta con valores de referencia o límites para
contrastar en una situación determinada.
En otras palabras: -∞ < Cov(X;Y) < +∞
Es decir, la Covarianza no tiene límites superior ni

inferior.
Introducción
Asociado a lo anterior, también debería notarse

que la Covarianza depende de las Unidades de
Medida que empleen las variables consideradas.
Veamos el siguiente ejemplo, para el caso de una
Distribución Bidimensional Simple
Distancia Tiempo Distancia

(Km) (Horas) * Tiempo
5 2 10
8 3 24
6 2,5 15
10 5 50
9 4 36
M(Distancia)=7,6 km
M(Tiempo)=3,3 hs
Cov(Distancia;Tiempo)=135/5-7,6*3.3=+1,92
Introducción
Ahora consideremos la misma situación práctica

pero con la variable Distancia medida en “metros”
y la variable Tiempo medida en “segundos”
Distancia Tiempo Distancia *

(m) (segundos) Tiempo
5.000 7.200 36.000.000
8.000 10.800 86.400.000
6.000 9.000 54.000.000
10.000 18.000 180.000.000
9.000 14.400 129.600.000
M(Distancia)=7.600 m
M(Tiempo)=11.880 seg
Cov(Distancia;Tiempo)=486.000.000/5-
7.600*11.880= 97.200.000-90.288.000=6.912.000
Al observar este valor, mucho más grande que

1,92, podríamos preguntarnos si la relación entre
ambas variables es más intensa en este caso. De
ninguna manera. El problema reside en que la
Covarianza está afectada por las Unidades de
Medida empleadas.
Introducción
El Coeficiente de Correlación Lineal
de Pearson
Para superar las limitaciones que presenta la

Covarianza, es preciso construir una nueva
medida estadística, que tome como base a la
Covarianza pero que resulte acotada en su rango
de variación, esto es que tenga límites superior e
inferior, de manera que cualquier resultado pueda
contrastarse o compararse con estos límites y
entonces permitir categorizar su valor como
correspondiente a una intensidad débil, moderada
o fuerte en cuanto a la intensidad de la relación
lineal.
Esta medida se logra dividiendo la Covarianza en

el producto de los Desvíos Estándar Marginales de
ambas variables y se conoce como el Coeficiente
de Correlación Lineal de Pearson:
𝐶𝑜𝑣(𝑋; 𝑌)
𝑟=
𝐷 𝑋 ∗ 𝐷(𝑌)
Observación: El Coeficiente de Correlación

Lineal de Pearson suele designarse como “r”
para datos muestrales y como ρ (rho) para
datos poblacionales.
Introducción
El Coeficiente de Correlación Lineal
de Pearson
Rango de Variación de “r”

El Coeficiente de Correlación Lineal de Pearson
tiene su rango de variación en el intervalo cerrado
[-1 ; +1], es decir
-1 ≤ r ≤ +1
Introducción
El Coeficiente de Correlación Lineal de
Pearson
Ejemplos:
Calcular el Coeficiente de Correlación Lineal de Pearson en
los siguientes casos:
X Y X*Y
7 8 56
8 8 64
Y
6 7 42 12
5 5 25 10
3 5 15 8
7 9 63
6
5 6 30
8 9 72 4
9 10 90 2
4 6 24 0
SUMA 62 73 481 0 2 4 6 8 10
MEDIA MARGINAL 6,20 7,30 45,26 M(X)*M(Y)
DESV EST MARGINAL 1,83 1,68 3,07 D(X)*D(Y)
COVARIANZA (X;Y) 2,84
r DE PEARSON 0,92
X Y X*Y
7 6 42 Y
8 9 72 10
6 4 24
8
5 9 45
3 9 27 6
7 2 14
4
5 6 30
8 6 48 2
9 4 36 0
4 3 12 0 2 4 6 8 10
SUMA 62 58 350
MEDIA MARGINAL 6,20 5,80 35,96 M(X)*M(Y)
DESV EST MARGINAL 1,83 2,44 4,47 D(X)*D(Y)
COVARIANZA (X;Y) -0,96
r DE PEARSON -0,21
Introducción
Pearson
Ejemplos:
M(Salario)=$49.651
D(Salario)=$10,29
M(Ausencia Anual)= 2,34 días
D(Ausencia Anual)=2,52 días
Cov(Salario;Ausencia)=-7,40
r=Cov(Salario;Ausencia)/[D(Salario)*D(Ausencia)]
r=-7,40 / (10,29*2,52) = -7,40 / 25,93 = - 0,28
En consecuencia la correlación entre Salario y

Ausencia Anual es débil.
Introducción
Pearson
Casos en que r próximo a 0
El Coeficiente de Correlación Lineal de Pearson es

una medida de la fuerza o intensidad de la
RELACION LINEAL entre las variables
consideradas X e Y. De manera entonces que hay
dos situaciones en general en las que toma un valor
próximo a cero (indicando que no hay “correlación
lineal”):
 Cuando hay una correlación entre ambas

variables PERO ES DE NATURALEZA NO LINEAL
(Ej. Cuadrática, Cúbica, Exponencial, Logarítmica,
etc.). En este caso, la nube de puntos muestra un
patrón de comportamiento, pero no es una
tendencia lineal sino con la forma de una
parábola cuadrática, cúbica o de tipo Exponencial,
Logarítmica, etc.
Introducción
Pearson
Casos en que r próximo a 0
 Cuando no hay ningún tipo de correlación entre

las variables, es decir NI LINEAL, NI “NO LINEAL”.
En este caso, la nube de puntos no muestra
ningún patrón de relación determinado y “se
podría encerrar en un círculo”.
Introducción
Pearson
Correlaciones Espúreas
La existencia de correlación lineal entre dos variables

no es sinónimo de un fenómeno de causa-efecto.
En otras palabras “correlación” no equivale a

“causalidad”. El análisis de las causas de un
fenómeno requiere de otros tipos de metodologías
específicas que están fuera de los alcances de este
curso introductorio.
De esta forma, siempre conviene interpretar la

correlación encontrada entre dos variables numéricas
en el contexto de un marco teórico, donde adquiera
significado la vinculación hallada.
En ciertas ocasiones, es posible encontrar un

coeficiente de correlación lineal elevado entre dos
variables, pero carente de significado. Entonces se
habla de una “correlación espúrea”.
Introducción
Pearson
En un conocido ejemplo didáctico, un autor encontró

una correlación lineal intensa entre la cantidad de
cigüeñas de ciudades costeras y la cantidad de
nacimientos ocurridos en un cierto período de
tiempo en esas ciudades.
¿Significa esto alguna relación entre las cigüeñas y

los nacimientos? ¿Cuántas más cigüeñas, más
nacimientos ocurren? De ninguna manera. Se trata
de una correlación espúrea.
Por lo general, cuando la correlación es espúrea

entre dos variables, el fenómeno se puede explicar
haciendo intervenir una tercera variable, llamada
comúnmente “variable de confusión”, que está
vinculada a cada una de los dos variables originales
por separado.
Introducción
Pearson
En el ejemplo anterior la variable “longitud de la

costa de la ciudad” es una variable de confusión.
Cuanto mayor es la longitud de la costa de la ciudad
es probable que albergue una mayor cantidad de
cigüeñas.
Pero también, cuanto mayor es la longitud de la
costa de la ciudad, probablemente más grande será
el tamaño de la ciudad y por ende, la cantidad de
habitantes que residen en ella y en consecuencia
mayor será la cantidad de nacimientos ocurridos en
un cierto intervalo de tiempo.

Parte III - Análisis Exploratorio Bivariado - Análisis de Correlación Lineal Simple (ACLS)

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Parte III - Análisis Exploratorio Bivariado - Análisis de Correlación Lineal Simple (ACLS)

Cargado por

Copyright:

Formatos disponibles

ANALISIS

1. Establecer si existe o no una relación o

En el caso que tal relación lineal entre las

2. En caso de existir una relación de

Es evidente que en la medida que la nube de

El adjetivo de “Simple” en el título de este Análisis

1. Tanto la variable X como la variable Y son de

2. No se distinguen “roles” diferentes a cada

Al presentar la Covarianza se estableció que se

Aunque se trata de una medida de gran

Probablemente la más notoria de estas

En otras palabras: -∞ < Cov(X;Y) < +∞

Es decir, la Covarianza no tiene límites superior ni

Asociado a lo anterior, también debería notarse

Distancia Tiempo Distancia

Ahora consideremos la misma situación práctica

Distancia Tiempo Distancia *

Al observar este valor, mucho más grande que

Para superar las limitaciones que presenta la

Esta medida se logra dividiendo la Covarianza en

Observación: El Coeficiente de Correlación

Rango de Variación de “r”

En consecuencia la correlación entre Salario y

Casos en que r próximo a 0

El Coeficiente de Correlación Lineal de Pearson es

 Cuando hay una correlación entre ambas

Casos en que r próximo a 0

 Cuando no hay ningún tipo de correlación entre

La existencia de correlación lineal entre dos variables

En otras palabras “correlación” no equivale a

De esta forma, siempre conviene interpretar la

En ciertas ocasiones, es posible encontrar un

En un conocido ejemplo didáctico, un autor encontró

¿Significa esto alguna relación entre las cigüeñas y

Por lo general, cuando la correlación es espúrea

En el ejemplo anterior la variable “longitud de la

También podría gustarte