Está en la página 1de 23

3.

Correlación
3-1

Tema 3
Correlación
Introducción
Introducción
Coeficiente
Coeficiente de
de correlación
correlación lineal
lineal de
de Pearson
Pearson
Coeficiente
Coeficiente de
de correlación
correlación poblacional
poblacional
Contraste
Contraste paramétrico
paramétrico clásico
clásico
Transformación
Transformación de
de Fisher
Fisher
Correlación
Correlación bayesiana
bayesiana
Test
Test no
no paramétrico:
paramétrico: Spearman
Spearman
Test
Test no
no paramétrico:
paramétrico: Kendall
Kendall
Test
Test de
de permutaciones
permutaciones
Correlaciones
Correlaciones parciales
parciales
Conclusiones
Conclusiones
Ejemplo:
Ejemplo: ley
ley de
de Hubble
Hubble
3. Correlación
3-2

Introducción

¿Para qué queremos buscar correlaciones?


Para
Para comprobar
comprobar que
que nuestras
nuestras medidas,
medidas, oo las
las de
de otros,
otros, son
son razonables.
razonables.
Para
Para contrastar
contrastar una
una hipótesis.
hipótesis.
Para
Para intentar
intentar descubrir
descubrir algo
algo nuevo
nuevo (salir
(salir aa pescar).
pescar).

Primera lecci ón:


lección:
Hacer siempre el diagrama de dispersión.
Si no vemos nada, no seguir.
3. Correlación
3-3

Ejemplo: ley de Hubble


D (Mpc) V (km/s)
0.03 -83.3
0.04 111.1
0.19 97.2
0.25 27.8
0.26 -208.3
0.27 -69.4
0.42 819.4
0.5 819.4
0.5 958.3
0.63 666.7
0.79 777.8
0.88 888.9
0.89 194.4
0.89 430.6
0.91 1222.2
1.01 1736.1
1.1 1472.2
1.11 1166.7
1.42 1263.9
1.7 2111.1
2.01 1611.1
2.02 1111.1
2.02 1763.9
2.02 2250
3. Correlación
3-4

Ejemplo: ley de Hubble


D (Mpc) V (km/s)
0.03 -83.3
0.04 111.1
0.19 97.2
0.25 27.8
0.26 -208.3
0.27 -69.4
2 10 0.42 819.4
0.5 819.4
0.5 958.3
0.63 666.7
0.79 777.8
0.88 888.9
0.89 194.4
10 2
2 0.89 430.6
0.91 1222.2
1.01 1736.1
1.1 1472.2
1.11 1166.7
1.42 1263.9
1.7 2111.1
2.01 1611.1
2.02 1111.1
Procedimiento no paramétrico para “ver” rápidamente
2.02 1763.9
correlaciones: dividir el diagrama por las medianas y 2.02 2250
contar el número de puntos en cada uno de los cuatro
cuadrantes.
3. Correlación
3-5

Introducción
Los peligros de salir a pescar:
La
La correlación
correlación podría
podría deberse
deberse aa efectos
efectos de
de selección.
selección.

Ejemplo: Luminosidades radio


de radiofuentes 3CR en función
del módulo de distancias
(Sandage 1972)

La curva representa el límite de detección


Si la función de luminosidad decrece para objetos brillantes, no esperamos encontrar objetos
cercanos brillantes.
3. Correlación
3-6

Introducción
Los peligros de salir a pescar:
La
La correlación
correlación podría
podría deberse
deberse aa efectos
efectos de
de selección.
selección.
Cuidado
Cuidado con
con los
los outliers
outliers (regla
(regla del
del pulgar)
pulgar)

r = 0.88 r = 0.26 r = 0.41

r = 0.08 r = 0.68 r = 0.94


3. Correlación
3-7

Introducción
Los peligros de salir a pescar:
La
La correlación
correlación podría
podría deberse
deberse aa efectos
efectos de
de selección.
selección.
Cuidado
Cuidado con
con los
los outliers
outliers (regla
(regla del
del pulgar)
pulgar)
Cuidado
Cuidado con
con mezclar
mezclar grupos
grupos de
de medidas
medidas no
no homogéneas
homogéneas

r = 0.90 r = 0.04

r = -0.20
3. Correlación
3-8

Introducción
Los peligros de salir a pescar:
La
La correlación
correlación podría
podría deberse
deberse aa efectos
efectos de
de selección.
selección.
Cuidado
Cuidado con
con los
los outliers
outliers (regla
(regla del
del pulgar).
pulgar).
Cuidado
Cuidado con
con mezclar
mezclar grupos
grupos de
de medidas
medidas no
no homogéneas.
homogéneas.
Podría
Podría existir
existir una
una correlación
correlación no
no lineal.
lineal.

r = -0.32
3. Correlación
3-9

Introducción
Los peligros de salir a pescar:
La
La correlación
correlación podría
podría deberse
deberse aa efectos
efectos de
de selección.
selección.
Cuidado
Cuidado con
con los
los outliers
outliers (regla
(regla del
del pulgar).
pulgar).
Cuidado
Cuidado con
con mezclar
mezclar grupos
grupos de
de medidas
medidas no
no homogéneas.
homogéneas.
Podría
Podría existir
existir una
una correlación
correlación no
no lineal.
lineal.
Una
Una correlación
correlación no
no implica
implica una
una relación
relación causal
causal (terceras
(terceras variables).
variables).
3. Correlación
3-10

Coeficiente de correlación lineal de Pearson


La covarianza es una medida de la dependencia (o correlación) entre dos variables
Coeficiente
Coeficiente de
de
correlación
correlación producto-
producto-
momento
momento dede Pearson
Pearson

Cálculo:

Relación con el coeficiente de


regresión (pendiente de la recta):

Relación con la −1 ≤ r ≤ 1
varianza residual

Coeficiente de determinación r2: tanto por ciento de la


variación total de los datos que explica la recta de regresión
3. Correlación
3-11

Coeficiente de correlación poblacional


Se supone que X e Y son variables aleatorias normales:

La función de densidad conjunta de X e Y sigue una distribución normal bivariada:

ρρ :: coeficiente
coeficiente de
de
correlación
correlación poblacional
poblacional

X e Y son independientes

Para estimar ρ se usa el coeficiente de correlación muestral r


Pero sólo es válido si tanto X como Y son variables normales

X e Y no están correlacionados
Si Tienen distribuciones con colas que caen rápido
N es grande (>500)
3. Correlación
3-17

Ejemplo: ley de Hubble


Método bayesiano (test de Jeffrey)
103 simulaciones

La probabilidad de que ρ tenga un valor de 0 (no


haya correlación) es muy pequeña.
Pero se ha supuesto una distribución normal
3. Correlación
3-18

Test no paramétrico: Spearman


Se ordenan de menor a mayor por separado los valores Xi e Yi de los datos y se sustituye cada uno por su
número de orden (rango): xi, yi representan los rangos en X e Y para el par i

Coeficiente
Coeficiente de
de correlación
correlación de
de rangos
rangos de
de Spearman
Spearman
(se sustituye la distribución de probabilidad desconocida por una distribución uniforme entre 1 y N)

Interpretación similar al coeficiente de Pearson

H0 se acepta si:

En caso de empates, se asigna a todos los puntos empatados el valor de medio de los rangos que
tendrían sin empates.

Fórmula más exacta


para el caso de una alta
fracción de empates:
fk, gm: nº de empates
por grupo
3. Correlación
3-19

Test no paramétrico: Spearman


Para muestras grandes (N > 30):

El estadístico: sigue una distribución t de Student con N-2 grados de libertad

rs tiende a una

En comparación con el test paramétrico clásico de Fisher:


VENTAJAS
VENTAJAS
No
No se
se asume
asume una
una relación
relación lineal
lineal entre
entre las
las variables.
variables.
No
No se
se asume
asume una
una distribución
distribución normal
normal bivariada.
bivariada.
Es
Es válido
válido para
para muestras
muestras en
en las
las que
que no
no se
se pueden
pueden hacer
hacer medidas
medidas pero
pero sí
sí asignar
asignar rangos.
rangos.
Es
Es más
más robusto
robusto
INCONVENIENTES
INCONVENIENTES
Pérdida
Pérdida de
de información
información
La
La eficiencia
eficiencia es
es del
del 91%
91% (para
(para distribuciones
distribuciones normales,
normales, en
en el
el test
test de
de Fisher
Fisher basta
basta con
con un
un tamaño
tamaño
muestral
muestral un
un 91%
91% menor
menor para
para rechazar
rechazar la
la hipótesis
hipótesis nula
nula con
con el
el mismo
mismo nivel
nivel de
de significación)
significación)
3. Correlación
3-20

Test no paramétrico: Spearman


Tabla con valores críticos
3. Correlación
3-21

Ejemplo: ley de Hubble

23,24
20,23

16,21 23,22
21,20
17,19
15,17 19,18
18,16 23,15
8.5,14
7,11.5 8.5,11.5 12,13
11,10
10,9
13.5,8
3,5 13.5,7
2,6 4,4
6,3
1,2 5,1

Resultado de 106 simulaciones con BOOTSTRAP


para rs
Permite obtener una incertidumbre sobre el estadístico.
El resultado es muy seguro pues para ninguna
simulación se obtiene rs≤ 0 (P < 10-6)
Método muy robusto
3. Correlación
3-17

Ejemplo: ley de Hubble


Método bayesiano (test de Jeffrey)
103 simulaciones

La probabilidad de que ρ tenga un valor de 0 (no


haya correlación) es muy pequeña.
Pero se ha supuesto una distribución normal
3. Correlación
3-18

Test no paramétrico: Spearman


Se ordenan de menor a mayor por separado los valores Xi e Yi de los datos y se sustituye cada uno por su
número de orden (rango): xi, yi representan los rangos en X e Y para el par i

Coeficiente
Coeficiente de
de correlación
correlación de
de rangos
rangos de
de Spearman
Spearman
(se sustituye la distribución de probabilidad desconocida por una distribución uniforme entre 1 y N)

Interpretación similar al coeficiente de Pearson

H0 se acepta si:

En caso de empates, se asigna a todos los puntos empatados el valor de medio de los rangos que
tendrían sin empates.

Fórmula más exacta


para el caso de una alta
fracción de empates:
fk, gm: nº de empates
por grupo
3. Correlación
3-19

Test no paramétrico: Spearman


Para muestras grandes (N > 30):

El estadístico: sigue una distribución t de Student con N-2 grados de libertad

rs tiende a una

En comparación con el test paramétrico clásico de Fisher:


VENTAJAS
VENTAJAS
No
No se
se asume
asume una
una relación
relación lineal
lineal entre
entre las
las variables.
variables.
No
No se
se asume
asume una
una distribución
distribución normal
normal bivariada.
bivariada.
Es
Es válido
válido para
para muestras
muestras en
en las
las que
que no
no se
se pueden
pueden hacer
hacer medidas
medidas pero
pero sí
sí asignar
asignar rangos.
rangos.
Es
Es más
más robusto
robusto
INCONVENIENTES
INCONVENIENTES
Pérdida
Pérdida de
de información
información
La
La eficiencia
eficiencia es
es del
del 91%
91% (para
(para distribuciones
distribuciones normales,
normales, en
en el
el test
test de
de Fisher
Fisher basta
basta con
con un
un tamaño
tamaño
muestral
muestral un
un 91%
91% menor
menor para
para rechazar
rechazar la
la hipótesis
hipótesis nula
nula con
con el
el mismo
mismo nivel
nivel de
de significación)
significación)
3. Correlación
3-20

Test no paramétrico: Spearman


Tabla con valores críticos
3. Correlación
3-21

Ejemplo: ley de Hubble

23,24
20,23

16,21 23,22
21,20
17,19
15,17 19,18
18,16 23,15
8.5,14
7,11.5 8.5,11.5 12,13
11,10
10,9
13.5,8
3,5 13.5,7
2,6 4,4
6,3
1,2 5,1

Resultado de 106 simulaciones con BOOTSTRAP


para rs
Permite obtener una incertidumbre sobre el estadístico.
El resultado es muy seguro pues para ninguna
simulación se obtiene rs≤ 0 (P < 10-6)
Método muy robusto
3. Correlación
3-22

Test no paramétrico: Kendall


Método aún más paramétrico que el de Spearman. En vez de comparar los rangos, sólo se calcula si una
coordenada es mayor que la otra.
Par concordante (NC)
N datos (xi,yi) pares diferentes de puntos
Par discordante (ND)

Coeficiente
Coeficiente de
de correlación
correlación tau
tau de
de Kendall
Kendall

En el caso de empates: TX (nº de empates en la x )


TY (nº de empates en la y )

H0 se acepta si:

τ tiende rápidamente a una distribución normal con:


(N > 10)

Más lento de calcular que el coeficiente de Spearman (excepto para datos agrupados en intervalos)

Interpretación: el coeficiente de Spearman es similar al de Fisher (fracción de la variación de los datos


explicada por la correlación), mientras que el de Kendall indica la diferencia de la probabilidad de que las dos
variables estén en el mismo orden menos la probabilidad de que estén en un orden diferente.
3. Correlación
3-23

Test no paramétrico: Kendall


Tabla con
valores
críticos
3. Correlación
3-24

Ejemplo: ley de Hubble

Kendall Tau
3. Correlación
3-25

Test de permutaciones
Otro método no paramétrico: Se extraen muestras de la muestra observada, del mismo tamaño, permutando
aleatoriamente las asignaciones de las Ys a las Xs (sin reemplazamientos), y se calcula para cada muestra el
valor del estadístico de prueba (ej. r, rs, τ, etc.). La distribución obtenida representa la distribución del estadístico
en el caso de no correlación. Se compara el valor observado con dicha distribución.

Ejemplo: 20 datos no correlacionados

Funciones de distribución para 1000


permutaciones (de las 20! posibles)
3. Correlación
3-26

Correlación parcial
SI se sabe que una tercera (cuarta, etc.) variable (conocida) está afectando la correlación se
puede eliminar su efecto.

Método paramétrico

Para una muestra de N datos con 3 variables:

Coeficiente de correlación
parcial de primer orden

Para una muestra de N datos con 4 variables:

(coeficiente de correlación entre x1 y Coeficiente de correlación


x2, manteniendo x3 y x4 constantes) parcial de segundo orden

Con desviaciones típicas:

Se aplica el test t de Student


3. Correlación
3-27

Conclusiones
Los métodos no paramétricos solucionan el problema de la distribución de probabilidad
desconocida pero comparten las dificultades de los métodos no bayesianos (se basan
en la comparación con la distribución bajo la hipótesis nula basada en observaciones
hipotéticas)
El método bayesiano es más directo pero no soluciona el problema del desconocimiento
de la distribución de probabilidad.
El método bayesiano proporciona resultados muy parecidos a usar el método de Fisher
con simulaciones (bootstrap).
El análisis de correlación no indica cuál es
la variable dependiente (fundamental para
hacer un análisis de regresión).
Tampoco implica una relación causa-
efecto.
El coeficiente de correlación por sí sólo no
proporciona toda la información.
Ejemplo: cuarteto de Ascombe (mismo
coeficiente de correlación y línea de
regresión)
3. Correlación
3-28

Práctica
Posible correlación entre la abundancia relativa de C,N y la luminosidad (o masa) del cúmulo de galaxias
(Carretero et al., 2004, Ap.J. 609, L45)

Cúmulo A279 A1238 Virgo A257 A2050 Coma A655 A1650


LX
0.08 0.15 0.30 0.31 1.22 1.80 1.97 2.01
(1044 erg/s)

[CN/Fe] 0.43 0.61 0.48 0.45 0.40 0.39 0.30 0.40

También podría gustarte