Tema 05

3.
Correlación
3-1
Tema 3
Correlación
Introducción
Introducción
Coeficiente
Coeficiente de
de correlación
correlación lineal
lineal de
de Pearson
Pearson
Coeficiente
Coeficiente de
de correlación
correlación poblacional
poblacional
Contraste
Contraste paramétrico
paramétrico clásico
clásico
Transformación
Transformación de
de Fisher
Fisher
Correlación
Correlación bayesiana
bayesiana
Test
Test no
no paramétrico:
paramétrico: Spearman
Spearman
Test
Test no
no paramétrico:
paramétrico: Kendall
Kendall
Test
Test de
de permutaciones
permutaciones
Correlaciones
Correlaciones parciales
parciales
Conclusiones
Conclusiones
Ejemplo:
Ejemplo: ley
ley de
de Hubble
Hubble
3. Correlación
3-2
Introducción
¿Para qué queremos buscar correlaciones?

Para
Para comprobar
comprobar que
que nuestras
nuestras medidas,
medidas, oo las
las de
de otros,
otros, son
son razonables.
razonables.
Para
Para contrastar
contrastar una
una hipótesis.
hipótesis.
Para
Para intentar
intentar descubrir
descubrir algo
algo nuevo
nuevo (salir
(salir aa pescar).
pescar).
Primera lecci ón:

lección:
Hacer siempre el diagrama de dispersión.
Si no vemos nada, no seguir.
3. Correlación
3-3
Ejemplo: ley de Hubble

D (Mpc) V (km/s)
0.03 -83.3
0.04 111.1
0.19 97.2
0.25 27.8
0.26 -208.3
0.27 -69.4
0.42 819.4
0.5 819.4
0.5 958.3
0.63 666.7
0.79 777.8
0.88 888.9
0.89 194.4
0.89 430.6
0.91 1222.2
1.01 1736.1
1.1 1472.2
1.11 1166.7
1.42 1263.9
1.7 2111.1
2.01 1611.1
2.02 1111.1
2.02 1763.9
2.02 2250
3. Correlación
3-4

D (Mpc) V (km/s)
0.03 -83.3
0.04 111.1
0.19 97.2
0.25 27.8
0.26 -208.3
0.27 -69.4
2 10 0.42 819.4
0.5 819.4
0.5 958.3
0.63 666.7
0.79 777.8
0.88 888.9
0.89 194.4
10 2
2 0.89 430.6
0.91 1222.2
1.01 1736.1
1.1 1472.2
1.11 1166.7
1.42 1263.9
1.7 2111.1
2.01 1611.1
2.02 1111.1
Procedimiento no paramétrico para “ver” rápidamente
2.02 1763.9
correlaciones: dividir el diagrama por las medianas y 2.02 2250
contar el número de puntos en cada uno de los cuatro
cuadrantes.
3. Correlación
3-5
Introducción
Los peligros de salir a pescar:
La
La correlación
correlación podría
podría deberse
deberse aa efectos
efectos de
de selección.
selección.
Ejemplo: Luminosidades radio

de radiofuentes 3CR en función
del módulo de distancias
(Sandage 1972)
La curva representa el límite de detección

Si la función de luminosidad decrece para objetos brillantes, no esperamos encontrar objetos
cercanos brillantes.
3. Correlación
3-6
Introducción
La
La correlación
podría deberse
deberse aa efectos
efectos de
de selección.
selección.
Cuidado
Cuidado con
con los
los outliers
outliers (regla
(regla del
del pulgar)
pulgar)
r = 0.88 r = 0.26 r = 0.41
r = 0.08 r = 0.68 r = 0.94

3. Correlación
3-7
Introducción
La
La correlación
podría deberse
deberse aa efectos
efectos de
de selección.
selección.
Cuidado
Cuidado con
con los
los outliers
outliers (regla
(regla del
del pulgar)
pulgar)
Cuidado
Cuidado con
con mezclar
mezclar grupos
grupos de
de medidas
medidas no
no homogéneas
homogéneas
r = 0.90 r = 0.04
r = -0.20
3. Correlación
3-8
Introducción
La
La correlación
podría deberse
deberse aa efectos
efectos de
de selección.
selección.
Cuidado
Cuidado con
con los
los outliers
outliers (regla
(regla del
del pulgar).
pulgar).
Cuidado
Cuidado con
con mezclar
mezclar grupos
grupos de
de medidas
medidas no
no homogéneas.
homogéneas.
Podría
Podría existir
existir una
una correlación
correlación no
no lineal.
lineal.
r = -0.32
3. Correlación
3-9
Introducción
La
La correlación
podría deberse
deberse aa efectos
efectos de
de selección.
selección.
Cuidado
Cuidado con
con los
los outliers
outliers (regla
(regla del
del pulgar).
pulgar).
Cuidado
Cuidado con
con mezclar
mezclar grupos
grupos de
de medidas
medidas no
no homogéneas.
homogéneas.
Podría
Podría existir
existir una
una correlación
correlación no
no lineal.
lineal.
Una
Una correlación
correlación no
no implica
implica una
una relación
relación causal
causal (terceras
(terceras variables).
variables).
3. Correlación
3-10
Coeficiente de correlación lineal de Pearson

La covarianza es una medida de la dependencia (o correlación) entre dos variables
Coeficiente
Coeficiente de
de
correlación
correlación producto-
producto-
momento
momento dede Pearson
Pearson
Cálculo:
Relación con el coeficiente de

regresión (pendiente de la recta):
Relación con la −1 ≤ r ≤ 1
varianza residual
Coeficiente de determinación r2: tanto por ciento de la

variación total de los datos que explica la recta de regresión
3. Correlación
3-11
Coeficiente de correlación poblacional

Se supone que X e Y son variables aleatorias normales:
La función de densidad conjunta de X e Y sigue una distribución normal bivariada:
ρρ :: coeficiente
coeficiente de
de
correlación
correlación poblacional
poblacional
X e Y son independientes
Para estimar ρ se usa el coeficiente de correlación muestral r

Pero sólo es válido si tanto X como Y son variables normales
X e Y no están correlacionados
Si Tienen distribuciones con colas que caen rápido
N es grande (>500)
3. Correlación
3-17

Método bayesiano (test de Jeffrey)
103 simulaciones
La probabilidad de que ρ tenga un valor de 0 (no

haya correlación) es muy pequeña.
Pero se ha supuesto una distribución normal
3. Correlación
3-18
Test no paramétrico: Spearman

Se ordenan de menor a mayor por separado los valores Xi e Yi de los datos y se sustituye cada uno por su
número de orden (rango): xi, yi representan los rangos en X e Y para el par i
Coeficiente
Coeficiente de
de correlación
correlación de
de rangos
rangos de
de Spearman
Spearman
(se sustituye la distribución de probabilidad desconocida por una distribución uniforme entre 1 y N)
Interpretación similar al coeficiente de Pearson
H0 se acepta si:
En caso de empates, se asigna a todos los puntos empatados el valor de medio de los rangos que
tendrían sin empates.
Fórmula más exacta

para el caso de una alta
fracción de empates:
fk, gm: nº de empates
por grupo
3. Correlación
3-19

Para muestras grandes (N > 30):
El estadístico: sigue una distribución t de Student con N-2 grados de libertad
rs tiende a una
En comparación con el test paramétrico clásico de Fisher:

VENTAJAS
VENTAJAS
No
No se
se asume
asume una
una relación
relación lineal
lineal entre
entre las
las variables.
variables.
No
No se
se asume
asume una
una distribución
distribución normal
normal bivariada.
bivariada.
Es
Es válido
válido para
para muestras
muestras en
en las
las que
que no
no se
se pueden
pueden hacer
hacer medidas
medidas pero
pero sí
sí asignar
asignar rangos.
rangos.
Es
Es más
más robusto
robusto
INCONVENIENTES
INCONVENIENTES
Pérdida
Pérdida de
de información
información
La
La eficiencia
eficiencia es
es del
del 91%
91% (para
(para distribuciones
distribuciones normales,
normales, en
en el
el test
test de
de Fisher
Fisher basta
basta con
con un
un tamaño
tamaño
muestral
muestral un
un 91%
91% menor
menor para
para rechazar
rechazar la
la hipótesis
hipótesis nula
nula con
con el
el mismo
mismo nivel
nivel de
de significación)
significación)
3. Correlación
3-20

Tabla con valores críticos
3. Correlación
3-21
23,24
20,23
16,21 23,22
21,20
17,19
15,17 19,18
18,16 23,15
8.5,14
7,11.5 8.5,11.5 12,13
11,10
10,9
13.5,8
3,5 13.5,7
2,6 4,4
6,3
1,2 5,1
Resultado de 106 simulaciones con BOOTSTRAP

para rs
Permite obtener una incertidumbre sobre el estadístico.
El resultado es muy seguro pues para ninguna
simulación se obtiene rs≤ 0 (P < 10-6)
Método muy robusto
3. Correlación
3-17

Método bayesiano (test de Jeffrey)
103 simulaciones
La probabilidad de que ρ tenga un valor de 0 (no

haya correlación) es muy pequeña.
Pero se ha supuesto una distribución normal
3. Correlación
3-18

Se ordenan de menor a mayor por separado los valores Xi e Yi de los datos y se sustituye cada uno por su
número de orden (rango): xi, yi representan los rangos en X e Y para el par i
Coeficiente
Coeficiente de
de correlación
correlación de
de rangos
rangos de
de Spearman
Spearman
(se sustituye la distribución de probabilidad desconocida por una distribución uniforme entre 1 y N)
Interpretación similar al coeficiente de Pearson
H0 se acepta si:
En caso de empates, se asigna a todos los puntos empatados el valor de medio de los rangos que
tendrían sin empates.
Fórmula más exacta

para el caso de una alta
fracción de empates:
fk, gm: nº de empates
por grupo
3. Correlación
3-19

Para muestras grandes (N > 30):
El estadístico: sigue una distribución t de Student con N-2 grados de libertad
rs tiende a una
En comparación con el test paramétrico clásico de Fisher:

VENTAJAS
VENTAJAS
No
No se
se asume
asume una
una relación
relación lineal
lineal entre
entre las
las variables.
variables.
No
No se
se asume
asume una
una distribución
distribución normal
normal bivariada.
bivariada.
Es
Es válido
válido para
para muestras
muestras en
en las
las que
que no
no se
se pueden
pueden hacer
hacer medidas
medidas pero
pero sí
sí asignar
asignar rangos.
rangos.
Es
Es más
más robusto
robusto
INCONVENIENTES
INCONVENIENTES
Pérdida
Pérdida de
de información
información
La
La eficiencia
eficiencia es
es del
del 91%
91% (para
(para distribuciones
distribuciones normales,
normales, en
en el
el test
test de
de Fisher
Fisher basta
basta con
con un
un tamaño
tamaño
muestral
muestral un
un 91%
91% menor
menor para
para rechazar
rechazar la
la hipótesis
hipótesis nula
nula con
con el
el mismo
mismo nivel
nivel de
de significación)
significación)
3. Correlación
3-20

Tabla con valores críticos
3. Correlación
3-21
23,24
20,23
16,21 23,22
21,20
17,19
15,17 19,18
18,16 23,15
8.5,14
7,11.5 8.5,11.5 12,13
11,10
10,9
13.5,8
3,5 13.5,7
2,6 4,4
6,3
1,2 5,1
Resultado de 106 simulaciones con BOOTSTRAP

para rs
Permite obtener una incertidumbre sobre el estadístico.
El resultado es muy seguro pues para ninguna
simulación se obtiene rs≤ 0 (P < 10-6)
Método muy robusto
3. Correlación
3-22
Test no paramétrico: Kendall

Método aún más paramétrico que el de Spearman. En vez de comparar los rangos, sólo se calcula si una
coordenada es mayor que la otra.
Par concordante (NC)
N datos (xi,yi) pares diferentes de puntos
Par discordante (ND)
Coeficiente
Coeficiente de
de correlación
correlación tau
tau de
de Kendall
Kendall
En el caso de empates: TX (nº de empates en la x )

TY (nº de empates en la y )
H0 se acepta si:
τ tiende rápidamente a una distribución normal con:

(N > 10)
Más lento de calcular que el coeficiente de Spearman (excepto para datos agrupados en intervalos)
Interpretación: el coeficiente de Spearman es similar al de Fisher (fracción de la variación de los datos

explicada por la correlación), mientras que el de Kendall indica la diferencia de la probabilidad de que las dos
variables estén en el mismo orden menos la probabilidad de que estén en un orden diferente.
3. Correlación
3-23
Test no paramétrico: Kendall

Tabla con
valores
críticos
3. Correlación
3-24
Kendall Tau
3. Correlación
3-25
Test de permutaciones
Otro método no paramétrico: Se extraen muestras de la muestra observada, del mismo tamaño, permutando
aleatoriamente las asignaciones de las Ys a las Xs (sin reemplazamientos), y se calcula para cada muestra el
valor del estadístico de prueba (ej. r, rs, τ, etc.). La distribución obtenida representa la distribución del estadístico
en el caso de no correlación. Se compara el valor observado con dicha distribución.
Ejemplo: 20 datos no correlacionados
Funciones de distribución para 1000

permutaciones (de las 20! posibles)
3. Correlación
3-26
Correlación parcial
SI se sabe que una tercera (cuarta, etc.) variable (conocida) está afectando la correlación se
puede eliminar su efecto.
Método paramétrico
Para una muestra de N datos con 3 variables:
Coeficiente de correlación
parcial de primer orden
Para una muestra de N datos con 4 variables:
(coeficiente de correlación entre x1 y Coeficiente de correlación

x2, manteniendo x3 y x4 constantes) parcial de segundo orden
Con desviaciones típicas:
Se aplica el test t de Student

3. Correlación
3-27
Conclusiones
Los métodos no paramétricos solucionan el problema de la distribución de probabilidad
desconocida pero comparten las dificultades de los métodos no bayesianos (se basan
en la comparación con la distribución bajo la hipótesis nula basada en observaciones
hipotéticas)
El método bayesiano es más directo pero no soluciona el problema del desconocimiento
de la distribución de probabilidad.
El método bayesiano proporciona resultados muy parecidos a usar el método de Fisher
con simulaciones (bootstrap).
El análisis de correlación no indica cuál es
la variable dependiente (fundamental para
hacer un análisis de regresión).
Tampoco implica una relación causa-
efecto.
El coeficiente de correlación por sí sólo no
proporciona toda la información.
Ejemplo: cuarteto de Ascombe (mismo
coeficiente de correlación y línea de
regresión)
3. Correlación
3-28
Práctica
Posible correlación entre la abundancia relativa de C,N y la luminosidad (o masa) del cúmulo de galaxias
(Carretero et al., 2004, Ap.J. 609, L45)
Cúmulo A279 A1238 Virgo A257 A2050 Coma A655 A1650

LX
0.08 0.15 0.30 0.31 1.22 1.80 1.97 2.01
(1044 erg/s)
[CN/Fe] 0.43 0.61 0.48 0.45 0.40 0.39 0.30 0.40

Tema 05

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 05

Cargado por

Copyright:

Formatos disponibles

3.

¿Para qué queremos buscar correlaciones?

Primera lecci ón:

Ejemplo: ley de Hubble

Ejemplo: ley de Hubble

Ejemplo: Luminosidades radio

La curva representa el límite de detección

r = 0.88 r = 0.26 r = 0.41

r = 0.08 r = 0.68 r = 0.94

Coeficiente de correlación lineal de Pearson

Relación con el coeficiente de

Coeficiente de determinación r2: tanto por ciento de la

Coeficiente de correlación poblacional

La función de densidad conjunta de X e Y sigue una distribución normal bivariada:

Para estimar ρ se usa el coeficiente de correlación muestral r

Ejemplo: ley de Hubble

La probabilidad de que ρ tenga un valor de 0 (no

Test no paramétrico: Spearman

Interpretación similar al coeficiente de Pearson

Fórmula más exacta

Test no paramétrico: Spearman

El estadístico: sigue una distribución t de Student con N-2 grados de libertad

En comparación con el test paramétrico clásico de Fisher:

Test no paramétrico: Spearman

Ejemplo: ley de Hubble

Resultado de 106 simulaciones con BOOTSTRAP

Ejemplo: ley de Hubble

La probabilidad de que ρ tenga un valor de 0 (no

Test no paramétrico: Spearman

Interpretación similar al coeficiente de Pearson

Fórmula más exacta

Test no paramétrico: Spearman

El estadístico: sigue una distribución t de Student con N-2 grados de libertad

En comparación con el test paramétrico clásico de Fisher:

Test no paramétrico: Spearman

Ejemplo: ley de Hubble

Resultado de 106 simulaciones con BOOTSTRAP

Test no paramétrico: Kendall

En el caso de empates: TX (nº de empates en la x )

τ tiende rápidamente a una distribución normal con:

Interpretación: el coeficiente de Spearman es similar al de Fisher (fracción de la variación de los datos

Test no paramétrico: Kendall

Ejemplo: ley de Hubble

Ejemplo: 20 datos no correlacionados

Funciones de distribución para 1000

Para una muestra de N datos con 3 variables:

Para una muestra de N datos con 4 variables:

(coeficiente de correlación entre x1 y Coeficiente de correlación

Con desviaciones típicas:

Se aplica el test t de Student

Cúmulo A279 A1238 Virgo A257 A2050 Coma A655 A1650

[CN/Fe] 0.43 0.61 0.48 0.45 0.40 0.39 0.30 0.40

También podría gustarte