Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis Estadistico Tema05 PDF
Analisis Estadistico Tema05 PDF
Correlación
3-1
Tema 3
Correlación
Introducción
Introducción
Coeficiente
Coeficiente de
de correlación
correlación lineal
lineal de
de Pearson
Pearson
Coeficiente
Coeficiente de
de correlación
correlación poblacional
poblacional
Contraste
Contraste paramétrico
paramétrico clásico
clásico
Transformación
Transformación de
de Fisher
Fisher
Correlación
Correlación bayesiana
bayesiana
Test
Test no
no paramétrico:
paramétrico: Spearman
Spearman
Test
Test no
no paramétrico:
paramétrico: Kendall
Kendall
Test
Test de
de permutaciones
permutaciones
Correlaciones
Correlaciones parciales
parciales
Conclusiones
Conclusiones
Ejemplo:
Ejemplo: ley
ley de
de Hubble
Hubble
3. Correlación
3-2
Introducción
Introducción
Los peligros de salir a pescar:
La
La correlación
correlación podría
podría deberse
deberse aa efectos
efectos de
de selección.
selección.
Introducción
Los peligros de salir a pescar:
La
La correlación
correlación podría
podría deberse
deberse aa efectos
efectos de
de selección.
selección.
Cuidado
Cuidado con
con los
los outliers
outliers (regla
(regla del
del pulgar)
pulgar)
Introducción
Los peligros de salir a pescar:
La
La correlación
correlación podría
podría deberse
deberse aa efectos
efectos de
de selección.
selección.
Cuidado
Cuidado con
con los
los outliers
outliers (regla
(regla del
del pulgar)
pulgar)
Cuidado
Cuidado con
con mezclar
mezclar grupos
grupos de
de medidas
medidas no
no homogéneas
homogéneas
r = 0.90 r = 0.04
r = -0.20
3. Correlación
3-8
Introducción
Los peligros de salir a pescar:
La
La correlación
correlación podría
podría deberse
deberse aa efectos
efectos de
de selección.
selección.
Cuidado
Cuidado con
con los
los outliers
outliers (regla
(regla del
del pulgar).
pulgar).
Cuidado
Cuidado con
con mezclar
mezclar grupos
grupos de
de medidas
medidas no
no homogéneas.
homogéneas.
Podría
Podría existir
existir una
una correlación
correlación no
no lineal.
lineal.
r = -0.32
3. Correlación
3-9
Introducción
Los peligros de salir a pescar:
La
La correlación
correlación podría
podría deberse
deberse aa efectos
efectos de
de selección.
selección.
Cuidado
Cuidado con
con los
los outliers
outliers (regla
(regla del
del pulgar).
pulgar).
Cuidado
Cuidado con
con mezclar
mezclar grupos
grupos de
de medidas
medidas no
no homogéneas.
homogéneas.
Podría
Podría existir
existir una
una correlación
correlación no
no lineal.
lineal.
Una
Una correlación
correlación no
no implica
implica una
una relación
relación causal
causal (terceras
(terceras variables).
variables).
3. Correlación
3-10
Cálculo:
Relación con la −1 ≤ r ≤ 1
varianza residual
ρρ :: coeficiente
coeficiente de
de
correlación
correlación poblacional
poblacional
X e Y son independientes
X e Y no están correlacionados
Si Tienen distribuciones con colas que caen rápido
N es grande (>500)
3. Correlación
3-12
H0 se acepta si:
Para
Para poder
poder aplicar
aplicar este
este método:
método:
O se determina el nivel de significación p
para poder rechazar H0 (probabilidad de •• Datos
Datos en
en una
una escala
escala continua
continua
que, si no hay correlación, se obtenga un •• La
La relación
relación entre
entre X
X ee Y
Y ha
ha de
de ser
ser lineal
lineal
valor de |r| igual o mayor al observado)
•• Ambas
Ambas variables
variables siguen
siguen distribuciones
distribuciones normales
normales
3. Correlación
3-13
Transformación de Fisher
Para muestras grandes (N ≥ 25)
½
H0 : ρ = ρ0 Contraste para un valor determinado de ρ
Hipótesis :
H1 : ρ 6= ρ0
H0 se acepta si:
½
H0 : ρ1 = ρ2 Comparación de dos correlaciones
Hipótesis :
H1 : ρ1 6= ρ2
H0 se acepta si:
3. Correlación
3-14
1000
800
800
600
600
400
400
200
200
00
-200
-200
-400
-400
-0,2
-0,2 0,0
0,0 0,2
0,2 0,4
0,4 0,6
0,6 0,8
0,8 1,0
1,0 1,2
1,2 1,4
1,4 1,6
1,6 1,8
1,8 2,0
2,0 2,2
2,2
DD 95%
95% confi
confidence
dence
HiHistog
stograramm: :DD HiHistog
stograramm: :VV
K-S
K-Sd=,1
d=,1305
3052,2,p>p>.20;
.20;LiLil lil liefors
eforspp>>.2.200 K-S
K-Sdd=,121
=,12192,
92,p> p>.20;
.20;LiLilllli efors
i eforsp>
p>.20
.20
EExp xpected
ectedNorm Normalal Exp
Expected
ectedNorm Normalal
10
10 88
99
77
88
66
77
55
66
obs.
obs.
No.ofofobs.
No.ofofobs.
55 44
No.
No.
44
33
33
22
22
11
11
00 00
-0-0,5,5 00,0,0 0,5 1,0 11,5,5 2,0 2,5 -5-500
00 00 500
500 11000
000 1500
1500 200
20000 250
25000
0,5 1,0 2,0 2,5
XX<= XX<=
<=Categ
Category
oryBoun
Boundary
<=Ca
Catego
tegoryryBou
Bounda
ndaryry dary
3. Correlación
3-15
1160
60
103 simulaciones Una
Una buena
buena estimación
estimación de
de la
la incertidumbre
incertidumbre en
en rr puede
puede
1140
40 hacerse
hacerse mediante
mediante BOOTSTRAP:
BOOTSTRAP: se se extraen
extraen con
con
1120
20 reemplazamiento
reemplazamiento muchas
muchas muestras
muestras aleatorias
aleatorias de
de tamaño
tamaño
N
N (se
(se usa
usa la
la muestra
muestra observada
observada comocomo población)
obs.
población)
ofobs.
1100
00
No.of
80
80
No.
60
60
40
40
20
20
Para calcular el nivel de significación habría que hacer
00
simulaciones hasta obtener un valor de r = 0 (p=1/Nsimul)
00,44
,44 00,48
,48 0,5
0,522 0,5
0,566 0,60
0,60 0,64
0,64 00,68
,68 0,72
0,72 0,7
0,766 0,8
0,800 00,84
,84 00,88
,88 0,92
0,92 0,9
0,966
00,46
,46 0,50
0,50 0,54
0,54 0,5
0,588 0,6
0,622 00,66
,66 00,70
,70 0,7
0,744 0,7
0,788 0,82
0,82 0,86
0,86 00,90
,90 0,94
0,94 0,9
0,988
XX << Categ
Category
oryBou
Bounda
ndaryry
106 simulaciones
Correlación bayesiana
Cálculo de la distribución de probabilidad del coeficiente de correlación poblacional ρ a partir
de la verosimilitud de los datos. Hay que marginalizar para todos los parámetros no
relevantes
Distribución de
Jeffreys
A partir de la distribución de probabilidad se puede calcular ej: P(ρ > ρ0), P(ρ1 > ρ2), etc.
Ejemplo: ρmax=0.19
ρmax=0.44
Excluyendo puntos con desviaciones
mayores de 4σ
Coeficiente
Coeficiente de
de correlación
correlación de
de rangos
rangos de
de Spearman
Spearman
(se sustituye la distribución de probabilidad desconocida por una distribución uniforme entre 1 y N)
H0 se acepta si:
En caso de empates, se asigna a todos los puntos empatados el valor de medio de los rangos que
tendrían sin empates.
rs tiende a una
23,24
20,23
16,21 23,22
21,20
17,19
15,17 19,18
18,16 23,15
8.5,14
7,11.5 8.5,11.5 12,13
11,10
10,9
13.5,8
3,5 13.5,7
2,6 4,4
6,3
1,2 5,1
Coeficiente
Coeficiente de
de correlación
correlación tau
tau de
de Kendall
Kendall
H0 se acepta si:
Más lento de calcular que el coeficiente de Spearman (excepto para datos agrupados en intervalos)
Kendall Tau
3. Correlación
3-25
Test de permutaciones
Otro método no paramétrico: Se extraen muestras de la muestra observada, del mismo tamaño, permutando
aleatoriamente las asignaciones de las Ys a las Xs (sin reemplazamientos), y se calcula para cada muestra el
valor del estadístico de prueba (ej. r, rs, τ, etc.). La distribución obtenida representa la distribución del estadístico
en el caso de no correlación. Se compara el valor observado con dicha distribución.
Correlación parcial
SI se sabe que una tercera (cuarta, etc.) variable (conocida) está afectando la correlación se
puede eliminar su efecto.
Método paramétrico
Coeficiente de correlación
parcial de primer orden
Conclusiones
Los métodos no paramétricos solucionan el problema de la distribución de probabilidad
desconocida pero comparten las dificultades de los métodos no bayesianos (se basan
en la comparación con la distribución bajo la hipótesis nula basada en observaciones
hipotéticas)
El método bayesiano es más directo pero no soluciona el problema del desconocimiento
de la distribución de probabilidad.
El método bayesiano proporciona resultados muy parecidos a usar el método de Fisher
con simulaciones (bootstrap).
El análisis de correlación no indica cuál es
la variable dependiente (fundamental para
hacer un análisis de regresión).
Tampoco implica una relación causa-
efecto.
El coeficiente de correlación por sí sólo no
proporciona toda la información.
Ejemplo: cuarteto de Ascombe (mismo
coeficiente de correlación y línea de
regresión)
3. Correlación
3-28
Práctica
Posible correlación entre la abundancia relativa de C,N y la luminosidad (o masa) del cúmulo de galaxias
(Carretero et al., 2004, Ap.J. 609, L45)