Está en la página 1de 9

X.

CORRELACIÓN
X.1. Introducción (R.10.1)

Método a emplear en cada caso ¿Independientes? ¿Fuerza?


2
2 cualidades χ d, R, O
2 cantidades Regresión o Correlación r (correlación)
1 cantidad + 1 cualidad Al final de este capítulo
Objetivo correlación
• Medir la fuerza con que dos variables cuantitativas x e y están ligadas a través de los
resultados (xi; yi) obtenidos en n individuos, con i = 1,..., n.
• Realizar el test de independencia: H0: “x e y son independientes” vs. H1: “x e y son
dependientes”.

Muestreo válido (con dos cualidades pasaba algo similar)


• Para el test de independencia: el de Tipo I o el de Tipo II.
• Para medir la fuerza (coeficiente de correlación): solo el de Tipo I.

X.2. Correlación paramétrica: Coeficiente de correlación lineal simple o de


Pearson (R.10.2)
X.2.1. Modelo, tipo de muestreo, cálculos previos y comprobación del modelo

• Como en el capítulo anterior ⇒ medirá la fuerza de asociación bajo el supuesto de


que se verifica el modelo de regresión lineal si se asume el muestreo de Tipo I (los 14
niños se obtuvieron al azar).
• Para lo que sigue se utiliza el mismo ejemplo del capítulo anterior: estatura vs. edad.

X.2.2. Medida de la fuerza de asociación

La pendiente b no mide la fuerza


• Porque cambia con las unidades de medida: b = 2,44 si estatura en centímetros ⇒ b =
0,0244 si estatura en metros (en el ejemplo del capítulo anterior).
• Porque cambia con el orden (regresiones “y vs. x” o “x vs. y” de abajo):

by x =
( xy ) ≠ ( xy ) = b
( xx ) ( yy ) x y
La correlación r sí mide la fuerza
• La fuerza con que las dos variables están ligadas se mide mediante el coeficiente de
correlación poblacional ρ (lineal simple) o de Pearson, el cual se estima (bajo el
muestreo I) por el coeficiente de correlación muestral r (lineal simple):
130 X.- CORRELACIÓN

r=
( xy ) = en Tabla 9.1(b) reproducida abajo =
127
= +0 ,8775
( xx )( yy ) 52 × 402 ,86

Sumas de Cuadrados y de Productos Corregidos:


( xx) = 52, ( yy) = 402 ,86 , ( xy) = 127

• r es adimensional (es constante si x = años, meses, … o y = metros, centímetros, …).


• rxy = ryx por simetría de la expresión anterior.

X.2.3. Interpretación de r (bis para ρ)

¿Por qué no todos los niños tienen igual estatura?


(1) Porque “y = estatura” depende de “x = edad” (la estatura varía con la edad).
(2) Porque, aunque la edad (x) sea constante, hay variabilidad biológica de unos
individuos a otros (la estatura no sólo depende de la edad).
¿Cómo identificar numéricamente esos dos componentes?

1  ( xy ) 
2

s = 2
( yy ) − =
1
{( yy ) − b ( xy )} ⇒ despejando:
n − 2  ( xx )  n − 2
Variabilidad Comentarios
(yy) TOTAL • Variabilidad de todas las estaturas
=
• Variabilidad para x = constante (de las
(n−2) s2 NO EXPLICADA por x distancias verticales sobre la recta).
• Término (2) de arriba.
+
( xy ) • Resto de la variabilidad.
2

b(xy) ≡ SÍ EXPLICADA por x • Término (1) de arriba.


( xx )

( xy ) = r 2 = Coeficiente de Determinación
2
Variabilidad SÍ explicada
=
Variabilidad TOTAL ( xx )( yy )
• r2 = Fracción de la variabilidad de y SÍ explicada por x.
• 1− r2 = Fracción de la variabilidad de y NO explicada por x.
127 2
• r2 = = 0 ,7699 ≈ 77% ⇒
52 × 402 ,86
→ El 77% de la variabilidad de las estaturas está explicado por la edad.
→ El otro 23% está explicado por otras causas (variables NO medidas) o por el azar.

• r = ± 0 , 7699 = +0 ,8775 [pues (xy) > 0] para que tenga signo y así podamos saber si
y ↑ o ↓ con x.
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 131

X.2.4. Valores posibles de r (bis para ρ) y su visión gráfica

Parte (+ )
• r2 = ⇒ 0 ≤ r 2 ≤ 1 ⇒ −1 ≤ r ≤ +1 ⇒ ¡r no puede ser mayor que 1!
Todo (+)
• r2 = 1 ≡ x explica todo ⇒ r = ±1 es la asociación máxima: Figuras 10.1 (c) y (e).
• r2 = 0 ≡ x no explica nada ⇒ r = 0 es la asociación mínima = asociación nula ≡
independencia entre x e y: Figura 10.1 (f).

r = +0,6
r = +0,8 r = +1

(a) (b) (c)

r = −1

r=0

r = − 0,6

(d) (e) (f)

r = 0 r = 0

(g) (h )
Figura 10.1
Ilustración gráfica (a través de la nube de puntos) de los diversos valores
posibles del coeficiente de correlación lineal simple r.

• r > 0 ≡ b > 0 ≡ Asociación positiva (si x ↑ ⇒ y ↑): Figuras 10.1 (a), (b) y (c).
• r < 0 ≡ b < 0 ≡ Asociación negativa (si x ↑ ⇒ y ↓): Figuras 10.1 (d) y €.
• r>>> ≡ mucha asociación

rmide la fuerza de la asociación (solo si el muestreo es de tipo I);
Signo (r) mide el sentido de la misma

• Fig.10.1 (a): menos fuerza que Fig.10.1 (b) ⇒ el grado de aplastamiento de la nube
sobre una misma recta mide la fuerza.
• Fig.10.1 (a): igual fuerza, pero distinto sentido, que Fig.10.1 (d) ⇒ la inclinación de
la recta mide el sentido de la asociación.
132 X.- CORRELACIÓN

• ¡Ojo! Casos especiales de recta paralela al eje x ⇒ r = 0: Figuras 10.1 (g) y (h).

X.2.5. Valores habituales

• La intuición basada en la nube de puntos falla si r es pequeña: r = 0,2 (por ej.).
• Con datos biológicos r suele ser pequeño: r = 0,4 o r = 0,6 están bien (por ejemplo).
• Pero al evaluar métodos de medida debe obtenerse un r cercano a 1.

X.2.6. Test de independencia

• H0: ρ = 0 (independientes) vs. H1: ρ ≠ 0 (dependientes).


• Pero r = 0 ≡ (xy) = 0 ≡ b = 0 por las definiciones.
• De igual modo: ρ = 0 ≡ β = 0 ⇒ ¡igual test que en capítulo anterior!
• Modificando la fórmula del test para β = 0 (para que aparezca r) el test será (válido
para los dos muestreos, I y II, como entonces):

texp =
( n − 2) r2 vs. tα ( n − 2 gl ) de la Tabla 3
1 − r2
12 × 0 ,7699
texp = = 6 ,337 (12 gl ) ≈ 6 ,333 del capítulo anterior (errores redondeo)
1 − 0 ,7699
• ¡Ojo! r es muy variable ⇒ rha de ser grande para obtener significación con

muestras pequeñas ⇒

n > 20 o 30 en Ciencias de la Salud pues en ellas r <<<

• Por ejemplo:
→ Tabla 10.1: n = 9, r = 0,5052, texp = 1,35 ⇒ se concluye H0: ρ = 0
→ Si el 9 (en negrita) se cambia por 0 ⇒ ¡r = 0! ⇒ ¡r es inestable si n <<! (de ahí
que arriba se concluyera, prudentemente, H0).
Tabla 10.1
x 0 4 6 8 12 14 16 22 26
y 4 3 8 6 7 13 2 11 9

X.2.7. ¿Regresión o Correlación?

• Depende del objetivo:


→ Correlación: si interesa sólo la independencia, fuerza y sentido de la asociación.
→ Regresión: si interesan además las predicciones o la pendiente.
• Lo habitual es proporcionar ambas informaciones: Figura 10.2.
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 133

Figura 10.2: Modo usual de presentar unos datos experimentales en regresión lineal

X.3. Coeficiente de Correlación de Spearman (R.10.3)


X.3.1. Objetivo

• Medir la asociación entre dos variables cuantitativas cualesquiera (verifiquen o no el


modelo de regresión lineal) ⇒ es un método no paramétrico.

X.3.2. Condiciones

• La asociación ha de ser monotónica (una variable siempre crece o siempre decrece


con la otra) ⇒ ¿se verifica la condición?:

SÍ SÍ SÍ NO

X.3.3. Estimación

• La fuerza de la asociación la mide el coeficiente de correlación poblacional de


Spearman ρS, el cual se estima (bajo el muestreo I) por el coeficiente de correlación
muestral ρ̂ S = rS determinado a través de los siguientes pasos:
Tabla 10.2
Puntuaciones del test de ansiedad en embarazadas antes del parto (x) y de la sensación
dolorosa durante el mismo (y)
Embarazada nº 1 2 3 4 5 6 7 8 9 10 11 12
xi 60 72 46 68 51 65 81 48 39 84 78 49
Ansiedad
Ri 6 9 2 8 5 7 11 3 1 12 10 4
Sensación yi 9 11 4 10 8 12 16 5 6 14 13 15
Dolorosa Ri′ 5 7 1 6 4 8 12 2 3 10 9 11

(1) Obtener una muestra de n parejas de valores (xi; yi): líneas 2 y 4 de Tabla 10.2.
134 X.- CORRELACIÓN

(2) Ordenar de menor a mayor los valores de xi y asignarles rangos Ri por el mismo
procedimiento que en los tests de Wilcoxon: línea 3 de Tabla 10.2.
(3) Proceder igual con los valores de yi asignándoles rangos Ri′ : línea 5 de T. 10.2.

(4) Anotar las parejas ( Ri ;Ri′) correspondientes a las parejas (xi; yi) originales,

comprobando que ΣRi = Σ Ri′ = n(n+1)/2: 78 = 78 = 12×13/2 (ver abajo) ⇒ OK.

(5) Obtener el coeficiente de correlación lineal simple para las n = 12 parejas de


rangos, es decir, y con igual convenio que en el capítulo anterior (x ≡ R, y ≡ R′ ):

rS =
( RR′) =
107
= +0 ,7483
( RR )( R′R′) 143 × 143

• El resultado anterior se basa en que:


ΣRi = 6 + 9 + ... + 4 = 78 ( ΣRi )
2
782
 2 ⇒ ( RR ) = ΣR 2
− = 650 − = 143 ,
ΣRi = 6 + 9 + ... + 4 = 650
2 2 2 i
n 12

ΣRi′ = 5 + 7 + ... + 11 = 78 ( ΣRi′) = 650 − 782 = 143 ,


2

 2 ⇒ ( )
R ′R ′ = Σ R ′2

ΣRi′ = 5 + 7 + ... + 11 = 650
2 2 2 i
n 12

ΣRi Ri′ = 6 × 5 + 9 × 7 + ... + 4 × 11 = 614 ⇒ ( RR′) = ΣRi Ri′ −


( ΣRi )( ΣRi′) = 614 − 78 × 78 = 107
n 12

Embarazada nº 1 2 3 4 5 6 7 8 9 10 11 12
xi 60 72 46 68 51 65 81 48 39 84 78 49
Ansiedad
Ri 6 9 2 8 5 7 11 3 1 12 10 4
Sensación yi 9 11 4 10 8 12 16 5 6 14 13 15
Dolorosa Ri′ 5 7 1 6 4 8 12 2 3 10 9 11

• Cuando no hay empates (como en el ejemplo actual) ⇒ la fórmula anterior se


simplifica en la siguiente (pues ahora además de ΣRi = Σ Ri′ ocurre que ΣRi2 = ΣRi′2 ):

∑ ( R − R′ )
2

rS = 1 − 6 × i i

( n − 1) n ( n+1)
( 6 − 5) + ... + ( 4 − 11)
2 2
72
rS = 1− 6× = 1− 6× = +0,7483 (como antes)
11 ×12 ×13 11 ×12 ×13

X.3.4. Propiedades

• Como rS = r para los rangos ⇒ las propiedades de rS son las de r (pero para rangos).

X.3.5. Test de independencia (H0: ρS = 0 vs. H1: ρS ≠ 0)

• Válido para cualquier muestreo:


i) Si n ≤ 30: Comparar rScon rα de la Tabla 10 por el modo allí indicado.
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 135

ii) Si n > 30: Comparar zexp =rS× n − 1 con una zα de la Tabla 1.


• En el ejemplo n = 12 ≤ 30: rS= 0,7483 ≥ r5% (n = 12) = 0,5910 ⇒ H1.
• Calculando P: 1% < P < 5% ⇒ hay evidencias (P < 5%) de que a más ansiedad (x),
más sensación dolorosa (y), pues rS > 0.
Tabla 10: Límites de significación para el coeficiente de correlación de Spearman
α 0,10 0,01 0,001
0,05
n
11 0,5294 0,6194 0,7724 0,8875
12 0,4973 0,5910 0,7509 0,8720
13 0,4748 0,5658 0,7294 0,8565
14 0,4562 0,5436 0,7080 0,8410
15 0,4396 0,5238 0,6865 0,8255
16 0,4247 0,5061 0,6650 0,8100
17 0,4112 0,4900 0,6440 0,7945
18 0,3989 0,4754 0,6247 0,7790
19 0,3877 0,4620 0,6071 0,7635
20 0,3774 0,4496 0,5909 0,7480

Nota: Para cada número n de parejas de datos (primera columna) y para cada nivel de significación α
(primera fila), en el interior de la tabla se da un valor rα tal que si el coeficiente de correlación
de Spearman rS verifica que rS ≥ rα entonces se rechaza la hipótesis nula de independencia.
Las casillas con -- indican que para esos valores de n y α el test no puede dar significativo.
• Si fuera n > 30 (que no lo es), el TCL permite utilizar la opción ii):
zexp = 0 , 7483 × 11 = 2 , 482 ⇒ 1% < P < 5%

X.4. Test de independencia con variables mixtas (R.10.4)


X.4.1. Introducción

Caso (Acción ⇒ ) Test


2 cualidades Chi-cuadrado
Test de
2 cantidades Regresión o Correlación
Independencia
1 cualidad → Convertirla en cantidad ⇒ R o C
entre (solo si ordinal)
+ (mixto) o
1 cantidad → Convertirla en cualidad ⇒ χ2

• Caso mixto: H0: Los valores que toma un individuo con respecto a una variable
cuantitativa x son independientes de la clase a que este pertenece respecto de una
cualidad C.

X.4.2. Cualidad ordinal → Cantidad

• Para los datos de la Tabla 10.3:


→ x = cantidad (continua).
→ Resultado = cualidad ordinal ⇒ y = +1, 0, −1 = cantidad (discreta) ⇒
136 X.- CORRELACIÓN

→ Ya hay ¡2 cantidades!
→ Nube de puntos: monotónica (algo de curvatura) ⇒ no aplicar Pearson + sí
Spearman.
Tabla 10.3
Grado de mejoría (y) y edades (x) de un grupo de 10 pacientes
Paciente nº 1 2 3 4 5 6 7 8 9 10
Edad (x) 29 42 31 48 49 26 39 50 43 31
Resultado Mejor Igual Mejor Peor Peor Mejor Igual Peor Igual Mejor
Anotación (y) +1 0 +1 −1 −1 +1 0 −1 0 +1
Ri 2 6 3,5 8 9 1 5 10 7 3,5
R′i 08,5 5 8,5 2 2 08,5 5 02 5 8,5

• Spearman: rS = −0,9468 ⇒ H1 (P < 1%) ⇒ evidencias de asociación (negativa) ⇒ a


más edad, peor evolución (como era previsible).
• Estabilidad: {+1, 0, −1} ≡ {+2, 0, −2} ≡ {1, 2, 3} ≡ {+2, 0, −1} ¡como en χ2!

X.4.3. Cantidad → Cualidad

En Tabla 10.4 SÍ es posible


Tabla 10.4
Clasificación de 194 individuos según la enfermedad que poseen y el grado de clorhidria
(entre paréntesis los % por filas)

Acidez
Hiperclorhidria Normal Hipoclorhidria Total
Enfermedad
Úlcera crónica 30 (19,7%) 100 (65,8%) 22 (14,5%) 152
Cáncer de Estómago 04 (9,5%) 18 (42,9%) 20 (47,6%) 042
Total 34 118 00 42 194

• Enfermedad = Cualidad no ordinal ⇒ no puede pasarse a cantidad.


• pH = Cantidad (continua) ⇒ se convirtió en cualidad agrupándola en pH bajo,
medio y alto.
• Ya hay ¡2 cualidades! ⇒ Tabla de Contingencia 2×3 (de arriba).
• χ exp
2
= 21,52 ( 2 gl ) ⇒ H1 (P < 1‰) ⇒ Hiper asociado a Úlcera (19,7% > 9,5%) +

Hipo asociado a Cáncer (14,5% < 47,6%).

En Tabla 10.3 NO es posible + NO es conveniente


• n = 10 ⇒ no dan Oij suficientes para la cdv del test χ2.
• Tampoco es conveniente: agrupar en jóvenes, mayores y ancianos (por ejemplo) es
perder información ⇒
Si se puede, debe evitarse convertir una cantidad en una cualidad
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 137

La Tabla 10.4 fue una estupidez


Tabla 10.5: Datos originales de la Tabla 10.4
(a)
Enfermedad de estómago y grado de acidez de 194 (b)
individuos (C = Cáncer) (U = Úlcera) Reclasificación de los datos de la Tabla (a)

Individuo nº 1 2 3 ….. 194 Úlcera 7,2 7,9 ... (152 valores)


Enfermedad U C C ….. U Cáncer 6,7 6,0 ... (42 valores)
Grado acidez 7,2 6,7 6,0 ….. 7,9

• Pues se convirtió la cantidad (pH) en cualidad.


• Sus datos originales serían como en la Tabla 10.5 (a): dos muestras apareadas de una
cualidad (Enfermedad) y una cantidad (el pH).
• Sus datos reordenados son como en Tabla 10.5 (b): dos muestras independientes de
una cantidad (el pH).
• Para ellos: H0: µU=µC (pH medio de cada enfermedad) por tests Student o Wilcoxon.
• Como los pH originales se perdieron, pueden rescatarse parcialmente haciendo:
Hiper = +1, Normal = 0, Hipo = −1
y, como las muestras son grandes (152 y 42), aplicando el TCL:
zexp = 3,827 ⇒ H1 (P < 1‰)

¿Por qué es frecuente el error anterior?


• Por lo común y sencillo del test χ2.
• Porque la pregunta confunde:
¿pH y enfermedad son independientes?
¡parece un problema de asociación!
¡pero es de comparación de 2 medias! (los pH medios de U y C)

Hacer ya la relación de Cuestiones + Problemas

FIN DE LA ASIGNATURA

También podría gustarte