Está en la página 1de 28

Bloque III.

Caracterizacin de la
relacin entre variables


Tema.8. Medidas de relacin o asociacin. Concepto.
Distribucin conjunta de frecuencias y representacin
grfica. Covarianza y coeficiente de correlacin de
Pearson. Otros coeficientes. Tratamiento de la relacin no
lineal. Introduccin a la correlacin mltiple.
Concepto

Hasta ahora nos hemos centrado en medidas de
tendencia central, variabilidad, asimetra y curtosis
de una nica variable.

No obstante, en la prctica es comn examinar dos
o ms variables conjuntamente (v.g., relacin entre
inteligencia y rendimiento, etc.)

En este tema nos centraremos en la relacin entre
2 variables (a partir de n observaciones apareadas)
y calcularemos un ndice que nos dar el grado de
relacin/asociacin entre ambas variables: el
coeficiente de correlacin lineal (de Pearson)
Representacin grfica de una relacin


inteligencia
r
e
n
d
i
m
i
e
n
t
o

r
e
n
d
i
m
i
e
n
t
o

r
e
n
d
i
m
i
e
n
t
o

inteligencia
inteligencia
Relacin lineal positiva
Relacin lineal negativa
Sin relacin
Nota: El coeficiente de correlacin de Pearson mide relacin LINEAL.
Representacin grfica de una relacin (2)


r
e
n
d
i
m
i
e
n
t
o

r
e
n
d
i
m
i
e
n
t
o

inteligencia
inteligencia
Relacin lineal
Relacin no lineal
Nota: El coeficiente de correlacin de Pearson mide relacin LINEAL.
Representacin grfica de una relacin (3)


inteligencia
r
e
n
d
i
m
i
e
n
t
o

r
e
n
d
i
m
i
e
n
t
o

r
e
n
d
i
m
i
e
n
t
o

inteligencia
inteligencia
Relacin lineal perfecta
(casi perfecta)
Relacin lineal dbil
Relacin lineal
fuerte/moderada
Ahora necesitamos un ndice que nos informe tanto del grado en que X e Y
estn relacionadas, y si la relacin es positiva o negativa
Covarianza e ndice de correlacin de Pearson
r
e
n
d
i
m
i
e
n
t
o

inteligencia
Observad que cuando la relacin lineal es
positiva, cuando las puntuaciones diferenciales de
X son positivas, las puntuaciones diferenciales de
Y suelen ser positivas.
inteligencia
r
e
n
d
i
m
i
e
n
t
o

Observad que cuando la relacin lineal es
negativa, cuando las puntuaciones diferenciales
de X son positivas, las puntuaciones diferenciales
de Y suelen ser negativas.
Caso 1
Caso 2
Covarianza
La covarianza aprovecha esta caracterstica sealada en la
transparencia anterior (al emplear el producto de las
puntuaciones diferencias de X e Y). He aqu la frmula:

1
n
i i
i
xy
X X Y Y
s
n

En el caso 1, la covarianza ser un valor positivo, y


en el caso 2, la covarianza ser un valor negativo. Por
tanto la covarianza nos da una idea de si la relacin
entre X e Y es positiva o negativa.
Problema: la covarianza no en un ndice acotado (v.g., cmo interpretar una
covarianza de 6 en trminos del grado de asociacin), y no tiene en cuenta la
variabilidad de las variables. Por eso se emplea el siguiente ndice....
Coeficiente de correlacin (lineal) de Pearson
El coeficiente de correlacin de Pearson parte de la
covarianza:

1
n
i i
i
xy
x y
X X Y Y
r
n s s

xy
xy
x y
s
r
s s

Ahora veremos varias propiedades del ndice...


Coeficiente de correlacin (lineal) de Pearson
Propiedad 1. El ndice de correlacin de Pearson no puede valer
menos de -1 ni ms de +1.

Un ndice de correlacin de Pearson de -1 indica una relacin lineal
negativa perfecta

Un ndice de correlacin de Pearson de +1 indica una relacin
lineal positiva perfecta.

Un ndice de correlacin de Pearson de 0 indica ausencia de
relacin lineal. (Observad que un valor cercano a 0 del ndice no
implica que no haya algn tipo de relacin no lineal: el ndice de
Pearson mide relacin lineal.)
Coeficiente de correlacin (lineal) de Pearson
Propiedad 2. El ndice de correlacin de Pearson (en valor absoluto)
no vara cuando se transforman linealmente las variables.

Por ejemplo, la correlacin de Pearson entre la temperatura (en grados
celsius) y el nivel de depresin es la misma que la correlacin entre la
temperatura (medida en grados Fahrenheit) y el nivel de depresin.

Evidentemente, el ndice de correlacin de Pearson es el mismo entre
las puntaciones directas de X e Y, o entre las puntuaciones
diferenciales de X e Y, o entre las puntuaciones tpicas de X e Y.
(Recordad que las puntuaciones diferenciales y las puntuaciones
tpicas son transformaciones lineales de las puntuaciones directas.)
Coeficiente de correlacin (lineal) de Pearson
Interpretacin
Hemos de tener en cuenta qu es lo que estamos midiendo para
poder interpretar cun grande es la relacin entre las variables bajo
estudio. En muchos casos, depende del rea bajo estudio.
r
e
n
d
i
m
i
e
n
t
o

inteligencia
En todo caso, es muy importante efectuar
el diagrama de dispersin. Por ejemplo, en
el caso de la izquierda, es claro que no
hay relacin entre inteligencia y
rendimiento. Sin embargo, si calculamos
el ndice de correlacin de Pearson nos
dar un valor muy elevado, causado por la
puntuacin atpica en la esquina superior
derecha.
Coeficiente de correlacin (lineal) de Pearson
Interpretacin (2)

Es importante indicar que CORRELACIN NO IMPLICA CAUSACIN. El
que dos variables estn altamente correlaciones no implica que X causa Y ni
que Y causa X.

(Esa es una de las razones empleadas por las tabaqueras en el tema de la
correlacin entre cncer de pulmn y el hecho de fumar.)

Coeficiente de correlacin (lineal) de Pearson
Interpretacin (3)
Es importante indicar que el coeficiente de correlacin de Pearson puede
verse afectado por la influencia de terceras variables.
Por ejemplo, si furamos a un colegio y medimos la estatura y pasamos una
prueba de habilidad verbal, saldr que los ms altos tambin tienen ms
habilidad verbal...claro, que eso puede ser debido simplemente a que en el
colegio los nios ms altos sern mayores en edad que los ms bajos.
H
a
b
i
l
i
d
a
d

n
u
m

r
i
c
a

Estatura
6 aos
8 a
10 a
12 a
14 a
Si se parcializa esta tercera variable
(mediante correlacin parcial, que ya
veremos ms adelante), difcilmente
habr una relacin de importancia entre
estatura y habilidad numrica.

Hay muchos casos en que es la tercera
variable la causante de una alta
relacin entre X e Y (y ello muchas
veces es difcil de identificar)
Coeficiente de correlacin (lineal) de Pearson
Interpretacin (3)
Por otra parte, el valor del coeficiente de Pearson depende en parte de la
variabilidad del grupo.

R
e
n
d
i
m
i
e
n
t
o

inteligencia
CI bajo CI alto
Si efectuamos el coeficiente de Pearson
entre inteligencia y rendimiento con todos los
sujetos, el valor del coeficiente de Pearson
ser bastante elevado.
Sin embargo, si empleamos nicamente los
individuos con CI bajo (o CI alto) y
calculamos la correlacin con Rendimiendo,
el valor del coeficiente de Pearson ser
claramente menor.
Un grupo heterogneo dara pues un mayor
grado de relacin entre variables que un
grupo homogneo.
Otros coeficientes (variables no cuantitativas)

Claro est, es posible obtener medidas del grado de relacin de
variables cuando stas no sean cuantitativas. Volveremos a este punto
una vez visto el tema siguiente (prediccin y estimacin que est muy
relacionado con lo que llevamos visto en el tema).

En todo caso, veamos varios ejemplos.
1. El caso en que las variables X e Y sean ordinales
Recordad, cuando tenemos variables con escala ordinal, podemos
establecer el orden entre los valores, pero no sabemos las distancias entre
los valores. (Si supiramos la distancia entre los valores ya estaramos al
menos en una escala de intervalo)
Podemos calcular el coeficiente de correlacin de Spearman o el
coeficiente de correlacin de Kendall. (Veremos el primero.)
Coeficiente de correlacin de Spearman

Lo que tenemos ahora son 2 sucesiones de valores ordinales.

El coeficiente de Spearman es un caso especial del coeficiente de
correlacin de Pearson aplicada a dos series de los n primeros nmeros
naturales (cuando no hay empates; si hay muchos- empates hay otra
frmula

2
1
2
6
1
1
n
i
i
s
d
r
n n

i
d
es la diferencia entre el valor ordinal en X y el valor
ordinal en Y del sujeto i
Coeficiente de correlacin de Spearman
(propiedades)

Primera. Se encuentra acotado, como el coeficiente de Pearson entre -1
y +1.

Un coeficiente de Spearman de +1 quiere decir que el que es primero en
X es primero en Y, el que es segundo en X es segundo en I, etc
Un coeficiente de Sperman de -1 quiere decir que el que es primero en
X es ltimo en Y, el segundo en X es el penltimo en Y, etc.
Segunda. Su clculo es muy sencillo (ms que el del coeficiente de
correlacin de Pearson). No obstante, con los ordenadores y un
programa estadstico, esto es irrelevante estos das...
Introduccin a la correlacin mltiple

En este caso, se estudian conjuntamente 3 o ms variables. Veremos
ahora dos casos:




El anlisis de la correlacin de una de las variables con las otras
dos consideradas conjuntamente (correlacin mltiple)

y

La correlacin existente entre dos variables, eliminando el influjo
de la tercera variable (correlacin parcial)
Introduccin a la correlacin mltiple (2)

El coeficiente de correlacin mltiple es un ndice que mide la relacin
existente entre una variable X
1
y otras variables, X
2
, X
3
, ....,
consideradas stas conjuntamente.

Para simplificar veremos el caso de tres variables. Es decir, el
coeficiente de correlacin mltiple medir la relacin entre X
1
y las
variables X
2
y X
3
consideradas conjuntamente.
2 2
12 13 12 13 23
1.23
2
23
1
r r r r r
R
r

(hay otras frmulas)


Introduccin a la correlacin mltiple (3)

El coeficiente de correlacin mltiple es aceptado como positivo; no
obstante, no tiene sentido hablar de sentido (positivo/negativo), dado
que es funcin de varias correlaciones, algunas de las cuales pueden
ser positivas y otras negativas. Su valor est entre 0 y 1.
El valor del coeficiente de correlacin mltiple tiende a aumentar cuando
aumentan y , y disminuye
2 2
12 13 12 13 23
1.23
2
23
1
r r r r r
R
r

12
r
13
r
23
r
Introduccin a la correlacin mltiple (4).
Ejemplo

Datos (N=5)

X
1
X
2
X
3
Rendim Ansied Neurot
9 3 5
3 12 15
6 8 8
2 9 7
7 7 6
Correlaciones
1 -.865 -.600
. .058 .285
5 5 5
-.865 1 .853
.058 . .066
5 5 5
-.600 .853 1
.285 .066 .
5 5 5
Correl aci n de Pearson
Si g. (bi lateral )
N
Correl aci n de Pearson
Si g. (bi lateral )
N
Correl aci n de Pearson
Si g. (bi lateral )
N
RENDIM
ANSIE
NEURO
RENDIM ANSIE NEURO
12
0'865 r
13
0' 600 r
23
0'853 r
Introduccin a la correlacin mltiple (5)

Datos (N=5)

Rendim Ansied Neurot
9 3 5
3 12 15
6 8 8
2 9 7
7 7 6
2 2
1.23
2
( 0'865) ( 0' 600) ( 0'865)( 0' 600)(0'853)
1 (0'853)
R

Resumen del modelo


.904
a
.817 .634 1.744
Modelo
1
R R cuadrado
R cuadrado
corregi da
Error tp. de l a
estimaci n
Vari abl es predi ctoras: (Constante), NEURO, ANSIE
a.
1.23
0' 904 R
Observad que este coeficiente es slo
un poco mayor que el que haba entre
las variables X
1
y X
2
Introduccin a la correlacin mltiple (6)

Nuevo Conjunto Datos (N=5)

Rendim Ansied Extrov
9 3 20
3 12 10
6 8 11
2 9 14
7 7 7
Correlaciones
1 -.865 .320
. .058 .599
5 5 5
-.865 1 -.629
.058 . .255
5 5 5
.320 -.629 1
.599 .255 .
5 5 5
Correl aci n de Pearson
Si g. (bi lateral )
N
Correl aci n de Pearson
Si g. (bi lateral )
N
Correl aci n de Pearson
Si g. (bi lateral )
N
RENDIM
ANSIE
EXTRO
RENDIM ANSIE EXTRO
Observad que ahora la
correlacin entre X
1
y X
3

es de menor grado que
antes; pero veremos que
se compensa por el hecho
de que la correlacin de
X
2
y X
3
es tambin menor.
Introduccin a la correlacin mltiple (7)

Nuevo Conjunto Datos (N=5)

Rendim Ansied Extrov
9 3 20
3 12 10
6 8 11
2 9 14
7 7 7
Resumen del modelo
.912
a
.831 .662 1.675
Modelo
1
R R cuadrado
R cuadrado
corregi da
Error tp. de l a
estimaci n
Vari abl es predi ctoras: (Constante), EXTRO, ANSIE
a.
Podis ver que ahora el
coeficiente de correlacin
mltiple es (ligeramente)
mayor que en el caso
anterior.
Veremos ms sobre todo esto en el tema siguiente (apartado de regresin mltiple)
Correlacin Parcial

Ya vimos antes que efectuar la correlacin de Pearson entre la estatura
y la habilidad numrica en un grupo de nios poda estar influida por
la edad (es decir, al aumentar la edad aumenta la estatura y aumenta
la habilidad numrica).


Cmo controlamos el efecto de la edad en tal caso?



Primera posibilidad (eliminacin emprica)

Se tratara de formar subgrupos de edad, en el que cada uno de ellos la
edad fuera similar y se calcular el coeficiente de Pearson para cada
subgrupo. Esto es correcto, pero quizs ahora cada uno de estos
coeficientes se calcule con pocos individuo, lo que puede restar
cierta estabilidad.
Correlacin Parcial (2)

Segunda posibilidad (eliminacin estadstica)

Se tratara de utilizar los datos del grupo completo y se elimina la
influencia de la tercera variable de manera estadstica.
12 13 23
12.3
2 2
13 23
1 1
r r r
r
r r


Evidentemente, el valor de este ndice estar entre -1 y +1, y la
interpretacin es anloga al coeficiente de correlacin de
Pearson.
Correlacin Parcial (3). Ejemplo

Datos (N=5)

Rendim Ansied Neurot
9 3 5
3 12 15
6 8 8
2 9 7
7 7 6
Queremos calcular la correlacin de Pearson entre Rendimiento y Ansiedad,
manteniendo constante la influencia de la variable neuroticismo
12.3
2 2
( 0'865) ( 0' 600)(0'853)
1 ( 0' 600) 1 (0'853)
r


12.3
0'845 r
Es un valor muy parecido al que
tenamos sin controlar el neuroticismo
Correlacin Parcial (4). Ejemplo

- - - P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S - - -

Controlling for.. NEURO

RENDIM ANSIE

RENDIM 1.0000 -.8449
( 0) ( 2)
P= . P= .155

ANSIE -.8449 1.0000
( 2) ( 0)
P= .155 P= .

(Coefficient / (D.F.) / 2-tailed Significance)

" . " is printed if a coefficient cannot be computed