Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1.1- Introduccin
Antes de introducirnos en el modelo de regresin lineal, que hace referencia a la
naturaleza de la relacin entre distintas variables, pasaremos a exponer el estadstico
utilizado para medir la magnitud de la relacin (supuestamente lineal) entre dichas
variables. Tiene sentido darle un tratamiento aparte por su importancia y las
continuas referencias que ofreceremos a lo largo de este texto. Comenzaremos su
desarrollo, por razones de simplicidad, para el caso particular de dos variables.
0 rxy 1
Hemos especificado los trminos "valores absolutos" ya que en realidad si se contempla
el signo el coeficiente de correlacin de Pearson oscila entre 1 y +1. No obstante ha de
indicarse que la magnitud de la relacin vienen especificada por el valor numrico
del coeficiente, reflejando el signo la direccin de tal valor. En este sentido, tan fuerte
es una relacin de +1 como de -1. En el primer caso la relacin es perfecta positiva y en
el segundo perfecta negativa. Pasamos a continuacin a desarrollar algo ms estos
conceptos.
Decimos que la correlacin entre dos variables X e Y es perfecta positiva cuando
exactamente en la medida que aumenta una de ellas aumenta la otra. Esto sucede
cuando la relacin entre ambas variables es funcionalmente exacta. Difcilmente ocurrir
en psicologa, pero es frecuente en los ciencias fsicas donde los fenmenos se ajustan a
leyes conocidas, Por ejemplo, la relacin entre espacio y tiempo para un mvil que se
desplaza a velocidad constante. Grficamente la relacin ser del tipo:
2
Espacio
1500,00
1000,00
500,00
0,00
0,00
5,00
10,00
15,00
20,00
Tiempo
20,00
Volumen
15,00
10,00
5,00
0,00
0,00
5,00
10,00
15,00
20,00
Presion
Calificacin
8,000
6,000
4,000
2,000
5,000
10,000
15,000
20,000
25,000
Horas de estudio
Se observa que para un mismo valor en inteligencia existen diferentes posibles valores
en rendimiento. Se trata de una correlacin positiva pero no perfecta. Este conjunto de
puntos, denominado diagrama de dispersin o nube de puntos tiene inters como primera
toma de contacto para conocer la naturaleza de la relacin entre dos variables. Si tal
nube es alargada -apunta a una recta- y ascendente como es el caso que nos ocupa, es
susceptible de aplicarse el coeficiente lineal de Pearson. El grosor de la nube da una
cierta idea de la magnitud de la correlacin; cuanto ms estrecha menor ser el margen
de variacin en Y para los valores de X, y por tanto, ms acertado los pronsticos, lo que
implica una mayor correlacin.
Si la nube de puntos es alargada y descendente nos encontramos con una correlacin
negativa. Supongamos, en este sentido, que relacionsemos la cantidad de alcohol
ingerida y el grado de memorizacin ante determinados estmulos. Obtendramos un
grfico como el siguiente:
25,00
Memoria
20,00
15,00
10,00
5,00
0,00
0,00
0,20
0,40
Alcohol
0,60
0,80
Se observa que a mayor cantidad de alcohol ingerida menor material recordado. Igual
que anteriormente no puede establecerse con exactitud el grado de memorizacin en
funcin del alcohol ingerido, aunque queda claro la tendencia existente.
Por ltimo, si la nube de puntos adopta una configuracin ms o menos redondeada de
tal forma que no pueda especificarse ningn tipo de relacin, nos encontramos con
una correlacin nula. Supongamos que relacionsemos peso con inteligencia.
Obtendramos el siguiente grfico:
140,00
Inteligencia
130,00
120,00
110,00
100,00
60,00
70,00
80,00
90,00
100,00
110,00
Peso
Se observa que las personas con poco peso obtienen en inteligencia tanto puntuaciones
bajas como medias o altas. Lo mismo sucede con personas de peso alto. No puede
establecerse, pues, ningn tipo de relacin. Ambas variables son independientes entre
s; la variacin de una de ellas no influye para nada en la variacin de la otra.
Z Z
x
Z Z
=
x
Z Z
=
x
Z
=
2
x
=1
ya que tal expresin equivale a la varianza de Zx , que como se sabe vale la unidad.
Cuando la correlacin es perfecta negativa los valores de Zx y Zy son exactamente
iguales pero de signo contrario, resultando los productos cruzados de Zx y Zy negativos.
En este caso, el valor de la correlacin es el mismo que anteriormente pero de signo
negativo:
rxy
Z Z
=
x
Z Z
=
x
Z
=
N
2
x
=1
rxy =
Z Z
x
=0
rxy =
XY
XY
N
SxSy
Efectivamente:
rxy =
Z Z
1
=
SxSy
X X Y Y
*
Sy
Sx
(X X )(Y Y ) = (XY XY XY + XY ) =
XY Y X X Y NXY
+
N
N
N
N
NS x S y
= 1
SxSy
NS x S y
XY
XY XY + XY
N
XY XY
N
SxSy
Esta formula es especialmente til cuando se conocen las medias de X e Y as como sus
desviaciones tipo, lo cual es relativamente frecuente. Si por cualquier circunstancia no
dispusiramos de la informacin de estos estadsticos podramos calcular rxy
recurriendo a la expresin en puntuaciones directas:
XY X Y
rxy =
XY X Y
N
SxSy
X
N
Y
N
XY X Y
N X ( X ) N Y ( Y )
N
xy
x y
rxy =
rxy =
=
Z Z
x
X X Y Y
*
Sy
Sx
(X X )(Y Y )
(X X ) (Y Y )
2
(X X )(Y Y ) =
xy
x y
NS x S y
=
2
xy
x y
2
X:
Y:
b)
SOL:
10,00
Rendimiento
8,00
6,00
4,00
2,00
100,00
110,00
120,00
130,00
140,00
Inteligencia
a) Puntuaciones directas.
Configuremos la siguiente tabla:
X
Y
X2
Y2
XY
________________________________
105 4
11025
16
420
116 8
13456
64
928
103 2
10609
4
206
124 7
15376
49
868
137 9
18769
81 1233
126 9
15876
81 1134
112 3
12544
9
336
129 10
16641
100
1290
118 7
13924
49
826
105 6
11025
36
630
________________________________
1175 65
139245
489 7871
De donde:
1175
= 117 .5
N
10
Y 65
= 6 .5
Y = =
10
N
X=
Sx =
Sx =
X2 =
139245
117 .52 = 10.874
10
Y 2 =
489
6.52 = 2.579
10
Aplicando (1.9):
rxy =
XY
N
XY
SxS y
7871
117.5 * 6.5
= 10
= 0.8327
10.874 * 2.579
X
Y
x
y
x2
y2
xy
______________________________________________________
105
4
-12.50
-2.50
156.25
6.25 31.25
116
8
-1.50
1.50
2.25
2.25
-2.25
103
2
-14.50
-4.50
210.25
20.25 65.25
124
7
6.50
.50
42.25
.25
3.25
137
9
19.50
2.50
380.25
6.25 48.75
126
9
8.50
2.50
72.25
6.25 21.25
112
3
-5.50
-3.50
30.25
12.25 19.25
129 10
11.50
3.50
132.25
12.25 40.25
118
7
.50
.50
.25
.25
.25
105
6
-12.50
-.50
156.25
.25
6.25
______________________________________________________
1175
65
1182.5
66.5
233.5
Apliquemos (1.10):
rxy =
xy
x y
2
233.5
=
2
= 0.8327
1182.5 66.5
c) Puntuaciones estandarizadas
XX
Sx
Zy =
Y Y
Sy
X
Y
Zx
Zy
ZxZy
_____________________________________
105.0
4.0
-1.15
-.97
1.11
116.0
8.0
-.14
.58
-.08
103.0
2.0
-1.33
-1.74
2.33
124.0
7.0
.60
.19
.12
137.0
9.0
1.79
.97
1.74
126.0
9.0
.78
.97
.76
112.0
3.0
-.51
-1.36
.69
129.0
10.0
1.06
1.36
1.44
118.0
7.0
.05
.19
.01
105.0
6.0
-1.15
-.19
.22
_________________________________________
1175
65
8.327
rxy =
Zy
8.327
= 0.8327
10
10
Una vez calculado el valor del coeficiente de correlacin interesa determinar si tal
valor obtenido muestra que las variables X e Y estn relacionadas en realidad o tan solo
presentan dicha relacin como consecuencia del azar. En otras palabras, nos
preguntamos por la significacin de dicho coeficiente de correlacin.
Un coeficiente de correlacin se dice que es significativo si se puede afirmar, con una
cierta probabilidad, que es diferente de cero. Ms estrictamente, en trminos estadsticos,
preguntarse por la significacin de un cierto coeficiente de correlacin no es otra cosa
que preguntarse por la probabilidad de que tal coeficiente proceda de una poblacin
cuyo valor sea de cero. A este respecto, como siempre, tendremos dos hiptesis
posibles:
H0: rxy = 0 El coeficiente de correlacin obtenido procede de una poblacin cuya
correlacin es cero ( = 0 ).
H1 : rxy = 0 El coeficiente de correlacin obtenido procede de una poblacin cuyo
coeficiente de correlacin es distinto de cero ( 0 ).
Desde el supuesto de la Hiptesis nula se demuestra que la distribucin muestral de
correlaciones procedentes de una poblacin caracterizada por una correlacin igual a cero
( = 0 ) sigue una ley de Student con N-2 grados de libertad, de media el valor
poblacional y desviacin tipo:
Sr =
1 rxy2
N 2
t=
rxy 0
1 rxy2
N 2
y se compara el valor obtenido con el existente en las tablas para un cierto nivel de
significacin y N-2 grados de libertad - t( ,N 2 ) -, que como se sabe, marca el lmite (baja
probabilidad de ocurrencia, segn la Hiptesis nula) de pertenencia de un cierto
coeficiente rxy a la distribucin muestra de correlaciones procedentes de una poblacin
con = 0 . De esta forma si:
11
Ejemplo 1.2.- Determinar la significacin del coeficiente de correlacin del ejemplo 1.1.
SOL:
Apliquemos (1.12):
t=
rxy 0
1 rxy2
N 2
0.8327
1 0,8327 2
10 2
= 4.21
12
t( 0.05,8 ) = 2.306
Comparamos el valor t obtenido con el de las tablas:
4.21 > 2.306
Rechazamos la Hiptesis nula con un riesgo (mximo) de equivocarnos de 0.05. La
correlacin obtenida no procede de una poblacin caracterizada por una correlacin de
cero. Concluimos, pues, que ambas variables estn relacionadas.
Una manera ms exacta de conocer el riesgo asociado (y no el genrico 0.05 que se toma
como referencia mxima) es recurrir a las tablas interactivas:
13
14
15
X
Z
Figura 1.9
16
Obtendremos:
10
A
Rendimiento
110
120
130
Inteligencia
17
Correlaciones
Inteligencia
Rendimiento
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Inteligencia
1
Rendimiento
,833**
,003
10
10
,833**
1
,003
10
10
Donde se nos ofrece el valor de la correlacin con sus probabilidades asociadas (Sig.
Bilateral)
18
Bibliografa
19
Internet
Correlacin en Wikipedia (espaol): http://es.wikipedia.org/wiki/Correlaci%C3%B3n
Relacin entre variables cuantitativas:
http://www.fisterra.com/mbe/investiga/var_cuantitativas/var_cuantitativas2.pdf
Correlation en Wikipedia (ingls): http://en.wikipedia.org/wiki/Correlation
Electronic Statistics Textbook: http://www.statsoft.com/textbook/stathome.html
Stat notes: An Online Textbook, by G. David Garson of North Carolina State University:
http://www2.chass.ncsu.edu/garson/pa765/statnote.htm
Pgina de Karl Wnsch sobre correlacin:
http://core.ecu.edu/psyc/wuenschk/docs30/corr6430.doc
20