Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Correlacion PDF
Correlacion PDF
1
COEFICIENTE DE CORRELACIN LINEAL DE PEARSON
1.1- Introduccin
0 rxy 1
2
1500,00
1000,00
Espacio
500,00
0,00
20,00
15,00
Volumen
10,00
5,00
0,00
3
obtendrn exactamente la misma puntuacin en rendimiento. Unos obtendrn ms o
menos en funcin de otras variables, tales como motivacin o personalidad. Si
relacionsemos ambas variables dada una muestra de sujetos tendramos un grfico de las
siguientes caractersticas:
10,000
8,000
Calificacin
6,000
4,000
2,000
Se observa que para un mismo valor en inteligencia existen diferentes posibles valores
en rendimiento. Se trata de una correlacin positiva pero no perfecta. Este conjunto de
puntos, denominado diagrama de dispersin o nube de puntos tiene inters como primera
toma de contacto para conocer la naturaleza de la relacin entre dos variables. Si tal
nube es alargada -apunta a una recta- y ascendente como es el caso que nos ocupa, es
susceptible de aplicarse el coeficiente lineal de Pearson. El grosor de la nube da una
cierta idea de la magnitud de la correlacin; cuanto ms estrecha menor ser el margen
de variacin en Y para los valores de X, y por tanto, ms acertado los pronsticos, lo que
implica una mayor correlacin.
25,00
20,00
Memoria
15,00
10,00
5,00
0,00
140,00
130,00
Inteligencia
120,00
110,00
100,00
Se observa que las personas con poco peso obtienen en inteligencia tanto puntuaciones
bajas como medias o altas. Lo mismo sucede con personas de peso alto. No puede
establecerse, pues, ningn tipo de relacin. Ambas variables son independientes entre
s; la variacin de una de ellas no influye para nada en la variacin de la otra.
rxy =
Z Z x y
N
Esto es, el coeficiente de correlacin de Pearson hace referencia a la media de los
productos cruzados de las puntuaciones estandarizadas de X y de Y. Esta formula rene
algunas propiedades que la hacen preferible a otras. A operar con puntuaciones
estandarizadas es un ndice libre de escala de medida. Por otro lado, su valor oscila,
como ya se ha indicado, en trminos absolutos, entre 0 y 1.
5
perfecta positiva cuando cada individuo manifieste la misma superioridad o
inferioridad en cada una de ellas. Esto se cumple cuando su posicin relativa sea la
misma, es decir, cuando sus puntuaciones tipo sean iguales (Zx = Zy). En este caso la
formula de la correlacin se transforma en:
rxy =
Z Z x y
=
Z Z x x
=
Z 2
x
=1
N N N
ya que tal expresin equivale a la varianza de Zx , que como se sabe vale la unidad.
rxy =
Z Z x y
=
Z Z x x
=
Z 2
x
=1
N N N
rxy =
Z Z x y
=0
N
XY
XY
rxy = N
SxSy
Efectivamente:
X X Y Y
(X X )(Y Y ) = (XY XY XY + XY ) =
*
rxy =
Z Z x y
= Sx Sy
=
N N NS x S y NS x S y
XY Y X X Y NXY XY
XY XY
1 = 1 = N
= + XY XY + XY
SxSy N N N N SxSy N SxSy
6
Esta formula es especialmente til cuando se conocen las medias de X e Y as como sus
desviaciones tipo, lo cual es relativamente frecuente. Si por cualquier circunstancia no
dispusiramos de la informacin de estos estadsticos podramos calcular rxy
recurriendo a la expresin en puntuaciones directas:
XY X Y XY X Y
rxy = N = N N N =
XY X Y
N
N X ( X ) N Y ( Y )
SxSy
X Y
2 2 2 2
X Y
2 2 2 2
N N N N
rxy =
xy
x y
2 2
X X Y Y
*
rxy =
Z Z x y
= Sx Sy
= (X X )(Y Y ) =
N N NS x S y
= (X X )(Y Y ) = xy = xy
(X X ) (Y Y ) x y x y
2 2 2 2 2 2
N N
N N N N
X: 105 116 103 124 137 126 112 129 118 105
Y: 4 8 2 7 9 9 3 10 7 6
SOL:
7
Antes de calcular el coeficiente de correlacin de Pearson hemos de comprobar si
existe una tendencia lineal en la relacin. Aunque ms adelante ofreceremos
procedimientos analticos que permitan verificar con exactitud la Hiptesis de
linealidad, por el momento, recurriremos a procedimientos grficos, que en una primera
instancia, pueden resultar suficientes:
10,00
8,00
Rendimiento
6,00
4,00
2,00
a) Puntuaciones directas.
X Y X2 Y2 XY
________________________________
105 4 11025 16 420
116 8 13456 64 928
103 2 10609 4 206
124 7 15376 49 868
137 9 18769 81 1233
126 9 15876 81 1134
112 3 12544 9 336
129 10 16641 100 1290
118 7 13924 49 826
105 6 11025 36 630
________________________________
1175 65 139245 489 7871
8
De donde:
X= X
1175
= = 117 .5
N 10
Y = =
Y 65
= 6 .5
N 10
Sx = X 2
X2 =
139245
117 .52 = 10.874
N 10
Sx = Y 2
Y 2 =
489
6.52 = 2.579
N 10
Aplicando (1.9):
XY
XY
7871
117.5 * 6.5
rxy = N = 10 = 0.8327
SxS y 10.874 * 2.579
x=X-X
y=YY
X Y x y x2 y2 xy
______________________________________________________
9
Apliquemos (1.10):
rxy = xy =
233.5
= 0.8327
x y
2 2
1182.5 66.5
_
c) Puntuaciones estandarizadas
XX
Zx =
Sx
Y Y
Zy =
Sy
X Y Zx Zy ZxZy
_____________________________________
1175 65 0 0 8.327
rxy =
Z x Zy
=
8.327
= 0.8327
N 10
10
1.4.- Significacin del coeficiente de correlacin
Una vez calculado el valor del coeficiente de correlacin interesa determinar si tal
valor obtenido muestra que las variables X e Y estn relacionadas en realidad o tan solo
presentan dicha relacin como consecuencia del azar. En otras palabras, nos
preguntamos por la significacin de dicho coeficiente de correlacin.
1 rxy2
Sr =
N 2
rxy 0
t=
1 rxy2
N 2
y se compara el valor obtenido con el existente en las tablas para un cierto nivel de
significacin y N-2 grados de libertad - t( ,N 2 ) -, que como se sabe, marca el lmite (baja
probabilidad de ocurrencia, segn la Hiptesis nula) de pertenencia de un cierto
coeficiente rxy a la distribucin muestra de correlaciones procedentes de una poblacin
con = 0 . De esta forma si:
11
t > t( , N 2 ) Se rechaza la Hiptesis nula. La correlacin obtenida no procede de una
poblacin cuyo valor xy = 0 . Por tanto las variables estn relacionadas.
Ejemplo 1.2.- Determinar la significacin del coeficiente de correlacin del ejemplo 1.1.
SOL:
Apliquemos (1.12):
rxy 0 0.8327
t= = = 4.21
1 rxy2 1 0,8327 2
N 2 10 2
12
El valor marcado con una elipse:
t( 0.05,8 ) = 2.306
Una manera ms exacta de conocer el riesgo asociado (y no el genrico 0.05 que se toma
como referencia mxima) es recurrir a las tablas interactivas:
13
1.5.- Interpretacin del coeficiente de correlacin.
14
mayor control en la variable a predecir. De esto nos ocuparemos cuando tratemos
la correlacin mltiple.
En sentido estricto, correlacin entre dos variables tan solo significa que ambas variables
comparten informacin, que comparten variabilidad. Determinar el origen de la
informacin, la fuente de la variabilidad -la causa- es una cuestin que no puede
resolverse mediante recursos exclusivamente matemticos.
15
Y
Figura 1.9 ^
Procedemos en las prximas pginas a desarrollar los ejemplos realizados en este captulo
mediante los recursos que nos ofrece el paquete estadstico SPSS. A este respecto,
elaboremos primeramente el diagrama de dispersin, que nos dar cuenta de la adecuacin
del coeficiente lineal de Pearson. Para ello vayamos primeramente a Grficos/
Interactivos/Diagrama de dispersin:
16
Obtendremos:
10 A
A A
8 A
Rendimiento
A A
6 A
4 A
2 A
Inteligencia
17
Correlaciones
Inteligencia Rendimiento
Inteligencia Correlacin de Pearson 1 ,833**
Sig. (bilateral) ,003
N 10 10
Rendimiento Correlacin de Pearson ,833** 1
Sig. (bilateral) ,003
N 10 10
**. La correlacin es significativa al nivel 0,01 (bilateral).
Donde se nos ofrece el valor de la correlacin con sus probabilidades asociadas (Sig.
Bilateral)
18
Bibliografa
Berry, W. D., & Feldman, S. (1985). Multiple Regression in Practice. Sage University
Paper Series on Quantitative Applications in the Social Sciences, series no. 07-050).
Newbury Park, CA: Sage.
Cohen, J., & Cohen, P. (1983). Applied multiple regression/correlation analysis for the
behavioral sciences. Hillsdale, NJ: Lawrence Erlbaum Associates, Inc.
Cook, R. D. and Weisberg S. (1982). Residual and influence in regression. New York:
Chapman & Hall.
Pedhazur, E. J., (1997). Multiple Regression in Behavioral Research (3rd ed.). Orlando,
FL:Harcourt Brace.
19
Internet
Correlacin en Wikipedia (espaol): http://es.wikipedia.org/wiki/Correlaci%C3%B3n
Stat notes: An Online Textbook, by G. David Garson of North Carolina State University:
http://www2.chass.ncsu.edu/garson/pa765/statnote.htm
20