Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DDD218 Sds
DDD218 Sds
EL COEFICIENTE DE CORRELACIN Y
CORRELACIONES ESPREAS
Erick Lahura
Enero, 2003
ABSTRACT
An important statistical tool for the econometric study of linear bivariate relationship
that involves the use of cross-section or time series data is presented and analyzed in this
essay: the correlation coefficient. In particular, its relationship with spurious or non-sense
correlations is analyzed. Likewise, empirical applications based on Peruvian data are shown.
Erick Lahura2
1. INTRODUCCIN
M
= 1 + 2Yt
P t
(1.1)
donde 1 > 0 y 2 > 0 . Si se asume que la demanda por dinero real (M/P) y el ingreso real
(Y) pueden ser representados por las series de tiempo circulante real y PBI real3 medidas
1
2
Este ensayo forma parte de uno de los captulos del libro Econometra Bsica: Teora y
Aplicaciones que actualmente se encuentra en elaboracin.
Profesor del Departamento de Economa de la Pontificia Universidad Catlica del Per y del
Departamento de Ciencias - Seccin Matemticas. El autor agradece el apoyo de Magrith Mena,
Ana M. Whittembury y Manuel Barrn por su eficiente labor como asistentes de investigacin.
Asimismo, agradece a Gisella Chiang, Kristian Lpez, Julio Villavicencio, Luis Orezzoli, Martn
Tello, Carla Murgua, Caroline Postigo, Donita Rodriguez y al arbitro annimo, por sus valiosos
comentarios y sugerencias.
Ms adelante se detallar la forma de obtener cada uno de estos datos.
9.2
3.4
9.1
3.2
9.0
3.0
8.9
2.8
8.8
2.6
2.4
93
94
95
96
97
98
99
00
01
La figura 1 muestra que tanto el circulante como el PBI real tienden a crecer a lo largo
del perodo estudiado; es decir, crecen con el tiempo. Esta informacin, si bien es til, no es
suficiente para dar sustento emprico al modelo terico de demanda por dinero planteado: no
es posible saber exactamente que tan fuerte es la relacin entre la demanda por dinero y el
ingreso reales.
Como segundo ejemplo, considrese un modelo de consumo de tipo keynesiano con el
que se intenta explicar el consumo de un grupo de familias representativas de una regin para
un ao determinado:
C i = 1 + 2Yi
(1.2)
donde 1 > 0 , 0 < 2 < 1 , C i es el consumo de la i-sima familia e Yi el ingreso de la isima familia. La figura 2 muestra el comportamiento de las cantidades de consumo e
ingreso reales (eje vertical) para 200 observaciones generadas artificialmente (eje horizontal),
que constituyen datos de corte transversal:
1200
800
1400
400
1200
1000
800
600
400
200
25
50
75
100
CONSUMO
125
150
175
200
INGRESO
En este caso, a diferencia del modelo de demanda por dinero real, las series no presentan
una tendencia clara a crecer o decrecer, sino ms bien parecen revertir a un valor promedio
constante a lo largo de todas las observaciones. De este modo, no es posible concluir
fcilmente a partir del grfico si las series se mueven juntas, en el mismo sentido o en
sentidos opuestos.
De esta manera, tanto en el contexto del modelo de demanda por dinero (series de
tiempo) como en el modelo de consumo (corte transversal), se hace necesario un instrumento
que permita determinar la fuerza y el sentido de la posible relacin lineal existente entre los
pares de variables mencionados. ste se denomina coeficiente de correlacin.4
El coeficiente de correlacin es una herramienta estadstica elemental e importante para
el estudio economtrico de relaciones lineales bivariadas que involucran el uso de datos de
corte transversal o series de tiempo. Sin embargo, este instrumento puede fallar en algunas
ocasiones al sugerir la presencia de una relacin estadsticamente significativa entre dos
variables que en verdad no tienen sentido o no poseen relacin lineal alguna, es decir, que
presentan una correlacin esprea.
4
El coeficiente de correlacin es solamente uno de los estadsticos que existen para medir el
grado de asociacin entre variables, lo cual depende de la clase de variables analizadas
(categrica, continua, etc.). Una referencia ms amplia de los diversos estadsticos existentes es
Liebetrau (1983).
2. EL COEFICIENTE DE CORRELACION
El coeficiente de correlacin es un estadstico que proporciona informacin sobre la
relacin lineal existente entre dos variables cualesquiera. Bsicamente, esta informacin se
refiere a dos caractersticas de la relacin lineal: la direccin o sentido y la cercana o
fuerza.
Es importante notar que el uso del coeficiente de correlacin slo tiene sentido si la
relacin bivariada a analizar es del tipo lineal. Si sta no fuera no lineal, el coeficiente de
correlacin slo indicara la ausencia de una relacin lineal ms no la ausencia de
relacin alguna. Debido a esto, muchas veces el coeficiente de correlacin se define - de
manera ms general - como un instrumento estadstico que mide el grado de asociacin
lineal entre dos variables.
2.1. Desviaciones y grfico de dispersin
Sea una muestra de n observaciones o muestra de tamao n para dos variables X e Y,
denotada por:
M = [( X 1 , Y1 ), ( X 2 , Y2 ),K ( X n , Yn )]
(2.1)
donde cada par ( X i , Yi ) representa los valores de cada variable para la i-sima observacin,
con i = 1, 2, K , n . Asimismo, sea Xi la i-sima observacin de la variable X y X el valor
promedio de las n observaciones de la misma. Con esto, se define la desviacin de la i-sima
observacin de la variable X respecto de su valor promedio observado, o simplemente
desviacin de Xi, como:
xi = X i X
(2.2)
La variable xi puede tomar valores positivos o negativos dependiendo del valor de cada
observacin, es decir, si es mayor o menor que el valor promedio observado. Cuando xi > 0
se dice que la desviacin de la variable Xi es positiva, mientras que si xi < 0 se dice que la
desviacin es negativa. De manera anloga, se define la desviacin de Yi como:
yi = Yi Y
(2.3)
m = [( x1 , y1 ), ( x 2 , y 2 ),K, ( x n , y n )]
(2.4)
xi = X i X > 0
Yi
y i = Yi Y > 0
y i +1 = Yi +1 Y < 0
Yi +1
B
xi +1 = X i +1 X < 0
X i +1
Xi
El punto A, situado en el primer cuadrante de la Figura 2a, representa los valores de las
variables X e Y correspondientes a la i-sima observacin de la muestra. En este punto, el
valor de cada variable es mayor que sus correspondientes valores promedios, es decir, las
desviaciones de ambas variables son positivas. De esta forma, las variables X e Y varan
conjuntamente y en el mismo sentido, es decir, covaran positivamente. En este caso, se dice
que existe una relacin lineal y positiva entre ambas variables.
El punto B, situado en el tercer cuadrante de la Figura 2a, representa los valores de las
variables X e Y correspondientes la (i+1)-sima observacin de la muestra. En este punto, las
desviaciones de ambas variables son negativas. As, se tiene que X e Y varan conjuntamente
y en el mismo sentido, es decir, covaran positivamente. En este caso, se dice que un punto
como B implica la existencia de una relacin lineal y positiva entre estas variables.
Si la relacin entre las variables X e Y estuviera representada slo por las dos
observaciones de la Figura 2a (puntos A y B), se dice que la relacin entre estas variables es
lineal y positiva o que las variables covaran positivamente.
xi + 2 = X i + 2 X < 0
C
Yi + 2
y i + 2 = Yi + 2 Y > 0
Y
y i +3 = Yi +3 Y < 0
Yi +3
xi + 3 = X i + 3
X i+2
X >0
X i +3
El punto C, situado en el segundo cuadrante de la Figura 2b, representa los valores de las
variables X e Y correspondientes a la (i+2)-sima observacin de la muestra. En este punto,
las desviacin de X es negativa y la desviacin de Y es positiva. As, las variables X e Y
varan conjuntamente y en sentidos opuestos; es decir, covaran negativamente. En este
caso, se dice que existe una relacin lineal negativa entre ambas variables.
El punto D, situado en el cuarto cuadrante de la Figura 2b, representa los valores de X e Y
correspondientes a la (i+3)-sima observacin de la muestra. De manera anloga al caso
anterior, el anlisis de los signos de las desviaciones permite afirmar que existe una relacin
lineal negativa entre X e Y.
Si las variables X e Y estn representadas slo por las dos observaciones de la Figura 2
(puntos C y D), entonces la relacin entre estas variables sera lineal y negativa.
Para el caso de un grfico en el cual las variables X e Y estuvieran representadas por
cuatro observaciones iguales a los puntos A, B, C y D, tales que las desviaciones positivas y
negativas se compensaran entre s, entonces se concluye que no existe relacin lineal entre
las variables.
x y
i =1
> 0,
(2.5)
X
Figura 3: Relacin lineal y positiva entre las variables X e Y .
x y
i =1
<0
(2.6)
x y
i =1
(2.7)
10
x y
i
>0
n1
x y
i
<0
n2
x y
i
n1
x y
i
>0
n2
o equivalentemente:
x y +x y
i
n1
>0
n2
entonces la relacin lineal predominante entre las variables es positiva. En este caso, se
dice que las variables X e Y covaran lineal y positivamente.
(2) Si los puntos ubicados en el segundo y cuarto cuadrante son ms importantes que los
ubicados en el primer y tercer cuadrante, es decir:
x y
i
n1
x y
i
<0
n2
11
o equivalentemente:
x y +x y
i
n1
<0
n2
entonces la relacin lineal predominante entre las variables es negativa. En este caso, se
dice que las variables X e Y covaran lineal y negativamente.
(3) Si los puntos ubicados en el segundo y cuarto cuadrante son tan importantes como los
ubicados en el primer y tercer cuadrante, es decir, si:
x y
i
n1
x y
i
n2
o equivalentemente:
x y +x y
i
n1
n2
entonces no predomina ningn tipo de relacin lineal entre las variables; es decir, no
covaran linealmente. Sin embargo, esto ltimo no implica que no pueda existir algn
tipo de relacin no lineal entre las variables.
12
-1
-1
-2
-2
-3
-3
-3
-2
-1
-3
-2
-1
RELACIN NO LINEAL
3
2
1
0
-1
-2
-2
-3
-4
-3
-2
-1
-3
-2
-1
i =1
i =1
xi y i
xi y i
13
Cov( X , Y ) =
1 n
1 n
X
X
Y
Y
(
)(
)
=
i
xi y i
i
n 1 i =1
n 1 i =1
(2.8)
(X1 + X 2 )
=X
2
Entonces, bastara con conocer la primera desviacin (el valor de X 1 y X ) para conocer
el valor de X 2 . Dado que (2.8) depende de i =1 xi y i , el anlisis precedente implica que la
n
covarianza muestral permite identificar la direccin o sentido de la relacin lineal entre las
variables, a travs de su signo. Esta es la nica informacin relevante que proporciona la
covarianza muestral para el anlisis de la relacin entre dos variables.
M = [(10,5); (20,10); (30,15); (40,20); (50,25); (60,30); (70,35); (80,40); (90,45); (100,50)]
donde las variables estn expresadas como porcentajes en la escala del 0 al 100 (por ejemplo,
10 representa 10 por ciento). La covarianza muestral entre X e Y, dados estos valores
muestrales, es igual a:
Cov( X , Y ) = 412,5
14
Este resultado indica que existe una relacin lineal positiva entre la tasa de inters activa
y pasiva. Si se divide todos los valores de la muestra por 100, se obtiene la siguiente muestra:
M ' = [(0,10 ; 0,05); (0,20; 0,10); (0,30 ; 0,15); (0,40 ; 0,20); (0,50 ; 0,25),
0,60 ; 0,30); (0,70 ; 0,35); (0,80 ; 0,40); (0,90 ; 0,45); (1,00 ; 0,50)]
donde las variables estn expresadas como porcentajes en la escala del 0 al 1 (por ejemplo,
0,10 representa 10 por ciento). En este caso, la covarianza muestral entre X e Y, dados
estos valores muestrales, es igual a:
Cov( X , Y ) = 0,04125
Este resultado confirma que la relacin entre las tasas de inters activa y pasiva es
positiva. As, el sentido de una relacin lineal medido por la covarianza muestral es
invariante a cambios en las unidades de medida.
Sin embargo, luego de reducir la escala de las variables, el valor de la covarianza
disminuye (se hace prcticamente cero) respecto del caso original. De esta forma, si se
utilizara el valor absoluto de la covarianza para medir la fuerza de la relacin lineal entre las
variables, se podran obtener conclusiones equivocadas: en el primer caso se afirmara que la
relacin es muy fuerte, mientras que en el segundo caso que la relacin es muy dbil, lo cual
es inconsistente pues se est analizando la misma relacin en ambos casos. As, la fuerza de
una relacin lineal medida por la covarianza muestral es sensible a cambios en las
unidades de medida5.
Para obtener un indicador de la fuerza de la relacin lineal entre dos variables que no
dependa de las unidades de medida de las mismas, se deber expresar las desviaciones en
unidades de desviacin estndar. La covarianza muestral estandarizada se denomina
coeficiente de correlacin muestral, y se denota usualmente como r:
Corr ( X , Y ) r =
1 n xi
n 1 i =1 S X
y i
S Y
(2.9)
15
donde:
SX =
SY =
(2.9)
n 1
(2.9)
n 1
r=
Cov( X , Y )
S X SY
(2.10)
r=
x y
i
i =1
x y
i =1
r=
2
i
i =1
(2.11)
2
i
n
n
n
n X iYi X i Yi
i =1
i =1 i =1
n X i2 X i
i =1
i =1
n
n
n Yi 2 Yi
i =1
i =1
n
(2.12)
1 r 1
16
o equivalentemente:
| r | 1
La interpretacin del coeficiente de correlacin muestral depende del valor y del signo
que tome y de las caractersticas de la muestra analizada. Para los propsitos del presente
ensayo, se asume que el nmero de observaciones de la muestra (tamao de muestra), es tal
que la muestra es representativa: presenta las mismas caractersticas de la poblacin. De esta
manera, las conclusiones que puedan extraerse a partir del anlisis del coeficiente de
correlacin sern vlidas para la relacin poblacional.
A partir de la expresin (2.9), dado que S X y S Y solamente pueden tomar valores no
negativos, se tiene que el signo del coeficiente de correlacin muestral depender del signo
de la suma del producto de todas las desviaciones,
n
i =1
direccin de la relacin lineal (al igual que la covarianza muestral): valores positivos
indican una relacin directa y valores negativos una relacin inversa entre las variables
involucradas.
Por otro lado, el valor absoluto del coeficiente de correlacin indica la fuerza de la
relacin lineal. Un coeficiente de correlacin muy cercano a uno en valor absoluto indica
que la relacin entre las variables es muy fuerte, mientras que si es muy cercano a cero,
indica que la relacin es muy dbil. El cuadro 1 muestra las posibles interpretaciones del
coeficiente de correlacin muestral.
Cuadro 1: Interpretacin del Coeficiente de Correlacin Muestral
VALOR DEL COEFICIENTE
INTERPRETACIN
0 < r <1 y r 1
0 < r <1 y r 0
r=0
1 < r < 0 y r 1
1 < r < 0 y r 0
17
r = 0.5
3
r=0
3
-1
-1
-2
-2
-3
-3
-3
-2
-1
-3
-2
-1
r = 0.95
r=1
-1
-1
-2
-2
-3
-3
-3
-2
-1
-3
-2
-1
0
X
n
i =1
muy cercano a cero, lo cual implica que el coeficiente de correlacin muestral r tambin
tendr un valor muy cercano a cero. As, el coeficiente de correlacin muestral no
18
proporciona informacin adecuada sobre la existencia de una relacin no lineal entre dos
variables.
Como nota adicional, es importante saber que el coeficiente de correlacin no
proporciona informacin sobre la causalidad entre las series. Lo nico que permite
identificar es co-movimientos significativos. Existen pruebas estadsticas que permiten
determinar en cierta medida la causalidad entre variables, como por ejemplo la prueba de
causalidad a la Granger (1969). Sin embargo, a este nivel bsico de econometra la nica
forma de determinar causalidad ser a travs de la teora econmica.
CONSUMO
-2
-4
-3
-2
-1
INGRESO
19
travs de una matriz de correlaciones, donde los elementos de la diagonal son siempre
iguales a 1 (pues muestran la correlacin entre cada variable consigo misma) y los que estn
fuera de la diagonal miden la correlacin entre cada par de variables.
Matriz de Correlaciones: Consumo e Ingreso
INGRESO
CONSUMO
INGRESO
1.000000
0.993350
CONSUMO
0.993350
1.000000
3. CORRELACIONES ESPREAS
En esta seccin, se define el concepto de correlacin esprea. Adems, se presentan las
caractersticas ms importantes que pueden presentar los datos empricos utilizados para
representar las variables econmicas, las cuales sern elementos importantes para analizar las
causas de la presencia de correlaciones espreas
20
21
Existe un cuarto componente denominado cclico que muchas veces como en este caso se
asume como parte del componente irregular o modelable.
22
9.3
0.08
9.2
0.04
9.1
0.00
9.0
-0.04
8.9
8.8
93
94
95
96
LPBIRSA
97
98
99
00
-0.08
01
93
HLPBIRSA
94
95
96
97
98
99
00
01
CICLO
23
(Y1 , X 1 )
(Y2 , X 2 )
M
(Y200 , X 200 )
24
(Y1 / Z 1 , X 1 / Z 1 )
Y2 / Z 2 , X 2 / Z 2
M
(Y200 / Z 200 , X 200 / Z 200 )
donde Y1 / Z 1 representa la longitud de un primer grupo de huesos del esqueleto artificial 1
como porcentaje de la longitud total de ste esqueleto, X 1 / Z 1 representa la longitud de un
segundo grupo de huesos del esqueleto artificial 1 como porcentaje de la longitud total de
este esqueleto; y as sucesivamente.
Para simular los resultados del caso presentado por Pearson, se construyeron
artificialmente las variables W , X , Y y Z , con las caractersticas del problema que han sido
mencionadas. Al analizar el coeficiente de correlacin entre las observaciones de Y y X, el
resultado es un coeficiente de correlacin cercano a cero consistente con la realidad
analizada:
Matriz de Correlaciones entre X e Y
X
1.000000
-0.006123
-0.006123
1.000000
25
Esto puede observarse claramente en el grfico de dispersin de las mismas (Figura 7):
6
4
2
0
-2
-4
-4
-2
Sin embargo, al analizar la correlacin entre Y y X utilizando los ratios X/Z e Y/Z (cuyos
componentes variables son X e Y), se obtiene un alto coeficiente de correlacin:
Matriz de Correlaciones entre X/Z e Y/Z
X/Z
Y/Z
X/Z
1.000000
-0.965746
Y/Z
-0.965746
1.000000
26
YZ
-2
-4
-4
-2
XZ
De esta manera, la alta correlacin entre X/Z e Y/Z sera esprea o sin sentido. La alta
correlacin est explicada por un tercer componente, Z, que esta relacionado a cada uno de
los componentes variables, X e Y, que son independientes entre s. En el contexto del caso
analizado por Pearson, dado que se sabe que no existe relacin entre las longitudes de los
huesos de los esqueletos artificiales, un alto coeficiente de correlacin entre las longitudes de
los huesos como porcentaje de la longitud total del esqueleto artificial al cual pertenecen es
espreo o sin sentido. La explicacin de este alto coeficiente de correlacin est en la
divisin de las longitudes de los huesos por la longitud total del esqueleto artificial al cual
pertenecen.
Una forma simple de detectar la presencia de correlaciones espreas cuando se utilizan
ratios es analizar el grfico de dispersin y el coeficiente de correlacin entre los
componentes variables de los mismos (cuando sea posible obtenerlos).
27
Para mostrar este caso, se crearon dos series artificiales S1 y S2 independientes entre s,
como se muestra en la matriz de correlaciones:
Matriz de Correlaciones entre S1 y S2
S1
S2
S1
1.000000
0.024656
S2
0.024656
1.000000
S2
-2
-4
6
10
12
14
S1
Si una de las observaciones de esta muestra sta compuesta por valores muy diferentes a
los usuales (relativamente muy grandes o muy pequeos), denominados atpicos u out layers,
se obtendra la siguiente la matriz de correlaciones:
Matriz de Correlaciones entre S1 y S2 con un out layer
S1
S2
S1
1.000000
0.906860
S2
0.906860
1.000000
28
S2 vs. S1
15
S2
10
-5
-5
10
15
S1
29
Para mostrar este caso, se crearon dos grupos de observaciones para dos variables
ficticias C1 y C2 tales que estas no tienen relacin alguna, como se puede apreciar en sus
respectivos grficos de dispersin:
13
34
12
32
10
C2
C2
11
30
9
28
8
7
26
6
10
12
14
28
29
C1
30
31
C1
Grupo 1
Grupo 2
Figura 11: Grupos No Relacionados
C2
C1
1.000000
-0.066483
C2
-0.066483
1.000000
C2
C1
1.000000
0.062029
C2
0.062029
1.000000
30
32
33
C2 vs. C1
40
C2
30
20
10
0
0
10
20
30
40
C1
C1
C2
C1
1.000000
0.988784
C2
0.988784
1.000000
31
Este caso de correlacin esprea entre grupos no relacionados puede ser considerado
como una generalizacin del caso de correlaciones espreas cuando existen out-layers: un
grupo estara constituido por el out-layer y el segundo por las observaciones restantes.
El caso de correlacin esprea presentado por Neyman, a travs de su ejemplo de las
cigeas, puede ser considerado como un caso de grupos no relacionados. Los datos
utilizados por Neyman que se presentan en la cuadro 2 corresponden al nmero de mujeres
(por cada 10 mil), cigeas y nacimientos, para una muestra de 54 localidades. El nmero de
mujeres est aproximado a nmeros enteros; es decir, si en una localidad existen 14 mil
mujeres, entonces el nmero de mujeres por cada 10 mil es 1.
32
Mujeres
Cigeas
Nacimientos
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
4
4
4
4
4
4
4
4
4
5
5
5
5
5
5
5
5
5
6
6
6
6
6
6
6
6
6
2
2
2
3
3
3
4
4
4
4
4
4
5
5
5
6
6
6
5
5
5
6
6
6
7
7
7
6
6
6
7
7
7
8
8
8
7
7
7
8
8
8
9
9
9
8
8
8
9
9
9
10
10
10
Corr (C,N) =
10
15
20
10
15
20
10
15
20
15
20
25
15
20
25
15
20
25
20
25
30
20
25
30
20
25
30
25
30
35
25
30
35
25
30
35
30
35
40
30
35
40
30
35
40
35
40
45
35
40
45
35
40
45
0,83
33
resultado que las cigeas traen a los bebs (a mayor nmero de cigeas, mayor nmero de
nacimientos).
Localidad
Mujeres
Cigeas
Nacimientos
GRUPO 1
1
2
3
4
5
6
7
8
9
1
1
1
1
1
1
1
1
1
2
2
2
3
3
3
4
4
4
Corr (C,N) =
10
15
20
10
15
20
10
15
20
0.00
GRUPO 2
10
11
12
13
14
15
16
17
18
2
2
2
2
2
2
2
2
2
4
4
4
5
5
5
6
6
6
Corr (C,N) =
15
20
25
15
20
25
15
20
25
0.00
GRUPO 3
19
20
21
22
23
24
25
26
27
3
3
3
3
3
3
3
3
3
5
5
5
6
6
6
7
7
7
Corr (C,N) =
20
25
30
20
25
30
20
25
30
0.00
GRUPO 4
28
29
30
31
32
33
34
35
36
4
4
4
4
4
4
4
4
4
6
6
6
7
7
7
8
8
8
Corr (C,N) =
25
30
35
25
30
35
25
30
35
0.00
GRUPO 5
37
38
39
40
41
42
43
44
45
5
5
5
5
5
5
5
5
5
7
7
7
8
8
8
9
9
9
Corr (C,N) =
30
35
40
30
35
40
30
35
40
0.00
GRUPO 6
46
47
48
49
50
51
52
53
54
6
6
6
6
6
6
6
6
6
8
8
8
9
9
9
10
10
10
Corr (C,N) =
35
40
45
35
40
45
35
40
45
0.00
34
22
26
32
20
24
30
16
14
12
20
18
10
16
14
1.5
2.0
2.5
3.0
3.5
4.0
28
22
NACIMIENTOS
NACIMIENTOS
NACIMIENTOS
18
4.5
24
22
20
18
3.5
4.0
CIGEAS
4.5
5.0
5.5
6.0
6.5
4.5
42
46
34
40
44
30
28
36
34
32
26
30
24
28
6.0
6.5
7.0
7.5
8.0
8.5
CIGEAS
NACIMIENTOS
38
32
5.5
6.0
6.5
7.0
7.5
10.0
10.5
CIGEAS
36
5.5
5.0
CIGEAS
NACIMIENTOS
NACIMIENTOS
26
42
40
38
36
34
6.5
7.0
7.5
8.0
8.5
CIGEAS
9.0
9.5
7.5
8.0
8.5
9.0
9.5
CIGEAS
Figura 13: Relacin entre nacimientos y cigeas para cada grupo de localidades.
Sin embargo, al considerar (por ejemplo) los grupos 1 y 6 en una sola muestra, se obtiene
un coeficiente de correlacin alto (0.92), al igual que cuando se consideran todos los grupos
simultneamente (0.82), lo cual se muestra a travs de los grficos de dispersin
correspondientes de la Figura 14. De esta forma, se concluye que el alto coeficiente de
correlacin entre las cigeas y los nacimientos es una correlacin esprea, explicada por la
presencia de conglomerados.
35
50
50
40
40
NACIMIENTOS
NACIMIENTOS
30
20
10
30
20
10
10
12
CIGEAS
10
12
CIGEAS
36
1.000000
0.032141
0.032141
1.000000
-2
-3
0
-1
-2
-3
10
20
30
40
50
X
60
70
80
90
37
3
2
1
0
-1
-2
-3
-3
-2
-1
Si a cada una de estas dos series construidas artificialmente se les aade una tendencia
determinstica (lineal) que crece con el tiempo10, pero sin significado alguno:
XTt = X t + t 1
YTt = Yt + t 2
se obtiene una matriz de correlaciones como la siguiente:
Matriz de Correlaciones para XT e YT
XT
YT
XT
1.000000
0.997099
YT
0.997099
1.000000
10
Tambin podra ser una tendencia lineal decreciente, los resultados son similares en trminos de
la existencia de una relacin lineal significativa estadsticamente, pero negativa.
38
100
80
60
40
20
-20
10
20
30
40
50
60
XT
70
80
90
YT
YT
-1
-2
-2
-1
XT
39
Estos mismos resultados se obtienen si se aade una tendencia estocstica11 (sin ningn
significado especial) a cada una de las series originalmente creadas, X e Y, crendose de esta
forma dos nuevas variables, XRW e YRW:
XRWt = X t + Z t1
YRWt = Yt + Z t2
Las nuevas variables, como en el caso anterior, muestran un coeficiente de correlacin
muy cercano a uno:
Matriz de Correlaciones para XRW e YRW
XRW
YRW
XRW
1.000000
0.989578
YRW
0.989578
1.000000
Al observar el grfico de las series (Figura 19), se puede apreciar que ambas crecen, lo
cual inducira a pensar (al menos estadsticamente) que la correlacin entre las variables es
positiva y aparentemente fuerte.
40
30
40
30
20
20
10
10
0
0
-10
10
20
30
40
50
XRW
60
70
80
90
YRW
11
40
YRW
-1
-2
-2
-1
XRW
Estos ejemplos, que utilizan series artificiales, muestran que un coeficiente de correlacin
alto entre dos variables que no tienen relacin alguna puede ser producto de la existencia de
una tendencia lineal (determinstica) o una tendencia estocstica.
XTt = X t + t 1
YTt = Yt + t 2
Dada la estructura de las series, podran presentarse cuatro situaciones diferentes:
41
a. Relacin con sentido entre los componentes irregulares o modelables ( X e Y ) y entre los
componentes tendenciales ( t 1 y t 2 ).
b. Relacin con sentido entre los componentes irregulares o modelables ( X e Y ), pero no
entre los componentes tendenciales ( t 1 y t 2 ).
c. No existe relacin con sentido entre los componentes irregulares o modelables ( X e Y ),
pero s entre los componentes tendenciales ( t 1 y t 2 ).
d. No existe relacin con sentido entre los componentes irregulares o modelables ( X e Y )
ni entre los componentes tendenciales ( t 1 y t 2 ).
En todos los casos, a excepcin de la situacin d, se afirma que existe una relacin con
sentido entre XT e YT, pues existe relacin con sentido entre al menos uno de sus
componentes. Sin embargo, en todos los casos existe una relacin estadsticamente
significativa entre XT e YT medida a travs del coeficiente de correlacin entre las variables,
lo cual se explica por la presencia de las tendencias lineales (pesar de que no estn
relacionadas significativamente). Este resultado sera el mismo si el componente tendencial
de las variables fuera estocstico.
As, cuando se analizan dos series temporales que presentan tendencias que no tienen
significado alguno, el coeficiente de correlacin no siempre esta asociado a una relacin con
sentido. Cuando esto sucede, como en el caso d, se dice que la correlacin es esprea o sin
sentido: el factor que genera la correlacin esprea es el componente tendencial. En otro
caso, el coeficiente de correlacin si estara asociado a una relacin con sentido entre las
variables.
42
X t = X t X t 1
(4.1)
As, por ejemplo, la primera diferencia del PBI nominal en 1999 es la diferencia entre el
valor del PBI nominal en 1999 y el valor del PBI nominal en 1998; la primera diferencia del
gasto pblico en 1999 es la diferencia entre el saldo del gasto pblico en 1999 y el saldo del
gasto pblico en 1998; la primera diferencia de la tasa de crecimiento anual del PBI en 1999
es la diferencia entre la tasa de crecimiento entre 1999 y 1998 y la tasa de crecimiento entre
1998 y 1997.
Los ejemplos planteados muestran que la definicin de variable en niveles y en primeras
diferencias es relativa. As, la primera diferencia de X t podra considerarse como una
variable en niveles, mientras que la segunda diferencia de X t , definida como:
2 X t = ( X t X t 1 ) ( X t 1 X t 2 )
podra considerarse como la primera diferencia de la primera diferencia de X t .
43
(4.2)
XTt = X t + t 1
YTt = Yt + t 2
donde las tendencias no tienen significado alguno. La primera diferencia de la serie X est
dada por:
(3.3)
(3.5)
12
44
YT
XT 1.000000
0.002450
YT 0.002450
1.000000
45
En casos como estos, donde es posible que exista relacin con sentido econmico y se
intenta encontrar evidencia sobre ello, es posible aplicar la metodologa presentada en la
seccin anterior. As, bajo el supuesto de que los componentes tendenciales de cada una de
las variables econmicas relacionadas no tiene sentido:
a. Si el coeficiente de correlacin de los niveles de las variables es significativamente alto,
pero el coeficiente de correlacin de las primeras diferencias de las mismas es bajo,
entonces la correlacin entre los niveles de las variables es una correlacin esprea o sin
sentido econmico.
b. Si el coeficiente de correlacin de los niveles y de las primeras diferencias de las
variables es significativamente alto, entonces la correlacin entre los niveles de las
variables es una correlacin con sentido econmico.
Esta metodologa para identificar correlaciones espreas a partir de los coeficientes de
correlacin, fue utilizada por Stigler y Sherwin (1985). La hiptesis principal del artculo en
el cual ponen en prctica la metodologa es la siguiente:
Si dos bienes o servicios compiten en el mismo mercado, sus precios deberan estar
muy correlacionados.
Sin embargo, como la mayora de precios muestran movimientos tendenciales en el
tiempo (que se asumen que no tienen interpretacin econmica en muchos casos), los autores
analizaron la correlacin entre los niveles de los precios y sus primeras diferencias (cambio
en lo precios), para poder identificar la existencia de una correlacin con sentido econmico.
Los resultados del anlisis mostraron que el valor del coeficiente de correlacin no
disminuye drsticamente al utilizar las variables en niveles y en primeras diferencias. De esta
manera, los autores concluyen que los bienes estudiados compiten en el mismo mercado.
46
13
http://www.bcrp.gob.pe
47
6000
5000
4000
3000
2000
1000
93
94
95
96
97
98
99
00
01
EMISION
6000
5000
4000
3000
2000
1000
93
94
95
96
97
98
99
00
01
EMISIONSA
Como segundo las variables nominales CIR, CREME, TAMEX y TCIP fueron
transformadas a reales (CR, CRERME, TARMEX y TCIPR), utilizando el IPC94 y el TCIP
para el caso de las variables denominadas en moneda extranjera.
48
Finalmente, para
homogenizar la escala de las variables se aplicaron logaritmos a todas las series con
excepcin de las tasas de inters, generando as las series finales LEMISIONSA, LCR,
LPBIRSA, LIPC94, LCRERME y LTCIPR.
MV = PQ
establece que en el largo plazo bajo el supuesto que la velocidad de circulacin del dinero
(V) es estable y que el producto est en su nivel potencial o de pleno empleo - un aumento de
la cantidad de dinero tendr efectos nicamente sobre el nivel de precios; as, un aumento de
10 por ciento en la cantidad de dinero generar en el largo plazo un incremento de 10 por
ciento en el nivel de precios. Este resultado es uno de los supuestos que subyacen a la nueva
macroeconoma clsica.
Por otro lado, considerando el modelo de la sntesis neoclsica (que asume una oferta
agregada con pendiente positiva), un aumento de la cantidad de dinero genera un aumento en
la demanda agregada y por lo tanto un aumento en el producto (fenmeno denominado
demanda efectiva), el cual va acompaado de un aumento del nivel de precios, como se
muestra en la Figura 23:
49
OA
P1
P0
DA(M1)
DA(M0)
Y0
Y1
Para verificar la existencia de un sustento emprico de esta relacin terica entre dinero y
precios, se grafican (Figura 24) las series LEMISIONSA e IPC94 para el periodo enero 1993
diciembre 2001:
5.2
8.8
5.0
8.4
4.8
8.0
4.6
4.4
7.6
4.2
7.2
93
94
95
96
97
LEMISIONSA
98
99
00
01
LIPC94
El grfico muestra que ambas series crecen a lo largo del tiempo y de forma parecida. Para
verificar la existencia de una relacin lineal se utiliza el grfico de dispersin de ambas
series:
50
LIPC94
1
0
-1
-2
-3
-3
-2
-1
LEMISIONSA
LIPC94
LEMISIONSA
1.000000
0.988957
LIPC94
0.988957
1.000000
Como era de esperar por lo establecido por la teora econmica, la correlacin entre los
niveles de las variables es positiva y fuerte (0.99). Para comprobar si la relacin lineal entre
las variables analizadas es o no esprea, es necesario analizar la correlacin entre las
primeras diferencias de las variables.
DLEMISIONSA
DLIPC94
DLEMISIONSA
1.000000
0.224576
DLIPC94
0.224576
1.000000
51
La matriz de correlaciones entre las primeras diferencias de las variables muestra una
relacin lineal positiva y dbil entre DLEMISIONSA y DLIPC94 (0.22), lo cual tambin
puede observarse en el grfico de dispersin:
DLIPC94
-2
-4
-2
DLEMISIONSA
Figura 26: Grfico de dispersin entre las primeras diferencias de la Emisin y los Precios
Bajo el supuesto de que las tendencias de las series no tienen sentido alguno, este
resultado permitira concluir que la relacin entre el dinero y el nivel de precios de la
economa es esprea. Sin embargo, si se considera la teora monetarista de la determinacin
de los precios, las tendencias que presentan cada una de las series se interpretan como la
senda de largo plazo que siguen; as, en este caso la correlacin sera una correlacin con
sentido econmico: el dinero determina los precios en el largo plazo.
6.2.2. Demanda por Dinero Real e Ingreso Real.
Como segundo ejemplo, se analiza la relacin entre la demanda por dinero real y el
ingreso real, relacionados tericamente a travs del modelo clsico de demanda por dinero
real. En este modelo, el dinero se utiliza solamente para realizar transacciones.
Para verificar empricamente la existencia de sta relacin terica se utilizaron como
variables proxy LCR (para la demanda por dinero real) y LPBIRSA (para el ingreso real).
52
El grfico de la demanda por dinero real y el ingreso real (figura 27), permite apreciar un
comportamiento creciente en ambas series, para el periodo enero 1993 diciembre 2001:
9.3
9.2
3.4
9.1
3.2
9.0
3.0
8.9
2.8
8.8
2.6
2.4
93
94
95
96
97
98
99
00
01
LPBIRSA
1
0
-1
-2
-3
-3
-2
-1
LCR
Figura 28: Grfico de dispersin entre los niveles de Dinero e Ingreso reales
53
LPBIRSA
LCR
1.000000
0.953381
LPBIRSA
0.953381
1.000000
Sin embargo, para determinar si la correlacin entre estas variables es una correlacin
esprea, es necesario analizar la matriz de correlaciones entre las primeras diferencias de las
mismas:
Matriz de Correlaciones en Primeras Diferencias: Dinero e Ingreso Reales
DLCR
DLPBIRSA
DLCR
1.000000
0.036931
DLPBIRSA
0.036931
1.000000
La matriz muestra una relacin lineal dbil entre las primeras diferencias de las variables.
Por lo tanto, se concluye que la correlacin entre la demanda por dinero real y el ingreso es
esprea o sin sentido, lo cual implica que la correlacin entre las variables est explicada por
la presencia de componentes tendenciales.
Nuevamente, bajo el supuesto de que las tendencias de las series no tienen sentido
alguno, este resultado permitira concluir que la relacin entre el dinero real y el ingreso real
es esprea. Sin embargo, si se considera como relevante la relacin de largo plazo entre el
dinero real y el ingreso real, entonces las tendencias que presentan cada una de las series se
interpretan como la senda de largo plazo que siguen cada una de ellas; en este caso, la
correlacin sera una correlacin con sentido econmico: en el largo plazo la demanda real
por dinero esta ntimamente relacionada con el ingreso real.
54
teora
macroeconmica
tradicional
establece
relaciones
econmicamente
9.3
4.5
0.020
9.3
0.018
9.2
0.016
4.0
9.2
0.014
9.1
9.0
0.012
9.1
0.010
9.0
3.5
0.008
8.9
8.9
0.006
8.8
0.004
93
94
95
96
97
LPBIRSA
98
99
00
3.0
8.8
93
01
TARMEX
94
95
96
97
LPBIRSA
55
98
99
00
LCRERME
01
9.3
-3.65
-3.70
9.2
-3.75
9.1
-3.80
9.0
-3.85
8.9
-3.90
8.8
-3.95
93
94
95
96
97
98
LPBIRSA
99
00
01
LTCIPR
Las variables proxy utilizadas para medir la produccin, la tasa de inters, el crdito y el
tipo de cambio reales fueron LPBIRSA, TARMEX, CRERME y LTCIPR, respectivamente.
Para el caso de la tasa de inters y el crdito, se utilizaron las series correspondientes a
moneda extranjera, dada la importancia de la dolarizacin de la economa peruana para el
periodo estudiado.
La contrapartida emprica para las relaciones bivariadas establecidas por la teora
econmica se aprecia en los grficos de las series de la Figura 29, verificndose el sentido de
las relaciones establecidas por la teora.
3
2
LTCIPR
TARMEX
2
1
0
0
-1
-2
-2
-3
-2
-1
-3
LPBIRSA
-2
-1
LPBIRSA
56
LCRERME
1
0
-1
-2
-3
-3
-2
-1
LPBIRSA
Los grficos de dispersin de la Figura 30, confirman la existencia de una relacin lineal
inversa, tanto para el caso del producto real vs. la tasa de inters real como para el del
producto real vs. el tipo de cambio real, y una relacin directa entre el producto y el crdito
reales.
La matriz de correlaciones de las variables permite determinar la fuerza de estas
relaciones bivariadas lineales:
LPBIRSA
TARMEX
LCRERME
LTCIPR
LPBIRSA
1.000000
-0.940297
0.947747
-0.431767
TARMEX
-0.940297
1.000000
-0.871744
0.256799
LCRERME
0.947747
-0.871744
1.000000
-0.440914
LTCIPR
-0.431767
0.256799
-0.440914
1.000000
Bajo el supuesto de que los componentes tendenciales que presentan cada una de las
series no tienen sentido alguno, la matriz de correlaciones en primeras diferencias de las
mismas permite concluir que las relaciones bivariadas entre el producto y la tasa de inters,
el crdito y el tipo de cambio reales son espreas:
57
DLPBIRSA
DTARMEX
DLCRERME
DLTCIPR
DLPBIRSA
1.000000
-0.178665
0.248468
0.077523
DTARMEX
-0.178665
1.000000
-0.016953
0.090657
DLCRERME
0.248468
-0.016953
1.000000
-0.131397
DLTCIPR
0.077523
0.090657
-0.131397
1.000000
2
DLCRERME
DTAMEXR
-2
-2
-4
-4
-4
-2
-4
-2
DLPBIRSA
DLPBIRSA
DLTCIPR
-2
-4
-4
-2
DLPBIRSA
Sin embargo, una vez ms, si la teora econmica establece la posibilidad de una relacin de
largo plazo entre cualquiera de los pares de variables analizados, entonces los componentes
tendenciales tendran sentido (en este caso econmico) y por lo tanto las correlaciones no
seran espreas.
58
7. CONCLUSIONES
(1) El coeficiente de correlacin es un instrumento estadstico que permite establecer la
fuerza y direccin de una relacin lineal estadstica entre dos variables a partir de una
muestra determinada, bajo el supuesto de que sta es representativa.
(2) Existen casos en los que un coeficiente de correlacin significativo entre dos variables es
consecuencia de un tercer factor diferente de ellas y no de la existencia de una relacin
lineal con algn sentido entre las mismas bajo la consideracin de alguna teora conocida
(por ejemplo, biolgica, fsica, econmica, entre otras). Cuando esto sucede, se dice que
la correlacin es esprea. La correlaciones espreas pueden presentarse cuando las
variables analizadas son medidas a travs de datos de corte transversal o series de tiempo.
(3) Entre las principales causas de las correlaciones espreas en un contexto de corte
transversal figuran el uso de ratios, la presencia de datos atpicos (out layers) y de grupos
no relacionados. Para el caso de correlaciones espreas causadas por el uso de ratios, la
deteccin implica el anlisis de la correlacin y sentido de los componentes variables
(numeradores) de los mismos. Para el caso de datos atpicos el grfico de dispersin es
un instrumento muy importante para identificarlos. Para el caso de grupos no
relacionados, es posible detectar la presencia de correlaciones espreas analizando el
grfico de dispersin y la estructura de la muestra.
(4) Para el caso de series temporales, adems de las causas mencionadas para el contexto de
corte transversal, la presencia de tendencias (determinsticas o estocsticas) que carecen
de sentido alguno tambin pueden generar correlaciones espreas. Bajo estas
circunstancias, es posible detectar la presencia de correlaciones espreas analizando el
coeficiente de correlacin de los niveles y las primeras diferencias de las series. Si el
coeficiente de correlacin es considerado significativamente alto en niveles y en primeras
diferencias, entonces la correlacin no es esprea. Si el coeficiente de correlacin es
considerado significativamente alto en niveles mas no as en primeras diferencias,
entonces la correlacin es esprea.
59
Referencias Bibliogrficas
Banco Central de Reserva del Per
Memoria Anual. Varios nmeros.
Banco Central de Reserva del Per
Boletn Semanal. Varios nmeros.
Granger, C.W.
1969 Investigating Causal Relations by Econometric Models and Cross-Spectral Methods.
Economtrica, Vol. 37.
Kronmal, Richard
1993 Spurious Correlation and the Fallacy of the Standard Ratio Revisited. Journal of the
Royal Statistical Society. Vol. 156, parte 3, p. 379-392.
Liebetrau, Albert M.
1983 Mesures of Association. Newbury Park: Sage.
Lima, Elon Lages
1997 Anlisis Real. Lima: Per Offset, Vol. 1.
Mendenhall, William; Scheaffer, Richard L. y Dennis D. Wackerly
1994 Estadstica Matemtica con Aplicaciones. Mxico: Grupo Editorial Iberoamerica.
2da. Edicin.
Neyman, Jerzy
1952 Lectures and Conferences on Mathematical Statistics and Probability. Washington
DC: US Department of Agriculture. 2da, ed., p. 143-154. 1952.
Pearson, Karl
1897 Mathematical contributions to the theory of evolution on the form of spurious
correlation which may arise when indices are used in the measurements of organs.
Proceedings of the Royal Society of London. Vol. 60, p. 268-286. 1897.
Stigler, George J. y Robert A. Sherwin
1985 Extent of the Market. Journal of Political Economics, Vol. 28, 1985.
60
APNDICE
Demostracin 1:
La covarianza es sensible a las unidades de medida de las variables
Sean dos variables X e Y para las cuales se cuenta con n valores observados. Sus valores
muestrales promedio estn dados por:
X =
Y =
X1 + K + X n
n
Y1 + K + Yn
n
y su covarianza por:
Cov( X , Y ) =
1 n
( X i X )(Yi Y )
n 1 i =1
Si todos los valores de X e Y fueran multiplicados por y , tales que > 1 y > 1 , las
unidades de medida de ambas variables se incrementaran porcentualmente en dichos
factores, al igual que sus respectivas medias muestrales:
X 1 + K + X n ( X 1 + K + X n )
=
= X
n
n
Y1 + K + Yn (Y1 + K + Yn )
=
= Y
n
n
Dado esto, tenemos que:
Cov(X , Y ) =
1 n
1 n
(
X
)(
Y
)
=
i
( X i X )(Yi Y )
i
n 1 i =1
n 1 i =1
Cov(X , Y ) =
n
( X i X )(Yi Y ) = Cov( X , Y )
n 1 i =1
61
Cov(X , Y ) = Cov( X , Y )
Es decir, el valor de la covarianza entre las variables se altera en una proporcin igual a .
Sin embargo, el signo no se altera.
( y cx)
i =1
donde y y x son variables que son afectadas por la suma, y c es una constante. Dado esto, es
posible definir arbitrariamente la constante c como:
n
c=
xy
i =1
n
i =1
con lo cual:
n
xy
n
y i =1
i =1
x2
i =1
x 0
2
( xy )
xy
n
y 2 + x 2 i =1
2 yx i n=1 0
i =1
( x 2 ) 2
x2
i =1
i =1
62
y + x
2
i =1
i =1
( xy ) 2
i =1
n
2 xy
( x )
i =1
2 2
i =1
i =1
i =1
n
( x )
2 xy
i =1
i =1
i =1
i =1
n
xy
i =1
n
i =1
2 2 i =1
( xy ) 2
i =1
n
i =1
( xy ) 2
xy
i =1
( xy ) 2
i =1
n
i =1
i =1
( xy ) 2
i =1
n
i =1
n
y
i =1
( xy ) 2
i =1
n
i =1
i =1
i =1
i =1
( x 2 )( y 2 ) ( xy ) 2
( xy ) 2
i =1
= r2
1
n 2 n 2
( x )( y )
i =1
i =1
14
63
xy
=| r |
i =1
x y
i =1
i =1
Entonces:
1 r
1 r 1
Con lo cual queda demostrada la afirmacin.
64