Está en la página 1de 3

Correlaci�n

Ir a la navegaci�nIr a la b�squeda
Para otros usos de este t�rmino, v�ase Correlaci�n (desambiguaci�n).
En probabilidad y estad�stica, la correlaci�n indica la fuerza y la direcci�n de
una relaci�n lineal y proporcionalidad entre dos variables estad�sticas. Se
considera que dos variables cuantitativas est�n correlacionadas cuando los valores
de una de ellas var�an sistem�ticamente con respecto a los valores hom�nimos de la
otra: si tenemos dos variables (A y B) existe correlaci�n entre ellas si al
disminuir los valores de A lo hacen tambi�n los de B y viceversa. La correlaci�n
entre dos variables no implica, por s� misma, ninguna relaci�n de causalidad (V�ase
cum hoc ergo propter hoc).

�ndice
1 Fuerza, sentido y forma de la correlaci�n
2 Coeficientes de correlaci�n
2.1 Interpretaci�n geom�trica
2.2 Distribuci�n del coeficiente de correlaci�n
3 Referencias
4 Enlaces externos
Fuerza, sentido y forma de la correlaci�n
La relaci�n entre dos variables cuantitativas queda representada mediante la l�nea
de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes
elementales de una l�nea de ajuste y, por lo tanto, de una correlaci�n, son la
fuerza, el sentido y la forma:

La fuerza extrema seg�n el caso, mide el grado en que la l�nea representa a la nube
de puntos: si la nube es estrecha y alargada, se representa por una l�nea recta, lo
que indica que la relaci�n es fuerte; si la nube de puntos tiene una tendencia
el�ptica o circular, la relaci�n es d�bil.
El sentido mide la variaci�n de los valores de B con respecto a A: si al crecer los
valores de A lo hacen los de B, la relaci�n es directa (pendiente positiva); si al
crecer los valores de A disminuyen los de B, la relaci�n es inversa (pendiente
negativa).
La forma establece el tipo de l�nea que define el mejor ajuste: la l�nea recta, la
curva monot�nica o la curva no monot�nica
Coeficientes de correlaci�n
Existen diversos coeficientes que miden el grado de correlaci�n, adaptados a la
naturaleza de los datos. El m�s conocido es el coeficiente de correlaci�n de
Pearson (introducido en realidad por Francis Galton), que se obtiene dividiendo la
covarianza de dos variables entre el producto de sus desviaciones est�ndar. Otros
coeficientes son:

Coeficiente de correlaci�n de Spearman


Correlaci�n can�nica
Interpretaci�n geom�trica
Dados los valores muestrales de dos variables aleatorias {\displaystyle
X(x_{1},\ldots ,x_{n})} {\displaystyle X(x_{1},\ldots ,x_{n})} e {\displaystyle
Y(y_{1},\ldots ,y_{n})} {\displaystyle Y(y_{1},\ldots ,y_{n})}, que pueden ser
consideradas como vectores en un espacio a n dimensiones, pueden construirse los
"vectores centrados" como:

{\displaystyle X(x_{1}-{\bar {x}},\ldots ,x_{n}-{\bar {x}})} {\displaystyle


X(x_{1}-{\bar {x}},\ldots ,x_{n}-{\bar {x}})} e {\displaystyle Y(y_{1}-{\bar
{y}},\ldots ,y_{n}-{\bar {y}})} {\displaystyle Y(y_{1}-{\bar {y}},\ldots ,y_{n}-
{\bar {y}})}.

El coseno del �ngulo alfa entre estos vectores es dado por la f�rmula siguiente:
{\displaystyle r=\cos(\alpha )={\dfrac {\displaystyle \sum _{i=1}^{N}(x_{i}-{\bar
{x}})\cdot (y_{i}-{\bar {y}})}{{\sqrt {\displaystyle \sum _{i=1}^{N}(x_{i}-{\bar
{x}})^{2}}}\cdot {\sqrt {\displaystyle \sum _{i=1}^{N}(y_{i}-{\bar {y}})^{2}}}}}}
{\displaystyle r=\cos(\alpha )={\dfrac {\displaystyle \sum _{i=1}^{N}(x_{i}-{\bar
{x}})\cdot (y_{i}-{\bar {y}})}{{\sqrt {\displaystyle \sum _{i=1}^{N}(x_{i}-{\bar
{x}})^{2}}}\cdot {\sqrt {\displaystyle \sum _{i=1}^{N}(y_{i}-{\bar {y}})^{2}}}}}}

Pues {\displaystyle \cos(\alpha )} {\displaystyle \cos(\alpha )} es el coeficiente


de correlaci�n muestral de Pearson. El coeficiente de correlaci�n es el coseno del
�ngulo entre ambos vectores centrados:

Si r = 1, el �ngulo {\displaystyle \alpha =0} {\displaystyle \alpha =0}�, ambos


vectores son colineales (paralelos).
Si r = 0, el �ngulo {\displaystyle \alpha =90} {\displaystyle \alpha =90}�, ambos
vectores son ortogonales.
Si r =-1, el �ngulo {\displaystyle \alpha =180} {\displaystyle \alpha =180}�, ambos
vectores son colineales de direcci�n opuesto.
M�s generalmente: {\displaystyle \alpha =\arccos(r)} {\displaystyle \alpha
=\arccos(r)}.

Por supuesto, desde el punto vista geom�trico, no hablamos de correlaci�n lineal:


el coeficiente de correlaci�n tiene siempre un sentido, cualquiera sea su valor
entre -1 y 1. Nos informa de modo preciso, no tanto sobre el grado de dependencia
entre las variables, sino sobre su distancia angular en la hiperesfera a n
dimensiones.

La Iconograf�a de las correlaciones es un m�todo de an�lisis multidimensional que


reposa en esta idea. La correlaci�n lineal se da cuando en una nube de puntos se
encuentran o se distribuyen alrededor de una recta.

La f�rmula de correlaci�n para dos series distintas con cierto desfase "k", est�
dada por la f�rmula:

{\displaystyle r_{k}={\dfrac {\displaystyle \sum _{i=1}^{N-k}(x_{i}-{\bar


{x}})\cdot (y_{i+k}-{\bar {y}})}{{\sqrt {\displaystyle \sum _{i=1}^{N-k}(x_{i}-
{\bar {x}})^{2}}}\cdot {\sqrt {\displaystyle \sum _{i=k+1}^{N}(y_{i}-{\bar
{y}})^{2}}}}}} {\displaystyle r_{k}={\dfrac {\displaystyle \sum _{i=1}^{N-k}(x_{i}-
{\bar {x}})\cdot (y_{i+k}-{\bar {y}})}{{\sqrt {\displaystyle \sum _{i=1}^{N-k}
(x_{i}-{\bar {x}})^{2}}}\cdot {\sqrt {\displaystyle \sum _{i=k+1}^{N}(y_{i}-{\bar
{y}})^{2}}}}}}

Distribuci�n del coeficiente de correlaci�n


El coeficiente de correlaci�n muestral o anal�tico de una muestra es de hecho una
variable aleatoria, eso significa que si repetimos un experimento o consideramos
diferentes muestras se obtendr�n valores diferentes y por tanto el coeficiente de
correlaci�n muestral calculado a partir de ellas tendr� valores ligeramente
diferentes. Para muestras grandes la variaci�n en dicho coeficiente ser� menor que
para muestras peque�as. R. A. Fisher fue el primero en determinar la distribuci�n
de probabilidad para el coeficiente de correlaci�n.

Si las dos variables aleatorias que trata de relacionarse proceden de una


distribuci�n gaussiana bivariante entonces el coeficiente de correlaci�n r sigue
una distribuci�n de probabilidad dada por:1?2?

{\displaystyle f\left(r\right)={\frac {\left(n-2\right)\,\mathbf {\Gamma } \left(n-


1\right)\left(1-\rho ^{2}\right)^{\frac {n-1}{2}}\left(1-r^{2}\right)^{\frac {n-4}
{2}}}{{\sqrt {2\pi }}\,\mathbf {\Gamma } \left(n-{\frac {1}{2}}\right)\left(1-\rho
r\right)^{n-{\frac {3}{2}}}}}\,\mathbf {_{2}F_{1}} \left({\frac {1}{2}},{\frac {1}
{2}};{\frac {2n-1}{2}};{\frac {\rho r+1}{2}}\right)} {\displaystyle
f\left(r\right)={\frac {\left(n-2\right)\,\mathbf {\Gamma } \left(n-
1\right)\left(1-\rho ^{2}\right)^{\frac {n-1}{2}}\left(1-r^{2}\right)^{\frac {n-4}
{2}}}{{\sqrt {2\pi }}\,\mathbf {\Gamma } \left(n-{\frac {1}{2}}\right)\left(1-\rho
r\right)^{n-{\frac {3}{2}}}}}\,\mathbf {_{2}F_{1}} \left({\frac {1}{2}},{\frac {1}
{2}};{\frac {2n-1}{2}};{\frac {\rho r+1}{2}}\right)}

donde:

{\displaystyle \mathbf {\Gamma } } {\displaystyle \mathbf {\Gamma } } es la


distribuci�n gamma
{\displaystyle \,\mathbf {_{2}F_{1}} (a,b;c;z)} {\displaystyle \,\mathbf
{_{2}F_{1}} (a,b;c;z)} es la funci�n gaussiana hipergeom�trica.
N�tese que el valor esperado del coeficiente de correlaci�n muestral r es:

{\displaystyle \mathbb {E} \left(r\right)=\rho -{\frac {\rho \left(1-\rho


^{2}\right)}{2\left(n-1\right)}}+\cdots } {\displaystyle \mathbb {E}
\left(r\right)=\rho -{\frac {\rho \left(1-\rho ^{2}\right)}{2\left(n-1\right)}}
+\cdots }

por tanto, r es estimador sesgado de {\displaystyle \,\rho } {\displaystyle


\,\rho }. Puede obtenerse un estimador aproximado no sesgado resolviendo la
ecuaci�n:

{\displaystyle {\bar {r}}=\mathbb {E} \left(r\right)=\rho -{\frac {\rho


\left(1-\rho ^{2}\right)}{2\left(n-1\right)}}} {\displaystyle {\bar {r}}=\mathbb
{E} \left(r\right)=\rho -{\frac {\rho \left(1-\rho ^{2}\right)}{2\left(n-
1\right)}}} para {\displaystyle \,\rho } {\displaystyle \,\rho }

Aunque, la soluci�n:

{\displaystyle {\rho }=r\left[1+{\frac {1-r^{2}}{2\left(n-1\right)}}\right]}


{\displaystyle {\rho }=r\left[1+{\frac {1-r^{2}}{2\left(n-1\right)}}\right]}

es sub�ptima. Se puede obtener un estimador sesgado con m�nima varianza para


grandes valores de n, con sesgo de orden {\displaystyle {\frac {1}{n-1}}}
{\displaystyle {\frac {1}{n-1}}} buscando el m�ximo de la expresi�n:

{\displaystyle \log {f\left(r\right)}} {\displaystyle \log {f\left(r\right)}}, i.e.


{\displaystyle {\hat {\rho }}=r\left[1-{\frac {1-r^{2}}{2\left(n-1\right)}}\right]}
{\displaystyle {\hat {\rho }}=r\left[1-{\frac {1-r^{2}}{2\left(n-1\right)}}\right]}

En el caso especial de que {\displaystyle \,\rho =0} {\displaystyle \,\rho =0}, la


distribuci�n original puede ser reescrita como:

{\displaystyle f\left(r\right)={\frac {\left(1-r^{2}\right)^{\frac {n-4}{2}}}


{\mathbf {B} \left({\frac {1}{2}},{\frac {n-2}{2}}\right)}}} {\displaystyle
f\left(r\right)={\frac {\left(1-r^{2}\right)^{\frac {n-4}{2}}}{\mathbf {B}
\left({\frac {1}{2}},{\frac {n-2}{2}}\right)}}}

donde {\displaystyle \mathbf {B} } {\displaystyle \mathbf {B} } es la funci�n beta.

También podría gustarte