Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis de Correlación
Análisis de Correlación
Buscaremos en primer lugar analizar si existe una asociación lineal (porque la línea recta es la
función matemática más simple como modelo de análisis) entre las r.v. univariadas X e Y a través
de medir cuál es el grado o intensidad de ese vínculo lineal.
En los casos afirmativos, luego trataremos de encontrar la ecuación de la línea recta que mejor las
relacione en algún sentido matemático. Para determinar si existe una asociación o tendencia lineal
(sin considerar la relación de dependencia entre ellas) entre dos r.v. X e Y, se utiliza un coeficiente
llamado (rho) de Pearson.
Coeficiente de correlación (rho) de Pearson, creado en 1896 por Karl Pearson, un pionero
estadístico británico, nacido en Londres el 27 de Marzo de 1857 y muerto en Coldharbour, Surrey,
27 de Abril de 1936. Mide el grado de intensidad de la asociación lineal entre dos r.v. X e Y, y se lo
define de la siguiente manera:
cov x, y
xy
x y
donde:
cov( x, y ) es la covarianza ó co-variación conjunta entre x e y, y está definida así :
-
+
µy
x
µx
+ -
cov( x, y)
X X Y Y
cov( x, y)
La covarianza mide la asociación lineal i.e. la tendencia que tienen las r.v. X e Y a formar una recta
o alinearse, y el grado de la misma o pendiente. Este parámetro actúa de la siguiente manera para
medir la intensidad del vinculo lineal entre X e Y: observemos el diagrama de arriba en el que se
han colocado los puntos de la población (X ; Y); en el mismo también hemos señalado claramente
el punto ( ). Podemos separar los puntos de la población de acuerdo a cuál de los 4
“cuadrantes” ocupe cada punto. Aquellos que se ubiquen en el cuadrante superior derecho y en el
inferior izquierdo aportan covarianza positiva ya que el resultado de la operación básica
( ) será positivo. Por el contrario aquellos que se ubiquen en el cuadrante superior
izquierdo y en el inferior derecho aportan covarianza negativa ya que el resultado de la operación
básica ( ) será negativo. Luego, en la covarianza sumamos todos estos aportes y si
esa suma da positiva, quiere decir que tienen más peso los puntos de los cuadrantes superior
derecho e inferior izquierdo. Esto significa que los puntos tienden a alinearse de manera que
forman una recta con pendiente positiva. Por el contrario si la suma total de la covarianza es
negativa quiere decir que tienen más peso los puntos de los cuadrantes superior izquierdo e
inferior derecho. Esto significa que los puntos tienden a alinearse de manera que forman una recta
con pendiente negativa. En cualquiera de los dos casos dividimos la covarianza por el producto de
los desvíos standard solo para unificar o normalizar las unidades y la magnitud de las dos variables
X e Y, que pueden ser muy diferentes.
Tipos de covarianza
No significativa No significativa
Rango de y su interpretación:
El coeficiente de correlación (rho) de Pearson solo puede tomar valores reales entre -1 y 1
porque la covarianza ha sido dividida por los desvíos standard.
1 1
Los distintos valores que puede tomar el (rho) de Pearson se interpretan así :
1 1
P ? -1 P? 0 P? 1
-1 0 1
linealidad significativa
ρ→0
Cálculo del estimador r del de Pearson
Cuando tengamos los n datos de una muestra bivariada de un par aleatorio (X,Y) :
X1 , Y1 ; X 2 , Y2 ; X 3 , Y3 ; ; X n , Yn
∑ ̅ ̅
̂
̅ ̅
√∑ √∑
( X Y X Y XY XY )
i 1
i i i i
n
n n
(X
i 1
i
2
2Xi X X ) 2
Y
i 1
i
2
2YY
i Y 2
n n
n n n
X Y Y X
i 1
i i
i 1
i X Yi nXY )
i 1
n
n n n n
X
i 1
i
2
2 X X i nX 2
i 1
Y
i 1
i
2
2Y Yi nY 2
i 1
n n
n n n
X iYi Xi Y i
nXY
i 1
Y i 1
X i 1
n n n n
n n n n
X i
2
X i
nX 2 Y i
2
Y i
nY 2
i 1
2X i 1
i 1
2Y i 1
n n n n n n
XY i i
i 1
YX XY XY
n
n n
X i
2
Y i
2
i 1
2 XX X 2 i 1
2YY Y 2
n n
XY i i
i 1
YX
n
n n
X i
2
Y i
2
i 1
X2 i 1
Y 2
n n
̂
∑ ̅̅
̂
√∑ ̅ √∑ ̅
a. El valor del coeficiente de correlación es independiente de cualquier unidad usada para medir
las variables X e Y.
c. El coeficiente de correlación mide solo la relación con una línea recta. Dos variables pueden
tener una relación curvilínea fuerte, a pesar de que su correlación sea pequeña. Por tanto cuando
analicemos las relaciones entre dos variables debemos representarlas gráficamente y
posteriormente calcular el coeficiente de correlación.
d. El coeficiente de correlación no se debe extrapolar más allá del rango de valores observado de
las variables a estudio ya que la relación existente entre X e Y puede cambiar fuera de dicho rango.
Ejemplo
Veamos si la temperatura media diaria (X = T) y la humedad media relativa del ambiente (Y = H)
para el mes de Julio de 2011 en Río Gallegos, tienen una asociación lineal significativa, es decir si
están correlacionadas.
Día (Julio) T H 12 0.1 88 24 2.2 92
1 2.2 79 13 1.9 90 25 3.2 94
2 1.3 84 14 2.4 99 26 3.2 89
3 2.2 82 15 -0.3 86 27 3.1 92
4 1.7 80 16 -1.8 86 28 0.3 82
5 1.3 88 17 1 78 29 -2.8 85
6 2.6 90 18 0.4 73 30 -0.8 80
7 2.4 85 19 1.2 67 31 0.7 78
8 2.2 86 20 3.6 65
9 0.2 86 21 3.7 69
10 -1.2 87 22 2.6 73
11 2.4 85 23 3.5 74
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil VersiónDiagrama
Estudiantil de
Versión Estudiantil
Dispersion Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
100,70
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Humedad media relativa (H)
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
91,35
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
82,00
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
72,65
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
63,30
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
-3,13 -1,34 0,45 2,24 4,03
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Temperatura media diaria (T)
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
La conclusión es que no existe una asociación o tendencia lineal significativa entre la temperatura
media diaria y la humedad relativa del ambiente durante el mes de Julio de 2011 en Río Gallegos.
Rho de Spearman
∑ [ ]
∑ [ ]
Estima la relación entre dos variables ordinales, es decir que su aplicación es ideal para el caso no
paramétrico de variables cualitativas ordinales. Se interpreta igual que el índice de Pearson. Este
coeficiente se utiliza para medir el grado de correspondencia entre dos categorías y evaluar el
nivel de significación de esta correspondencia. En otras palabras, mide la intensidad de la
asociación entre las tabulaciones cruzadas. Fue desarrollado por Maurice Kendall en 1938.
Donde
El coeficiente tau (τ) de Kendall está basada más en los intervalos jerarquizados de las
observaciones que los propios datos, esto hace que la distribución de τ sea independiente de la
que presentan las variables X y Y, siempre y cuando que los datos representados por estas 2
variables sean (1) independientes y (2) continuas. Algunos investigadores prefieren este
coeficiente sobre el de Spearman, por la ventaja de que el τ tiende más rápido a la distribución
normal que el de Spearman, especialmente, en el caso de la certeza de Ho.
Si los dos rankings o categorías que se evalúan son iguales, el coeficiente tiene un valor de
1
Si el valor de uno de los rankings o categorías es opuesto al otro, el coeficiente tiene un
valor de -1
Para todas las otras combinaciones, el valor del coeficiente varia entre -1 y 1. Si las
categorías son totalmente independientes, el coeficiente es 0