Está en la página 1de 10

Análisis Multivariado

Análisis de Correlación

Análisis Estadístico Bivariado


Trabajaremos ahora con dos r.v. X e Y, recordando lo que ya hemos visto para r.v.
bidimensionales, por ejemplo las distribuciones conjunta, marginales y condicionales. El caso
bivariado es el menor posible de los casos multivariados.

Análisis de Correlación
Buscaremos en primer lugar analizar si existe una asociación lineal (porque la línea recta es la
función matemática más simple como modelo de análisis) entre las r.v. univariadas X e Y a través
de medir cuál es el grado o intensidad de ese vínculo lineal.

En los casos afirmativos, luego trataremos de encontrar la ecuación de la línea recta que mejor las
relacione en algún sentido matemático. Para determinar si existe una asociación o tendencia lineal
(sin considerar la relación de dependencia entre ellas) entre dos r.v. X e Y, se utiliza un coeficiente
llamado  (rho) de Pearson.

Coeficiente de correlación  (rho) de Pearson, creado en 1896 por Karl Pearson, un pionero
estadístico británico, nacido en Londres el 27 de Marzo de 1857 y muerto en Coldharbour, Surrey,
27 de Abril de 1936. Mide el grado de intensidad de la asociación lineal entre dos r.v. X e Y, y se lo
define de la siguiente manera:

cov  x, y 
   xy 
 x  y

donde:
cov( x, y ) es la covarianza ó co-variación conjunta entre x e y, y está definida así :

cov( x, y)  E  X   X Y  Y  


y

-
+

µy

x
µx

+ -

  cov( x, y) 
 X   X Y  Y 
  cov( x, y) 

La covarianza mide la asociación lineal i.e. la tendencia que tienen las r.v. X e Y a formar una recta
o alinearse, y el grado de la misma o pendiente. Este parámetro actúa de la siguiente manera para
medir la intensidad del vinculo lineal entre X e Y: observemos el diagrama de arriba en el que se
han colocado los puntos de la población (X ; Y); en el mismo también hemos señalado claramente
el punto ( ). Podemos separar los puntos de la población de acuerdo a cuál de los 4
“cuadrantes” ocupe cada punto. Aquellos que se ubiquen en el cuadrante superior derecho y en el
inferior izquierdo aportan covarianza positiva ya que el resultado de la operación básica
( ) será positivo. Por el contrario aquellos que se ubiquen en el cuadrante superior
izquierdo y en el inferior derecho aportan covarianza negativa ya que el resultado de la operación
básica ( ) será negativo. Luego, en la covarianza sumamos todos estos aportes y si
esa suma da positiva, quiere decir que tienen más peso los puntos de los cuadrantes superior
derecho e inferior izquierdo. Esto significa que los puntos tienden a alinearse de manera que
forman una recta con pendiente positiva. Por el contrario si la suma total de la covarianza es
negativa quiere decir que tienen más peso los puntos de los cuadrantes superior izquierdo e
inferior derecho. Esto significa que los puntos tienden a alinearse de manera que forman una recta
con pendiente negativa. En cualquiera de los dos casos dividimos la covarianza por el producto de
los desvíos standard solo para unificar o normalizar las unidades y la magnitud de las dos variables
X e Y, que pueden ser muy diferentes.
Tipos de covarianza

cov( x, y )  0 significativa positiva cov( x, y)  0 significativa negativa

Cov (X,Y) ≃ 0 (Amorfo) Cov (X,Y) ≃ 0 (Modelo no lineal)

No significativa No significativa

Rango de  y su interpretación:

El coeficiente de correlación  (rho) de Pearson solo puede tomar valores reales entre -1 y 1
porque la covarianza ha sido dividida por los desvíos standard.
1    1

Los distintos valores que puede tomar el  (rho) de Pearson se interpretan así :

linealidad significativa negativa linealidad significativa positiva

  1  1
P ? -1 P? 0 P? 1

-1 0 1
linealidad significativa

ρ→0
Cálculo del estimador r del  de Pearson

Cuando tengamos los n datos de una muestra bivariada de un par aleatorio (X,Y) :

 X1 , Y1  ;  X 2 , Y2  ;  X 3 , Y3  ; ;  X n , Yn 

calculamos un estimador muestral ̂ del parámetro  , llamado coeficiente muestral r de


Pearson. Para ello aplicamos la siguiente fórmula que proviene de sustituir cada factor de la
definición de por sus correspondientes estimadores muestrales:

∑ ̅ ̅
̂
̅ ̅
√∑ √∑

 ( X Y  X Y  XY  XY )
i 1
i i i i

 n 
n n

(X
i 1
i
2
 2Xi X  X ) 2
Y
i 1
i
2
 2YY
i Y 2


n n
n n n

 X Y Y  X
i 1
i i
i 1
i  X  Yi  nXY )
i 1

 n 
n n n n

X
i 1
i
2
 2 X  X i  nX 2
i 1
Y
i 1
i
2
 2Y  Yi  nY 2
i 1

n n

n n n

 X iYi  Xi Y i
nXY
i 1
Y i 1
X i 1

n n n n
 
n n n n

X i
2
X i
nX 2 Y i
2
Y i
nY 2
i 1
 2X i 1
  i 1
 2Y i 1

n n n n n n

XY i i
i 1
 YX  XY  XY
 n 
n n

X i
2
Y i
2

i 1
 2 XX  X 2  i 1
 2YY  Y 2
n n

XY i i
i 1
 YX
 n 
n n

X i
2
Y i
2

i 1
X2  i 1
Y 2
n n

̂
∑ ̅̅
̂
√∑ ̅ √∑ ̅

llamada fórmula de trabajo para ̂

El coeficiente de correlación posee las siguientes propiedades:

a. El valor del coeficiente de correlación es independiente de cualquier unidad usada para medir
las variables X e Y.

b. El valor del coeficiente de correlación se altera significativamente ante la presencia de valores


extremos de X o Y. Lo mismo ocurre con la desviación típica. En este caso conviene plantear una
transformación funcional de los datos que cambie las escalas de medición como, por ejemplo, una
transformación logarítmica.

c. El coeficiente de correlación mide solo la relación con una línea recta. Dos variables pueden
tener una relación curvilínea fuerte, a pesar de que su correlación sea pequeña. Por tanto cuando
analicemos las relaciones entre dos variables debemos representarlas gráficamente y
posteriormente calcular el coeficiente de correlación.

d. El coeficiente de correlación no se debe extrapolar más allá del rango de valores observado de
las variables a estudio ya que la relación existente entre X e Y puede cambiar fuera de dicho rango.

e. La correlación no implica causalidad. La causalidad es un juicio de valor que requiere más


información que un simple valor cuantitativo de un coeficiente de correlación.

f. El coeficiente de correlación es simétrico, es decir que . Esto surge directamente de


la definición del coeficiente

Ejemplo
Veamos si la temperatura media diaria (X = T) y la humedad media relativa del ambiente (Y = H)
para el mes de Julio de 2011 en Río Gallegos, tienen una asociación lineal significativa, es decir si
están correlacionadas.
Día (Julio) T H 12 0.1 88 24 2.2 92
1 2.2 79 13 1.9 90 25 3.2 94
2 1.3 84 14 2.4 99 26 3.2 89
3 2.2 82 15 -0.3 86 27 3.1 92
4 1.7 80 16 -1.8 86 28 0.3 82
5 1.3 88 17 1 78 29 -2.8 85
6 2.6 90 18 0.4 73 30 -0.8 80
7 2.4 85 19 1.2 67 31 0.7 78
8 2.2 86 20 3.6 65
9 0.2 86 21 3.7 69
10 -1.2 87 22 2.6 73
11 2.4 85 23 3.5 74
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil VersiónDiagrama
Estudiantil de
Versión Estudiantil
Dispersion Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
100,70
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Humedad media relativa (H)

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
91,35
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
82,00
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
72,65
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
63,30
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
-3,13 -1,34 0,45 2,24 4,03
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Temperatura media diaria (T)
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

El cálculo del estimador del coeficiente de correlación r de Pearson nos dá ̂ -0,09595

La conclusión es que no existe una asociación o tendencia lineal significativa entre la temperatura
media diaria y la humedad relativa del ambiente durante el mes de Julio de 2011 en Río Gallegos.

Rho de Spearman

El coeficiente de correlacion de Spearman es una medida de correlacion entre dos variables


aleatorias continuas, que se calcula ordenando los datos y reemplanzando por su respectivo
orden. Este coeficiente es menos sensible que el de Pearson para los valores muy lejos de lo
esperado, y suele utilizarse cuando la distribución de las variables que se estudian no es normal.

Asi el de Spearman viene dado por la expresión

∑ [ ]

Ejemplo de aplicación ρ de Spearman:

En el ejemplo anterior en el que calculamos el coeficiente de correlación de Pearson en base a los


datos de temperatura media diaria (X = T) y la humedad media relativa del ambiente (Y = H) para
el mes de Julio de 2011 en Río Gallegos; encontremos ahora el coeficiente de Spearman

Temperatura Humedad Rango (T) Rango (H) (R(T) - R(H))^2


2.2 79 18,5 1 306,25
1.3 84 13,5 2 132,25
2.2 82 18,5 3 240,25
1.7 80 15 4,5 110,25
1.3 88 13,5 4,5 81
2.6 90 24,5 6 342,25
2.4 85 21,6 7,5 198,81
2.2 86 18,5 7,5 121
0.2 86 7 9 4
-1.2 87 3 10,5 56,25
2.4 85 21,6 10,5 123,21
0.1 88 6 12,5 42,25
1.9 90 16 12,5 12,25
2.4 99 21,6 14 57,76
-0.3 86 5 16 121
-1.8 86 2 16 196
1.0 78 11 16 25
0.4 73 9 19,5 110,25
1.2 67 12 19,5 56,25
3.6 65 30 19,5 110,25
3.7 69 31 19,5 132,25
2.6 73 24,5 22 6,25
3.5 74 29 23,5 30,25
2.2 92 18,5 23,5 25
3.2 94 27,5 25 6,25
3.2 89 27,5 26,5 1
3.1 92 26 26,5 0,25
0.3 82 8 28,5 420,25
-2.8 85 1 28,5 756,25
-0.8 80 4 30 676
0.7 78 10 31 441
SUMA = 4941,28

Entonces hallamos el de Spearman

∑ [ ]

Coeficiente de correlación Tau Kendall

Estima la relación entre dos variables ordinales, es decir que su aplicación es ideal para el caso no
paramétrico de variables cualitativas ordinales. Se interpreta igual que el índice de Pearson. Este
coeficiente se utiliza para medir el grado de correspondencia entre dos categorías y evaluar el
nivel de significación de esta correspondencia. En otras palabras, mide la intensidad de la
asociación entre las tabulaciones cruzadas. Fue desarrollado por Maurice Kendall en 1938.

Donde

P: es la suma, sobre todas las categorías de las clases rankeadas (ordenadas)

Cantidad de pares (ordenaciones de n pares) posibles:

El coeficiente tau (τ) de Kendall está basada más en los intervalos jerarquizados de las
observaciones que los propios datos, esto hace que la distribución de τ sea independiente de la
que presentan las variables X y Y, siempre y cuando que los datos representados por estas 2
variables sean (1) independientes y (2) continuas. Algunos investigadores prefieren este
coeficiente sobre el de Spearman, por la ventaja de que el τ tiende más rápido a la distribución
normal que el de Spearman, especialmente, en el caso de la certeza de Ho.

Divide por 2 porque se toman indistintamente (X , Y) o (Y , X)


Propiedades del coeficiente Tau de Kendall:

 Si los dos rankings o categorías que se evalúan son iguales, el coeficiente tiene un valor de
1
 Si el valor de uno de los rankings o categorías es opuesto al otro, el coeficiente tiene un
valor de -1
 Para todas las otras combinaciones, el valor del coeficiente varia entre -1 y 1. Si las
categorías son totalmente independientes, el coeficiente es 0

También podría gustarte