Correlacion

CORRELACION
Notas
Indice
INDICE
1. OBJETIVOS DEL TEMA
2. CONCEPTOS BSICOS PREVIOS
3. INTRODUCCIN
4. APUNTE HISTRICO
5. GRFICOS DE DISPERSIN
6. EL COEFICIENTE DE CORRELACIN DE PEARSON,

7. CLCULO DEL COEFICIENTE DE CORRELACIN
5
8
8. ESTADSTICA INFERENCIAL
10
9. EL COEFICIENTE DE DETERMINACIN
11
10. OTRAS MEDIDAS DE CORRELACIN. (1) SIMPLIFICACIN DEL CLCULO DEL COEFICIENTE DE CORRELACIN
11
11. OTRAS MEDIDAS DE LA CORRELACIN. (2) COEFICIENTE DE CORRELACIN NO PARAMTRICO
14
12. MEDIDAS DE ASOCIACIN
16
13. OTRAS MEDIDAS DE ASOCIACIN RELACIONADAS CON EL ANOVA
18
14. COEFICIENTE DE CORRELACIN PARCIAL Y SEMIPARCIAL: CONTROL DEL IMPACTO DE OTRAS VARIABLES SOBRE LA
18
CORRELACIN
15. EXTENSIN MULTIVARIADA
19
BIBLIOGRAFA
20
1. Objetivos del tema
Conocer y comprender el concepto de correlacin
Saber cundo debe utilizarse tcnicas de correlacin y sus limitaciones
Saber representar e interpretar un diagrama de dispersin
Saber leer los resultados de un anlisis de correlacin producido por un sistema informtico
Saber calcular e interpretar un coeficiente de correlacin
Saber calcular e interpretar los intervalos de confianza del coeficiente de correlacin
Conocer, saber cundo utilizar y como interpretar las medidas de correlacin alternativas al coeficiente
de correlacin de Pearson
Saber calcular e interpretar el coeficiente de determinacin
Conocer, saber cundo utilizar y como interpretar los coeficientes de correlacin parcial y semiparcial
Conocer, saber cundo utilizar y como interpretar el coeficiente de correlacin mltiple
2. Conceptos bsicos previos

2.1. Varianza y cuasivarianza
En las notas anteriores se ha descrito la varianza (Descriptivos, pgina 4) y la cuasivarianza (Muestreo,
pgina 6) como una medida de dispersin de los datos:
sx2 =
1
n 1
1
s =
n 1
2
x
(x x )
i =1
1 n
x
xi
i
n i =1
i =1
n
2.2. Covarianza
2
La covarianza s x y es una medida de cuantificacin de la concordancia de la desviacin de dos variables:
sx2 y =
1 n
( xi x ) ( yi y )
n 1 i =1
sx2 y =
1 n
1 n
x
y
xi
i i n
n 1 i =1
i =1
y
i =1
2.2. Estandarizacin
La estandarizacin es un proceso de clculo para lograr variables comparables en magnitud y dispersin.
Consiste en restar a cada observacin la media y dividir este resultado por la desviacin tpica. Se
transforma en una distribucin de media cero y varianza igual a uno.
3. Introduccin
El estudio de la relacin entre dos o ms variables tiene una gran importancia en el Laboratorio Clnico.
Adems de las aplicaciones en investigacin bsica, aplicada y clnica, los problemas de calibracin,
validacin y comparacin metodolgica son corrientes en el da a da.
En general, cuando se habla de medir relaciones entre dos o ms variables, se habla de dos tipos de
anlisis: regresin y correlacin. El anlisis de la regresin se utiliza para establecer las relaciones entre dos
variables, habitualmente en el contexto de un estudio prospectivo o experimental. El anlisis de la
correlacin, sin embargo, pretende averiguar la intensidad o fortaleza de esta relacin, la proximidad de los
puntos a la lnea (recta) de regresin y acostumbra a hacerse en el contexto de un estudio retrospectivo u
observacional.
La correlacin es la relacin medible matemticamente mediante un nmero que representa la intensidad
de la relacin, pero no la causalidad.
La correlacin sirve para:
(a) explorar la existencia de la relacin particular estadsticamente significativa entre las dos variables,
es decir, si los cambios en una son consistentes en la otra;
(b) conocer si la relacin es positiva o negativa;
(c) cuantificar el grado de significacin estadstica de la relacin, es decir, la confianza (estadstica)
relacionada con dicha relacin;
(d) averiguar que parte de la variacin de una variable es explicada por la otra.
El anlisis de la correlacin implica los siguientes pasos:
(a) el estudio descriptivo mediante el grfico de dispersin;
(b) la estimacin del coeficiente de correlacin (incluyendo su intervalo de confianza);
(c) la valoracin de este coeficiente de correlacin (signo y magnitud) y la significacin estadstica;
(d) la interpretacin del coeficiente de correlacin evaluando el coeficiente de determinacin.
El anlisis de la correlacin tiene unas aplicaciones concretas pero tiende a ser sobreutilizado y
malinterpretado, especialmente quizs porque se asocia una alta correlacin con causalidad (y viceversa).
El anlisis de correlacin es preferible reservarlo para generar hiptesis en lugar de para comprobarlas.
4. Apunte histrico
Francis Galton fue el primero en medir la correlacin en 1888 a propsito del estudio que reasliz para
probar la regresin a la mediocridad de las alturas de los hijos y la de sus padres, mencionando por
primera vez un ndice de co-relacin.
Francis Galton (1822-1911)

F. Y. Edgeworth fue el primero en utilizar el trmino coeficiente de correlacin en 1892.
Francis Y. Edgeworth (1845-1926)

La frmula de clculo del coeficiente de correlacin tal como se conoce hoy es debida a K. Pearson que la
public en dos trabajos aparecidos en 1896. Tambin fue K. Pearson el primero en hacer inferencia con
grandes muestras.
Karl Pearson (1857-1936)

Sin embargo el mtodo utilizado para estas inferencias no era demasiado bueno y Student (William Gosset)
lo demostr as en 1908.
William S. Gosset (1876-1937)

En 1915, R.A. Fisher confirm la apreciacin de Student, obteniendo adems la distribucin exacta del
coeficiente de correlacin. Fisher propuso una transformacin aproximadamente normal en 1921 que
incluy ms adelante en su influyente obra Statistical methods for research workers hacindola accesible a
la comunidad cientfica. Desde 1932 se conoce como transformacin de Fisher.
Ronald A. Fisher (1890-1962)

En 1896, G. U. Yule acu el trmino de coeficientes netos en oposicin a coeficientes brutos para los
coeficientes de correlacin entre dos variables cuando se pretende eliminar el efecto de la variacin de una
tercera variable. Pearson (1897) juzg mas oportuno denominarlos parcial y total. En 1907, una
publicacin de Yule ya adoptaba esta denominacin (1), aunque ya en 1896 G.U. Yule introdujo tambin el
concepto de correlacin mltiple. Al ao siguiente se refera a l como el coeficiente de doble correlacin
R1 y en 1907 present el ensimo-coeficente de correlacin (coefficient of n-fold correlation) al que
denomin R1234... y al que K Pearson rebautiz en 1914 (y 1915) como coeficente de correlacin mltiple.
George U. Yule (1871-1951)

Otras aportaciones notables fueron obra de C. Spearman y M. Kendall. C. Spearman describi en 1904 el
coeficiente de correlacin ordinal (basado en la posicin ordinal de la observacin y no en su valor
absoluto), y M. Kendall una alternativa diferente al de no paramtrica al de Pearson
Charles Spearman (1863-1945).
Maurice Kendall (1907-1983)
5. Grficos de dispersin
5.1. Sinnimos
Scatter diagram, scatter plot.
5.2. Definicin
Es el procedimiento de representacin grfica de las observaciones o mediciones efectuadas en cada
individuo1.
5.3.Utilizacin del grfico de dispersin

El grfico de dispersin se utiliza como una primera aproximacin para tener una idea global del tipo de
relacin existente entre dos variables.
5.4. Interpretacin
Cuando existe buena correlacin, los puntos se disponen de forma estrecha alrededor de una diagonal del
sistema cartesiano: la que tiene su origen en el extremo inferior izquierdo y va al superior derecho si es
positiva y al revs si la correlacin negativa. Cuando la disposicin de los puntos es aleatoria, la correlacin
es nula.
http://www.ncsu.edu/ncsu/chemistry/resource/excel/excel.html
http://www.ncsu.edu/labwrite/res/gt/graphtut-home.html
4
5.5. Limitaciones
No permite la cuantificacin de esta relacin, cosa que exige el clculo del coeficiente de correlacin.
6. El coeficiente de correlacin de Pearson, r

6.1. Sinnimos
Coeficiente
de correlacin muestral del producto de momentos.
6.2. Definicin
El coeficiente de correlacin r es la expresin matemtica de la relacin entre las dos variables aleatorias.
Es una versin estandarizada de la covarianza entre X e Y :
r=
sx y
sx s y
6.3. Utilizacin del coeficiente de correlacin r

El coeficiente de correlacin r se utiliza para:
(a) comprobar que existe una relacin lineal entre dos variables aleatorias, antes de proceder al anlisis de
regresin;
(b) resumir en un solo nmero ( r ) la intensidad de la relacin lineal entre estas dos variables.
El coeficiente de correlacin r no debe utilizarse para:
(a) establecer relaciones causales entre dos variables;
(b) suplantar el anlisis de regresin;
(c) analizar la coherencia entre mediciones.
6.4. Propiedades del coeficiente de correlacin r
El coeficiente de correlacin r no tiene unidades;
El intervalo de posibles valores de r es:
En el anlisis de la correlacin no es aplicable la distincin entre variable dependiente o

independiente como sucede en el modelo de regresin: aqu ambas variables son dependientes.
1 r 1 ;
6.5. Requisitos para calcular el coeficiente de correlacin r
Mnimo de dos observaciones por individuo, medidas en una escala de intervalo (continua); aunque
tambin pueden estarlo en escala ordinal, por codificacin de variables categricas;
El conjunto de observaciones, la muestra, ha de ser representativo de la poblacin: la presencia de

grupos heterogneos en una muestra (por ejemplo el incluir individuos jvenes y ancianos en la misma
muestra par estudiar la relacin entre la edad y el filtrado glomerular) puede resultar inapropiada;
El conjunto de observaciones no debe contener datos extremos, ya que el coeficiente de correlacin r

es muy sensible a su presencia;
Las observaciones no deben contener errores de medicin o ste ha de ser relativamente nfimo ya que
la baja fiabilidad de las observaciones atena el valor de r ;
Las variables deben estar relacionadas linealmente, es decir el grfico de dispersin sigue una diagonal:
las relaciones curvilneas pueden producir r no significativos;
La forma de la distribucin de las variables debe ser igual. Si no tienen la misma distribucin, aunque el
ajuste sea perfecto, se observar un r < 1 , y cuanto menos se parezcan las distribuciones ms se
atenuar r . Este efecto es importante cuando se correlaciona una variable en escala de intervalo con
otra ordinal o dicotomizada;
Adems, la distribucin de los pares ( xi , yi ) debe ser bivariada normal2. Es importante desde el punto
de vista inferencial, cuando se trata de valorar la intensidad y la significacin estadstica de la
correlacin. Cuando la distribucin no sea normal, el intervalo de r puede que no sea 1 , 1 . Sin
embargo, el teorema central del lmite demuestra que para muestras grandes los ndices implicados en
las pruebas de significacin se distribuyen normalmente incluso cuando las propias variables no lo sean.
De cualquier forma, cuando se prefiera evitar este tipo de conflicto, puede recurrirse a utilizar un clculo
no paramtrico como la de Spearman o un estadstico no paramtrico como la de Kendall;
La varianza de las variables debe ser homognea (variables homoscedsticas) y no restringida. Si la

varianza es truncada o restringida en una o varias variables, por ejemplo por un muestreo deficiente, el
coeficiente de correlacin puede verse afectado. Tambin por truncacin del intervalo de la variable por
dicotomizacin de datos continuos o reduccin de la escala.
El anlisis de la r de Pearson es esencialmente paramtrico, basado en la suposicin que los pares
( xi , yi ) siguen una distribucin normal bivariada. La distribucin nomal bivariada es una extensin de la
distribucin normal caracterizada por que los valores de X
e Y se distribuyen normalmente y la
2
2
X
,
Y
tambin
es
normal,
con
cinco
parmetros ( x , y , X , Y , ). La
(
)
evaluacin de esta normalidad es ciertamente problemtica, aunque una regla aproximada dice que si X e
Y se distribuyen normalmente, puede actuarse como si ( X , Y ) fuera tambin normal. En cualquier caso
distribucin marginal de
de dudas, puede optarse por el recurso de estimar el coeficiente de correlacin de forma no paramtrica.
6
6.6. Interpretacin del coeficiente de correlacin r

Para interpretar el coeficiente de correlacin r hay que conocer las magnitudes en que se han medido las
variables.
El coeficiente de correlacin r mide slo la relacin lineal entre variables, es decir, es una medida del poder
explicativo del modelo lineal, pero no mide la magnitud de la pendiente de la regresin ni si es adecuado un
modelo lineal. Si la relacin sigue un modelo no lineal (curvado) el coeficiente de correlacin puede ser 0.
En otras palabras, un coeficiente de correlacin pequeo no indica necesariamente que hay poca relacin
entre las variables, porque puede estar reducido si la relacin entre estas variables no es lineal. Una medida
de precaucin es calcular el intervalo de confianza del coeficiente de correlacin r para tener una visin
ms general, especialmente cuando el nmero de observaciones sea pequeo.
El coeficiente de correlacin r no implica causalidad. Para establecer una relacin causa efecto entre dos
variables es preciso que la variable causal preceda a la variable causada y cumplir una serie de condiciones
(reversibilidad, fortaleza, respuesta a la exposicin) contenidas en el llamado modelo de Rubin/Bradford Hill.
Desde el punto de vista geomtrico, los conjuntos de n observaciones son vectores en un espacio k
dimensional (habitualmente k = 2 , ya que si k > 2 se hablar de correlacin mltiple) y el coeficiente de
correlacin r sera el coseno del ngulo entre los vectores centrados por sustraccin de la respectiva
media. Si estos vectores son perpendiculares entre s (es decir forman un ngulo recto) porque se trata de
variables no correlacionadas, ser r = 0 y las variables se denominarn ortogonales (del griego ngulo
recto)
El coeficiente de correlacin r siempre sobrestima la relacin lineal entre dos variables en la poblacin, por
lo que requiere una correccin para conseguir una mejor estimacin. El resultado de esta correccin se
denomina coeficiente de correlacin ajustado y se representar como r .
6.6.1. Signo
El signo de r es positivo cuando al aumentar o disminuir el valor de una variable aleatoria la otra aumenta o
disminuye simultneamente.
El signo de r es negativo cuando al aumentar o disminuir el valor de una variable aleatoria la otra
disminuye o aumenta simultneamente.
6.6.2. Magnitud
Si las variables X e Y son independientes, r = 0 . Sin embargo, la inversa no es siempre cierta, salvo que
ambas variables se distribuyan normalmente;
Si las variables X e Y estn perfectamente relacionadas entre s:
r =1
6.7. Limitaciones del coeficiente de correlacin r

6.7.1. Causalidad
La principal limitacin que tiene el coeficiente de correlacin es la posibilidad de mala interpretacin como
demostracin de causalidad. Cuando dos variables tienen un coeficiente de correlacin altamente
significativo no implica en modo alguno que una sea causa de la otra. Puede ser, por ejemplo, que esta alta
correlacin se deba a la existencia de una tercera (o ms) variables dependientes implicadas en el proceso.
En estos casos se recomienda recurrir al clculo del coeficiente de correlacin parcial o semiparcial.
En ocasiones se califica de esprea la alta correlacin no explicable.
6.7.2. Significacin paradjica
Una segunda limitacin se origina en el caso de estudiar la correlacin en una muestra cuyo contingente n
sea muy grande. En estos casos, r tiende a ser significativo aunque su valor absoluto no sea demasiado
2
grande. Cuando se evala el coeficiente de determinacin R puede darse la circunstancia de que a pesar
2
de la alta significacin estadstica de r el coeficiente R exprese slo un insignificante porcentaje de

variacin de una variable es explicado por la segunda variable. Esta paradoja resume el escaso valor que
puede tener el coeficiente r para definir la relacin entre variables.
6.7.2. Evaluacin de medidas de error
El coeficiente de correlacin no debe ser utilizado en comparacin de mtodos: indica el grado de
asociacin, no el nivel de acuerdo o concordancia entre diferentes mtodos.
7. Clculo del coeficiente de correlacin
7.1. Estandarizacin de
Una forma es utilizar el producto cruzado de los valores estandarizados de las variables:
r=
zx ,i z y ,i
zx =
xx
sx
zy =
y y
sy
xi x
sx
yi y
sy
1 ( x x )( y y )
s s
n i
x
y
O de forma ms directa, mediante:
r=
n xi yi
i
2
n xi x
i
i
x y
i

2
n yi y
i
i
Sin embargo, aunque til para programar informticamente, esta frmula puede introducir errores de
redondeo cuando se aplica manualmente, recomendndose en esta circunstancia utilizar la frmula anterior.
7.2. Estimacin insesgada

Desde 1915 en que R. A. Fisher lo evidenciara, se sabe que el coeficiente de correlacin r de Pearson
estimado segn las frmulas anteriores tiende a infraestimar la correlacin poblacional. Este sesgo
disminuye cuando aumenta el nmero de datos n , de modo que para contingentes numerosos, el sesgo es
mnimo. Fisher propuso como estimador insesgado:
1 r 2
r = r 1 +
2n
Olkin y Pratt (2) recomendaron utilizar el siguiente estadstico que parece ser que corrige mejor el sesgo de
r cuando el efectivo es n 20 :

1 r 2
r = r 1 +
2n6
El sesgo del estimador del coeficiente de correlacin r de Pearson no debe confundirse con la inestabilidad
de la varianza de la que adolece tambin este estadstico. Fue tambin R. A. Fisher quien lo evidenci y el
que introdujo una transformacin (no lineal) denominada z :
1 1+ r
ln
2 1 r
z=
El error estndar de z es:
es ( z ) =
1
n3
aunque Fieller y Pearson prefieren una frmula ms ajustada:
es ( z ) =
1, 060
n 3
La funcin inversa (denominada funcin tangente hiperblica) es:
e2 z 1
rz = 2 z
e +1
7.4. Correccin por atenuacin
La fiabilidad puede interpretarse como la correlacin de una variable consigo misma. La correccin para la
atenuacin de una correlacin rxy es una funcin de la fiabilidad de dos variables rx x y ry y :
rx y
rxy =
7.5. Coeficiente de correlacin ajustado
rx x ry y
El coeficiente de correlacin es un estadstico descriptivo que siempre sobrestima la correlacin de la

poblacin. Para una estimacin ms exacta, puede ajustarse segn la expresin:
r = 1 (1 r 2 )
7.6. Relaciones de
n 1
n2
con otros parmetros afines:
(a) con el coeficiente de regresin b (pendiente):
r 2 = b b
2
(b) con el coeficiente de determinacin R :
R2 = r 2
2
(c) con la covarianza s x y :
sx2 y = r sx s y
7.7. Promedio de coeficientes de correlacin

En algunas circunstancias puede ser interesante considerar un valor medio de diferentes coeficientes de
correlacin. Por ejemplo, si se desea evaluar el rendimiento interensayo en un estudio de aprendizaje, una
circunstancia rara en medicina de laboratorio. Ms interesante puede ser en un metanlisis. El coeficiente
de correlacin medio ser:
n r
=
n
i i
donde:
ni
es el tamao muestral de las i muestras;
ri
es el coeficiente de correlacin de las i muestras.
Como que r es un estadstico sesgado que para valores superiores a 0 infraestima la correlacin
poblacional, tambin lo ser r .Por la misma razn, al ser r un estadstico de varianza inestable, tambin
lo ser r y tambin le ser aplicable la transformacin z de Fisher para estabilizarla, aunque este ltimo
punto es objeto de controversia.
8. Estadstica inferencial
(Vase Mdulo 2)
8.1. Intervalos de confianza del coeficiente de correlacin

Para calcular el intervalo de confianza del coeficiente de correlacin se recurre a la transformacin de Fisher
mencionada anteriormente, que se distribuye normalmente y cuyo error estndar tambin se mencion. El
intervalo estar comprendido entre los lmites inferior z L y superior zU :
z L = z 1,96
1
n 3
zU = z + 1,96
1
n 3
Seguidamente, para conseguir estos lmites en trminos de coeficiente de correlacin, se aplicar la

transformacin inversa:
rL =
e 2 zL 1
e 2 zL + 1
rU =
e 2 zU 1
e 2 zU + 1
8.2. Test de hiptesis

Definicin del test:
H0 : = 0
H1 : 0
Distribucin de probabilidad de r :
1 2
r N,
n2
Estadstico a calcular:
10
tobs =
r n2
1 r 2
Alternativamente, ya que F = t :
2
Fobs
r2
=
( n 2)
1 r 2
Cuando la hiptesis nula es cierta, y cumplindose los requisitos y suposiciones, los estadsticos
observados se distribuyen segn tn 2 y F1, n 2 respectivamente:
p = 2 Pr ( tn 2 tobs
p = 2 Pr ( F1, n 2 Fobs
9. El coeficiente de determinacin
2
El coeficiente de determinacin R indica la proporcin de varianza comn entre una variable dependiente
y una(s) variable(s) independientes. Se define como el cuadrado del coeficiente de correlacin r de
Pearson:
R2 = r 2
[ ]
Sus valores estn, pues incluidos en el intervalo 0,1 .

En las notas referentes a la Regresin, se trata ms ampliamente, en el contexto de la regresin lineal.
10. Otras medidas de correlacin. (1) Simplificacin del clculo del coeficiente de
correlacin
Versiones simplificadas del clculo del coeficiente de Pearson, a veces denominados atajos, son:
El coeficiente de correlacin
El coeficiente de correlacin biserial puntual rb p
El coeficiente de correlacin (phi)

escala
intervalo
intervalo
r de Pearson
ordinal
biserial rb
nominal
biserial puntual rb p
dicotmico
natural
biserial puntual rb p
dicotmico
artificial
biserial rb
(rho) de Spearman
ordinal
nominal
dicotmico
natural
dicotmico
artificial
de Spearman
de Kendall
C de contingencia
rb r biserial
ordenado
rb p biserial
V de Cramer
puntual
tetracrico rtet
11
10.1. El coeficiente de correlacin de Spearman

Definicin
Es un caso especial de coeficiente de correlacin de Pearson en que los datos continuos son previamente
convertidos en ordinales.
Propiedades
Aplicable cuando se trata de datos ordenados (o continuos reducidos a ordinales);
Menos influenciable por la presencia de datos sesgados o variables;
Es una medida de correlacin no paramtrica en el sentido de que no implica suposiciones acerca de la

forma de la distribucin de frecuencias de las variables implicadas;
Tampoco requiere la suposicin de linealidad.
Clculo3
Una vez convertidos los datos en sus respectivos ordinales, se aplica el mismo procedimiento de clculo
que para el coeficiente de Pearson.
Una frmula alternativa, ms prctica, es:
= 1
d2
n
donde:
6d2
n ( n 1)
es la diferencia de los ordinales de X e Y ;

es el nmero de pares de datos
10.2. El coeficiente de correlacin biserial puntual

Definicin
Es un caso especial de coeficiente de correlacin de Pearson en que una variable est medida en escala
nominal dicotmica natural (es decir, los datos se expresan como dos alternativas, por ejemplo 1 y 0) y la
otra en escala de intervalo o continua.
Propiedades
Aplicable cuando se trata de datos ordenados (o continuos reducidos a ordinales);
Clculo
rb p =
donde: y0 , y1
( y1 y0 )
pq
son las medias de los ordinales de los pares de datos con puntuaciones 1 y 0;
es la proporcin de pares de datos con puntuacin 0;
q = 1 p es la proporcin de pares de datos con puntuacin 1;
es la desviacin tpica de los datos de la poblacin Y .
Interpretacin
Como el caso del coeficiente de correlacin de Pearson, rb p tiene un intervalo de valores 1 r 1 .
Una calculadora on line puede encontarse en http://www.wessa.net/rankcorr.wasp
12
10.3. El coeficiente de correlacin biserial rb

Definicin
El coeficiente de correlacin biserial rb es similar al coeficiente de correlacin biserial puntual rb p pero para
variables medidas en escala cuantitativa una y dicotomizada la otra, aunque subyacentemente se distribuya
normalmente.
Clculo4
rb =
donde: y0 , y1
( y1 y0 )
y
pq
Y
son las medias de las variables cuantitativas;

es la proporcin de pares de datos con puntuacin 0;
q = 1 p es la proporcin de pares de datos con puntuacin 1;

Y
es la altura de la distribucin normal estandarizada (media = 0 y varianza = 1) en el

punto z tal que
Pr ( z ' < z ) = p )
Pr ( z ' > z ) = q )
es la desviacin tpica de los datos de la poblacin Y .
Interpretacin
Dado que el factor
pq
del numerador siempre ser > 1, el coeficiente de correlacin biserial rb ser
siempre mayor que el coeficiente de correlacin biserial puntual rb p .
10.4. El coeficiente de correlacin biserial ordinal rb o

Definicin
El coeficiente de correlacin biserial ordinal rb o es similar al coeficiente de correlacin biserial puntual rb p
pero para variables medidas en escala ordinal una y dicotomizada la otra, aunque subyacentemente se
distribuya normalmente.
Clculo
rb o = 2
( y1 y0 )
n
donde: y0 , y1 son las medias de los ordinales para los pares de datos con puntuaciones 1 y 0;
es el nmero de pares de datos.
Interpretacin
Salvo por el matiz de la variable dicotomizada, tiene la misma interpretacin que el coeficiente de
correlacin biserial puntual rb p .
Una aplicacin para Excel puede obtenerse en: http://psych.colorado.edu/~bonk/IF_pbi_template.xls.zip.
13
10.5. Coeficiente de correlacin

Definicin
Esta simplificacin del clculo del coeficiente de correlacin r de Pearson se ha utilizado en la
comprobacin de la hiptesis de independencia, es decir de la propiedad inversa a la asociacin, cuando
ambas variables son dicotmicas. En este caso se acostumbra a establecer unas tablas bidimensionales
(una variable en cada dimensin) que representan la frecuencia de cada una de las cuatro categoras y las
sumas marginales:
X
+
b
a+b
+ a
Y
d
c+d
c
a+c b+d
n
Clculo5
bc ad
( a + b ) ( c + d ) ( a + c ) (b + d )
Interpretacin
Como el caso del coeficiente de correlacin de Pearson, rb p tiene un intervalo de valores 1 r 1 . Sin
embargo, los valores extremos r = 1 slo son posibles cuando la suma de las dos filas y la suma de las
dos columnas sea igual.
11. Otras medidas de la correlacin. (2) Coeficiente de correlacin no paramtrico

Cuando se violan los supuestos del clculo del coeficiente de correlacin de Pearson, puede recurrirse a la
transformacin de estos datos para corregir la anomala o utilizar un anlisis no paramtrico de la
correlacin.
11.1. Coeficiente de correlacin de Kendall

Propiedades
de Kendall tiene un intervalo de valores 1 1 .
El coeficiente de correlacin
Cuando la concordancia o discordancia entre los ordinales de dos variables es perfecta,

cuando son independientes, = 0 .
Clculo6
4P
1
n ( n 1)
Cuando n > 40 :
5
6
Puede obtenerse una calculadora on line en http://faculty.vassar.edu/lowry/tab2x2.html

Puede obtenerse una calculadora on line en http://www.wessa.net/rwasp_kendall.wasp
14
vale 1 o 1;
z=
donde:
n
P
z
P
n ( n 1) ( 2 n + 5 )
18
es el nmero de pares de observaciones;

es el nmero de pares concordantes menos el nmero de pares discordantes;
corresponde a la distribucin normal.
Interpretacin
Cuanto mayor sea el nmero de pares concordantes, mayor ser P y por tanto
ordinales son consistentes7.
, indicando que los
11.2. Coeficiente de correlacin tetracrico rtet

Definicin
Es una estimacin de r a partir de variables dicotmicas, como , que representan distribuciones de
valores en escala de intervalo y distribuidas normalmente, pero que por la razn que fuere han sido
dicotomizadas.
Nota: Los empates no son concordantes ni discordantes. Si hay muchos empates debe considerarse el
utilizar frmulas alternativas (Todas estos coeficientes presentan valores en el intervalo 1,1 alcanzando
los valores extremos en caso de concordancia o discordancia perfecta, y de 0 en caso de ausencia de
asociacin):
b de Kendall. Este estadstico incluye los empates E X

b =
y EY . Se define como:
CD
( C + D + E X ) ( C + D + EY )
c de Kendall. Este estadstico incluye el menor nmero de casos no empatados en la variable X
y en la
Y . Se define como:
c =
2 B (C D )
n 2 ( B 1)
d de Somers: Este estadstico considera tanto variables simtricas (en este caso coincide con la
b ) como
dependientes. En este caso, si la variable dependiente es Y :
d =
donde:
B
C=
CD
C + D + EY
es el menor nmero de casos no empatados en la variable X y en la Y ;
n ( n 1)
es el nmero total de concordancias, incluyendo los E empates;
2
D
E X , EY
es el nmero total de discordancias;
es el nmero total de empates.
es el nmero de empates en la variable X y en la Y respectivamente; y
Todas estos coeficientes presentan valores en el intervalo 1,1 alcanzando los valores extremos n caso
de concordancia o discordancia perfecta, y de 0 en caso de ausencia de asociacin.
15
Clculo8
180
rtet = cos
bc
1 +
ad
Aplicaciones
Se utiliza en el modelado de ecuaciones estructurales (SEM) y por lo general su utilizacin como medida de
asociacin se desaconseja.
Segn el procedimiento utilizado para calcularlo, el resultado puede ser diferente.
12. Medidas de asociacin

Existe una serie de medidas ocasionalmente denominadas coeficientes de correlacin, pero que con ms
propiedad deben llamarse de asociacin, son parecidas al coeficiente .
12.1. Coeficiente de contingencia C de Pearson

Definicin
El coeficiente de contingencia C de Pearson es una medida de asociacin entre dos variables medidas en
escala nominal. Se trata de adaptar el estadstico a tablas de dimensiones superiores a 2 x 2. De hecho
existe la recomendacin de utilizarlo slo para tablas de 5 x 5 o superiores, ya que por debajo de esta
dimensin se infraestima la asociacin de las variables.
2
Clculo
C=
2
2 + n
Existe una variante (denominada C * de Sakoda) para ajustar C :
C* =
Cobservada
=
Cmxima
Cobservada
min ( filas , columnas ) 1

min ( filas , columnas )
que vara entre ( 0,1) independientemente de las dimensiones de la tabla

Interpretacin
La interpretacin tanto de C como de C * no es intuitiva. Pearson lo consideraba una aproximacin al
coeficiente r ,y puede ser considerado como un porcentaje de su mxima variacin posible. Debe tenerse
en cuenta que cuanto menor sean las dimensiones de la tabla, ms se alejar C de 1(cosa que no sucede
con C * ). Para tablas de 2 x 2 el valor mximo de C es de 0,71.
12.2. Coeficiente V de Cramr

Definicin
El coeficiente V descrito por Harald Cramr (3) es una medida de asociacin entre variables medidas en
escala nominal.
8
Una calculadora on line puede encontrarse en: http://www.mhri.edu.au/biostats/DAG%5FStat/.

16
Clculo9
Utiliza el estadstico
2 :
2
V =
donde:
C
R
n
n min ( R 1 , C 1)
es el nmero de columnas;
es el nmero de filas; y
es el nmero de observaciones.
En el caso sencillo de tablas 2 x 2, equivale al coeficiente mencionado anteriormente:
Interpretacin
[ ]
El estadstico V est dentro del intervalo 0,1 . Un valor V = 0 significa una concordancia inexistente y
V = 1 implica una concordancia perfecta.

12.3. Coeficiente de Goodman y Kruskal
Definicin
El coeficiente de Goodman y Kruskal es una medida de asociacin entre dos variables medidas en
escala nominal, como el coeficiente de contingencia C de Pearson o el coeficiente V de Cramer, pero en
este caso no se utiliza el estadstico
2 .
Clculo10
Pr ( error ) Pr ( error | x ( t 1) )
Pr ( error )
Ya que las verdaderas probabilidades no se conocen,
es estimado mediante:
max ( n ) max ( C )
=
N max ( C )
i =1
donde:
es el nmero total de observaciones;
max ( ni ) es la mayor frecuencia en la i-sima fila de las r que puede contener la tabla; y
max ( C j ) es el mayor total de las columnas de la tabla.

Este estadstico se distribuye de forma gaussiana con varianza:
N
var =
( )
r
r
*
max
n
max
n
max
C
2
max ( ni )
+
(
)
(
)
(
)
i
i
j
i =1
i =1
i =1
( N max (C ))
Una calculadora on line puede encontrarse en: http://faculty.vassar.edu/lowry/newcs.html.

Una calculadora on line puede encontrarse en: http://www.mhri.edu.au/biostats/DAG%5FStat/.
10
17
donde:
i =1
max ( ni ) es la suma de las frecuencias mximas de la columna asociada a max ( C j ) .
Esto permite introducir un test de hiptesis, calculando el valor z (4):
z=
( )
var
Interpretacin
El estadstico
est en el intervalo
predecir el consecuente, y
[0,1] .
Un valor
=0
significa que el antecedente no ayuda a
= 1 implica una prediccin perfecta.
13. Otras medidas de asociacin relacionadas con el ANOVA

13.1. Coeficiente de correlacin nolineal (eta)
Definicin
El coeficiente de correlacin lineal (eta) (en ocasiones denominado E ) permite medir la asociacin
cuando no se cumple el requisito de linealidad. En otras palabras, es una medida de la linealidad de la
relacin.
2
Clculo
Es el coeficiente entre la suma de cuadrados entre grupos (que mide el efecto de la variable agrupadora, es
decir, la diferencia entre las medias de los grupos) y la suma de cuadrados total en el ANOVA
Interpretacin
Puede interpretarse como el porcentaje de la varianza total de la variable dependiente explicada por la
varianza entre categoras (grupos) constituidos por las variables independientes. Vendra a ser un anlogo
2
del coeficiente R . Cuando la relacin no sea lineal,

all del coeficiente de correlacin r .
> R 2 . Es decir, el intervalo de
se extiende ms
13.2. Coeficiente de correlacin intraclase

Es un tipo de medida de correlacin basada en el ANOVA
Mide la homogeneidad relativa de varios grupos en razn de la variacin total. Por ejemplo se utiliza para
valorar la fiabilidad entre clasificadores:
ric =
donde: n
MS entre grupos MS intra grupos

MS entre grupos ( n 1) MS intra grupos
es el nmero medio de casos en cada categora de la variable independiente X .
Es grande y positiva cuando no hay variacin entre grupos pero dispersin entre medias.
El intervalo de valores es:
1
ri c 1 .
n 1
14. Coeficiente de correlacin parcial y semiparcial: control del impacto de otras

variables sobre la correlacin
Cuando se sospecha que una determinada variable Z (denominada de control o de confusin) pueda
interferir en la valoracin de la relacin existente entre dos variables X e Y puede intervenirse:
18
(a) refinando el diseo experimental: aleatorizando los individuos, limitndose a un solo valor, ajustando
los individuos; o
(b) incorporando la variable Z al anlisis y calculado el llamado coeficiente de correlacin parcial o el
coeficiente de correlacin semiparcial.
14.1. El coeficiente de correlacin parcial

El coeficiente de correlacin parcial (de primer orden) es la relacin entre dos variables cuando se ha
eliminado de cada una de ellas el efecto que sobre ellas tiene una tercera variable. Es decir, tras controlar
estadsticamente la influencia de una tercera variable.
Nomenclatura
rX Y Z
donde:
X,Y
Z
son las variables objeto del estudio;

es la variable de control
Clculo
Consiste en estudiar las correlaciones rX Y , rX Z , rY Z y combinarlas:
rX Z . Y =
rX Z ( rX Y )( rY Z )
1 rX2 Y
1 rX2 Z
14.2. El coeficiente de correlacin semiparcial

El coeficiente de correlacin semiparcial es la correlacin existente entre dos variables cuando se ha
eliminado de cada una de ellas el efecto que una tercera variable tiene sobre ella.
Nomenclatura
rX (Y Z ) representa la correlacin entre las variables X e Y objeto del estudio, eliminando el efecto de la
variable de control Z sobre la variable Y .
rY ( X Z ) representa la correlacin entre las variables X e Y eliminando el efecto de la variable Z sobre la

variable X .
donde:
X,Y
Z
son las variables objeto del estudio;

es la variable de control
Clculo
Consiste en estudiar las correlaciones rX Y , rX Z , rY Z y combinarlas:
rX (Y Z ) =
rY ( X Z ) =
rX Y rX Z rY Z
1 rY2Z
rX Y rX Z rY Z
1 rX2 Z
15. Extensin multivariada

(Vase el Mdulo 3: Correlacin mltiple).
19
Bibliografa
1. Yule GU. On the theory of correlation for any number of variables, treated by a new system of notation.
Proc R Soc, Ser A 1907;79:182-193.
2. Olkin I, Prat JW. Unbiased estimation of certain correlation coeffcients. Ann Math Stat 1958;29:201-211.
3. Cramr H. Mathematical Methods of Statistics. Princeton: University Press; 1999.
4. Siegel S, Castellan NJ. Nonparametric statistics for the behavioral sciences. 2 ed. ed. New York:
McGraw-Hill; 1988.
20

Correlacion

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Correlacion

Cargado por

Copyright:

Formatos disponibles

CORRELACION

1. OBJETIVOS DEL TEMA

2. CONCEPTOS BSICOS PREVIOS

6. EL COEFICIENTE DE CORRELACIN DE PEARSON,

11. OTRAS MEDIDAS DE LA CORRELACIN. (2) COEFICIENTE DE CORRELACIN NO PARAMTRICO

12. MEDIDAS DE ASOCIACIN

13. OTRAS MEDIDAS DE ASOCIACIN RELACIONADAS CON EL ANOVA

1. Objetivos del tema

Conocer y comprender el concepto de correlacin

Saber cundo debe utilizarse tcnicas de correlacin y sus limitaciones

Saber representar e interpretar un diagrama de dispersin

Saber calcular e interpretar un coeficiente de correlacin

Saber calcular e interpretar los intervalos de confianza del coeficiente de correlacin

Saber calcular e interpretar el coeficiente de determinacin

Conocer, saber cundo utilizar y como interpretar el coeficiente de correlacin mltiple

2. Conceptos bsicos previos

La covarianza s x y es una medida de cuantificacin de la concordancia de la desviacin de dos variables:

Francis Galton (1822-1911)

Francis Y. Edgeworth (1845-1926)

Karl Pearson (1857-1936)

William S. Gosset (1876-1937)

Ronald A. Fisher (1890-1962)

George U. Yule (1871-1951)

Charles Spearman (1863-1945).

Maurice Kendall (1907-1983)

5.3.Utilizacin del grfico de dispersin

6. El coeficiente de correlacin de Pearson, r

de correlacin muestral del producto de momentos.

6.3. Utilizacin del coeficiente de correlacin r

6.4. Propiedades del coeficiente de correlacin r

El coeficiente de correlacin r no tiene unidades;

El intervalo de posibles valores de r es:

En el anlisis de la correlacin no es aplicable la distincin entre variable dependiente o

6.5. Requisitos para calcular el coeficiente de correlacin r

El conjunto de observaciones, la muestra, ha de ser representativo de la poblacin: la presencia de

El conjunto de observaciones no debe contener datos extremos, ya que el coeficiente de correlacin r

La varianza de las variables debe ser homognea (variables homoscedsticas) y no restringida. Si la

El anlisis de la r de Pearson es esencialmente paramtrico, basado en la suposicin que los pares

6.6. Interpretacin del coeficiente de correlacin r

6.7. Limitaciones del coeficiente de correlacin r

de la alta significacin estadstica de r el coeficiente R exprese slo un insignificante porcentaje de

7. Clculo del coeficiente de correlacin

O de forma ms directa, mediante:

7.2. Estimacin insesgada

aunque Fieller y Pearson prefieren una frmula ms ajustada:

La funcin inversa (denominada funcin tangente hiperblica) es:

El coeficiente de correlacin es un estadstico descriptivo que siempre sobrestima la correlacin de la

con otros parmetros afines:

(a) con el coeficiente de regresin b (pendiente):

(b) con el coeficiente de determinacin R :

(c) con la covarianza s x y :

7.7. Promedio de coeficientes de correlacin

es el tamao muestral de las i muestras;

es el coeficiente de correlacin de las i muestras.

8.1. Intervalos de confianza del coeficiente de correlacin

Seguidamente, para conseguir estos lmites en trminos de coeficiente de correlacin, se aplicar la

8.2. Test de hiptesis

Sus valores estn, pues incluidos en el intervalo 0,1 .

El coeficiente de correlacin biserial puntual rb p

El coeficiente de correlacin (phi)

10.1. El coeficiente de correlacin de Spearman

Aplicable cuando se trata de datos ordenados (o continuos reducidos a ordinales);

Menos influenciable por la presencia de datos sesgados o variables;

Es una medida de correlacin no paramtrica en el sentido de que no implica suposiciones acerca de la