Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Notas
Indice
INDICE
3. INTRODUCCIN
4. APUNTE HISTRICO
5. GRFICOS DE DISPERSIN
5
8
8. ESTADSTICA INFERENCIAL
10
9. EL COEFICIENTE DE DETERMINACIN
11
10. OTRAS MEDIDAS DE CORRELACIN. (1) SIMPLIFICACIN DEL CLCULO DEL COEFICIENTE DE CORRELACIN
11
14
16
18
14. COEFICIENTE DE CORRELACIN PARCIAL Y SEMIPARCIAL: CONTROL DEL IMPACTO DE OTRAS VARIABLES SOBRE LA
18
CORRELACIN
15. EXTENSIN MULTIVARIADA
19
BIBLIOGRAFA
20
Saber leer los resultados de un anlisis de correlacin producido por un sistema informtico
Conocer, saber cundo utilizar y como interpretar las medidas de correlacin alternativas al coeficiente
de correlacin de Pearson
Conocer, saber cundo utilizar y como interpretar los coeficientes de correlacin parcial y semiparcial
sx2 =
1
n 1
1
s =
n 1
2
x
(x x )
i =1
1 n
x
xi
i
n i =1
i =1
n
2.2. Covarianza
2
sx2 y =
1 n
( xi x ) ( yi y )
n 1 i =1
sx2 y =
1 n
1 n
x
y
xi
i i n
n 1 i =1
i =1
y
i =1
2.2. Estandarizacin
La estandarizacin es un proceso de clculo para lograr variables comparables en magnitud y dispersin.
Consiste en restar a cada observacin la media y dividir este resultado por la desviacin tpica. Se
transforma en una distribucin de media cero y varianza igual a uno.
3. Introduccin
El estudio de la relacin entre dos o ms variables tiene una gran importancia en el Laboratorio Clnico.
Adems de las aplicaciones en investigacin bsica, aplicada y clnica, los problemas de calibracin,
validacin y comparacin metodolgica son corrientes en el da a da.
En general, cuando se habla de medir relaciones entre dos o ms variables, se habla de dos tipos de
anlisis: regresin y correlacin. El anlisis de la regresin se utiliza para establecer las relaciones entre dos
variables, habitualmente en el contexto de un estudio prospectivo o experimental. El anlisis de la
correlacin, sin embargo, pretende averiguar la intensidad o fortaleza de esta relacin, la proximidad de los
puntos a la lnea (recta) de regresin y acostumbra a hacerse en el contexto de un estudio retrospectivo u
observacional.
La correlacin es la relacin medible matemticamente mediante un nmero que representa la intensidad
de la relacin, pero no la causalidad.
La correlacin sirve para:
(a) explorar la existencia de la relacin particular estadsticamente significativa entre las dos variables,
es decir, si los cambios en una son consistentes en la otra;
(b) conocer si la relacin es positiva o negativa;
(c) cuantificar el grado de significacin estadstica de la relacin, es decir, la confianza (estadstica)
relacionada con dicha relacin;
(d) averiguar que parte de la variacin de una variable es explicada por la otra.
El anlisis de la correlacin implica los siguientes pasos:
(a) el estudio descriptivo mediante el grfico de dispersin;
(b) la estimacin del coeficiente de correlacin (incluyendo su intervalo de confianza);
(c) la valoracin de este coeficiente de correlacin (signo y magnitud) y la significacin estadstica;
(d) la interpretacin del coeficiente de correlacin evaluando el coeficiente de determinacin.
El anlisis de la correlacin tiene unas aplicaciones concretas pero tiende a ser sobreutilizado y
malinterpretado, especialmente quizs porque se asocia una alta correlacin con causalidad (y viceversa).
El anlisis de correlacin es preferible reservarlo para generar hiptesis en lugar de para comprobarlas.
4. Apunte histrico
Francis Galton fue el primero en medir la correlacin en 1888 a propsito del estudio que reasliz para
probar la regresin a la mediocridad de las alturas de los hijos y la de sus padres, mencionando por
primera vez un ndice de co-relacin.
5. Grficos de dispersin
5.1. Sinnimos
Scatter diagram, scatter plot.
5.2. Definicin
Es el procedimiento de representacin grfica de las observaciones o mediciones efectuadas en cada
individuo1.
5.4. Interpretacin
Cuando existe buena correlacin, los puntos se disponen de forma estrecha alrededor de una diagonal del
sistema cartesiano: la que tiene su origen en el extremo inferior izquierdo y va al superior derecho si es
positiva y al revs si la correlacin negativa. Cuando la disposicin de los puntos es aleatoria, la correlacin
es nula.
http://www.ncsu.edu/ncsu/chemistry/resource/excel/excel.html
http://www.ncsu.edu/labwrite/res/gt/graphtut-home.html
4
5.5. Limitaciones
No permite la cuantificacin de esta relacin, cosa que exige el clculo del coeficiente de correlacin.
6.2. Definicin
El coeficiente de correlacin r es la expresin matemtica de la relacin entre las dos variables aleatorias.
Es una versin estandarizada de la covarianza entre X e Y :
r=
sx y
sx s y
1 r 1 ;
Mnimo de dos observaciones por individuo, medidas en una escala de intervalo (continua); aunque
tambin pueden estarlo en escala ordinal, por codificacin de variables categricas;
Las observaciones no deben contener errores de medicin o ste ha de ser relativamente nfimo ya que
la baja fiabilidad de las observaciones atena el valor de r ;
Las variables deben estar relacionadas linealmente, es decir el grfico de dispersin sigue una diagonal:
las relaciones curvilneas pueden producir r no significativos;
La forma de la distribucin de las variables debe ser igual. Si no tienen la misma distribucin, aunque el
ajuste sea perfecto, se observar un r < 1 , y cuanto menos se parezcan las distribuciones ms se
atenuar r . Este efecto es importante cuando se correlaciona una variable en escala de intervalo con
otra ordinal o dicotomizada;
Adems, la distribucin de los pares ( xi , yi ) debe ser bivariada normal2. Es importante desde el punto
de vista inferencial, cuando se trata de valorar la intensidad y la significacin estadstica de la
correlacin. Cuando la distribucin no sea normal, el intervalo de r puede que no sea 1 , 1 . Sin
embargo, el teorema central del lmite demuestra que para muestras grandes los ndices implicados en
las pruebas de significacin se distribuyen normalmente incluso cuando las propias variables no lo sean.
De cualquier forma, cuando se prefiera evitar este tipo de conflicto, puede recurrirse a utilizar un clculo
no paramtrico como la de Spearman o un estadstico no paramtrico como la de Kendall;
( xi , yi ) siguen una distribucin normal bivariada. La distribucin nomal bivariada es una extensin de la
distribucin normal caracterizada por que los valores de X
e Y se distribuyen normalmente y la
2
2
X
,
Y
tambin
es
normal,
con
cinco
parmetros ( x , y , X , Y , ). La
(
)
evaluacin de esta normalidad es ciertamente problemtica, aunque una regla aproximada dice que si X e
Y se distribuyen normalmente, puede actuarse como si ( X , Y ) fuera tambin normal. En cualquier caso
distribucin marginal de
de dudas, puede optarse por el recurso de estimar el coeficiente de correlacin de forma no paramtrica.
6
variables.
El coeficiente de correlacin r mide slo la relacin lineal entre variables, es decir, es una medida del poder
explicativo del modelo lineal, pero no mide la magnitud de la pendiente de la regresin ni si es adecuado un
modelo lineal. Si la relacin sigue un modelo no lineal (curvado) el coeficiente de correlacin puede ser 0.
En otras palabras, un coeficiente de correlacin pequeo no indica necesariamente que hay poca relacin
entre las variables, porque puede estar reducido si la relacin entre estas variables no es lineal. Una medida
de precaucin es calcular el intervalo de confianza del coeficiente de correlacin r para tener una visin
ms general, especialmente cuando el nmero de observaciones sea pequeo.
El coeficiente de correlacin r no implica causalidad. Para establecer una relacin causa efecto entre dos
variables es preciso que la variable causal preceda a la variable causada y cumplir una serie de condiciones
(reversibilidad, fortaleza, respuesta a la exposicin) contenidas en el llamado modelo de Rubin/Bradford Hill.
Desde el punto de vista geomtrico, los conjuntos de n observaciones son vectores en un espacio k
dimensional (habitualmente k = 2 , ya que si k > 2 se hablar de correlacin mltiple) y el coeficiente de
correlacin r sera el coseno del ngulo entre los vectores centrados por sustraccin de la respectiva
media. Si estos vectores son perpendiculares entre s (es decir forman un ngulo recto) porque se trata de
variables no correlacionadas, ser r = 0 y las variables se denominarn ortogonales (del griego ngulo
recto)
El coeficiente de correlacin r siempre sobrestima la relacin lineal entre dos variables en la poblacin, por
lo que requiere una correccin para conseguir una mejor estimacin. El resultado de esta correccin se
denomina coeficiente de correlacin ajustado y se representar como r .
6.6.1. Signo
El signo de r es positivo cuando al aumentar o disminuir el valor de una variable aleatoria la otra aumenta o
disminuye simultneamente.
El signo de r es negativo cuando al aumentar o disminuir el valor de una variable aleatoria la otra
disminuye o aumenta simultneamente.
6.6.2. Magnitud
Si las variables X e Y son independientes, r = 0 . Sin embargo, la inversa no es siempre cierta, salvo que
ambas variables se distribuyan normalmente;
Si las variables X e Y estn perfectamente relacionadas entre s:
r =1
significativo no implica en modo alguno que una sea causa de la otra. Puede ser, por ejemplo, que esta alta
correlacin se deba a la existencia de una tercera (o ms) variables dependientes implicadas en el proceso.
En estos casos se recomienda recurrir al clculo del coeficiente de correlacin parcial o semiparcial.
En ocasiones se califica de esprea la alta correlacin no explicable.
6.7.2. Significacin paradjica
Una segunda limitacin se origina en el caso de estudiar la correlacin en una muestra cuyo contingente n
sea muy grande. En estos casos, r tiende a ser significativo aunque su valor absoluto no sea demasiado
2
grande. Cuando se evala el coeficiente de determinacin R puede darse la circunstancia de que a pesar
2
7.1. Estandarizacin de
Una forma es utilizar el producto cruzado de los valores estandarizados de las variables:
r=
zx ,i z y ,i
zx =
xx
sx
zy =
y y
sy
xi x
sx
yi y
sy
1 ( x x )( y y )
s s
n i
x
y
r=
n xi yi
i
2
n xi x
i
i
x y
i
2
n yi y
i
i
Sin embargo, aunque til para programar informticamente, esta frmula puede introducir errores de
redondeo cuando se aplica manualmente, recomendndose en esta circunstancia utilizar la frmula anterior.
1 r 2
r = r 1 +
2n
Olkin y Pratt (2) recomendaron utilizar el siguiente estadstico que parece ser que corrige mejor el sesgo de
r cuando el efectivo es n 20 :
1 r 2
r = r 1 +
2n6
El sesgo del estimador del coeficiente de correlacin r de Pearson no debe confundirse con la inestabilidad
de la varianza de la que adolece tambin este estadstico. Fue tambin R. A. Fisher quien lo evidenci y el
que introdujo una transformacin (no lineal) denominada z :
1 1+ r
ln
2 1 r
z=
El error estndar de z es:
es ( z ) =
1
n3
es ( z ) =
1, 060
n 3
e2 z 1
rz = 2 z
e +1
7.4. Correccin por atenuacin
La fiabilidad puede interpretarse como la correlacin de una variable consigo misma. La correccin para la
atenuacin de una correlacin rxy es una funcin de la fiabilidad de dos variables rx x y ry y :
rx y
rxy =
7.5. Coeficiente de correlacin ajustado
rx x ry y
r = 1 (1 r 2 )
7.6. Relaciones de
n 1
n2
r 2 = b b
2
R2 = r 2
2
sx2 y = r sx s y
n r
=
n
i i
donde:
ni
ri
Como que r es un estadstico sesgado que para valores superiores a 0 infraestima la correlacin
poblacional, tambin lo ser r .Por la misma razn, al ser r un estadstico de varianza inestable, tambin
lo ser r y tambin le ser aplicable la transformacin z de Fisher para estabilizarla, aunque este ltimo
punto es objeto de controversia.
8. Estadstica inferencial
(Vase Mdulo 2)
z L = z 1,96
1
n 3
zU = z + 1,96
1
n 3
rL =
e 2 zL 1
e 2 zL + 1
rU =
e 2 zU 1
e 2 zU + 1
H0 : = 0
H1 : 0
Distribucin de probabilidad de r :
1 2
r N,
n2
Estadstico a calcular:
10
tobs =
r n2
1 r 2
Alternativamente, ya que F = t :
2
Fobs
r2
=
( n 2)
1 r 2
Cuando la hiptesis nula es cierta, y cumplindose los requisitos y suposiciones, los estadsticos
observados se distribuyen segn tn 2 y F1, n 2 respectivamente:
p = 2 Pr ( tn 2 tobs
p = 2 Pr ( F1, n 2 Fobs
9. El coeficiente de determinacin
2
El coeficiente de determinacin R indica la proporcin de varianza comn entre una variable dependiente
y una(s) variable(s) independientes. Se define como el cuadrado del coeficiente de correlacin r de
Pearson:
R2 = r 2
[ ]
10. Otras medidas de correlacin. (1) Simplificacin del clculo del coeficiente de
correlacin
Versiones simplificadas del clculo del coeficiente de Pearson, a veces denominados atajos, son:
El coeficiente de correlacin
intervalo
intervalo
r de Pearson
ordinal
biserial rb
nominal
biserial puntual rb p
dicotmico
natural
biserial puntual rb p
dicotmico
artificial
biserial rb
(rho) de Spearman
ordinal
nominal
dicotmico
natural
dicotmico
artificial
de Spearman
de Kendall
C de contingencia
rb r biserial
ordenado
rb p biserial
V de Cramer
puntual
tetracrico rtet
11
Clculo3
Una vez convertidos los datos en sus respectivos ordinales, se aplica el mismo procedimiento de clculo
que para el coeficiente de Pearson.
Una frmula alternativa, ms prctica, es:
= 1
d2
n
donde:
6d2
n ( n 1)
rb p =
donde: y0 , y1
( y1 y0 )
pq
son las medias de los ordinales de los pares de datos con puntuaciones 1 y 0;
es la proporcin de pares de datos con puntuacin 0;
Interpretacin
Como el caso del coeficiente de correlacin de Pearson, rb p tiene un intervalo de valores 1 r 1 .
12
rb =
donde: y0 , y1
( y1 y0 )
y
pq
Y
Pr ( z ' < z ) = p )
Pr ( z ' > z ) = q )
Interpretacin
Dado que el factor
pq
rb o = 2
( y1 y0 )
n
donde: y0 , y1 son las medias de los ordinales para los pares de datos con puntuaciones 1 y 0;
Interpretacin
Salvo por el matiz de la variable dicotomizada, tiene la misma interpretacin que el coeficiente de
correlacin biserial puntual rb p .
13
X
+
b
a+b
+ a
Y
d
c+d
c
a+c b+d
n
Clculo5
bc ad
( a + b ) ( c + d ) ( a + c ) (b + d )
Interpretacin
Como el caso del coeficiente de correlacin de Pearson, rb p tiene un intervalo de valores 1 r 1 . Sin
embargo, los valores extremos r = 1 slo son posibles cuando la suma de las dos filas y la suma de las
dos columnas sea igual.
El coeficiente de correlacin
Clculo6
4P
1
n ( n 1)
Cuando n > 40 :
5
6
vale 1 o 1;
z=
donde:
n
P
z
P
n ( n 1) ( 2 n + 5 )
18
Interpretacin
Cuanto mayor sea el nmero de pares concordantes, mayor ser P y por tanto
ordinales son consistentes7.
Nota: Los empates no son concordantes ni discordantes. Si hay muchos empates debe considerarse el
utilizar frmulas alternativas (Todas estos coeficientes presentan valores en el intervalo 1,1 alcanzando
los valores extremos en caso de concordancia o discordancia perfecta, y de 0 en caso de ausencia de
asociacin):
y EY . Se define como:
CD
( C + D + E X ) ( C + D + EY )
y en la
Y . Se define como:
c =
2 B (C D )
n 2 ( B 1)
d de Somers: Este estadstico considera tanto variables simtricas (en este caso coincide con la
b ) como
d =
donde:
B
C=
CD
C + D + EY
n ( n 1)
es el nmero total de concordancias, incluyendo los E empates;
2
D
E X , EY
Todas estos coeficientes presentan valores en el intervalo 1,1 alcanzando los valores extremos n caso
de concordancia o discordancia perfecta, y de 0 en caso de ausencia de asociacin.
15
Clculo8
180
rtet = cos
bc
1 +
ad
Aplicaciones
Se utiliza en el modelado de ecuaciones estructurales (SEM) y por lo general su utilizacin como medida de
asociacin se desaconseja.
Segn el procedimiento utilizado para calcularlo, el resultado puede ser diferente.
Clculo
C=
2
2 + n
C* =
Cobservada
=
Cmxima
Cobservada
Clculo9
Utiliza el estadstico
2 :
2
V =
donde:
C
R
n
n min ( R 1 , C 1)
es el nmero de columnas;
es el nmero de filas; y
es el nmero de observaciones.
Interpretacin
[ ]
El estadstico V est dentro del intervalo 0,1 . Un valor V = 0 significa una concordancia inexistente y
2 .
Clculo10
Pr ( error ) Pr ( error | x ( t 1) )
Pr ( error )
es estimado mediante:
max ( n ) max ( C )
=
N max ( C )
i =1
donde:
max ( ni ) es la mayor frecuencia en la i-sima fila de las r que puede contener la tabla; y
N
var =
( )
r
r
*
max
n
max
n
max
C
2
max ( ni )
+
(
)
(
)
(
)
i
i
j
i =1
i =1
i =1
( N max (C ))
10
17
donde:
i =1
z=
( )
var
Interpretacin
El estadstico
est en el intervalo
predecir el consecuente, y
[0,1] .
Un valor
=0
Clculo
Es el coeficiente entre la suma de cuadrados entre grupos (que mide el efecto de la variable agrupadora, es
decir, la diferencia entre las medias de los grupos) y la suma de cuadrados total en el ANOVA
Interpretacin
Puede interpretarse como el porcentaje de la varianza total de la variable dependiente explicada por la
varianza entre categoras (grupos) constituidos por las variables independientes. Vendra a ser un anlogo
2
se extiende ms
ric =
donde: n
Es grande y positiva cuando no hay variacin entre grupos pero dispersin entre medias.
El intervalo de valores es:
1
ri c 1 .
n 1
18
(a) refinando el diseo experimental: aleatorizando los individuos, limitndose a un solo valor, ajustando
los individuos; o
(b) incorporando la variable Z al anlisis y calculado el llamado coeficiente de correlacin parcial o el
coeficiente de correlacin semiparcial.
rX Y Z
donde:
X,Y
Z
Clculo
Consiste en estudiar las correlaciones rX Y , rX Z , rY Z y combinarlas:
rX Z . Y =
rX Z ( rX Y )( rY Z )
1 rX2 Y
1 rX2 Z
rX (Y Z ) representa la correlacin entre las variables X e Y objeto del estudio, eliminando el efecto de la
variable de control Z sobre la variable Y .
X,Y
Z
Clculo
Consiste en estudiar las correlaciones rX Y , rX Z , rY Z y combinarlas:
rX (Y Z ) =
rY ( X Z ) =
rX Y rX Z rY Z
1 rY2Z
rX Y rX Z rY Z
1 rX2 Z
19
Bibliografa
1. Yule GU. On the theory of correlation for any number of variables, treated by a new system of notation.
Proc R Soc, Ser A 1907;79:182-193.
2. Olkin I, Prat JW. Unbiased estimation of certain correlation coeffcients. Ann Math Stat 1958;29:201-211.
3. Cramr H. Mathematical Methods of Statistics. Princeton: University Press; 1999.
4. Siegel S, Castellan NJ. Nonparametric statistics for the behavioral sciences. 2 ed. ed. New York:
McGraw-Hill; 1988.
20