Está en la página 1de 22

Coeficiente de correlacin de Spearman

El coeficiente de correlacin de Spearman es menos sensible que el de Pearson para los valores muy lejos de lo esperado. En este ejemplo: Pearson = 0.30706 Spearman = 0.76270

En estadstica, el coeficiente de correlacin de Spearman, (ro) es una medida de la correlacin (la asociacin o interdependencia) entre dos variables aleatorias continuas. Para calcular , los datos son ordenados y reemplazados por su respectivo orden. El estadstico viene dado por la expresin:

donde D es la diferencia entre los correspondientes estadsticos de orden de x - y. N es el nmero de parejas. Se tiene que considerar la existencia de datos idnticos a la hora de ordenarlos, aunque si stos son pocos, se puede ignorar tal circunstancia Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximacin a la distribucin t de Student

La interpretacin de coeficiente de Spearman es igual que la del coeficiente de correlacin de Pearson. Oscila entre -1 y +1, indicndonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlacin pero no independencia. La tau de Kendall es un coeficiente de correlacin por rangos, inversiones entre dos ordenaciones de una distribucin normal bivariante.

Contenido
[ocultar]

1 Ejemplo 2 Determinando la significacin estadstica 3 Vase tambin 4 Enlaces externos 5 Fuente

[editar]Ejemplo
Los datos brutos usados en este ejemplo se ven debajo.

CI Horas de TV a la semana

106 7

86 0

100 28

100 50

99 28

103 28

97 20

113 12

113 7

110 17

El primer paso es ordenar los datos de la primera columna. Despus, se crean dos columnas ms. Ambas son para ordenar (establecer un lugar en la lista) de las dos primeras columnas. Despus se crea una columna "d" que muestra las diferencias entre las dos columnas de orden. Finalmente, se crea otra columna "d2". Esta ltima es slo la columna "d" al cuadrado. Despus de realizar todo esto con los datos del ejemplo, se debera acabar con algo como lo siguiente:

CI (i) Horas de TV a la semana (t) orden(i) orden(t) d

d2

86

97

20

16

99

28

25

100

50

4.5

10

5.5 30.25

100

28

4.5

3.5 12.25

103

28

106

2.5

4.5 20.25

110

17

113

9.5

2.5

49

113

12

9.5

5.5 30.25

Ntese como el nmero de orden de los valores que son idnticos es la media de los nmeros de orden que les corresponderan si no lo fueran.

Los valores de la columna d2 pueden ser sumados para averiguar

. El valor

de n es 10. As que esos valores pueden ser sustitudos en la frmula.

De lo que resulta = 0.187878787879.

[editar]Determinando

la significacin estadstica

La aproximacin moderna al problema de averiguar si un valor observado de es significativamente diferente de cero (siempre tendremos -1 1) es calcular la probabilidad de que sea mayor o igual que el esperado, dada la hiptesis nula, utilizando un permutation test. Esta aproximacin es casi siempre superior a los mtodos tradicionales, a no ser que el data set sea tan grande que la potencia informtica no sea suficiente para generar permutaciones (poco probable con la informtica moderna), o a no ser que sea difcil crear un algoritmo para crear permutaciones que sean lgicas bajo la hiptesis nula en el caso particular de que se trate (aunque normalmente estos algoritmos no ofrecen dificultad). Aunque el test de permutacin es a menudo trivial para cualquiera con recursos informticos y experiencia en programacin, todava se usan ampliamente los mtodos tradicionales para obtener significacin. La aproximacin ms bsica es comparar el observado con tablas publicadas para varios niveles de significacin. Es una solucin simple si la significacin slo necesita saberse dentro de cierto rango, o ser menor de un determinado valor, mientras haya tablas disponibles que especifiquen los rangos adecuados. Ms abajo hay una referencia a una tabla semejante. Sin embargo, generar estas tablas es computacionalmente intensivo y a lo largo de los aos se han usado complicados trucos matemticos para generar tablas para tamaos de muestra cada vez mayores, de modo que no es prctico para la mayora extender las tablas existentes. Una aproximacin alternativa para tamaos de muestra suficientemente grandes es una aproximacin a la distribucin t de Student. Para tamaos de muestra ms grandes que unos 20 individuos, la variable

tiene una distribucin t de Student en el caso nulo (correlacin cero). En el caso no nulo (ej: para averiguar si un observado es significativamente diferente a un valor terico o si dos s observados difieren significativamente, los tests son mucho menos potentes, pero puede utilizarse de nuevo la distribucin t. Una generalizacin del coeficiente de Spearman es til en la situacin en la cual hay tres o ms condiciones, varios individuos son observados en cada una de ellas, y predecimos que las observaciones tendrn un orden en particular. Por ejemplo, un conjunto de individuos pueden tener tres oportunidades para intentar cierta tarea, y predecimos que su habilidad mejorar de intento en intento. Un test de la significacin de la tendencia entre las condiciones en esta situacin fue desarrollado por E. B. Page y normalmente suele conocerse como Page's trend test para alternativas ordenadas.

RHO, TAU Y R DE PEARSON: UN PROGRAMA VISUAL BASIC PARA SU TRANSFORMACIN E INTERVALOS DE CONFIANZA Csar Merino Soto * Universidad Privada San Juan Bautista & Asociacin Civil Sembrar, Per Jos Livia Segovia Universidad Nacional Federico Villarreal, Per Resumen El presente artculo presenta un programa informtico VB para el clculo de la trasformacin de correlaciones no paramtricas (Rho de Spearman y Tau de Kendall) a R de Pearson, y sus intervalos de confianza. Los estudios de la cobertura y poder estadstico de estos procedimientos han sido satisfactorios y reportados (Rupinkski y Dunlap, 1996; Caruso & Cliff, 1997; Long & Cliff, 1997); y mediante el

programa informtico presentado, el anlisis correlacional en las investigaciones psicolgicas y educativas pueden ampliar sus estrategias de comprobacin de hiptesis de descripcin y comparacin. Se discuten sus usos en contextos aplicados. Palabras clave: correlacin, Spearman, Kendall, Pearson, programa de computadora, Visual Basic. Abstract The present article reporting a VB computer program for compute the transformation of non parametric correlations (Spearmans Rho and Kendalls Tau) to Pearsons R, and their confidence intervals. The study of their coverage and statistical power of these procedures was satisfactory and they reported in (Rupinkski y Dunlap, 1996; Caruso & Cliff, 1997; Long & Cliff, 1997); and for mean of the present computer program, the correlational analysis in the educational and psychological research can have a major range of strategies for testing research hypothesis or for descriptive and comparative purposes. We discuss their uses in applied contexts. Keywords: correlation, Spearman, Kendall, Pearson, computer program, Visual Basic. Introduccin Es un hecho conocido que las tcnicas paramtricas tienen ms popularidad y aceptacin entre los profesionales e investigadores que las tcnicas no paramtricas. Pero aparentemente los usuarios con menos o ms distorsionada informacin sobre el uso de las tcnicas estadsticas forman heursticas cognitivas (Shanteau, 1989) para tomar decisiones sobre los

procedimientos de anlisis de datos, aplicando a ojo cerrado las tcnicas paramtricas sin una previa evaluacin de los presupuestos que se exigen para su apropiado uso, argumentando su representatividad, disponibilidad y su popularidad. Por ejemplo, an para el aparentemente sencillo uso de la correlacin lineal de Pearson, se deberan evaluar varios presupuestos antes * Psiclogo licenciado, docente en la Universidad Privada San Juan Bautista y miembro de la Asociacin Civil Sembrar. Direccin postal: Enrique Palacios 430, Chorrillos, Lima 9, Peru. Email: sikayax@yahoo.com.ar; elsikander@yahoo.com.ar. 146 Merino y Livia de considerar su aplicacin en la investigacin correlacional (Onwuebnuzie & Daniel, 2002), tales como la normalidad de la distribucin de los datos y la presencia de valores extremos. Para cada tcnica paramtrica, hay un equivalente no paramtrico (Harwell, & Serlin, 1989), y actualmente hay un creciente avance de alternativas no paramtricas que son comunicados y recibidos en la comunidad cientfica con inters, aunque tal informacin permanece oscura y menos difundida fuera de los lmites de los investigadores debido a que tales desarrollos generalmente se publican en revistas que requieren del lector un avanzado conocimiento de estadstica. Pero varios aportes casi inalcanzables ya han sido reportados en revistas de ciencias sociales y naturales, y se han convertido en estrategias sencillas de implementar manualmente como el enfoque de transformacin por rangos en el modelo general lineal (Harwell, & Serlin,

1989) o el uso de medidas de distancia entre las variables en lugar de correlaciones lineales implementados por programas de computadora ad hoc (Anderson, 2001a; 2001b). Como otras tcnicas estadsticas no paramtricas, las correlaciones ordinales son generalmente ignoradas en los planes de anlisis de datos psicolgicos y sociales (Caruso & Cliff, 1997), an considerando que los presupuestos para la aplicacin de tcnicas estadsticas paramtricas son excepcionalmente cumplimentadas por los datos en mano y la gran mayora no consigue tener una distribucin normal (Micceri, 1988). An con las ventajas que tienen las correlaciones ordinales sobre la tradicional correlacin de Pearson, en relacin a su menor sensibilidad a valores extremos, invariabilidad bajo transformaciones monotnicas de las variables y mejor ajuste de los objetivos del investigador al anlisis ordinal (Caruso & Cliff, 1997), la r de Pearson tiene una completa preferencia entre los investigadores sociales y educacionales. Mientras los datos contengan moderadas desviaciones de la normalidad y otras condiciones que pondran cuestionar la aplicabilidad de tcnicas paramtricas, el uso de procedimientos paramtricos ser siempre una opcin razonable y con mayor potencia para rechazar la hiptesis nula. Pero el uso de los resultados correlacionales muchas veces exigir hacer comparables nuestros resultados con aquellos reportados por los estudios correlacionales. Por ejemplo, el uso de correlaciones de Pearson para los estudios de validez es

la norma ms que excepcin; por lo tanto, si un investigador planea un estudio de validacin mediante el uso de coeficientes de correlacin, debe anticipar el hecho que las correlacionales no paramtricas no son frecuentemente reportadas; y por lo tanto, la comparacin entre los coeficientes de validez se hace difcil. Posteriormente, un lector que halla interesante un estudio correlacional, ver un desafo no superable si los resultados correlaciones que pretende usar se encuentran bajo la forma de correlaciones no paramtricas, como Tau de Kendall (xy) o rho de Spearman (s ). Felizmente, existen estrategias de conversin de correlaciones no paramtricas hacia la correlacin de Pearson. Estas de hallan en los textos de Kendall (1962) y Pearson (1907), que muy probablemente sean inaccesibles para el consumidor de artculos de investigacin. Imaginemos que un investigador ha aplicado correlaciones ordinales a sus datos y sus resultados han sido publicados; luego, otro investigador quiere utilizar los valores numricos para un estudio meta-analtico, de generalizacin de la validez o evaluar las diferencias entre Rho, Tau y r de Pearson 147 sus hallazgos y los publicados. Los mtodos cuantitativos de meta-anlisis han superado largamente las tradicionales las revisiones discursivas sobre los hallazgos cientficos que fueron comunes pero contaminados del sesgo del autor (Field, 2001).

Otro aspecto que ha emergido en la metodologa de anlisis en datos sociales es el uso de medidas adicionales a las pruebas de hiptesis estadsticas; esta incorporacin incluye la magnitud del efecto y los intervalos de confianza. Este ltimo, ya recomendado por Cronbach en los aos 70 (Finch, Thomason y Cumming, 2002). Uno de los ms impactantes recomendaciones sobre el uso juicioso del anlisis estadsticos aplicado a la psicologa se ha efectuado recientemente por Task Force on Statistical Inference (Wilkinson y Task Force on Statistical Inference, 1999), resaltando el uso de los intervalos de confianza. Las nuevas reformas en la presentacin de resultados estadsticos ha tenido lugar en medicina y sigue un camino muy lento en psicologa (Fidler, Cumming, Thomason y Burgman, 2004), y en ellas se requiere la presencia de los intervalos de confianza en los estadsticos relevantes calculados. Cmo incorporar esta informacin al monto de hallazgos comnmente expresados en trminos de correlaciones r de Pearson? Una alternativa menos apropiada es utilizar los coeficientes ordinales tratndolos como si fueran correlaciones r de Pearson. Esto sera como utilizar el enfoque har que no importa (Nunnally y Bernstein, 1995), que es una conveniencia muy arbitraria y cuestionable. Peor an sera calcular los intervalos de confianza para r de Pearson usando correlaciones no paramtricas. Otra alternativa ms apropiada es utilizar las ecuaciones presentadas en Rupinski &

Dunlap (1996), Caruso y Cliff (1997) y Long y Cliff (1997) para expresar las relaciones asintticas entre rho de Spearman y tau de Kendall con r de Pearson, y la creacin de intervalos de confianza, pero estos procedimientos requieren del clculo manual y son proclives a errores. Nuestros objetivos en la presentacin de este artculo son 1) la descripcin de las ecuaciones que sirven para derivar la correlacin Pearson y los intervalos de confianza para las correlaciones no paramtricas ms comunes; y 2) la presentacin de un programa informtico que facilite los clculos involucrados. Una breve y necesaria revisin tcnica se presentaremos primero, para luego discutir los usos en situaciones aplicadas y de investigacin cientfica. Transformacin de Rho y Tau a R de Pearson Siguiendo el desarrollo de Kendall (1962), Rupinski y Dunlap (1996) reportaron ms recientemente la ecuacin para estimar r de Pearson desde de Kendall, que incluye dos constantes, phi y el denominador igual a 2: =

2 r sen (1) Por otro lado, la transformacin de rs de Spearman a r de Pearson es: 148 Merino y Livia = 6 r 2sen r s (2) En su estudio de simulacin sobre la estabilidad de estas transformaciones, Rupinski y Dunlap (1996) hallaron que las correlaciones y rs convertidos a r de Pearson tienden a tener errores estndar ms grandes que los correspondientes r de Pearson, y por lo tanto influyen en la varianza muestral de los coeficientes de validez y sus intervalos de confianza; pero notaron tambin que el porcentaje de incremento es numricamente insignificante y se presenta en las

fracciones cuyo impacto prctico no es importante (0.008, por ejemplo). De este modo, las diferencias en el error estndar no son realmente de preocupacin en la prctica cuando se usan estas transformaciones. Como concluyen Rupinski y Dunlap (1996), las ecuaciones 1 y 2 dan al investigador valores que tienden a proporcionar estimaciones r de Pearson aceptablemente exactos en el proceso de transformacin, y en consecuencia permiten obtener valores confiables para su uso en estudios meta-analticos y de generalizacin de la validez. Intervalos de confianza para Tau y Rho Para probar la significancia estadstica de de , se hace uso de la varianza de muestreo, que es comn hallarlo en varios textos de estadstica, especialmente Siegel, (1970): () 9n( ) n 1 2 2n 5 var () + = (3) Entonces, la varianza anterior sirve para construir el intervalo de confianza de Tau (), que tiene la siguiente forma bajo la formulacin de la varianza de muestreo de Siegel (1970):

/2(t) x var (4) En Caruso & Cliff (1997) y Long & Cliff (1997), se examinaron varios mtodos para obtener intervalos de confianza para ambos tipos de correlaciones bajo algunas condiciones de distribucin poblacional, variacin de la magnitud de la correlacin (0.00, 0.19, 0.41, 0.71) y tamao de la muestra (en pasos de 10, 50 y 200 sujetos). En tal estudio de simulacin, se utilizaron dos criterios: el poder estadstico, definido como la proporcin de veces en que y rs siendo igual a cero (Ho: = 0; Ho: rs = 0), es rechazado (error alfa) estando fuera del intervalo de confianza estimado; y el criterio de cobertura, definido como la proporcin de veces en que el parmetro estuvo contenido en el intervalo de confianza estimado (controlando el error beta). Los resultados de estas simulaciones estadsticas computacionalmente intensas mostraron que entre varios mtodos, uno con un mejor poder y cobertura fue la transformacin de los coeficientes por la transformacin z de Fisher. Se concluy que la transformacin z de Fisher para ambas correlaciones, rs y , es el mtodo recomendado y an vigente en la investigacin conductual. Rho, Tau y r de Pearson 149 La transformacin Fisher de de Kendall, zt,

tiene la siguiente forma tradicionalmente presentada: + = 1 1 log 2 1 z t e (5) Tal transformacin busca normalizar la distribucin de muestreo de , y aproximarla a una distribucin asinttica con distribucin normal. Por otro lado, la varianza emprica de zt es: n4 0.437

var( z ) t = (6) Integrando la forma de la ecuacin (5) y (6) con (7), el intervalo de confianza Fisher se construye con la ecuacin n4 0.437 zz t/2 (7) Sin embargo, los lmites superior e inferior del intervalo hasta aqu calculados estn bajo la forma de puntajes z, as que debe aplicarse un procedimiento pocas veces reportado en los libros de estadstica: la inversa de la transformacin Fisher para retornar de zt a es: () e1 e1 t t 2z 2z +

= (8) Para el coeficiente Rho de Spearman, los pasos son los mismos, pero cambia la formulacin de la estimacin de la varianza de muestreo despus de los ajustes hechos por Caruso y Cliff (1997). Ajustando la transformacin z de Fisher, Caruso y Cliff (1997) hallaron que una mejor estimacin de la varianza de zs se puede obtener aadiendo unas constantes: 6n 4 n z n2 1.0 var(z ) s + + = (9) Finalmente, la ecuacin (9) da el componente ms preciso para la construccin del intervalo de confianza para rs, que tiene la forma de la ecuacin 7, pero reemplazando la varianza de zt por la de zs (9); para transformar los valores zs obtenidos de regreso a rs, se aplica la inversa presentada en la ecuacin (8). Usos del programa Las aproximaciones de las correlaciones no paramtricas ms comunes a r de Pearson, y

sus intervalos de confianza, ofrece varias ventajas para el investigador en curso de indagaciones de tipo aplicado o bsico. Por ejemplo, dentro del anlisis correlacional para describir relaciones lineales, el uso de las correlaciones Pearson es la regla ms que la excepcin. Cuando el inters sea comparar correlaciones Pearson, pero se han obtenido estudios con correlaciones no paramtricas estimadas en la muestra, se pueden calcular 150 Merino y Livia manualmente las transformaciones con las ecuaciones presentadas aqu, pero el programa puede hacer las transformaciones necesarias y minimizar el error de clculo. Rupinski y Dunlap (1996) desarrollaron tablas de conversin, pero un programa informtico hace ms porttil la informacin en el contexto de la comunicacin virtual y el anlisis interactivo. Por otro lado, el uso de estas transformaciones es oportuno cuando se examinan reportes de investigacin en que se aplic algn miembro de la familia de correlaciones no paramtricas, particularmente la correlacin s y xy, y deban ser consideradas para posteriores estudios de meta-anlisis. Por otro lado, al saber que la transformacin de un coeficiente no paramtrico a uno paramtrico de uso comn mantiene un sesgo tolerable, la inclusin de las correlaciones no paramtricas para comparar sus magnitudes puede ser efectuada sin problemas. Por ejemplo, se podra comparar correlaciones obtenidas de dos o ms muestras

bajo la hiptesis nula de igualdad en sus magnitudes; especficamente, teniendo que la validez concurrente entre una prueba de impacto al estrs con autoconcepto acadmico en nios de 4to, 5to y 6to grado ha sido 0.30, 0.43 y 0.40 respectivamente; y la correlacin calculada en los nios de 4to es no paramtrica (rs de Spearman), el primer acto es traducirla a r de Pearson, y luego incluirlo en las ecuaciones pertinentes para hallar si las correlaciones son iguales en la poblacin; estas ecuaciones pueden ser halladas en Jaccard et al. (1990). Luego, la creacin de intervalos de confianza para ellas no es ms que un clculo sin complejidades teniendo una calculadora, una hoja de clculo o una programa ad hoc como el presentado en este artculo. El clculo de los intervalos de confianza para las correlaciones del ejemplo puede servir a su vez, como informacin para decidir si son lo suficientemente diferentes entre ellas en un nivel especfico de confianza (90%, 95% 99%); el valor z crtico ms comn en la distribucin normal es 1.96 para el nivel de 95%. Estos intervalos de confianza pueden determinar si las correlaciones de nuestro ejemplo son lo suficientemente alejadas entre s como para considerarlas diferentes en la poblacin. La estimacin poblacional de las correlaciones s y xy se hace posible con la creacin de intervalos de confianza para los estadsticos muestrales. Pero el lector debe tener en mente que

la estimacin de los intervalos no da una informacin en trminos absolutos, pues slo ofrece una probabilidad de contener la cantidad en estudio en la poblacin (Howell, 1997; May, Masson, & Hunter, 1990). Como en un prrafo anterior se apunt, aplicar el enfoque de intervalos de confianza para correlaciones no paramtricas (ayudado por el programa) facilita hacer una comparacin entre coeficientes de dos estudios diferentes o del mismo estudio. Esto no se llevara por una prueba formal de prueba de hiptesis, ya que la informacin contenida en el intervalo conduce a juzgar el grado en que dos coeficientes se traslapan o se mantienen lo suficientemente alejados como para concluir que son diferentes. Como es usual en los procedimientos de pruebas de hiptesis, el nivel de confianza debe ser establecido previamente. Debemos anotar que hay otros mtodos para crear intervalos de confianza que son computacionalmente intensos, y que no hacen presupuestos distribucionales sobre los datos o Rho, Tau y r de Pearson 151 de la estadstica que est siendo calculada, especialmente para distribuciones en los intervalos de confianza que son difciles de estimar (Haukoos & Lewis, 2005). Actualmente, el uso de intervalos de confianza ya es altamente recomendado por editores de revistas cientficas (Haukoos & Lewis, 2005), pero su desarrollo para estadsticos correlacionales no paramtricos es raramente citado en los libros de estadstica para graduados

y no graduados; con las ecuaciones y el programa aqu presentado, se puede cumplir con las actuales exigencias de publicacin cientfica. La aplicacin de los intervalos de confianza para los mtodos no paramtricos lleva a estos mtodos a estar en la atencin de los investigadores dejando de lado sus aparentes desventajas, particularmente referidas a su menor potencia estadstica por el uso de ranking en lugar de datos crudos y el poco conocimiento que sobre ellos se tiene; esta situacin es fortalecida por que diversos paquetes estadsticos tampoco tienden a reportar intervalos de confianza para procedimientos no paramtricos. Desde hace ms de medio siglo que se ha hallado que hay poca prdida de eficiencia al usar datos expresados en rankings en lugar de datos crudos (Stuart, 1954), particularmente para distribuciones continuas como la normal y la uniforme. Respecto a la construccin de un intervalo de confianza, esta expresa solamente una forma de incertidumbre, que resulta de la naturaleza finita de la muestra bajo estudio. Aplicando tal estimacin a una muestra representativa, en que se incluye un proceso aleatorio en la seleccin de las unidades definidas por el investigador, la discusin sobre la generalizacin de los resultados sera ms o menos sencilla. El programa y su disponibilidad El programa est escrito en Visual Basic 6.0, y corre bajo las versiones actuales de Windows para PC, especficamente Windows 95 o superior. No requiere un proceso largo de

instalacin, sino nicamente guardar en una carpeta y ejecutarlo desde ah. Ya que el programa est compilado, funciona como un ejecutable y no requiere tener instalado el programa Visual Basic. Para ejecutar el programa, hacer doble clic en el icono del programa e ingresar los datos en los espacios requeridos; el uso del programa es intuitivo y de rpida familiarizacin por el usuario. Una vez iniciado el programa, se requiere que el usuario introduzca la correlacin no paramtrica que necesita transformar a correlacin de Pearson. El segundo paso es elegir qu tipo de correlacin no paramtrica se ha introducido; inmediatamente el programa responde con la transformacin a r de Pearson y sus intervalos de confianza en niveles preseleccionados (95% y 99%), junto con los intervalos de confianza para la correlacin no paramtrica. En otras palabras, los intervalos de confianza se calculan para la correlacin de Pearson y las correlaciones no paramtricas s o xy ingresadas. Las frmulas presentadas en las secciones anteriores las realiza el programa. El programa est disponible sin costo, dirigiendo el pedido al primer autor en las direcciones de contacto.