Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Prueba 29
Coeficiente de correlación de rango de
Spearman (medida no paramétrica de
asociación/correlación empleada con datos ordinales)
Hipótesis evaluada con test En la población subyacente representada por una muestra,
¿tiene la correlación entre las puntuaciones de los sujetos en dos variables algún valor
distinto de cero? Esta última hipótesis también puede plantearse de la siguiente forma: En
la población subyacente representada por la muestra, ¿existe una relación monótona
significativa entre las dos variables? Es importante señalar que la naturaleza de la relación
descrita por el coeficiente de correlación de rangos de Spearman se basa en un análisis
de dos conjuntos de rangos.
Antes de leer el material de esta sección, el lector debería repasar el análisis general de la
correlación en la Sección I del coeficiente de correlación producto-momento de Pearson
(Test28). Desarrollado por Spearman (1904), el coeficiente de correlación de orden de
rango de Spearman es una medida bivariante de correlación/asociación que se emplea
con datos de orden de rango. El parámetro de población estimado por la correlación
se representará mediante la notación pS (donde p es la letra griega rho en minúscula). El
estadístico muestral calculado para estimar el valor de pS se representará mediante la
notación rS. De hecho, el coeficiente de correlación de rango de Spearman es un caso
especial del coeficiente de correlación de rango de
Coeficiente de correlación producto-momento de Pearson, cuando esta última medida se
calcula para dos conjuntos de rangos. La relación entre el coeficiente de correlación de
rangos de Spearman y el coeficiente de correlación producto-momento de Pearson se
analiza en la Sección VI.
Como en el caso del coeficiente de correlación producto-momento de Pearson, el
coeficiente de correlación de orden de rango de Spearman puede emplearse para
evaluar los datos de n sujetos, cada uno de los cuales ha aportado una puntuación en dos
variables (designadas como variables A e Y). Dentro de cada variable, las n puntuaciones
están ordenadas por rango. El coeficiente de correlación de rangos de Spearman también
Copyright 2004 por Chapman &
suele emplearse para evaluar el grado de concordancia entre las clasificaciones de m = 2
jueces para n sujetos/objetos.
Para calcular el coeficiente de correlación de Spearman, una de las siguientes
condiciones es cierta con respecto a los datos de orden de rango que se evalúan: a) Los
datos de ambas variables están en un formato de orden de rango, ya que es el único
formato para el que se dispone de datos; b) Los datos originales
20
Y
10
1
0
Figura 29.1 Relación monótona creciente (F = Y)
Las mismas directrices generales que se describen para interpretar el valor del coeficiente
Copyright 2004 por Chapman &
de correlación producto-momento de Pearson pueden aplicarse al coeficiente de correlación
de rango de Spearman. Así, el intervalo de valores rS cm asumir viene definido por los límites -
Ia
II. Ejemplo
El ejemplo 29.1 es idéntico al ejemplo 28.1 (que se evalúa con el coeficiente de correlación
producto-momento de Pearson). En la evaluación del ejemplo 29.1 se supondrá que los
datos de la proporción están ordenados por rango, ya que se han violado notablemente uno
o más de los supuestos del coeficiente de correlación producto-momento de Pearson.'
Ejemplo 29.1 Un psicólogo realiza un estudio empleando una muestra de cinco niños
para determinar si existe o no una relación estadística entre el número de onzas de azúcar
que un niño de diez años consume a la semana (que representará la variable X) y el número
decavidades en la boca del niño (que representará la variable Y). Las dos puntuaciones
(onzas de azúcar consumidas por semana y número de caries) obtenidas para cada uno de
los cinco niños son las siguientes. Niño 1 (20, 7); Niño 2 (0, 0); Niño 3 (1, 2); Niño 4 (12,
5); Niño 5 (3, 3). ¿Existe una correlación significativa entre el consumo de azúcar y el
número decavf'tfes?
H,: p > 0
(En la población subyacente a la que representa la muestra, la correlación entre los rangos
de los sujetos en la Variable I y la Variable r tiene algún valor superior a 0. Se trata de una
hipótesis alternativa direccional, y se evalúa con una prueba de una cola. Sólo un valor
positivo
rd proporcionará apoyo a esta hipótesis alternativa. Para que sea significativo (además del
requisito de un valor positivo de rS), el valor absoluto obtenido de rS debe ser igual o
superior al valor crítico tabulado de una cola8d ^s al nivel de significación
preespecificado).
o
Eli Ps < 0
(En la población subyacente que representa la muestra, la correlación entre los rangos de
los sujetos en la Variable A y la Variable Y es igual a algún valor inferior a 0. Esta es una
hipótesis alternativa direccional, y se evalúa con una prueba de una cola. Sólo una rS
apoyará esta hipótesis alternativa. Para que sea significativo (además
al requisito de un valor negativo de rS), el valor absoluto obtenido de rS debe ser igual o
superior al valor crítico tabulado de rS de una cola al nivel de significación preespecificado).
Y
20 5 7 0
0 0 1 0 0
1 2 2 2 0 0
4 12 4 5 4 0 0
5 3 3 3 3 0 0
W2 = 0
a la siguiente puntuación más baja de la variable F, y así sucesivamente hasta que se asigna
un rango de 5 a la puntuación más alta de la variable Y). En caso de empate de
puntuaciones (que no se produce en el ejemplo 29.1), como ocurre en otros procedimientos
de ordenación por rango, se asigna la media de los rangos implicados a todas las
puntuaciones empatadas para un rango determinado.
Cabe señalar que es posible invertir el protocolo de clasificación descrito
anteriormente. Específicamente, para cada variable se puede asignar un rango de 1 a la
puntuación más alta en esa variable y un rango de 5 a la puntuación más baja en esa variable.
Si se utiliza este protocolo de clasificación alternativo, el valor de rS será idéntico al del
protocolo de clasificación empleado en la tabla
29.1. Cabe destacar que, independientemente del protocolo de clasificación que se emplee,
el mismo
para ambas variables. En el Ejemplo 29.1 se emplea el protocolo de asignar el rango más
bajo a la puntuación más baja y el rango más alto a la puntuación más alta, ya que permite
interpretar más fácilmente los resultados del estudio.
En la columna 6 de la tabla 29.1, se calcula que la suma de las puntuaciones de
diferencia es W= 0. De hecho, Rd siempre será igual a cero y siW es algún valor distinto
de cero, indica que se ha cometido un error en las clasificaciones y/o cálculos. En la última
columna de la tabla 29.1, se calcula la suma de las puntuaciones de diferencia al
cuadrado (Zd2 = 0). Este último valor (que sólo será igual a cero cuando rS -- 1) y el valor
deii se emplean en la ecuación 29.1, que es la
ecuación para calcular el coeficiente de correlación de orden de rango de Spearman".
6
n(n - l) (Ecuación 29.1)
(6)(0) i
5[(5)2 l]
El valor obtenido r; -- 1 se evalúa con la Tabla A18 (Tabla de Valores Críticos para
Rho de Spearman) en los Apéndices. Los valores críticos de la Tabla A18 se enumeran
en referencia a n.' Empleando la Tabla A18, se puede determinar que para n - 5 el valor
crítico tabulado de dos colas de rf; al nivel de significación de .05 es r -- I . Debido al
pequeño tamaño de la muestra, no es
rS
n 2
(Ecuación 29.2)
Aunque el tamaño de la muestra del ejemplo 29. l está muy por debajo del tamaño
mínimo recomendado para la ecuación 29.3, se sustituirán los valores apropiados en esta
última ecuación para demostrar su aplicación. Sustituyendo los valores rd -- l y n = 5 en la
ecuación 29.3, se calcula el valor z - 2,00.
z -- (l) 5 =2
3
n - n - Tp (10)' - 10 -
12 12 79.5 (Ecuación 29.6)
36
y2
n' -x-T (10)3 - 10 - 12
12 12 81.5 (Ecuación 29.7)
Copyright 2004 por Chapman &
2
Sr.2 + Y' - W2 79,5 + 81,5 - 39
.758 (Ecuación 29.8)
2 y2 (79 5)(81
5)
(15)(15)
55 --
5
r rS 1
(15)2
55 55
10
Tabla 29.3 Resumen de los datos de la muestra 29.1 para la evaluación con la
ecuación 28.1 Asunto 2
1 5 25 5 25 25
2 1 1 1 1 1
3 2 4 2 4 4
4 4 16 4 16 16
5 3 9 3 9 9
M = l5 EY2 = 55 LF -- 15 Año2 = 55 = 55
Cuadro 29.4 Resumen de los datos del cuadro 29.2 para la evaluación con la ecuación 28.1
Asunto J2 Y y2 EN
1 1.5 2.25 2 4 3
2 1.5 2.25 1 1 1.5
3 3 9 3.5 12.25 10.5
4 4 16 3.5 12.25 14
5 6 36 9.5 90.25 57
6 6 36 9.5 90.25 57
7 6 36 5 25 30
8 8 64 6 36 48
9 9.5 90.25 7 49 66.5
10 9.5 90.25 8 64 76
2 3 4
X -- Onzas de azúcar
{ Rangos en la variable X)
= 0Ed2 = 45.5
Observe que en la tabla 29.5 cada una de las n = 10 filas representa una de las diez
películas, en lugar de representar a ii = 10 sujetos (como en el ejemplo 29.1). Los rangos
del Crítico l se representan en la columna denominada fip, y los rangos del Crítico 2 se
representan en la columna denominada fip. Observe que el Crítico I coloca a las Películas
8 y 9 en un empate para la segunda mejor película. Por lo tanto (empleando el protocolo
para empates descrito en la sección IV del último Mann-Whitney), se promedian las
Copyright 2004 por Chapman &
dos
r l (6)(45.5) 724
10[(10)° - l]
Empleando la Tabla A18, se determina que para n - 10, los valores críticos tabulados
de dos colas de .05 y .01 son r$ -- .648 y rS = .794, y los valores críticos tabulados de una
cola de .05 y .01 son rS -- .564 y rS -- .745. Empleando los valores críticos mencionados, la
hipótesis alternativa no direccional H,: pt 0 y la hipótesis alternativa direccional
H,: pS > 0 se apoyan en el nivel .05, ya que el valor calculado rS -- .724 es mayor que
que el valor crítico tabulado de dos colas rS -- .648 y el valor crítico tabulado de una cola
rS = .564. Las hipótesis alternativas no se apoyan al nivel .01, ya que rS -- .724 es menor
que el valor crítico tabulado de dos colas rS -- .794 y que el valor crítico tabulado de una
cola rS -- .745 .
" Si se emplea la ecuación 29.2 para evaluar la hipótesis nula ff0 : py = 0, el valor t -
2. 97.
(.724) 10 2 2.97
1 ( 4)2
z = (.724) 10 l - 2.17
Utilizando la tabla Al, se determina que el valor calculado z - 2,17 es mayor que el valor
crítico tabulado de dos colas z05 - 1,96 y el valor crítico tabulado de una cola z5 = 1,65,
pero menor que el valor crítico tabulado de dos colas z0 - 2,58 y el valor crítico tabulado de
una cola z0 , = 2,33. Por lo tanto, tanto la hipótesis alternativa no direccional H,: pg ' 0
como la hipótesis alternativa direccional H,: pS > 0 se apoyan al nivel .05, pero no al nivel
.01
nivel. Obsérvese que se llega a conclusiones idénticas con la Tabla A18 y la Ecuación 29.3,
pero el
Estas últimas conclusiones no son idénticas a las obtenidas con la ecuación 29.2 (en la que
la hipótesis alternativa direccional H,: pt > 0 también se confirma al nivel 0,01). Como se
señala en la Sección V, las conclusiones basadas en el uso de la Tabla A18, la Ecuación
29.2 y la Ecuación 29.3 no siempre estarán totalmente de acuerdo.
Tabla 29.6 Datos del ejemplo 29.2 formateados para análisis con
el análisis de varianza de Friedman de dos vías por rangos
Película 1 2 3 4 5 6 7 8 9 10
Crítico 1 7 1 8 10 9 6 5 2.5 2.5 4
Crítico 2 10 2 6 8 7 4 9 3 1 5
O 17 3 14 18 16 10 14 5.5 3.5 9
(Xfi )2 289 9 196 324 256 100 196 30.25 12.25 81
Empleando el valor anterior, junto con los demás valores apropiados de la ecuación 25.1
(el
ecuación para el análisis de varianza Friedman de dos vías por rangos), se calcula el
valor2 - 15,46.9
12
12
[1493.5] (3)(2)(10 + l) 15.46
(2)(10)(10 + 1)
2
El valor = 15,46 se evalúa con la Tabla A4 (Tabla del Chi-Cuadrado
Distribution) en el Apéndice. Para df -- k - l = 10 - l = 9, el valor crítico tabulado de dos colas
.05
y .01 son 5 - 16,92 y 2" - 21,67, y los valores críticos tabulados de una cola .05 y
.01
son2 = 14,68 y .01 - 19,50 (este último valor se obtiene por interpolación).l0
Utilizando los valores críticos mencionados, la hipótesis nula para el análisis de Friedman
de dos vías de la varianza por rangos (ftp: 81 = 8= -- = 8") puede rechazarse al nivel .05,
pero
sólo si se realiza un análisis de una cola (ya que= 15,4d es mayor que el valor
crítico tabulado
v a l o r de una.05 14.68).'l El resultado no llega a ser significativo al nivel de 0,05
2
para cola 2
un análisis de dos colas, ya que= 15,46 es inferior al valor crítico de dos
colas tabulado.
2
.05 - 16.92. Rechazo de la hipótesis nula para el análisis de varianza bidireccional de
Friedman
2. Daniel (1990) y Siegel y Castellan (1988) señalan que (para muestras de gran tamaño)
la eficacia relativa asintótica (que se analiza en la sección VII de la prueba de rangos con
signo de Wilcoxon (prueba 6)) del coeficiente de correlación de rangos de
Spearman en relación con el coeficiente de correlación producto-momento de
Pearson es de aproximadamente 0,91 (cuando se cumplen los supuestos subyacentes a
esta última prueba).
Referencias
Brown, G. M. y Mood, A. M. (195 l). On median tests for linear hypotheses, Jerzy Neyman
(ed.), Proceedings of the Second Berkeley Symposium on Mathematical Sta- tistics and
Probability. Berkeley y Los Ángeles: The University of California Press, 159-166.
Conover, W. J. (1980). Practical nonparametric statistics (2ª ed.). New York: John Wiley
Copyright 2004 por Chapman &
& Sons.
Conover, W. J. (1999). Practical nonparaoietric statistics (3ª ed.). New York: John Wiley
& Sons.
Notas finales
1. Cabe señalar que, aunque las puntuaciones de los sujetos del ejemplo 29.1 son datos
Copyright 2004 por Chapman &
de razón, en la mayoría de los casos en los que se emplea el coeficiente de
2. Algunas fuentes emplean las siguientes afirmaciones como hipótesis nula e hipótesis
alternativa no direccional para el coeficiente de correlación de rango de Spearman:
Hipótesis nula: ff0 : Las variables A e Y son independientes entre sí; Hipótesis alternativa
no direccional: H,: Las variables A e Y no son independientes entre sí.
De hecho, es cierto que si en la población subyacente las dos variables son
independientes, el valor de pS será igual a cero. Sin embargo, el hecho de que pS -- 0,
en sí mismo, no garantiza que las variables sean independientes entre sí. Así, es
concebible
que en una población en la que la correlación entre el riesgo de mano pS -- 0, se puede
emplear una función curvilínea no monotónica para describir la relación entre las
variables.
3. Daniel (1990) señala que el valor calculado de rS no es una estimación insesgada de pS.
4. El lector puede encontrar ligeras discrepancias en los valores críticos indicados para
la rho de Spearman en las tablas publicadas en diferentes libros. Las diferencias se
deben a que en las distintas fuentes se emplean tablas separadas derivadas por Olds
(1938, 1949) y Zar (1972), que no son idénticas. Howell (2002) señala que los valores
críticos tabulados que figuran en diversas fuentes son aproximaciones y no valores
exactos. Ramsey (1989) y Franklin (1996) han obtenido valores críticos que, según
ellos, son más exactos que los que figuran en el cuadro Al8.
5. El tamaño mínimo de muestra para el que se recomienda la ecuación 29.3 varía según
la fuente que se consulte. Algunas fuentes recomiendan el uso de la ecuación 29.3
para valores tan bajos como n - 25, mientras que otras afirman que n debe ser igual a
100 como mínimo.
11. En la discusión del análisis Friedman de dos vías de variación por rangos, se
asume que siempre se lleva a cabo un análisis no direccional para esta última
prueba. Aquí se utiliza un análisis direccional/de una cola para emplear valores de
probabilidad comparables a los valores de una cola empleados en la evaluación de la rho
de Spearman. Dentro del modelo de prueba de Friedman, cuando k = 10, el uso del
término análisis de una cola no tiene realmente sentido. Para aclarar esta cuestión
(es decir, realizar un análisis direccional cuando k > 3), el lector debería leer la
discusión sobre la direccionalidad de la prueba de bondad de ajuste ehi-cuadrado
(Prueba 8) en la Sección VII de esta última prueba (que puede generalizarse a la
prueba de Friedizian).
Copyright 2004 por Chapman & Hal/CRC