Está en la página 1de 9

Revista Colombiana de Obstetricia y Ginecologa Vol. 61 No.

3 2010 (247-255)

Educacin mdica

MTODOS ESTADSTICOS DE EVALUACIN DE


LA CONCORDANCIA Y LA REPRODUCIBILIDAD
DE PRUEBAS DIAGNSTICAS
Statistical methods for evaluating diagnostic test
agreement and reproducibility
dgar Corts-Reyes TF, M.Sc.*, Jorge Andrs Rubio-Romero, M.D. M.Sc.**,
Hernando Gaitn-Duarte M.D., M.Sc.***
Recibido: julio 27/10 Aceptado: agosto 23/10

RESUMEN correlacin y concordancia sobre el uso del


Introduccin: en la evaluacin de la utilidad de coeficiente de Pearson o la prueba t de Student
una prueba diagnstica, se requiere en algunas si- pareada. Los mtodos utilizados deben ser
tuaciones valorar la reproducibilidad de los resulta- interpretados de acuerdo al contexto clnico donde
dos o la concordancia de los mismos al compararla fueron empleados.
con otra prueba que no sea usada como patrn de Conclusiones: la seleccin de los mtodos esta-
oro de la entidad. El objetivo de este documento dsticos para la evaluacin de la concordancia y
es presentar los mtodos estadsticos utilizados la reproducibilidad depende del tipo de variable
para evaluar la reproducibilidad y/o concordancia a medir y de los parmetros que se quieran eva-
de las observaciones clnicas o paraclnicas, sus luar, ya sea slo la reproducibilidad o tambin la
bases tericas y algunos ejemplos de cmo se han exactitud.
aplicado. Palabras clave: reproducibilidad de resultados,
Metodologa: se realiza una revisin sobre las correlacin, concordancia, acuerdo.
bases tericas de la evaluacin de la concordancia y
la reproducibilidad, adems se ilustra su aplicacin SUMMARY
en la literatura con ejemplos relacionados con la Introduction: when evaluating a diagnostic tests
obstetricia y la ginecologa. usefulness, one often has to assess the results
Resultados: la estimacin de la concordancia se repeatability or their degree of agreement when
hace por medio de la prueba Kappa en variables compared to another test which is not used as gold
dicotmicas u ordinales. En el caso de variables standard for the entity in question. This paper was
continuas, se debe preferir el uso del coeficiente aimed at presenting the statistical methods used
de correlacin intraclase o el coeficiente de for evaluating clinical and laboratory observations
repeatability or reproducibility and agreement,
* Profesor Asociado, Departamento del Movimiento Corporal Humano,
their theoretical basis and showing some examples
Instituto de Investigaciones Clnicas, Facultad de Medicina, Universidad of how they have been applied.
Nacional de Colombia. Bogot (Colombia). Correo electrnico:
ecortesr@unal.edu.co
Methodology: the theoretical bases for evaluating
** Profesor Asociado, Departamento de Obstetricia y Ginecologa, Instituto agreement and the repeatability of results were
de Investigaciones Clnicas, Facultad de Medicina, Universidad Nacional
de Colombia. Bogot (Colombia). reviewed and examples of their use were taken
*** Profesor Titular, Departamento de Obstetricia y Ginecologa, Instituto de from pertinent obstetrics- and gynecology-related
Investigaciones Clnicas, Facultad de Medicina, Universidad Nacional de
Colombia. Bogot (Colombia). literature.

Rev Colomb Obstet Ginecol 2009;61:247-255


248 Revista Colombiana de Obstetricia y Ginecologa Vol. 60 No. 4 2009

Results: the Kappa coefficient is usually used for concordancia de las observaciones clnicas o
evaluating the degree of agreement or concordance paraclnicas. Se explican sus bases tericas y
for dichotomic or categorical variables. The use se brindan algunos ejemplos de cmo se han
of the intraclass correlation coefficient (ICC) or aplicado para que el clnico pueda conocer la
Lins concordance correlation coefficient should forma de interpretacin de los resultados y si la
be preferred over Pearsons correlation coefficient evaluacin de estas caractersticas de las pruebas
or paired Students t-test for assessing continuous est bien realizada.
variables concordance. These methods must be
interpreted according to the clinical context in Definiciones
which they were used. El trmino concordancia se deriva de la ex-
Conclusions: the selection of statistical methods presin latina concordare, cuyo significado hace
for evaluating agreement and reproducibility referencia a que hay correspondencia o confor-
depends on the type of variable being measured midad de una cosa con otra.4 Su importancia en
and on the parameters being evaluated for assessing el rea de la salud reside en que existen diversas
either reproducibility or validity. maneras de valorar los fenmenos de la naturaleza
Key words: reproducibility of results, correlation, y por lo tanto aparecen distintas aproximaciones
agreement, concordance. o mtodos diagnsticos usados para medir los
mismos fenmenos o enfermedades. Por lo tanto,
INTRODUCCIN la concordancia adquiere importancia cuando se
Para cualquier profesional de la salud, y en par- desea conocer si con un mtodo o instrumento
ticular para el especialista en Obstetricia y Gine- nuevo, diferente al habitual, se obtienen resultados
cologa, puede ser de inters evaluar la utilidad equivalentes de tal manera que eventualmente
de una prueba diagnstica, ya sea desde el punto uno y otro puedan ser remplazados o intercam-
de vista de 1) qu tan bien sta clasifica al sujeto biados ya sea porque uno de ellos es ms sencillo,
como sano o enfermo de acuerdo a su real estado menos costoso y por lo tanto ms costo-efectivo,
de salud, es decir, el desempeo operativo de la o porque uno de ellos resulta ms seguro para el
prueba (sensibilidad y especificidad)1 o desde el paciente, entre otras mltiples razones. En tr-
punto de vista de 2) la confiabilidad de la prueba o minos generales, la concordancia es el grado en
la reproducibilidad de los resultados, por ejemplo, que dos o ms observadores, mtodos, tcnicas u
al ser nuevamente aplicada por otro sujeto, por observaciones estn de acuerdo sobre el mismo
el mismo sujeto o al compararla con otra prueba fenmeno observado.5
que no es usada como patrn de oro de la entidad As, la concordancia no evala la validez o
o 3) para verificar qu tan de acuerdo estn dos la certeza sobre una u otra observacin con
observadores frente a un fenmeno. Dos ejemplos relacin a un estndar de referencia dado, sino
en el ejercicio de la actividad diaria son qu tanto cun acordes estn entre s observaciones sobre
varan las mediciones por ultrasonido del grosor el mismo fenmeno. En estos casos se considera
endometrial entre dos observadores2 o el grado de que los estudios evalan la consistencia entre
acuerdo entre dos mtodos de biologa molecular los mtodos o instrumentos. En los estudios
para el diagnstico del virus del papiloma humano en los que uno de los mtodos o instrumentos
en mujeres de alto riesgo.3 nuevos se comparan frente al mtodo que
El presente artculo tiene como objetivo constituye el patrn de referencia o gold estndar,
presentar los mtodos utilizados para el an- se evala la conformidad6 del mtodo respecto
lisis de los estudios de la reproducibilidad y/o al patrn de referencia que tambin se denomina
Mtodos estadsticos de evaluacin de la concordancia y la reproducibilidad de pruebas diagnsticas 249

validez o desempeo operativo de una prueba P0 - Pe


Kappa =
diagnstica. 1 - Pe

Fundamentos tericos Donde P0 es la proporcin de concordancia


La concordancia entre los mtodos y sus medicio- observada, Pe es la proporcin de concordancia
nes puede alterarse por los siguientes elementos o esperada por azar y 1 - Pe, representa el acuerdo
fuentes de error: 1) la variabilidad de los observa- o concordancia mxima posible no debida al azar.
dores, 2) la variabilidad dada por el instrumento Entonces, el numerador del coeficiente Kappa ex-
de medida y 3) la variabilidad debida a medir en presa la proporcin del acuerdo observado menos
momentos diferentes en el tiempo.7 En un estudio el esperado, en tanto que el denominador es la
de concordancia se ejerce un efecto artificial de diferencia entre un total acuerdo y la proporcin
controlar la variabilidad en el fenmeno observado esperada por azar. En conclusin, el Kappa corrige
mientras que se determina el grado de acuerdo el acuerdo slo por azar, en tanto es la proporcin
entre dos o ms observadores o instrumentos sobre del acuerdo observado que excede la proporcin
ese fenmeno.8 Ahora bien, es posible que dos o por azar. Si este valor es igual a 1, estaramos frente
ms observaciones u observadores estn de acuerdo, a una situacin en que la concordancia es perfecta
slo por efecto del azar. Bajo esta premisa, se han (100% de acuerdo o total acuerdo) y por tanto,
diseado modelos estadsticos que estiman el grado la proporcin por azar es cero; cuando el valor es
de acuerdo existente entre dos o ms observadores 0, hay total desacuerdo y entonces la proporcin
u observaciones, despus de retirar el efecto del azar esperada por azar se hace igual a la proporcin
de dicha observacin. observada.
Como ejemplo tenemos que Massad y colabora-
Concordancia de variables categricas dores en el 2008,11 estimaron el grado de concor-
En el evento en que el fenmeno observado se expre- dancia entre observadores para calificar el ndice
sa o determina de manera binaria o dicotmica, por de Reid en imgenes colposcpicas previamente
ejemplo, la presencia o ausencia de un signo clnico seleccionadas, obtenidas del estudio ALTS (Ascus/
o imagenolgico,9 se ha utilizado tradicionalmente LSIL Triage Study). La tabla 1 muestra los resul-
el ndice de Kappa, un instrumento diseado por tados obtenidos para la identificacin de lesiones
Cohen que ajusta el efecto del azar en la proporcin acetoblancas por dos observadores independientes
de la concordancia observada.10 La estimacin por y cmo se obtuvo el valor del ndice de Kappa de
el ndice de Kappa sigue la ecuacin: concordancia entre los observadores.

Tabla 1. Acuerdo entre dos observadores al azar para la identificacin


de lesiones acetoblancas en cervicogramas.
Concordancia observada Concordancia esperada por azar
Presente Ausente Presente Ausente
Presente 607 91 698 Presente 556,3 141,7 698
Ausente 80 84 164 Ausente 130,7 33,3 164
687 175 862 687 175 862
Concordancia observada global (P0)=0,80
Concordancia esperada por azar (Pe)=0,68
(P0-Pe)
ndice Kappa (1-Pe) =0,37
250 Revista Colombiana de Obstetricia y Ginecologa Vol. 60 No. 4 2009

De otro lado, Landis y Koch12 propusieron utilizado aproximaciones tales como el coeficiente
una interpretacin cualitativa del ndice de Kappa de Pearson, el coeficiente de correlacin intraclase
utilizada clsicamente en la que la fuerza de con- (CCI) y el coeficiente de Lin.
cordancia se califica como: El coeficiente de Pearson mide la probabili-
pobre o dbil para valores menores a 0,40, dad de establecer una ecuacin lineal entre dos va-
moderada, para valores de entre 0,41 y 0,60, riables, en la que por cada cambio de unidad en una
buena, entre 0,61 y 0,80, y de ellas se espera un cambio de unidad (correlativo)
muy buena para valores superiores hasta 1.13 en la otra, sin tener en cuenta ni la magnitud ni la
Es importante resaltar que estos rangos son escala de medicin de las variables comprometidas.
amplios y arbitrarios, lo que implica por ejemplo Su uso no es adecuado para estimar la concordancia
que moverse de un valor del 60 al 61%, significara entre dos variables dado que se pueden obtener
pasar de una concordancia moderada a una buena. coeficientes de correlacin de Pearson muy cerca-
Tales rangos no consideran las caractersticas pro- nos a la unidad, como el encontrado por Faustin
pias de cada uno de los fenmenos que se intentan y colaboradores15 (de 0,94), an entre fenmenos
medir ni la relevancia clnica que, en un momento totalmente diferentes tales como la altura uterina
dado, puedan adquirir las diferencias o similitudes medida en centmetros y la edad gestacional calcu-
encontradas, que son dependientes de la entidad o lada en semanas, sin que exista concordancia entre
el fenmeno a medir. Esto quiere decir que para ellas. Adems, el rango de valores observado en la
algunos fenmenos, diferencias del 1% pueden ser muestra incrementa el coeficiente de Pearson si sta
clnicamente relevantes (por ejemplo la saturacin incluye valores extremos, sobreestimando la correla-
de oxgeno arterial), mientras para otros slo dife- cin obtenida entre las variables.16 As, el coeficiente
rencias mayores de 20% pueden tener implicaciones de Pearson mide la intensidad de la asociacin lineal
clnicas (ej. el peso fetal estimado por ultrasonido). entre dos mediciones (correlacin) pero no propor-
Por lo tanto, sera conveniente la construccin de ciona informacin acerca del acuerdo observado, ni
tablas de acuerdo que dependeran de consensos sobre la presencia de diferencias sistemticas entre
clnicos en torno a cada entidad nosolgica o fen- las mediciones o instrumentos.
meno a medir en particular. El coeficiente de correlacin intraclase
Cuando se trata de variables nominales con ms (CCI), introducido originalmente por Fisher, es una
de una categora, es necesario ajustar el ndice de formulacin especial del coeficiente de correlacin
Kappa segn el grado de discordancia entre las di- () de Pearson. Este mtodo permite evaluar la con-
ferentes categoras, ya que no slo se debe tener en cordancia general entre dos o ms mtodos de me-
cuenta la concordancia perfecta ocurrida entre los dida u observacin basado en un modelo de anlisis
mtodos u observadores para una misma categora, de varianza (ANOVA) con medidas repetidas.17
sino las diferencias de clasificacin ocurridas entre Se define como la proporcin de la variabilidad
los observadores o los mtodos para cada una de las total que es debida a la variabilidad de los sujetos.
categoras existentes y con un ajuste por el grado de Supone que la variabilidad total de las mediciones
discordancia en cada una de ellas. Este mtodo se puede desagregarse en dos componentes: a) la va-
conoce como el ndice de Kappa ponderado.14 riabilidad debida a las diferencias entre los sujetos
(entresujetos) y b) la debida a la medicin para cada
Concordancia para variables sujeto (intrasujetos), la que a su vez se subdivide en:
de tipo contnuo i) variabilidad entre observaciones y ii) variabilidad
Cuando el fenmeno objeto de anlisis es medido residual, debida al error que conlleva dicha medi-
como una variable numrica continua, se han cin. Este coeficiente estima el promedio de las
Mtodos estadsticos de evaluacin de la concordancia y la reproducibilidad de pruebas diagnsticas 251

correlaciones entre todas las posibles ordenaciones significa que al depender de la variabilidad de
de los pares de observaciones disponibles, evitan- los valores observados, su valor ser mayor en
do as el problema de la dependencia del orden muestras heterogneas. Una desventaja adicional
del coeficiente de correlacin de Pearson. El CCI se relaciona con la dificultad para interpretar
no explica o discrimina la variabilidad entre los sus valores y su traduccin a la relevancia desde
mtodos de medicin o la debida a las diferencias el punto de vista clnico, tal como sucede con el
entre observadores. Puede utilizarse cuando hay coeficiente Kappa.
ms de dos observaciones por sujeto. Dado que el El uso del CCI se ha extendido en el contexto
CCI es una proporcin, sus valores oscilan entre 0 de valorar la reproducibilidad de varias mediciones
y 1, y por tanto la mxima concordancia posible se o cuando se comparan dos mtodos que tienen
alcanzara cuando el CCI=1. Al igual que para el diferente unidad de medicin, pero dentro del
coeficiente de Kappa, su interpretacin es bastante marco de la evaluacin de la concordancia, tiene
subjetiva y se han presentado diferentes tablas para obvias desventajas. Cuando los datos no tienen
su interpretacin, entre ellas las de Fleiss18 y las de una distribucin normal, se puede acudir al uso
Prieto y Lamarca.19 En general, se considera que de pruebas no paramtricas como la prueba Tau
valores por debajo de 0,4 indican baja fiabilidad; de Kendall.21
cuando se encuentran entre 0,4 y 0,75 una fiabilidad De otro lado, y para superar las limitaciones de
entre regular y buena; y valores superiores a 0,75 se las pruebas estadsticas antes descritas, Lin (1989)22
refieren a una fiabilidad excelente. desarroll una propuesta para evaluar la concordan-
Por ejemplo, este instrumento se utiliza en un cia entre variables continuas a travs del coeficien-
estudio publicado por Kruger y colaboradores,20 en te de correlacin concordancia (CCC).
el que se comparan las mediciones de la funcin del El CCC sigue la ecuacin:
piso plvico usando ultrasonido 3D y la resonan-
cia magntica nuclear en mujeres nulparas. Ellos A2 + B2 - C2
CCC=
encontraron un CCI entre 0,58 y 0,78, con el cual A2 + B2 + D2
consideraron que existe una reproducibilidad de
Donde: A2 = Varianza del mtodo A
moderada a buena entre los mtodos, siendo menor
B2 = Varianza del mtodo B
para la medicin del rea axial del hiato urogenital C2 = Varianza de la diferencia entre los mtodos A y B
durante la maniobra de Valsalva y buena para la D2 = Diferencia promedio de los dos mtodos.
medicin de esta misma rea en reposo.
Aunque este coeficiente ha sido muy usado Este coeficiente califica la fuerza del acuerdo de
para medir concordancia, tampoco es un mtodo una forma ms exigente: para variables continuas, la
ideal pues tiene varios supuestos difciles de valora como casi perfecta para valores mayores a 0,99;
cumplir: a) que los mtodos evaluados provienen sustancial, de 0,95 a 0,99; moderada, de 0,90 a 0,95 y
de una muestra al azar de una poblacin de pobre cuando est por debajo de 0,90. Para variables
mtodos, b) que el error de medicin es similar categricas, los valores sugeridos son: mayor a 0,90,
para cada uno de los mtodos,17 y c) al igual entre 0,80 y 0,90, de 0,65 a 0,80 y menor de 0,65,
que el coeficiente de Pearson, depende de los respectivamente.
valores en estudio. Por ejemplo, si la variabilidad El CCC, definido tambin por la frmula
entre estos es muy poca el CCI va a ser bajo, CCC=Cb, combina una medida de precisin,
independientemente de que los mtodos sean o representada por el coeficiente de correlacin (),
no concordantes y a mayor variabilidad entre los con una medida de exactitud, representada por el
sujetos, mayor va a ser el CCI, lo que tambin coeficiente de correccin de sesgo (Cb). Permite
252 Revista Colombiana de Obstetricia y Ginecologa Vol. 60 No. 4 2009

observar qu tan lejos se desvan los datos obser- Figura 1. Correlacin concordancia de Lin entre el
vados por dos mtodos u observadores de una lnea volumen estimado y el volumen recolectado posparto.
a partir del origen y a 45 en un plano cartesiano,
que corresponde a la lnea de perfecta concordancia. 1500 Experiencia mayor de 10 Aos

Este coeficiente aumenta de valor en funcin de:


a) la cercana del eje principal o la pendiente de la 1000

Volumen real
curva de regresin de las parejas de datos obtenidos
en la lnea de perfecta concordancia (coefi- 500

ciente de correccin de sesgo) que permite


evaluar la exactitud de los datos obtenidos y
0
b) en funcin de la dispersin alrededor de la lnea 0 500
Volumen Estimado
1000

de mejor ajuste o lnea de regresin de las parejas


de los datos obtenidos, siendo ste el reflejo de la
precisin de las mediciones obtenidas y corresponde
al coeficiente de correlacin de Pearson.23 El CCC las mediciones individuales por cada mtodo o de
adquiere valores entre -1 (perfecta discordancia) a cada medicin28 y representa en forma grfica las
+1 (concordancia perfecta). En caso de un acuerdo diferencias entre dos mediciones del mismo sujeto
perfecto en trminos de precisin y exactitud, el o fenmeno en el eje de las ordenadas (y) frente a
CCC corresponde a un valor de +1. Lo anterior la media obtenida de ambas mediciones en el eje
significa que cuando todos los datos obtenidos por de las abscisas (x). Esto permite conocer si las dife-
ambos mtodos caen sobre la lnea de concordan- rencias entre los dos mtodos son sistemticas o, al
cia, habr reproducibilidad perfecta.24 El resultado contrario, debidas al azar. Se espera que la diferencia
arrojado es por tanto, el grado de reproducibilidad, promedio entre dos mtodos sea de 0 y que el
como lo refiere Lin.25 95% de las diferencias se encuentren dentro de 1,96
En un estudio realizado por Rubio y sus colegas de las desviaciones estndar de dicho promedio. Si
para evaluar la concordancia entre la estimacin estas diferencias no son clnica o biolgicamente
visual y la recoleccin sistemtica del sangrado importantes, los dos mtodos pueden considerarse
posparto, se obtuvo un CCC de 0,73, cuando los como concordantes e intercambiables. A partir de
evaluadores del sangrado fueron personas con ms la desviacin estndar de las diferencias entre los
de 10 aos de experiencia.26 El coeficiente obtenido mtodos tambin es posible calcular los intervalos
est discriminado de la siguiente forma: coeficiente de confianza para los lmites de concordancia,
de Pearson ()=0,80 y coeficiente de correccin siempre y cuando tales diferencias se distribuyan
de sesgo (exactitud) (Cb)=0,91. Este resultado de- normalmente y que la diferencia de los dos mto-
muestra una pobre concordancia o grado de acuerdo dos sea independiente de la magnitud del valor de
segn los valores propuestos por Lin para variables la caracterstica medida. Dados los requisitos de
continuas. La figura 1 permite mostrar el anlisis normalidad que exige la distribucin de los datos
del CCC obtenido de acuerdo con la descripcin cuando se emplea el CCC, debe procurarse que tales
realizada. supuestos se cumplan, aunque se ha demostrado
El CCC tambin proporciona los datos para que el CCC de Lin es robusto y no se modifica
establecer los lmites de acuerdo desarrollados de manera significativa cuando no se cumplen los
por Bland y Altman, que son una aproximacin supuestos de normalidad.
complementaria al CCC de Lin.27 Este mtodo La figura 2 permite ejemplificar el uso del
grfico se basa en el anlisis de las diferencias entre anlisis grfico de Bland y Altman al evaluar
Mtodos estadsticos de evaluacin de la concordancia y la reproducibilidad de pruebas diagnsticas 253

Figura 2. Lmites de acuerdo del 95% de Bland y Altman fenmeno) y lo que es lo mismo, que la discordancia
entre el volumen estimado y el volumen recolectado no es total. Si no se rechaza la hiptesis nula, debera
posparto normal. sospecharse bien de falta de poder (tamao muestral
pequeo) o de errores en la medicin. Por tanto, es
Lmites de acuerdo 95%
500 Experiencia mayor de 10 Aos
ms adecuado plantear el contraste de la hiptesis
(Volumen estimado) (Volumen real)

a una sola cola, estableciendo el valor mnimo de la


concordancia, es decir del CCC, que se desea evaluar
0
o se considera el mnimo aceptable entre los mtodos.
Aqu el problema aparece en la fijacin de dicho lmite,
pues se basa en un criterio subjetivo propio para
-500
cada instrumento o fenmeno a medir. Bajo esa
0 500 1000
Promedio de volumen estimado y volumen real perspectiva y teniendo en cuenta que no siempre
ni para todos los casos hay un consenso acerca de
qu valores deberan considerarse como criterio de
la concordancia entre la estimacin visual y la concordancia, deber asumirse en cada caso el ms
estimacin real del sangrado posparto normal, aceptado en la comunidad cientfica o aquel ms
por personal calificado con ms de 10 aos de prximo a la referencia terica existente.
experiencia.26 Aqu se observa que la diferencia Lo anterior significa e implica, que, en ocasio-
promedio entre los mtodos es de -90 ml, que nes, interesa ms conocer el grado de concordancia
corresponde a una subestimacin del volumen de que poner a prueba la hiptesis nula de discordancia
sangrado calculado respecto al volumen real. Los total y en este sentido, hay que tomar una posicin
lmites de acuerdo del 95% en este caso tienen una y asumir desde el punto de vista clnico, un nivel
gran variabilidad (casi 800 ml) y la pertinencia o esperado como aceptable a partir del cual los
relevancia clnica de este hallazgo es dependiente clnicos consideren que los mtodos o instrumentos
del fenmeno estudiado y sus caractersticas. As reportan la misma informacin fiable y repetible
las cosas, una diferencia en la estimacin de un y por lo tanto, se pueden utilizar indistintamente
sangrado de 100 ml no tiene la misma relevancia para la toma de decisiones para el manejo clnico
clnica que una diferencia de un (1) cm2 en el rea de los pacientes a nuestro cuidado.
de una vlvula cardaca o de una comunicacin
interventricular. CONCLUSIN
Adicionalmente, el coeficiente de correlacin Los mtodos estadsticos para la evaluacin de la
concordancia (CCC) tambin puede ser usado para concordancia y la reproducibilidad son dependientes
validar la reproducibilidad de un instrumento o de las caractersticas del fenmeno clnico a estudiar
mtodo, ya que permite evaluar el acuerdo entre y deben estar sujetos a una metodologa rigurosa y
muestras pareadas. especfica. Su seleccin depende del tipo de variable
Existe una dificultad para la interpretacin de los a medir y de los parmetros que se quieran evaluar,
coeficientes que miden la concordancia que surge si slo reproducibilidad o tambin exactitud.
desde la definicin de la hiptesis nula para estos
estudios. La hiptesis nula habitual de la concor- REFERENCIAS
dancia = 0 vs. concordancia 0, no tiene sentido 1. Gaitn-Duarte H, Rubio-Romero J, Gmez-
Chantraine M. Interpretacin del desempeo
ya que en el caso de rechazar la hiptesis nula se con- operativo de las pruebas de tamizaje y de diagnstico
cluira que la concordancia no es cero, es decir que los de enfermedades en obstetricia y ginecologa. Rev
datos no son independientes (ya que miden el mismo Colomb Obstet Ginecol 2009;60:365-76.
254 Revista Colombiana de Obstetricia y Ginecologa Vol. 60 No. 4 2009

2. Alczar JL, Merc LT, Manero MG, Bau S, Lpez-Garca 12. Landis JR, Koch GG. The measurement of observer
G. Endometrial volume and vascularity measurements agreement for categorical data. Biometrics 1977
by transvaginal 3-dimensional ultrasonography and Mar;33:159-74.
power Doppler angiography in stimulated and tumoral 13. Altman DG. Practical statistics for medical research. New
endometria: an interobserver reproducibility study. J York: Chapman and Hall/CRC; 1991. p. 277-300.
Ultrasound Med 2005;24:1091-8.
14. Cohen J. Weighted kappa: Nominal scale agreement
3. Monsonego J, Pollini G, Evrard MJ, Sednaoui P, Monfort with provision for scaled disagreement or parcial
L, Zerat L, et al. Detection of human papillomavirus credit. Psychol Bull 1968;70:213-20.
genotypes among high-risk women: a comparison of
15. Faustin D, Gutirrez L, Gintautas J, Calame RJ.
hybrid capture and linear array tests. Sex Transm Dis
Clinical assessment of gestational age: a comparison
2008;35:521-7.
of two methods. J Natl Med Assoc 1991;83:425-9.
4. Didacterion, Diccionario latn-espaol. [Sitio en
16. Bland JM, Altman DG. Statistical methods for
Internet]. Visitado 2010 Mar 8. Disponible en: http://
assessing agreement between two methods of clinical
recursos.cnice.mec.es/latingriego/Palladium/5_aps/
measurement. Lancet 1986;1:307-10.
diclat.php
17. Bland JM, Altman DG. A note on the used of the
5. Corts-Reyes, E. Comparacin en la estimacin del
intraclass correlation in the evaluation of agreement
VO2max a travs de un monitor de frecuencia cardaca Polar
betwen two methods of measurement. Comput Biol
S810 y una prueba de esfuerzo maximal en banda sin fin
Med 1990;20:337-40.
segn el protocolo de Balke, en deportistas universitarios
entrenados en resistencia aerbica en la ciudad de 18. Fleiss JL. The design and analysis of clinical
Bogot, D.C. Tesis de Maestra en Epidemiologa Clnica, experiments. New York: Wiley; 1986
Universidad Nacional de Colombia; 2008 19. Prieto L, Lamarca R, Casado A. Assessment of the
6. Kramer MS, Feinstein AR. Clinical biostatistics. LIV. reliability of clinical findings: the intraclass correlation
The biostatistics of concordance. Clin Pharmacol Ther coefficient. Med Clin (Barc) 1998;110:142-5.
198129:111-23. 20. Kruger JA, Heap SW, Murphy BA, Dietz HP. Pelvic
7. Fernndez P, Daz P. La fiabilidad de las mediciones floor function in nulliparous women using three-
clnicas: el anlisis de concordancia para variables dimensional ultrasound and magnetic resonance
numricas. [Sitio en Internet]. Visitado 2010 Jul imaging. Obstet Gynecol 2008;111:631-8.
6. Disponible en: http://www.fisterra.com/mbe/ 21. Coeficiente de correlacin simple por rangos de Kendall
investiga/conc_numerica/conc_numerica.pdf [Sitio en Internet] Visitado 2010 Jun 25. Disponible
8. Corts-Reyes E, Echeverry-Raad J, Mancera-Soto en: http://www.ray-design.com.mx/psicoparaest/
E,Ramos-Caballero D. Concordancia en la estimacin index.php?option=com_content&view=article&id
del consumo mximo de oxgeno entre una prueba =254:coeficiente-kendall1&catid=54:coeficiente-
de esfuerzo y el Polar S810. Rev salud pblica correla&Itemid=75
2009;11:819-827. 22. Lin L. A concordance correlation coefficient to evaluate
9. van Randen A, Lamris W, Nio CY, Spijkerboer AM, reproducibility. Biometrics 1989;45:255-268.
Meier MA, Tutein Nolthenius C, et al. Inter-observer 23. Cepeda MS, Africano JM, Polo R, Alcal R, Carr
agreement for abdominal CT in unselected patients with D. Agreement between percentage pain reductions
acute abdominal pain. Eur Radiol 2009;19:1394-407. calculated from numeric rating scores of pain intensity
10. Cepeda M, Perez A, en : Ruiz M, Gmez C, Londoo and those reported by patients with acute or cancer
D: Investigacin Clnica: Epidemiologa clnica aplicada. pain. Pain 2003;106:439-42.
Centro Editorial Javeriano; 2001. p. 288-301. 24. Zar JH. Biostatistical Analisis. Third edition. Upper
11. Massad LS, Jeronimo J, Schiffman M; National Institutes Saddle River, NJ, USA: Prentice-Hall, Inc.; 1996.
of Health/American Society for Colposcopy and 25. NIWA, National Institute of Water & Atmospheric
Cervical Pathology (NIH/ASCCP) Research Group. Research. Taihoro Nukurangi. [Sitio en Internet].
Interobser ver agreement in the assessment of Visitado 2010 Jul 6. Disponible en: http://
components of colposcopic grading. Obstet Gynecol www.niwascience.co.nz/ser vices/free/statistical/
2008;111:1279-84.. concordance.
Mtodos estadsticos de evaluacin de la concordancia y la reproducibilidad de pruebas diagnsticas 255

26. Rubio-Romero JA, Gaitn-Duarte HG, Rodrguez- 27. Carrasco JL, Jover L, King TS, Chinchilli VM.
Malagn N. Concordancia entre la estimacin visual Comparison of concordance correlation coefficient
y la medicin del volumen recolectado en un bolsa del estimating approaches with skewed data. J Biopharm
sangrado intraparto en mujeres con parto normal en Stat 2007;17:673-84.
Bogot, Colombia, 2006. Rev Colomb Obstet Ginecol 28. Bland JM, Altman DG. Measurements error and
2008;59:92-102. correlation coefficients. BMJ 1996;313:41-42

Conflicto de intereses: ninguno declarado.

También podría gustarte