Documentos de Académico
Documentos de Profesional
Documentos de Cultura
V61n3a09 PDF
V61n3a09 PDF
3 2010 (247-255)
Educacin mdica
Results: the Kappa coefficient is usually used for concordancia de las observaciones clnicas o
evaluating the degree of agreement or concordance paraclnicas. Se explican sus bases tericas y
for dichotomic or categorical variables. The use se brindan algunos ejemplos de cmo se han
of the intraclass correlation coefficient (ICC) or aplicado para que el clnico pueda conocer la
Lins concordance correlation coefficient should forma de interpretacin de los resultados y si la
be preferred over Pearsons correlation coefficient evaluacin de estas caractersticas de las pruebas
or paired Students t-test for assessing continuous est bien realizada.
variables concordance. These methods must be
interpreted according to the clinical context in Definiciones
which they were used. El trmino concordancia se deriva de la ex-
Conclusions: the selection of statistical methods presin latina concordare, cuyo significado hace
for evaluating agreement and reproducibility referencia a que hay correspondencia o confor-
depends on the type of variable being measured midad de una cosa con otra.4 Su importancia en
and on the parameters being evaluated for assessing el rea de la salud reside en que existen diversas
either reproducibility or validity. maneras de valorar los fenmenos de la naturaleza
Key words: reproducibility of results, correlation, y por lo tanto aparecen distintas aproximaciones
agreement, concordance. o mtodos diagnsticos usados para medir los
mismos fenmenos o enfermedades. Por lo tanto,
INTRODUCCIN la concordancia adquiere importancia cuando se
Para cualquier profesional de la salud, y en par- desea conocer si con un mtodo o instrumento
ticular para el especialista en Obstetricia y Gine- nuevo, diferente al habitual, se obtienen resultados
cologa, puede ser de inters evaluar la utilidad equivalentes de tal manera que eventualmente
de una prueba diagnstica, ya sea desde el punto uno y otro puedan ser remplazados o intercam-
de vista de 1) qu tan bien sta clasifica al sujeto biados ya sea porque uno de ellos es ms sencillo,
como sano o enfermo de acuerdo a su real estado menos costoso y por lo tanto ms costo-efectivo,
de salud, es decir, el desempeo operativo de la o porque uno de ellos resulta ms seguro para el
prueba (sensibilidad y especificidad)1 o desde el paciente, entre otras mltiples razones. En tr-
punto de vista de 2) la confiabilidad de la prueba o minos generales, la concordancia es el grado en
la reproducibilidad de los resultados, por ejemplo, que dos o ms observadores, mtodos, tcnicas u
al ser nuevamente aplicada por otro sujeto, por observaciones estn de acuerdo sobre el mismo
el mismo sujeto o al compararla con otra prueba fenmeno observado.5
que no es usada como patrn de oro de la entidad As, la concordancia no evala la validez o
o 3) para verificar qu tan de acuerdo estn dos la certeza sobre una u otra observacin con
observadores frente a un fenmeno. Dos ejemplos relacin a un estndar de referencia dado, sino
en el ejercicio de la actividad diaria son qu tanto cun acordes estn entre s observaciones sobre
varan las mediciones por ultrasonido del grosor el mismo fenmeno. En estos casos se considera
endometrial entre dos observadores2 o el grado de que los estudios evalan la consistencia entre
acuerdo entre dos mtodos de biologa molecular los mtodos o instrumentos. En los estudios
para el diagnstico del virus del papiloma humano en los que uno de los mtodos o instrumentos
en mujeres de alto riesgo.3 nuevos se comparan frente al mtodo que
El presente artculo tiene como objetivo constituye el patrn de referencia o gold estndar,
presentar los mtodos utilizados para el an- se evala la conformidad6 del mtodo respecto
lisis de los estudios de la reproducibilidad y/o al patrn de referencia que tambin se denomina
Mtodos estadsticos de evaluacin de la concordancia y la reproducibilidad de pruebas diagnsticas 249
De otro lado, Landis y Koch12 propusieron utilizado aproximaciones tales como el coeficiente
una interpretacin cualitativa del ndice de Kappa de Pearson, el coeficiente de correlacin intraclase
utilizada clsicamente en la que la fuerza de con- (CCI) y el coeficiente de Lin.
cordancia se califica como: El coeficiente de Pearson mide la probabili-
pobre o dbil para valores menores a 0,40, dad de establecer una ecuacin lineal entre dos va-
moderada, para valores de entre 0,41 y 0,60, riables, en la que por cada cambio de unidad en una
buena, entre 0,61 y 0,80, y de ellas se espera un cambio de unidad (correlativo)
muy buena para valores superiores hasta 1.13 en la otra, sin tener en cuenta ni la magnitud ni la
Es importante resaltar que estos rangos son escala de medicin de las variables comprometidas.
amplios y arbitrarios, lo que implica por ejemplo Su uso no es adecuado para estimar la concordancia
que moverse de un valor del 60 al 61%, significara entre dos variables dado que se pueden obtener
pasar de una concordancia moderada a una buena. coeficientes de correlacin de Pearson muy cerca-
Tales rangos no consideran las caractersticas pro- nos a la unidad, como el encontrado por Faustin
pias de cada uno de los fenmenos que se intentan y colaboradores15 (de 0,94), an entre fenmenos
medir ni la relevancia clnica que, en un momento totalmente diferentes tales como la altura uterina
dado, puedan adquirir las diferencias o similitudes medida en centmetros y la edad gestacional calcu-
encontradas, que son dependientes de la entidad o lada en semanas, sin que exista concordancia entre
el fenmeno a medir. Esto quiere decir que para ellas. Adems, el rango de valores observado en la
algunos fenmenos, diferencias del 1% pueden ser muestra incrementa el coeficiente de Pearson si sta
clnicamente relevantes (por ejemplo la saturacin incluye valores extremos, sobreestimando la correla-
de oxgeno arterial), mientras para otros slo dife- cin obtenida entre las variables.16 As, el coeficiente
rencias mayores de 20% pueden tener implicaciones de Pearson mide la intensidad de la asociacin lineal
clnicas (ej. el peso fetal estimado por ultrasonido). entre dos mediciones (correlacin) pero no propor-
Por lo tanto, sera conveniente la construccin de ciona informacin acerca del acuerdo observado, ni
tablas de acuerdo que dependeran de consensos sobre la presencia de diferencias sistemticas entre
clnicos en torno a cada entidad nosolgica o fen- las mediciones o instrumentos.
meno a medir en particular. El coeficiente de correlacin intraclase
Cuando se trata de variables nominales con ms (CCI), introducido originalmente por Fisher, es una
de una categora, es necesario ajustar el ndice de formulacin especial del coeficiente de correlacin
Kappa segn el grado de discordancia entre las di- () de Pearson. Este mtodo permite evaluar la con-
ferentes categoras, ya que no slo se debe tener en cordancia general entre dos o ms mtodos de me-
cuenta la concordancia perfecta ocurrida entre los dida u observacin basado en un modelo de anlisis
mtodos u observadores para una misma categora, de varianza (ANOVA) con medidas repetidas.17
sino las diferencias de clasificacin ocurridas entre Se define como la proporcin de la variabilidad
los observadores o los mtodos para cada una de las total que es debida a la variabilidad de los sujetos.
categoras existentes y con un ajuste por el grado de Supone que la variabilidad total de las mediciones
discordancia en cada una de ellas. Este mtodo se puede desagregarse en dos componentes: a) la va-
conoce como el ndice de Kappa ponderado.14 riabilidad debida a las diferencias entre los sujetos
(entresujetos) y b) la debida a la medicin para cada
Concordancia para variables sujeto (intrasujetos), la que a su vez se subdivide en:
de tipo contnuo i) variabilidad entre observaciones y ii) variabilidad
Cuando el fenmeno objeto de anlisis es medido residual, debida al error que conlleva dicha medi-
como una variable numrica continua, se han cin. Este coeficiente estima el promedio de las
Mtodos estadsticos de evaluacin de la concordancia y la reproducibilidad de pruebas diagnsticas 251
correlaciones entre todas las posibles ordenaciones significa que al depender de la variabilidad de
de los pares de observaciones disponibles, evitan- los valores observados, su valor ser mayor en
do as el problema de la dependencia del orden muestras heterogneas. Una desventaja adicional
del coeficiente de correlacin de Pearson. El CCI se relaciona con la dificultad para interpretar
no explica o discrimina la variabilidad entre los sus valores y su traduccin a la relevancia desde
mtodos de medicin o la debida a las diferencias el punto de vista clnico, tal como sucede con el
entre observadores. Puede utilizarse cuando hay coeficiente Kappa.
ms de dos observaciones por sujeto. Dado que el El uso del CCI se ha extendido en el contexto
CCI es una proporcin, sus valores oscilan entre 0 de valorar la reproducibilidad de varias mediciones
y 1, y por tanto la mxima concordancia posible se o cuando se comparan dos mtodos que tienen
alcanzara cuando el CCI=1. Al igual que para el diferente unidad de medicin, pero dentro del
coeficiente de Kappa, su interpretacin es bastante marco de la evaluacin de la concordancia, tiene
subjetiva y se han presentado diferentes tablas para obvias desventajas. Cuando los datos no tienen
su interpretacin, entre ellas las de Fleiss18 y las de una distribucin normal, se puede acudir al uso
Prieto y Lamarca.19 En general, se considera que de pruebas no paramtricas como la prueba Tau
valores por debajo de 0,4 indican baja fiabilidad; de Kendall.21
cuando se encuentran entre 0,4 y 0,75 una fiabilidad De otro lado, y para superar las limitaciones de
entre regular y buena; y valores superiores a 0,75 se las pruebas estadsticas antes descritas, Lin (1989)22
refieren a una fiabilidad excelente. desarroll una propuesta para evaluar la concordan-
Por ejemplo, este instrumento se utiliza en un cia entre variables continuas a travs del coeficien-
estudio publicado por Kruger y colaboradores,20 en te de correlacin concordancia (CCC).
el que se comparan las mediciones de la funcin del El CCC sigue la ecuacin:
piso plvico usando ultrasonido 3D y la resonan-
cia magntica nuclear en mujeres nulparas. Ellos A2 + B2 - C2
CCC=
encontraron un CCI entre 0,58 y 0,78, con el cual A2 + B2 + D2
consideraron que existe una reproducibilidad de
Donde: A2 = Varianza del mtodo A
moderada a buena entre los mtodos, siendo menor
B2 = Varianza del mtodo B
para la medicin del rea axial del hiato urogenital C2 = Varianza de la diferencia entre los mtodos A y B
durante la maniobra de Valsalva y buena para la D2 = Diferencia promedio de los dos mtodos.
medicin de esta misma rea en reposo.
Aunque este coeficiente ha sido muy usado Este coeficiente califica la fuerza del acuerdo de
para medir concordancia, tampoco es un mtodo una forma ms exigente: para variables continuas, la
ideal pues tiene varios supuestos difciles de valora como casi perfecta para valores mayores a 0,99;
cumplir: a) que los mtodos evaluados provienen sustancial, de 0,95 a 0,99; moderada, de 0,90 a 0,95 y
de una muestra al azar de una poblacin de pobre cuando est por debajo de 0,90. Para variables
mtodos, b) que el error de medicin es similar categricas, los valores sugeridos son: mayor a 0,90,
para cada uno de los mtodos,17 y c) al igual entre 0,80 y 0,90, de 0,65 a 0,80 y menor de 0,65,
que el coeficiente de Pearson, depende de los respectivamente.
valores en estudio. Por ejemplo, si la variabilidad El CCC, definido tambin por la frmula
entre estos es muy poca el CCI va a ser bajo, CCC=Cb, combina una medida de precisin,
independientemente de que los mtodos sean o representada por el coeficiente de correlacin (),
no concordantes y a mayor variabilidad entre los con una medida de exactitud, representada por el
sujetos, mayor va a ser el CCI, lo que tambin coeficiente de correccin de sesgo (Cb). Permite
252 Revista Colombiana de Obstetricia y Ginecologa Vol. 60 No. 4 2009
observar qu tan lejos se desvan los datos obser- Figura 1. Correlacin concordancia de Lin entre el
vados por dos mtodos u observadores de una lnea volumen estimado y el volumen recolectado posparto.
a partir del origen y a 45 en un plano cartesiano,
que corresponde a la lnea de perfecta concordancia. 1500 Experiencia mayor de 10 Aos
Volumen real
curva de regresin de las parejas de datos obtenidos
en la lnea de perfecta concordancia (coefi- 500
Figura 2. Lmites de acuerdo del 95% de Bland y Altman fenmeno) y lo que es lo mismo, que la discordancia
entre el volumen estimado y el volumen recolectado no es total. Si no se rechaza la hiptesis nula, debera
posparto normal. sospecharse bien de falta de poder (tamao muestral
pequeo) o de errores en la medicin. Por tanto, es
Lmites de acuerdo 95%
500 Experiencia mayor de 10 Aos
ms adecuado plantear el contraste de la hiptesis
(Volumen estimado) (Volumen real)
2. Alczar JL, Merc LT, Manero MG, Bau S, Lpez-Garca 12. Landis JR, Koch GG. The measurement of observer
G. Endometrial volume and vascularity measurements agreement for categorical data. Biometrics 1977
by transvaginal 3-dimensional ultrasonography and Mar;33:159-74.
power Doppler angiography in stimulated and tumoral 13. Altman DG. Practical statistics for medical research. New
endometria: an interobserver reproducibility study. J York: Chapman and Hall/CRC; 1991. p. 277-300.
Ultrasound Med 2005;24:1091-8.
14. Cohen J. Weighted kappa: Nominal scale agreement
3. Monsonego J, Pollini G, Evrard MJ, Sednaoui P, Monfort with provision for scaled disagreement or parcial
L, Zerat L, et al. Detection of human papillomavirus credit. Psychol Bull 1968;70:213-20.
genotypes among high-risk women: a comparison of
15. Faustin D, Gutirrez L, Gintautas J, Calame RJ.
hybrid capture and linear array tests. Sex Transm Dis
Clinical assessment of gestational age: a comparison
2008;35:521-7.
of two methods. J Natl Med Assoc 1991;83:425-9.
4. Didacterion, Diccionario latn-espaol. [Sitio en
16. Bland JM, Altman DG. Statistical methods for
Internet]. Visitado 2010 Mar 8. Disponible en: http://
assessing agreement between two methods of clinical
recursos.cnice.mec.es/latingriego/Palladium/5_aps/
measurement. Lancet 1986;1:307-10.
diclat.php
17. Bland JM, Altman DG. A note on the used of the
5. Corts-Reyes, E. Comparacin en la estimacin del
intraclass correlation in the evaluation of agreement
VO2max a travs de un monitor de frecuencia cardaca Polar
betwen two methods of measurement. Comput Biol
S810 y una prueba de esfuerzo maximal en banda sin fin
Med 1990;20:337-40.
segn el protocolo de Balke, en deportistas universitarios
entrenados en resistencia aerbica en la ciudad de 18. Fleiss JL. The design and analysis of clinical
Bogot, D.C. Tesis de Maestra en Epidemiologa Clnica, experiments. New York: Wiley; 1986
Universidad Nacional de Colombia; 2008 19. Prieto L, Lamarca R, Casado A. Assessment of the
6. Kramer MS, Feinstein AR. Clinical biostatistics. LIV. reliability of clinical findings: the intraclass correlation
The biostatistics of concordance. Clin Pharmacol Ther coefficient. Med Clin (Barc) 1998;110:142-5.
198129:111-23. 20. Kruger JA, Heap SW, Murphy BA, Dietz HP. Pelvic
7. Fernndez P, Daz P. La fiabilidad de las mediciones floor function in nulliparous women using three-
clnicas: el anlisis de concordancia para variables dimensional ultrasound and magnetic resonance
numricas. [Sitio en Internet]. Visitado 2010 Jul imaging. Obstet Gynecol 2008;111:631-8.
6. Disponible en: http://www.fisterra.com/mbe/ 21. Coeficiente de correlacin simple por rangos de Kendall
investiga/conc_numerica/conc_numerica.pdf [Sitio en Internet] Visitado 2010 Jun 25. Disponible
8. Corts-Reyes E, Echeverry-Raad J, Mancera-Soto en: http://www.ray-design.com.mx/psicoparaest/
E,Ramos-Caballero D. Concordancia en la estimacin index.php?option=com_content&view=article&id
del consumo mximo de oxgeno entre una prueba =254:coeficiente-kendall1&catid=54:coeficiente-
de esfuerzo y el Polar S810. Rev salud pblica correla&Itemid=75
2009;11:819-827. 22. Lin L. A concordance correlation coefficient to evaluate
9. van Randen A, Lamris W, Nio CY, Spijkerboer AM, reproducibility. Biometrics 1989;45:255-268.
Meier MA, Tutein Nolthenius C, et al. Inter-observer 23. Cepeda MS, Africano JM, Polo R, Alcal R, Carr
agreement for abdominal CT in unselected patients with D. Agreement between percentage pain reductions
acute abdominal pain. Eur Radiol 2009;19:1394-407. calculated from numeric rating scores of pain intensity
10. Cepeda M, Perez A, en : Ruiz M, Gmez C, Londoo and those reported by patients with acute or cancer
D: Investigacin Clnica: Epidemiologa clnica aplicada. pain. Pain 2003;106:439-42.
Centro Editorial Javeriano; 2001. p. 288-301. 24. Zar JH. Biostatistical Analisis. Third edition. Upper
11. Massad LS, Jeronimo J, Schiffman M; National Institutes Saddle River, NJ, USA: Prentice-Hall, Inc.; 1996.
of Health/American Society for Colposcopy and 25. NIWA, National Institute of Water & Atmospheric
Cervical Pathology (NIH/ASCCP) Research Group. Research. Taihoro Nukurangi. [Sitio en Internet].
Interobser ver agreement in the assessment of Visitado 2010 Jul 6. Disponible en: http://
components of colposcopic grading. Obstet Gynecol www.niwascience.co.nz/ser vices/free/statistical/
2008;111:1279-84.. concordance.
Mtodos estadsticos de evaluacin de la concordancia y la reproducibilidad de pruebas diagnsticas 255
26. Rubio-Romero JA, Gaitn-Duarte HG, Rodrguez- 27. Carrasco JL, Jover L, King TS, Chinchilli VM.
Malagn N. Concordancia entre la estimacin visual Comparison of concordance correlation coefficient
y la medicin del volumen recolectado en un bolsa del estimating approaches with skewed data. J Biopharm
sangrado intraparto en mujeres con parto normal en Stat 2007;17:673-84.
Bogot, Colombia, 2006. Rev Colomb Obstet Ginecol 28. Bland JM, Altman DG. Measurements error and
2008;59:92-102. correlation coefficients. BMJ 1996;313:41-42