Rocpaper 1

REVISIONES
Las curvas ROC en la evaluacin de las pruebas diagnsticas

M.J. Burgueoa, J.L. Garca-Bastosb y J.M. Gonzlez-Buitragob,c,d
Servicio de Anlisis Clnicos. Hospital General Yage. Burgos. bServicio de Bioqumica. Unidad de Investigacin. Hospital Universitario. Salamanca. dDepartamento de Bioqumica y Biologa Molecular. Universidad de Salamanca.
c a
curvas ROC
La evaluacin de las pruebas diagnosticas se ha tratado, en general, sin un criterio universalmente aceptado. En diferentes estudios aparecen trminos como sensibilidad, especificidad, eficiencia, exactitud, utilidad, valor, eficacia y efectividad, pero a menudo el significado de los mismos es ambiguo. La ausencia de acuerdo, tanto en el concepto, como en la medida de la calidad de una prueba diagnstica, crea una situacin de confusin a la hora de resolver cuestiones concretas. La calidad de una prueba diagnstica utilizada para el cuidado de los pacientes no se juzga slo por sus caractersticas analticas sino, fundamentalmente, por su capacidad para distinguir entre estados alternativos de salud. El mdico solicita una prueba para decidir, junto con otros datos disponibles, si el paciente tiene o no una condicin clnica. Por lo tanto, para que una prueba se incluya en la prctica mdica rutinaria es necesario que sea capaz de reducir la incertidumbre asociada con una determinada situacin clnica. La principal cualidad clnica de una prueba diagnstica es su exactitud, definida como la capacidad para clasificar de manera correcta a los individuos en subgrupos clnicamente relevantes. En su forma ms simple es la capacidad para distinguir entre dos estados de salud. Una vez establecida esta capacidad de discriminar adecuadamente, es necesario conocer tambin el valor prctico de la prueba para el cuidado del paciente. Existen diversas causas que invalidan una prueba diagnstico para su uso prctico, entre ellas: Pueden existir mtodos menos invasivos o ms econmicos para obtener una informacin semejante. La prueba puede ser tan cara o poseer tal requerimiento tcnico que sea limitada su disponibilidad. Puede ser tan incmoda o invasiva que los pacientes no se sometan con facilidad a ella. El coste o indeseabilidad de los resultados falsos puede ser tan alto que no exista un punto de corte aceptable. Clsicamente, la exactitud de una prueba diagnstica se ha evaluado en funcin de dos caractersticas: la sensibilidad y la especificidad 1. Sin embargo, stas varan en funcin del criterio elegido como punto de corte entre la poblacin sana y la enferma. Una forma ms global de conocer la calidad de la prueba en el espectro completo de puntos de corte es mediante el uso de curvas ROC (receiver operating characteristics, caractersticas operativas del receptor) que, como veremos a lo largo de esta Revisin, constituyen una herramienta fundamental y unificadora en el proceso de evaluacin y uso de las pruebas diagnsticas.
Sensibilidad y especificidad diagnsticas Siempre que una cuestin clnica y el resultado de la prueba diagnstica encaminada a resolverla puedan plantearse en trminos de dicotoma (presencia o ausencia de enfermedad; positivo o negativo), la exactitud de la prueba puede definirse en funcin de su sensibilidad y especificidad diagnsticas. Sin embargo, con mucha frecuencia los resultados de las pruebas diagnosticas estn distribuidos en una escala continua, por lo que es necesario seleccionar un punto de corte o valor lmite adecuado que permita resumir estos resultados en dos categoras: positivo y negativo. La sensibilidad de una prueba diagnstica es la probabilidad de obtener un resultado positivo cuando el individuo tiene la enfermedad. Mide su capacidad para detectar la enfermedad cuando est presente. La especificidad de una prueba indica la probabilidad de obtener un resultado negativo cuando el individuo no tiene la enfermedad. Mide su capacidad para descartar la enfermedad cuando sta no est presente. No existe ninguna manera terica de medicin de estas dos caractersticas de una prueba. El nico procedimiento es el experimental, sometiendo a un grupo de pacientes, sanos y enfermos, clasificados mediante un mtodo diagnstico de referencia exacto e independiente, a la prueba que queremos estudiar2. La sensibilidad se obtiene en el subgrupo de enfermos y la especificidad en el de sanos, por lo que ambos valores son independientes de la prevalencia en la muestra estudiada. Al comparar los resultados de la prueba a evaluar y el diagnstico de referencia, existen cuatro posibilidades que pueden resumiese en una tabla de contingencia de 2 x 2 (tabla 1). La sensibilidad viene dada por: enfermos positivos Sensibilidad= total enfermos La especifidad viene dada por: sanos negativos Especificidad= total sanos = VP + FN VP
VN = VN+ FP
TABLA 1 Comparacin de los resultados de la prueba a evaluar con el diagnstico verdadero

Diagnstico verdadero Enfermos Sanos
Correspondencia: Dr. J.M. Gonzlez-Buitrago. Servicio de Bioqumica. Hospital Universitario. 37007 Salamanca. Manuscrito aceptado el 18-12-1993 Prueba estudiada
Med Clin (Barc) 1995: 104: 661-670
Resultado positivo Resultado negativo
Verdadero positivo Verdadero negativo
Falso positivo Falso negativo
661
MEDICINA CLNICA VOL. 104 NM. 17. 1.995
La prueba diagnstica ideal debera tener una sensibilidad y una especificidad tan prximas al 100 % como fuera posible. Esto constituye una excepcin, pero en principio se debe dudar de pruebas cuyas sensibilidad y especificidad sean inferiores al 80 %. A partir de la tabla de contingencia se puede definir el valor predictivo del resultado positivo como la proporcin de resultados vlidos entre los resultados positivos de la prueba: VP VPP= VP+FP El valor predictivo del resultado negativo ser la proporcin de resultados vlidos entre los negativos: VN VPN= VN+FN y el valor global la proporcin de resultados vlidos entre la totalidad de pruebas efectuadas: VP + VN VG= VP + FP + VN + FN Los valores predictivos de una prueba, a diferencia de la sensibilidad y la especificidad, varan en funcin de la prevalencia de la enfermedad. Si se estudia una enfermedad cuya prevalencia es baja, incluso una prueba muy especfica dar lugar a muchos falsos positivos, dado el elevado nmero de individuos sanos de la colectividad. Si la prevalencia es alta se puede esperar un mayor nmero de resultados falsamente negativos. Por lo tanto, cuanto menor sea la prevalencia de la enfermedad menor ser el VPP y mayor el VPN; lo contrario ser cierto si la prevalencia es elevada. Evaluacin de una prueba diagnstica La evaluacin clnica de una prueba debe incluir los siguientes pasos 3:
especfico (PSA) no puede distinguir a los pacientes con cncer de prstata, diagnosticados mediante tacto rectal y estudio anatomopatolgico del material obtenido por puncin transrectal, de los pacientes sin dicho cncer, en los varones mayores de 50 aos. A veces, los datos obtenidos se revisan en busca de correlaciones inesperadas entre variables o subgrupos de pacientes con datos llamativos. Sin embargo, la significacin estadstica de tales relaciones que han sugerido los datos no se puede determinar sin obtener datos adicionales. Para asegurarse de que el grado de significacin, P, obtenido no supera el riesgo de error, , fijado por el investigador, es necesario plantear la hiptesis nula antes de la recogida de datos.
Eleccin de sujetos representativos de la poblacin clnica a la que se aplicar la prueba

Debe evaluarse en un grupo de individuos con sospecha clnica de la enfermedad que se quiera detectar. Este grupo incluir a dos subgrupos que no necesitan estar en la misma proporcin: aquellos pacientes afectados por dicha enfermedad y los no afectados. Idealmente, los sujetos deberan escogerse y estudiarse prospectivamente sin conocer su clasificacin final. Esto no es lo ms frecuente por lo que es necesario tomar precauciones para no inducir a error en la obtencin de la sensibilidad y la especificidad diagnsticas2. La muestra de enfermos utilizada para calcular la sensibilidad debe ser representativa del conjunto de enfermos a los que se aplicar la prueba en condiciones normales y rutinarias3,4. Es decir, debe integrar individuos que padezcan la enfermedad a estudiar, pero con un rango amplio de variacin en cuanto a la gravedad del proceso, la extensin del mismo, su duracin y su asociacin con otros trastornos o enfermedades. Cuando se afirma que la sensibilidad y la especificidad son independientes de la prevalencia se hace referencia a la prevalencia de enfermos en la muestra global a la que se aplica la prueba. La sensibilidad s depende de la prevalencia de los distintos grados de enfermedad en el grupo de pacientes5,6. Si al estudiar la sensibilidad de un marcador tumoral se mide slo en pacientes en fases avanzadas de cncer, la sensibilidad resultar superior que si la muestra incluye tambin a enfermos de escasa evolucin. Adems, debe tenerse cuidado de no excluir a sujetos que estn en el lmite diagnstico. De manera anloga, en el grupo control deben incluirse sujetos de edades, procedencias y situaciones semejantes a las de aquellos a quienes va dirigida la prueba. Es importante analizarla en individuos que sin padecer la enfermedad en estudio posean los cuadros ms usuales en el diagnstico diferencial de dicha enfermedad, trastornos de la misma localizacin anatmica o de la misma naturaleza fisiolgica. Igual que la composicin del grupo de enfermos influye en la sensibilidad, la composicin del grupo control que no padece la enfermedad influye en la especificidad7,8. Si una prueba se va a usar para identificar el infarto agudo de miocardio (IAM) en sujetos que se presentan en el servicio de urgencias con dolor torcico tpico y otros sntomas indicativos de IAM, el grupo control debe estar formado por individuos que renan estas condiciones pero sin infarto. Si se usan donantes de sangre voluntarios se obtendr una especificidad mayor pero falsa, puesto que la prueba no est encaminada a detectar IAM en individuos asintomticos. En el caso de comparaciones entre varias pruebas, si se utilizan distintos grupos de sujetos es necesario comprobar que dichos grupos no difieren por la variacin del muestreo ni por sesgos de seleccin. Por este motivo es mejor estudiar todas las pruebas en los mismos sujetos, de manera que las
1. Planteamiento explcito de la hiptesis nula antes de la recogida de datos. 2. Eleccin de sujetos representativos de la poblacin clnica a la que se aplicar la prueba. 3. Establecimiento del diagnstico verdadero mediante mtodos rigurosos, exactos e independientes de la prueba que se va a estudiar. 4. Realizacin de la prueba a evaluar evitando sesgos. 5. Clculo de la sensibilidad y la especificidad. Evaluacin y comparacin de pruebas diagnosticas a todos los niveles de decisin usando curvas ROC. Cada uno de estos pasos implica una serie de precauciones para evitar errores en los resultados finales. El diseo del estudio, como se ver a continuacin, es fundamental para que las conclusiones sean vlidas y relevantes. Planteamiento explcito de la hiptesis nula antes de la recogida de datos
Esta hiptesis debe establecer: a) la cuestin clnica precisa que se pretende resolver con la prueba; b) la naturaleza de la poblacin estudiada, y c) el mtodo utilizado para determinar la verdadera respuesta a la cuestin clnica, es decir, el diagnstico verdadero. Un ejemplo de hiptesis nula que cumple los anteriores requisitos sera: la concentracin srica del antgeno prosttico 662
M. J. BURGUEO ET AL.- LAS CURVAS ROC EN LA EVALUACIN DE LAS PRUEBAS DIAGNSTICAS
diferencias observadas se deban a las verdaderas diferencias entre las pruebas 3.
Establecimiento del diagnstico verdadero mediante mtodos rigurosos, exactos e independientes de la prueba que se va a estudiar 4,9
Un estndar de oro para el diagnstico clnico es lo ideal, pero en muchos casos no existe o no es factible. Zweig y CampbeIl8 recogen las estrategias de distintos investigadores para establecer el diagnstico verdadero cuando se carece de estndar de oro: Definir el diagnstico en trminos de resultados clnicos medibles. Usar como criterio diagnstico algn consenso, regla mayoritaria o revisin de expertos. Asignar a cada sujeto un valor comprendido entre 0 y 1 a partir del conocimiento subjetivo de la enfermedad, para su posterior anlisis logstico. Estudiar a largo plazo la evolucin clnica. En un gran nmero de casos el diagnstico definitivo se establece mediante el estudio anatomopatolgico de biopsias y son raros los resultados falsos positivos, salvo en cuadros de muy difcil catalogacin. Sin embargo, el azar en la toma de la muestra, cuando se trata de procesos no generalizados, produce falsos negativos que disminuyen artificialmente la especificidad de la prueba en evaluacin. Por otra parte, la adjudicacin del diagnstico verdadero siempre tiene elementos subjetivos, en muchos casos inconscientes para el investigador. As, ste debe establecer el diagnstico de manera ciega, sin conocer previamente el resultado de la prueba evaluada, para evitar cualquier tipo de condicionamiento que produzca aumentos sesgados de la sensibilidad y la especificidad2. Tambin debe evitarse el sesgo por razonamiento circular. Este error se produce cuando para catalogar a los sujetos como enfermos o sanos uno de los criterios utilizados es la propia prueba que se est evaluando o alguna otra muy relacionada, por lo que aumenta artificialmente la concordancia. El diagnstico definitivo debe hacerse con independencia de la prueba en estudio9. Por ltimo, es necesario considerar que el mtodo usado para determinar la verdad no debe afectar a la seleccin de la muestra porque sea tan invasivo que se reserve para casos muy graves, no sea bien tolerado por los pacientes o por alguna otra causa 4.
pecificidad frente a un mtodo de referencia. Sin embargo, citar un solo valor de sensibilidad y especificidad puede conducir a error o, por lo menos, a una simplificacin de la exactitud. Para cualquier prueba en la que la distribucin de los resultados de los grupos sano y enfermo se solapen, existe un equilibrio entre sensibilidad y especificidad. Ambas varan en direcciones opuestas: si al modificar el punto de corte aumenta la sensibilidad, la especificidad disminuye, y viceversa. Por tanto, las pruebas diagnosticas no tienen un solo par sensibilidad/especificidad (S/E), sino muchos, uno por cada nivel de decisin o punto de corte que se adopte. Cul ser el par que describa la exactitud de la prueba? Slo el espectro completo de pares S/E para todos los puntos de corte limita y describe la exactitud de la prueba para discriminar entre estados de salud. La curva ROC proporciona una visin de este espectro completo, por lo que es una herramienta fundamental en la evaluacin y comparacin de pruebas diagnsticas9. Un punto de corte se puede elegir para utilizar la prueba en el cuidado del paciente, pero para evaluar pruebas no es deseable ya que puede conducir a errores respecto a su exactitud o comparaciones errneas entre distintas pruebas. Curvas ROC Las curvas ROC se desarrollaron en los aos cincuenta como herramientas para el estudio de deteccin e interpretacin de seales de radar. El objetivo de los operadores de radar era distinguir las verdaderas seales del ruido de fondo11. Si se observa la pantalla de un receptor de radar (fig. 1), puede verse cmo al variar la amplitud de la seal definida para considerar un pico como misil, varan la sensibilidad y la especificidad del sistema de recepcin. Si I, II y III son seales emitidas por misiles, al situar la amplitud A como punto de corte detectaremos los 3 misiles (sensibilidad 100 %), pero tambin consideraremos misiles seales que no lo son. Al cambiar el nivel de decisin a la amplitud B no consideraremos misil ninguna seal de ruido (especificidad 100 %) pero no habremos detectado el misil lI, por lo que la sensibilidad desciende. De la misma forma que en el receptor de radar se produce un solapamiento entre las verdaderas seales y el ruido, al realizar pruebas diagnosticas existe un solapamiento entre los resultados de los pacientes con una condicin particular y los de aquellos que no la tienen. Por este motivo, las aplicaciones de las curvas ROC se extendieron a mltiples sistemas diagnsticos, incluidas las tcnicas radiolgicas12 y las pruebas de laboratorio9, y su denominacin se est sustituyendo cada vez ms por Performance Characteristic Curves o curvas de rendimiento diagnstico. La curva ROC es un grfico en el que se observan todos los pares sensibilidad/especificidad resultantes de la variacin continua de los puntos de corte en todo el rango de resultados observados13. En el eje y de coordenadas se sita la sensibilidad o fraccin de verdaderos positivos, definida como se expuso anteriormente y calculada en el grupo de enfermos (fig. 2). En el eje x se sita la fraccin de falsos positivos o 1-especificidad, definida como FP/VN + FP y calculada en el subgrupo no afectado. Algunos autores sitan en el eje x la especificidad, pero es lo menos frecuente14. Cada punto de la curva representa un par S/1-E correspondiente a un nivel de decisin determinado. Una prueba con discriminacin perfecta, sin solapamiento de resultados en las dos poblaciones, tiene una curva ROC que pasa por la esquina superior izquierda, donde S y E toman valores mximos (S y E = 1). Una prueba sin discriminacin, con igual distribucin de resultados en los dos subgrupos, da lugar a una lnea diagonal de 45, desde la esquina inferior izquier663
Realizacin de la prueba a evaluar evitando sesgos

Existen pruebas en las que la subjetividad puede afectar al resultado, por lo que el conocimiento del diagnstico verdadero puede influir mejorando injustificadamente la estimacin de la sensibilidad y la especificidad. Los resultados obtenidos con la prueba en evaluacin no deben conducir a verificaciones en caso de discordancia con el diagnstico de referencia, ya que esto llevara a un sesgo, aumentando la sensibilidad y la especificidad. Tanto el diagnstico de referencia como la prueba en estudio deben realizarse con igual cuidado en todos los casos y con independencia10.
Clculo de la sensibilidad y la especificidad. Evaluacin y comparacin de pruebas diagnosticas a todos los niveles de decisin usando curvas ROC
Como se ha comentado, en aquellas pruebas que ofrecen resultados en un rango continuo es necesario establecer un punto de corte que divida los resultados en dos grupos (positivo y negativo) para poder calcular su sensibilidad y su es-
Fig. 1 .Seales registradas en un receptor de radar; I, II y III corresponden a misiles.
da hasta la superior derecha. La mayora de las curvas ROC caen entre estos dos extremos. Si cae por debajo de la diagonal de 45 se corrige cambiando el criterio de positividad de mayor que a menor que o viceversa. Cualitativamente, cuanto ms prxima es una curva ROC a la esquina superior izquierda, ms alta es la exactitud global de la prueba. De la misma forma, si se dibujan en un mismo grfico las curvas obtenidas con distintas pruebas diagnsticas, aquella que est situada ms hacia arriba y hacia la izquierda tiene mayor exactitud: por simple observacin se obtiene una comparacin cualitativa. Las curvas ROC son ndices de la exactitud diagnostica y proporcionan un criterio unificador en el proceso de evaluacin de una prueba15, debido a sus diversas aplicaciones (tabla 2). De acuerdo con Zweig y Campbell8, el uso de las curvas ROC en la evaluacin de pruebas diagnosticas presenta las siguientes ventajas:
Fig. 2 .Curva ROC.
TABLA 2 Aplicaciones de las curvas ROC en la evaluacin de pruebas diagnosticas

Evaluacin visual de la exactitud Comparacin visual entre pruebas Anlisis estadstico ROC Evaluacin cuantitativa de la exactitud mediante el rea bajo la curva ROC Comparacin cuantitativa entre pruebas Seleccin de niveles de decisin considerando la prevalencia y la relacin coste/beneficio de los resultados falsos Anlisis de regresin logstica y anlisis discriminante
1. Son una representacin fcilmente comprensible de la capacidad de discriminacin de la prueba en todo el rango de puntos de corte. 2 Son simples, grficas y fciles de interpretar visualmente. 3. No requieren un nivel de decisin particular porque est incluido todo el espectro de puntos de corte. 4. Son independientes de la prevalencia, ya que la sensibilidad y la especificidad se obtienen en distintos subgrupos. Por tanto, no es necesario tener cuidado para obtener muestras con prevalencia representativa de la poblacin. De hecho, es preferible generalmente tener igual nmero de individuos en ambos subgrupos. 5. Proporcionan una comparacin visual directa entre pruebas en una escala comn, mientras que otro tipo de grficos, como los diagramas de puntos o los histogramas de frecuencias, requieren diferentes grficos cuando difieren las escalas. 6 La especificidad y la sensibilidad son accesibles en el grfico, en contraste con los diagramas de puntos y los histogramas.
664
Las curvas ROC han sido infrautilizadas por los investigadores a pesar de ser herramientas fundamentales en la evaluacin de pruebas diagnosticas. Esto quiz se deba a sus aparentes desventajas8:
1. Los puntos de corte, aunque son conocidos y se han usado para generar el grfico, no aparecen en l, a diferencia de los diagramas de puntos y los histogramas. Al observar un punto de la curva se observan la sensibilidad y la especificidad que tiene asociadas, pero no se conoce el valor concreto de dicho punto. 2 El nmero de sujetos de la muestra estudiada tampoco aparece en el grfico. 3 Al disminuir el tamao de la muestra, la curva ROC tiende a hacerse ms escalonada y desigual. Sin embargo, incluso con gran nmero de sujetos, la curva puede ser muy desigual. 4. La generacin de las curvas y el clculo de sus parmetros son difciles sin ordenador, y los programas existentes no estn ampliamente distribuidos.
Construccin de las curvas ROC Existen diversos mtodos para construir las curvas ROC que dependen del tipo de datos que se manejen. Los datos clnicos pueden ser discretos o continuos. La mayora de los datos de laboratorio son continuos (medidas de concentracin de sustratos, electrlitos, frmacos, hormonas o enzimas) con la nica limitacin del sistema de medida. En los estudios clnicos es muy frecuente agrupar los datos continuos en categoras ordenadas para resumir la informacin y simplificar los clculos. Las tiras para anlisis urinario proporcionan, por el contrario, resultados en una escala discreta de categoras ordenadas. Las imgenes radiolgicas tambin suelen clasificarse en escalas discretas en funcin del grado de la anomala observada: una angiografa de la arteria pulmonar puede resultar normal, probablemente normal, dudosa, probablemente patolgica o claramente patolgica. En todos los casos se empieza por calcular los puntos sensibilidad/1-especificidad a todos los posibles puntos de corte de la prueba. Si la escala es continua estos puntos sern todos los valores observados. Si se han agrupado los resultados en intervalos, los puntos de corte son los lmites de estos intervalos. Por ltimo, si la escala es discreta los puntos de corte son todos los posibles valores de la escala. Una vez obtenidos todos los puntos, la construccin de la curva se puede abordar de acuerdo con modelos paramtricos o no paramtricos. Los primeros se utilizan cuando los datos estn agrupados en categoras o bien pertenecen a una escala discreta. Los mtodos no paramtricos son adecuados cuando se trabaja con datos de una escala continua.
Fig. 3. Curva ROC no paramtrica del cociente apolipoprotena A1/ apolipoprotena B en el diagnstico de la enfermedad arterial coronaria.
den producirse empates en los datos continuos. Un empate es de inters cuando un miembro del grupo enfermo tiene el mismo resultado que uno del grupo no enfermo. En este caso, el verdadero camino entre dos puntos adyacentes no se conoce porque las fracciones de verdaderos y falsos positivos cambian simultneamente. La diagonal es la media entre los dos caminos extremos, primero horizontal y despus vertical o viceversa, pero tiende a subestimar la curva en la determinacin de la exactitud de la prueba diagnstica8 (fig. 4). Una aproximacin frecuentemente adoptada en la literatura clnica consiste en agrupar los datos continuos en categoras, representar slo unos pocos puntos de la curva ROC y conectarlos mediante lneas rectas (fig. 5). Esta agrupacin tiene la ventaja de que la curva es fcil de dibujar, pero al
Curvas ROC no paramtricas

Para datos continuos, los puntos adyacentes se unen mediante lneas horizontales y verticales. Al cambiar el nivel de decisin, la inclusin de un resultado verdadero positivo produce una lnea vertical, a la vez que la inclusin de un falso positivo produce una horizontal. La figura toma apariencia de escalera. Al ir aumentando el nmero de individuos en los dos grupos, los pasos de la escalera se hacen ms pequeos y el grfico aparece menos dentado (fig. 3). Este tipo de curva ROC utiliza toda la informacin de los datos directamente y se denomina no paramtrica porque no necesita ajustarse a ningn modelo de distribucin; carece de parmetros, en contraste con las aproximaciones paramtricas que se basan en modelos con parmetros que deben estimarse. Aunque es menos frecuente que entre datos discretos, pue-
Fig. 4 .Curva ROC no paramtrica de la CK-MB en el diagnstico del IAM. Las lneas diagonales corresponden a empates.
665
Fig. 5. Curva ROC no paramtrica del cociente Apo A1/Apo B. La lnea continua muestra los datos sin agrupar y la discontinua los mismos datos agrupados en categorias.
Fig. 6 .Curva ROC paramtrica de imgenes radiolgicas clasificadas en categoras. La lnea discontinua representa la curva emprica y la continua el resultado del ajuste a una distribucin gaussiana.
descartar muchos datos se pierde informacin y se introducen muchos empates. Cuando los puntos son pocos y alejados entre s, esta grfica puede representar errneamente la verdadera curva ROC, subestimando la exactitud de la prueba, ya que las lneas diagonales suelen caer por debajo de la escalera 16.
que tambin permiten los anlisis estadsticos para la evaluacin cuantitativa de las pruebas diagnsticas.
TABLA 3 Ventajas e inconvenientes de las curvas ROC no paramtricas

Ventajas Usan todos los datos y la curva pasa por todos los puntos de corte Proporcionan estimadores centrados (sin sesgo) de la sensibilidad, la especificidad y el rea bajo la curva, ya que para cada punto de corte los mejores estimadores son los no paramtricos No necesitan asumir supuestos Los clculos son simples Inconvenientes Tienen apariencia de escalera Las series grandes de datos producen un grfico abigarrado Los empates pueden causar problemas, ya que normalmente dan lugar a curvas subestimadas y, por tanto, la exactitud obtenida es menor que la real La comparacin entre dos puntos de dos curvas ROC slo puede realizarse a sensibilidades o especificidades observadas
Curvas ROC paramtricas

Cuando se dispone de datos discretos o continuos agrupados en categoras, puede utilizarse algn modelo paramtrico para el ajuste de la curva ROC. Se asume que la distribucin de frecuencias de resultados, no de los propios resultados, en las diversas categoras sigue un modelo paramtrico y posteriormente se estiman los parmetros correspondientes17. Un modelo utilizado frecuentemente es el denominado binormal. Asume que las distribuciones de frecuencias de los subgrupos enfermo y no enfermo en las distintas categoras son gaussianas con distintas medias y, en muchos casos, distintas variancias. Estos supuestos no pueden verificarse completamente, por lo que varios autores discrepan con este mtodo18,19 . En la figura 6 se observa una curva paramtrica de imgenes radiolgicas clasificadas en cinco categoras; en ella, los datos experimentales se han ajustado a una distribucin binormal. Otros modelos paramtricos con una distribucin logstica o exponencial negativa tienen inconvenientes semejantes. Una aproximacin distinta consiste en ajustar los puntos de la curva ROC directamente a una funcin matemtica, lo que implica tambin adoptar un modelo paramtrico. En las tablas 3 y 4 se exponen las ventajas e inconvenientes de las curvas ROC paramtricas y no paramtricas. Para datos continuos, como la mayora de los resultados de laboratorio, son preferibles las curvas ROC no paramtricas. Anlisis de las curvas ROC Las curvas ROC no slo aportan informacin cualitativa, sino 666
TABLA 4 Ventajas e Inconvenientes de las curvas ROC paramtricas

Ventajas Proporcionan una lnea curva de visualizacin ms clara. Permiten comparar puntos de dos curvas a cualquier sensibilidad o especificidad, observadas o no Inconvenientes Descartan datos al agruparlos, con la consiguiente prdida de informacin Asumen modelos de distribucin que muchas veces no se pueden comprobar La curva no pasa necesariamente por los verdaderos puntos Los puntos ROC y el rea pueden ser sesgados Los clculos son complejos
Intervalos de confianza de sensibilidad y especificidad

Ya se ha comentado que la variabilidad del muestreo puede dar lugar a distintos valores de sensibilidad y especificidad. Esta variabilidad se indica calculando la variancia o los intervalos de confianza de los puntos de la curva ROC. El mtodo de estimacin estadstica depende del criterio utilizado para la construccin de la curva. En la curva ROC no paramtrica los puntos son estimadores centrados de S y 1-E para sus correspondientes niveles de decisin, es decir, no presentan sesgos. Un punto de la curva ni sobrestima ni subestima el verdadero valor, pero desconocido, de S y 1-E en ese punto de corte. Esto puede no ser verdad para aproximaciones paramtricas. As, pueden calcularse los intervalos de confianza de S y E20, que disminuirn al aumentar el tamao de la muestra. Un enfoque diferente pero tambin correcto no fija el punto de corte, sino la verdadera (terica) especificidad en un valor (p. ej.: 80 %) y despus calcula el intervalo de confianza para la sensibilidad que corresponde a ese valor, o viceversa. Para curvas ROC paramtricas que asumen distribuciones tericas, los parmetros y sus variancias se estiman mediante programas informticos 21. Se puede aplicar la teora de la inferencia estadstica (pruebas de hiptesis e intervalos de confianza) a la sensibilidad y la especificidad, e incluso para estimar valores no observados.
Fig. 7 .Curvas ROC de dos pruebas diagnsticas hipotticas con igual rea bajo la curva, pero trazados muy diferentes.
rea bajo la curva ROC

El rea bajo la curva (ABC) ROC es una medida global de la exactitud de una prueba diagnstica. Se define como la probabilidad de clasificar correctamente un par de individuos sano y enfermo, seleccionados al azar de la poblacin, mediante los resultados obtenidos al aplicarles la prueba diagnstica. Es decir, es la probabilidad de que el resultado de la prueba resulte ms anormal en el paciente enfermo22. Verdadera ABC ROC =Prob (Xenfermo > Xsano) Se puede tomar como ejemplo la determinacin del PSA para el diagnstico del cncer de prstata. Un ABC de 0,75 significa que un individuo seleccionado aleatoriamente del grupo de enfermos tendr el 75 % de las veces un valor de PSA mayor que un individuo elegido al azar del grupo no enfermo. Esto no significa que un resultado positivo se produzca en el enfermo con una probabilidad de 0,75 ni que est asociado con la enfermedad el 75 % de las veces. Por convenio, el ABC ROC es siempre mayor o igual que 0,5. Toma valores comprendidos entre 0,5, si no existen diferencias en la distribucin de resultados de la prueba entre los subgrupos enfermo y sano, y 1,0, cuando existe separacin perfecta entre las dos distribuciones. Swets4 interpreta el ABC de la siguiente manera: valores entre 0,5 y 0,7 indican baja exactitud, entre 0,7 y 0,9 pueden ser tiles para algunos propsitos y un valor mayor de 0,9 indica exactitud alta. La capacidad de discriminacin de la prueba diagnstica puede evaluarse estimando el intervalo de confianza del ABC ROC. Si el intervalo no incluye el valor 0,5 la prueba es capaz de discernir entre enfermos y sanos. El clculo del ABC ROC as como de su error estndar puede abordarse, en funcin del tipo de curva, mediante un enfoque paramtrico o no paramtrico. Si se utiliza el criterio no paramtrico, el ABC puede calcularse mediante un mtodo trapezoidal o estimarse como el estadstico W de Wilcoxon. Bamber23 demostr que el rea bajo la curva ROC coincide con la suma de rangos (W) obtenida mediante la prueba no paramtrica de comparacin de medias de Wilcoxon. Hanley y McNeil22 exponen esta demostracin matemtica en el contexto mdico y el mtodo directo para el clculo del error
estndar de W que permite obtener su intervalo de confianza. El estadstico W es un estimador centrado de la verdadera ABC ROC terica. Con datos clnicos se debe considerar la posibilidad de empates. Si se producen pocos empates, el ABC puede calcularse tambin mediante el mtodo trapezoidal o utilizando la versin de Mann-Whitney del estadstico de Wilcoxon con los rangos medios. Sin embargo, al agrupar los datos en categoras ordenadas el aumento de empates conduce a un rea trapezoidal subestimada y a un aumento de su error estndar24. Existen varios mtodos grficos y matemticos para calcular el ABC y su error estndar asumiendo un modelo paramtrico binormal12,21 . Pero, a menos que se satisfagan bien las asunciones paramtricas, las ABC obtenidas suelen ser sesgadas. Tambin se ha propuesto un modelo exponencial negativo, ms conservador que el binormal. Hanley y McNeil22 explican un mtodo de clculo del tamao de muestra necesario para obtener el ABC ROC con la precisin deseada utilizando dicho modelo. Centor y Schwartz25 han realizado una comparacin de reas no paramtricas y paramtricas binormales. El rea bajo la curva ROC por ser una medida global implica prdida de informacin, por lo que no debe considerarse aisladamente sin examinar la curva. A veces, curvas ROC de trazados muy distintos pueden tener reas semejantes (fig. 7). Por otra parte, una curva con mayor rea que otra puede no ser la mejor en la situacin clnica de inters.
Comparacin de curvas ROC

La comparacin clsica de pruebas diagnsticas se realiza mediante estudios de correlacin, una vez fijado el punto de corte. La utilizacin de curvas ROC permite hacer comparaciones de puntos de dos curvas que tengan igual sensibilidad o especificidad20 y un enfoque global de confrontacin de la exactitud de dos pruebas en el espectro completo de puntos de corte, comparando sus reas bajo la curva22. El diseo del estudio de comparacin puede ser de20: Datos pareados, se realizan dos o ms pruebas en los mismos sujetos. Es un diseo muy eficaz que controla la varia667
TABLA 5 Programas informticos para la construccin y anlisis de curvas ROC

CLINROC MEZ ROC ANALYZER ROCLAB RULEMAKER SIGNAL EP-UH
Tipo de datos Curva ROC ABC ROC Comparacin ABC Eleccin puntos de corte
C NP NP P
C, 1 NP, P P -
A NP, P NP, P NP, P -
C NP NP NP
C NP NP NP -
A NP, P NP, P -
C NP NP -
C: Continuos; A: agrupados en categoras ordenadas; NP: no paramtrico; P: paramtrico.
cin paciente-paciente, por lo que requiere menor tamao de la muestra. Los resultados de las pruebas estn generalmente asociados o correlacionados. Grupos independientes, las diversas pruebas se realizan en distintos individuos. Los resultados son independientes y no se relacionan. Si el estudio se realiza en grupos independientes, tanto en curvas paramtricas como no paramtricas, la comparacin de reas mediante mtodos estadsticos es directa16,26 . Si se utilizan datos apareados es necesario calcular previamente la correlacin entre las pruebas27,28 ; los clculos son complejos y requieren el uso de ordenador. Distintos autores han descrito programas informticos comerciales o de dominio pblico para la obtencin y anlisis de curvas ROC29,31 . La tabla 5 recoge los principales programas as como algunas de sus capacidades. Zweig8 cita las direcciones de contacto para adquirirlos. Eleccin de niveles de decisin o puntos de corte Considerando nicamente los valores de sensibilidad y especificidad no es posible seleccionar el punto de corte idneo para la aplicacin concreta de las pruebas diagnsticas. Para determinar cul de las posibles combinaciones S/E es la ms apropiada, es necesario considerar dos elementos8:
b) el hecho de conocer que no se padece la enfermedad tiene una importancia sanitaria y psicolgica. 3. Debe utilizarse una prueba con alto valor predictivo positivo cuando el tratamiento de los falsos positivos pueda tener consecuencias graves. 4. Se desea un valor global elevado cuando: a) la enfermedad sea importante pero curable, y b) tanto los falsos positivos como los falsos negativos supongan un traumatismo y conlleven consecuencias graves.
Aplicaciones de las curvas ROC en el diagnstico de laboratorio Las curvas ROC tuvieron sus primeras aplicaciones en medicina en el campo del radiodiagnstico12. En 1981, Robertson y Zweig9 las utilizaron por primera vez en la evaluacin de pruebas de laboratorio. Estudiaron las concentraciones sricas de mioglobina y creatincinasa MB (CK-MB) en pacientes con sospecha de IAM y comunicaron sus resultados en forma de curvas ROC. Adems, reanalizaron datos ya publicados sobre la hormona paratiroidea usando estas curvas. Posteriormente, estos autores colaboraron con Van Steirteghem35 en un estudio de comparacin de mioglobina, CK total, CK-MB y CK-BB en el diagnstico de IAM. Construyeron las curvas ROC obtenidas con los cuatro parmetros a distintos tiempos de muestreo desde el comienzo del dolor torcico. Estas curvas demostraron que la mioglobina posea la mayor capacidad diagnstica en las primeras 5 a 8 h tras la instauracin del dolor, mientras que la CK y la CK-MB eran superiores a las 18 h. Sucesivamente, diversos autores publicaron curvas ROC como resultados de sus estudios 36-40, pero con interpretaciones solamente cualitativas. En 1985, Carson et al41 utilizaron por primera vez el anlisis cuantitativo de curvas ROC en un estudio de comparacin de cuatro tcnicas analticas para la determinacin de fosfatasa cida prosttica en casos de sospecha de cncer de prstata. La evaluacin se efectu comparando las reas bajo las curvas ROC obtenidas. Hermann33 compar la exactitud de dos versiones de un ensayo comercial radioisotpico para tirotropina y su capacidad para distinguir entre individuos eutiroideos e hipotiroideos, mediante curvas y ABC ROC. Kazmierczack et al42 usaron curvas ROC para evaluar la exactitud de lipasa, amilasa y fosfolipasa A en el diagnstico de pancreatitis aguda. Guyatt43 estudi la capacidad de siete pruebas incluyendo ferritina, transferrina, saturacin, volumen corpuscular medio y protoporfirina eritrocitaria para distinguir la anemia ferropnica de otras causas de anemia en sujetos mayores de 65 aos. Utiliz un factor para corregir la correlacin, ya que todas las curvas se obtuvieron en los mismos individuos. En los ltimos aos se han publicado diversos estudios sobre evaluacin y comparacin de pruebas diagnsticas, utilizando curvas y anlisis ROC44-50. Sin embargo, el principal avance de nuestros das consiste
1. Los costes relativos de los resultados falsos, tanto negativos como positivos, as como los beneficios de las clasificaciones correctas. 2. La proporcin relativa de los dos estados de salud que se pretende discriminar con la prueba, es decir, la prevalencia o probabilidad a priori de la enfermedad en la poblacin.
Evaluar el primer apartado es complicado, ya que puede expresarse en trminos financieros o de costes para la salud y se puede interpretar desde el punto de vista del paciente, de los sanitarios o de la sociedad. Diversos autores8,32,33 han expuesto sus criterios para el clculo de los costes relativos de los resultados y obtienen distintas frmulas que tambin engloban la prevalencia para la determinacin del punto de corte ptimo. Independientemente del clculo del nivel de decisin exacto, Galen y Gambino34 han emitido cuatro postulados relativos a la eleccin prctica de las caractersticas de una prueba diagnstica, que consideran la patologa estudiada y las condiciones reales de la comunidad, y que son los siguientes:
1. Se elige la mayor sensibilidad posible cuando: a) la enfermedad sea grave y no pueda pasar inadvertida; b) la enfermedad sea tratable, y c) los resultados falsos positivos no supongan un traumatismo psicolgico o econmico en los individuos examinados. 2. Se elige la mayor especificidad posible cuando: a) la enfermedad sea importante pero difcil de curar o incurable, y
668
en la aplicacin de las tcnicas estadsticas de anlisis multivariante a las curvas ROC 51,52. Mediante distintos modelos de regresin logstica, Zweig 51 estudi la capacidad de los lpidos y las lipoprotenas sricas para distinguir individuos con enfermedad arterial coronaria de individuos sanos, as como distintos grados de enfermedad entre los primeros. Obtuvo las ABC ROC para distintos parmetros: colesterol, colesterol LDL, colesterol HDL, triglicridos, apolipoprotena A-I y apolipoprotena B; pero tambin para tres modelos logsticos que incluan, adems de ndices lipdicos, variables muy relacionadas con la enfermedad arterial coronaria: sexo, edad y hbito tabquico. Demostr que las apolipoprotenas aumentan la capacidad de discriminacin de los lpidos en la enfermedad coronaria. En resumen, la curva ROC, una generalizacin de los conceptos clsicos de sensibilidad y especificidad, es un moderno enfoque epidemiolgico para la evaluacin de pruebas diagnosticas, ya que permite conocer su capacidad para discriminar entre dos estados alternativos de salud. La curva ROC no paramtrica es una visin sin sesgo de la exactitud de la prueba. Adems, el anlisis estadstico de las curvas ROC proporciona resultados cuantitativos muy tiles en la evaluacin y comparacin de pruebas diagnsticas. Glosario de trminos
Exactitud
Capacidad de una prueba diagnstica para clasificar correctamente a los individuos en subgrupos clnicamente relevantes. En su forma ms simple es la capacidad para distinguir entre dos estados de salud.
Sensibilidad
Probabilidad de obtener un resultado positivo cuando el individuo tiene la enfermedad. Mide su capacidad para detectar la enfermedad cuando est presente.
Especificidad
Probabilidad de obtener un resultado negativo cuando el individuo no tiene la enfermedad. Mide su capacidad para descartar la enfermedad cuando no est presente.
Nivel de decisin o punto de corte

Valor lmite que permite resumir los resultados de una escala continua en dos categoras: positivo y negativo.
Curva ROC
Grfico que muestra todos los pares sensibilidad/especificidad resultantes de la variacin continua de los puntos de corte en todo el rango de resultados observados.
rea bajo la curva ROC (ABC ROC)

Probabilidad de clasificar correctamente un par de individuos sano y enfermo, seleccionados al azar de la poblacin, mediante los resultados obtenidos al aplicarles la prueba diagnstica.
REFERENCIAS BIBLIOGRFICAS 1. Jenicek M, Clroux R. Epidemiologa. Principios. Tcnicas. Aplicaciones. Barcelona: Salvat, 1987. 2. Redondo FL. la lgica en la interpretacin de las pruebas diagnsticas.
Barcelona: Garsi, 1989. 3. Robertson EA, Zweig MH, Van Steirteghem AC. Evaluating the clnical efficacy of laboratory tests. Am J Clin Pathol 1983; 79: 78-86. 4. Swets JA. Measuring the accuracy of diagnostic systems. Science 1988; 240: 1.285-1.293. 5. Ransohoff DF, Feinstein AR. Problems of spectrum and bias in evaluating the efficacy of diagnostic tests. N Engl J Med 1978; 299: 926930. 6, Lachs MS, Nachamkin l, Edelstein PH, Goldman J, Feinstein AR, Schwartz JS. Spectrum bias in the evaluation of diagnostic tests: lessons from the rapid dipstick test for urinary tract infection. Ann lntern Med 1992; 117: 135-140. 7. Gur D, King JL, Rockette HE, Britton CA, Thaete EL, Hoy RJ. Practical issues of experimental ROC analysis. Selection of controls. lnvest Radiol 1990; 25: 583-586. 8. Zweig MH, Campbell G. Receiver-Operating Characteristic (ROC) Plots: A fundamental evaluation tool in clinical medicine. Clin Chem 1993; 39: 561-577. 9. Robertson EA, Zweig MH. Use of Receiver Operating Characteristic Curves to evaluate the clinical performance of analytical systems. Clin Chem 1981; 27: 1.569-1.574. 10. Gray R, Begg CB, Greenes RA. Construction of receiver operating characteristic curves when disease verification is subject to selection bias. Med Decis Making 1984; 4: 151-164. 11. Lusted LB. Signal detectability and medical decision-making. Science 1971; 171: 1.217-1.219. 12. Metz CE. Roc methodology in radiologic imaging. lnvest Radiol 1986; 21: 720-733. 13. Sackett DL, Haynes RB, Tugwell P. Epidemiologa clnica. Una ciencia bsica para la medicina clnica. Madrid: Daz Santos S.A., 1989. 14, Gerhardt W, Keller H. Evaluation of test data from clinical studies. Il. Critical review of concepts of efficiency, Receiver Operated Characteristic (ROC) and likelihood ratios. Scand J Clin Lab lnvest 1986; 46 Supl 181: 4774. 15. Zweig MH. lnefficiency of diagnostic efficiency [carta]. Clin Chem 1992; 38: 163-164. 16. McNeil BJ, Hanley JA. Statistical approaches to the analysis of receiver operating characteristic (ROC) curves. Med Decis Making 1984; 2: 137150. 17. Swets JA, Pickett RM. Evaluation of diagnostic systems. Nueva York: Academic Press, 1982. 18. Hanley JA. The robustness of the binormal assumption used in fitting ROC curves. Med Decis Making 1988; 8: 197-203. 19. Rockette HE, Obuchowski NA Gur D. Nonparametric estimation of degenerate ROC data sets used for comparison of imagina systems. lnvest Radiol 1990: 835-837. 20. Beck JR, Shultz EK. The use of Relative Operating Characteristic (ROC) Curves in test performance evaluation. Arch Pathol lab Med 1986; 110: 1320. 21. Grey DR, Morgan BJT. Some aspects of ROC curve-fitting: normal and logistic models. J Math Psichol 1972; 9: 128-139. 22. Hanley JA, McNeil BJ. The meaning and use of the area under a Receiver Operating Characteristic (ROC) Curve. Radiology 1982; 143: 2936. 23, Bamber D. The area above the ordinal dominance graph and the area below the receiver operating graph. J Math Psych 1975; 12: 387-415. 24. Swets JA. ROC analysis applied to the evaluation of medical imaging techniques. lnvest Radiol 1979; 14: 109-121. 25. Centor RM, Schwartz JS. An evaluation of methods for estimating the area under the receiver operating characteristic (ROC) curve. Med Decis Making 1985; 5: 149-156. 26. Hanley JA, McNeil BJ. A method of comparing the areas under receiver operating characteristic curves derived from the same cases. Radiology 1983; 148: 839-843. 27. Wieand S, Gail MH, James BR, James KL. A family of nonparametric statistics for comparing diagnostic markers with paired or unpaired data. Biometrika 1989; 76: 585-592. 28. De Long ER, De Long DM, Clarke-Pearson DL. Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach. Biometrics 1988; 44: 837-845. 29. Abendroth TW, Bongiovanni MB, Krieg AF, A microcomputer program for critical evaluation of diagnostic test. Arch Pathol Lab Med 1986; 110: 952-958. 30. Pellar TG, Leung FY, Henderson AR. A computer program for rapid generation of Receiver Operating Characteristic Curves and likelihood ratios in the evaluation of diagnostic tests. Ann Clin Biochem 1988; 25: 411-416. 31. Centor RM, Keightley GE. Receiver operating characteristic (ROC) curve area analysis using the ROC ANALYZER. SCAMC Proc 1989; 222-226. 32. Krieg AF, Abendroth TW, Bongiovanni MB. When is a diagnostic test result positive? Decision tree models based on net utility and threshold. Arch Pathol Lab Med 1986; 110: 787-791. 33. Hermann GA, Sugiura HT, Krumm RP . Comparison of thyrotropin assays by Relative Operating Characteristic analysis. Arch Pathol Lab Med 1986; 110: 21-25. 34. Galen RS, Gambino SR. Beyond normality: the predictive value and efficiency of medical diagnoses. Nueva York: J Wiley and Sons, lnc., 1975. 35. Van Steirteghem AC, Zweig MH, Robertson EA, Bernard RM, Putzeys GA, Bieva CJ. Comparison of efectiveness of four clinical chemical assays in
669
classifying patients with chest pain. Clin Chem 1982; 28: 1.319-1.324. 36. Kadar N, DeCherney AH, Romero R. Receiver operating characteristic (ROC) curve analysis of the relative efficacy of single and serial chorionic gonadotropin determinations in the early diagnosis of ectopic pregnancy. Fertil Steril 1982; 37: 542-547. 37. Ryan ED, Bilous G. Serum 5'-nucleotidase: Automation of a manual assay and briev observations on values in patients with breast cancer. Clin Biochem 1983; 16: 249-253. 38. Marchand A, Van Lente F, Galen RS. The assessment of laboratory tests in the diagnosis of acute appendicitis. Am J Clin Pathol 1983; 80: 369374. 39. Leroux ML, Rabson J, Desjardins PRE. Clinical effectiveness of the Du Pont aca measurement of creatine kinase MB in serum from patients in a coronary-care unit. Clin Chem 1984; 30: 1.552-1.554. 40. Kim l, Pollit E, Leibel RL. Application of receiver-operator analysis to diagnostic tests of iron defficiency in man. Pediatr Res 1984; 18: 916-920. 41. Carson JL, Eisenberg JM, Shaw LM, Kundel HL, Soper KA. Diagnostic accuracy of four assays of prostatic acid phosphatase. Comparison using receiver operating characteristic curve analysis. JAMA 1985; 253: 665-669. 42. Kazmierczack SC, Van leute F, Hodges ED. Diagnostic and prognostic utility of phospholipase A activity in patients with acute pancreatitis: comparison with amylase and lipase. Clin Chem 1991; 37: 356-360. 43. Guyatt GH, Oxman AD, Al M, Willan A, Mcllroy W, Patterson C. laboratory diagnosis of iron-deficiency anemia: an overview. J Gen lntern Med 1992; 7: 145-153. 44. Leung FY, Galbraith LV, Jablonsky G, Henderson AR, Reevaluation of the diagnostic utility of serum total creatine kinase and creatine kinase-2 in myocardial infarction. Clin Chem 1989; 35: 1.435-1.440.
45. Dupont A, Cusan L, Gmez JL, Thibeault MM, Tremblay M, Labrie F. Prostate specific antigen and prostatic acid phosphatase for monitoring therapy of carcinoma of the prostate. J Urol 1991; 146: 1.064-1.068. 46. De Wit R, Hoek FJ, Bakker PJ, Veenhof CH. The value of MCA, CA 153, CEA and CA-125 for discrimination between metastasic breast cancer and adenocarcinoma of other primary sites. J Intern Med 1991; 229: 463466. 47. Ricker DM, Hebert LA, Rohde R, Sedmak DD, Lewis EJ, Clough JD. Serum C3 levels are diagnostically more sensitiva and specific for systemic lupus erythematosus activity than are serum C4 levels. Am J Kidney Dis 1991; 18: 678-685. 48. Amico S, Liehn JC, Desoize B, Larbre H, Deltour G, Valeyre J. Comparison of phosphatase isoenzymes PAP and PSA with bone scan in patients with prostate carcinoma. Clin Nuci Med 1991; 16: 643-648. 49 . Lott JA, Lu CJ. Lipase isoforms and amylase isoenzymes: assays and application in the diagnosis of acute pancreatitis. Clin Chem 1991; 37: 361368. 50. Flack MR, Oldfield EH, Cutler GB, Zweig MH, Malley JD, Chrousos GP et al. Urine free cortisol in the high-dose dexamethasone suppression test for the differential diagnosis of the Cushing syndrome. Ann lntern Med 1992; 116: 211-217. 51. Zweig MH, Broste SK, Reinhart RA. ROC curve analysis: an example showing the relationships among serum lipid and apolipoprotein concentrations in identifying patients with coronary adery disease. Clin Chem 1992; 38: 1.425-1.428. 52. Kazmierczack SC, Catrou PG, Van Lente F. Diagnostic accuracy of pancreatic enzymes evaluated by the use of multivariate data analysis. Clin Chem 1993; 39: 1.960-1.965.
670

Rocpaper 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Rocpaper 1

Cargado por

Copyright:

Formatos disponibles

REVISIONES

Las curvas ROC en la evaluacin de las pruebas diagnsticas

TABLA 1 Comparacin de los resultados de la prueba a evaluar con el diagnstico verdadero

Med Clin (Barc) 1995: 104: 661-670

Resultado positivo Resultado negativo

Verdadero positivo Verdadero negativo

Falso positivo Falso negativo

MEDICINA CLNICA VOL. 104 NM. 17. 1.995

Eleccin de sujetos representativos de la poblacin clnica a la que se aplicar la prueba

M. J. BURGUEO ET AL.- LAS CURVAS ROC EN LA EVALUACIN DE LAS PRUEBAS DIAGNSTICAS

diferencias observadas se deban a las verdaderas diferencias entre las pruebas 3.

Realizacin de la prueba a evaluar evitando sesgos

MEDICINA CLNICA VOL. 104 NM. 17. 1.995

Fig. 1 .Seales registradas en un receptor de radar; I, II y III corresponden a misiles.

Fig. 2 .Curva ROC.

TABLA 2 Aplicaciones de las curvas ROC en la evaluacin de pruebas diagnosticas

M. J. BURGUEO ET AL.- LAS CURVAS ROC EN LA EVALUACIN DE LAS PRUEBAS DIAGNSTICAS

Curvas ROC no paramtricas

MEDICINA CLNICA VOL. 104 NM. 17. 1.995

TABLA 3 Ventajas e inconvenientes de las curvas ROC no paramtricas

Curvas ROC paramtricas

TABLA 4 Ventajas e Inconvenientes de las curvas ROC paramtricas

M. J. BURGUEO ET AL.- LAS CURVAS ROC EN LA EVALUACIN DE LAS PRUEBAS DIAGNSTICAS

Intervalos de confianza de sensibilidad y especificidad

rea bajo la curva ROC

Comparacin de curvas ROC

MEDICINA CLNICA VOL. 104 NM. 17. 1.995

TABLA 5 Programas informticos para la construccin y anlisis de curvas ROC

A NP, P NP, P NP, P -

C: Continuos; A: agrupados en categoras ordenadas; NP: no paramtrico; P: paramtrico.

M. J. BURGUEO ET AL.- LAS CURVAS ROC EN LA EVALUACIN DE LAS PRUEBAS DIAGNSTICAS

Nivel de decisin o punto de corte

rea bajo la curva ROC (ABC ROC)

MEDICINA CLNICA VOL. 104 NM. 17. 1.995

También podría gustarte