Está en la página 1de 9

Accelerat ing t he world's research.

Lectura crítica de artículos de pruebas


diagnósticas i: ¿Son válidos los
resultados del estudio?
Estanislao Arana
Radiología

Cite this paper Downloaded from Academia.edu 

Get the citation in MLA, APA, or Chicago styles

Related papers Download a PDF Pack of t he best relat ed papers 

Indicación de las t écnicas de diagnóst ico por la imagen en la sospecha de apendicit is aguda: …
Jose del Cura

Comparación de la ecografía y la t omografía comput arizada en el diagnóst ico de la apendicit is aguda


Jose del Cura

Recomendaciones de la 7ª Conferencia de Consenso de la SEMICYUC. Pancreat it is aguda grave en M…


Juan Sesma
Documento descargado de http://www.elsevier.es el 24/01/2016. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.

Radiología. 2015;57(S1):14---21

www.elsevier.es/rx

ARTÍCULO ESPECIAL

Lectura crítica de artículos de pruebas diagnósticas I:


¿Son válidos los resultados del estudio?
E. Arana a,b,c

a
Servicio de Radiología. Fundación Instituto Valenciano de Oncología (IVO), Valencia, España
b
Red Española de Investigadores en Dolencias de la Espalda (REIDE), España
c
Fundación Instituto de Investigación en Salud, España

Recibido el 1 de febrero de 2014; aceptado el 21 de julio de 2014


Disponible en Internet el 23 de octubre de 2014

PALABRAS CLAVE Resumen En la era de la medicina basada en pruebas, una de las habilidades más importantes
Estudio diagnóstico; de un radiólogo es la capacidad de analizar la bibliografía diagnóstica críticamente. El objetivo
Lista de verificación; de este tutorial es presentar una guía para determinar si los artículos diagnósticos primarios
Medicina basada en son válidos en la práctica clínica.
pruebas; Los elementos que se van a valorar son los siguientes: si el estudio es aplicable a la prác-
Revisión bibliográfica tica clínica, si se ha comparado con la prueba de referencia, si incluyó un espectro adecuado
de sujetos, si se limitaron los sesgos de verificación y expectación, reproducibilidad, conse-
cuencias prácticas del estudio, intervalos de confianza para los parámetros analizados, rango
de normalidad en los valores continuos y lugar de la prueba en el contexto de otras pruebas
diagnósticas.
Se ilustran ejemplos prácticos básicos para seleccionar e interpretar la bibliografía diagnós-
tica por imagen al igual que las referencias donde ampliar detalles.
© 2014 SERAM. Publicado por Elsevier España, S.L.U. Todos los derechos reservados.

KEYWORDS Critical reading of articles about diagnostic tests (Part I): Are the results of the study
Diagnostic studies; valid?
Verification list;
Evidence-based Abstract In the era of evidence-based medicine, one of the most important skills a radiologist
medicine; should have is the ability to analyze the diagnostic literature critically. This tutorial aims to
Literature review present guidelines for determining whether primary diagnostic articles are valid for clinical
practice.
The following elements should be evaluated: whether the study can be applied to clinical
practice, whether the technique was compared to the reference test, whether an appropriate
spectrum of patients was included, whether expectation bias and verification bias were limited,
the reproducibility of the study, the practical consequences of the study, the confidence inter-
vals for the parameters analyzed, the normal range for continuous variables, and the placement
of the test in the context of other diagnostic tests.

Correos electrónicos: aranae@uv.es, estanislaoarana@gmail.com.

http://dx.doi.org/10.1016/j.rx.2014.07.003
0033-8338/© 2014 SERAM. Publicado por Elsevier España, S.L.U. Todos los derechos reservados.
Documento descargado de http://www.elsevier.es el 24/01/2016. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.

Lectura crítica de artículos de pruebas diagnósticas i 15

We use elementary practical examples to illustrate how to select and interpret the literature
on diagnostic imaging and specific references to provide more details.
© 2014 SERAM. Published by Elsevier España, S.L.U. All rights reserved.

Introducción introducción, eso ya le indica la baja calidad del artículo. De


forma similar, títulos como «Hallazgos en imagen de la para-
Habitualmente buscamos bibliografía que responda a pre- gonimiasis cerebral: a propósito de un caso» pertenecen a la
guntas en nuestra práctica clínica o para plantear una escala más baja al igual que las opiniones de expertos6 . En el
investigación. Recuerde que no es necesario buscar toda ámbito del diagnóstico por imagen hay pruebas diagnósticas,
la bibliografía, ya que el tema objeto del estudio puede habitualmente solicitadas, que no aportan ningún beneficio
haberse tratado en forma de revisión o temas evaluados crí- al paciente. Las más comunes son: cefalea no complicada,
ticamente (critically appraised topics [CAT])1 . Si no los ha tomografía computarizada (TC) de arterias pulmonares con
encontrado, y tiene que revisar estudios diagnósticos prima- baja sospecha de embolismo pulmonar, radiografía de tórax
rios, en el siguiente texto se resumen los criterios que deben preoperatoria o en admisión, TC en niños con sospecha de
comprobarse. Existe una escala habitualmente utilizada apendicitis, controles de quistes anexiales menores de 5 cm
para graduar la importancia de las tecnologías diagnósticas, en mujeres en edad reproductiva, o imagen de columna
como son las imágenes radiológicas (tabla 1). Las bases de lumbar en lumbalgia sin signos de alarma7 .
las mismas son el rendimiento técnico y diagnóstico junto a Una vez conocido el tema del trabajo, específicamente
la reproducibilidad2 . El grado de utilidad de las tecnologías para un estudio diagnóstico primario se deben revisar las
va aumentando hasta el beneficio máximo, que sería en el siguientes cuestiones de forma particular, que son un resu-
ámbito de la sociedad. men práctico de STARD (tabla 2)8 :
Además de lo anterior, existen varios grados en los niveles
de solidez científica de un artículo, ya que hay una gradación
en la potencia de los mismos, según la medicina basada en Diez cuestiones para un estudio de prueba
pruebas3 . Según la radiología basada en pruebas, en un artí- diagnóstica o de cribado
culo sobre validez de pruebas diagnósticas se deben analizar
los siguientes aspectos4 :
1. ¿Es esta técnica diagnóstica/intervencionista
1 La técnica de imagen se ha descrito en suficiente detalle
importante para mi práctica?
para reproducirla en mi servicio
2 Tanto la técnica evaluada como la de referencia ¿se han Es tentador aceptar lo que el trabajo presenta. Recuerde
desarrollado al mismo nivel de excelencia? que los autores, aunque sea inconscientemente, repre-
3 ¿Se ha elegido la prueba con el menor nivel de radiación? sentan erróneamente lo que hicieron, y sobrestiman su
4 La dosis de radiación al paciente se ha mantenido los más originalidad y potencial importancia. Plantéese las siguien-
baja posible tes preguntas: si la técnica fuera 100% válida, precisa y
5 En comparaciones entre 2 pruebas diagnósticas, ¿las fiable, ¿me ayudaría? ¿Identificaría una enfermedad trata-
condiciones de visión fueron comparables (película o imá- ble? Si fuera tal como la exponen, ¿la usaría antes que
genes digitales)? la prueba que habitualmente uso? ¿Podría permitírsela mi
servicio de salud/aseguradora o paciente pagarla (y/o copa-
Para establecer si el trabajo es útil, se debe comprobar garla)? ¿Cambiaría las probabilidades de los diagnósticos
tanto la validez interna (si el trabajo está bien construido) diferenciales suficientemente para mí y para el médico soli-
como la validez externa (si se pueden aplicar los resulta- citante para que alterara el plan de tratamiento? Si las
dos a la práctica). Existen guías para seguirlas, como las respuestas a estas preguntas son todas «no», puede recha-
STAndards for the Reporting of Diagnostic accuracy studies zar el artículo (y la prueba) sin leer más que el resumen y la
(STARD), que se consideran requisito de envío para traba- introducción8 .
jos diagnósticos por más de 200 revistas5 . También están Para aceptar que un artículo sobre una prueba diag-
las (Quality Assessment of Studies of Diagnostic Accuracy nóstica añade algo a la bibliografía sobre dicha prueba,
(QUADAS) que valoran la calidad de los estudios diagnósticos plantéese estas cuestiones:
primarios en las revisiones sistemáticas y metaanálisis5 .
--- ¿Es la metodología de este estudio más rigurosa?, específi-
Requisitos de calidad metodológica camente, si cubre alguna carencia metodológica especial
de estudios previos. P. ej., insuficiente muestra de los
En cualquier trabajo científico hay que partir de la pre- mismos o utiliza una técnica de imagen más precisa, no
gunta ¿De qué trata el estudio?, si no queda claro en la relatada anteriormente.
Documento descargado de http://www.elsevier.es el 24/01/2016. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.

16 E. Arana

Tabla 1 Escala para graduar la importancia de tecnologías diagnósticas


Nivel Parámetros investigados
6. Impacto en la sociedad Coste-beneficio y coste-efectividad desde la perspectiva social
5. Resultados en los pacientes Fracción de pacientes que mejoran con la prueba en comparación con aquellos que mejoran
sin la prueba; diferencia de morbilidad entre los pacientes con la prueba y aquellos sin ella;
ganancia en los años de vida ajustados por calidad (QALY) obtenida en pacientes con la prueba
comparados con los que no la tienen
4. Impacto terapéutico Fracción de pacientes en los que la prueba se juzga útil para la planificación del tratamiento o
para los que el plan de tratamiento se modifica en función de los resultados de la prueba
3. Impacto diagnóstico Fracción de pacientes en los que la prueba se juzga útil por obtener el diagnóstico o en
aquellos en los que el diagnóstico se modifica sustancialmente tras la prueba; razones de
verosimilitud positivas y negativas
2. Rendimiento diagnóstico Sensibilidad, especificidad, precisión, valor predictivo positivo y negativo, curva de
rendimiento diagnóstico (ROC); reproducibilidad intraobservador, interobservador e
interestudio
1. Rendimiento técnico Rango en escala de grises; función de transferencia de modulación; nitidez; resolución
espacial, en plano (pares de línea por mm, tamaño del pixel) y a través del plano (espesor de
corte), tamaño del vóxel; relación señal-ruido; resolución de contrastes (relación
contraste-ruido); resolución espacial (imágenes), etc.

--- ¿Está la población estudiada de alguna forma diferente? de medida alternativos); c) calcule las estimaciones brutas
P. ej., distintos grupos étnicos, por edad, o género que en de la prueba como sensibilidad y especificidad con la prueba
otros estudios anteriores. final de referencia (p. ej., prueba estudiada con ecografía
--- ¿Es el asunto estudiado de suficiente importancia y exis- con anatomía patológica); d) ajuste estos parámetros brutos
ten dudas sustanciales en el público objetivo para hacer de sensibilidad y especificidad para un estándar de referen-
que las nuevas pruebas sean «políticamente» deseables?, cia imperfecto (p. ej., prueba de RM para el diagnóstico de
incluso cuando no sea estrictamente necesario. recurrencia de tumor cerebral con un estándar imperfecto
construido con la suma de tomografía por emisión de posi-
Ejemplo: Dodd et al. mostraron las consecuencias de trón y seguimiento del paciente, en ausencia de anatomía
ignorar un detalle técnico como el espesor de corte en patológica posquirúrgica). Esta última opción requiere de
la evaluación de la colangiopancreatografía por resonancia mayores conocimientos estadísticos y remitimos al lector a
magnética (RM). Usando un grosor de corte de 5 mm en vez referencias más especializadas10 .
de 3 mm, el rendimiento diagnóstico para la detección de Entre los distintos tipos de estudios utilizados para com-
coledocolitiasis cambió de una sensibilidad de 0,57 y espe- parar pruebas diagnósticas, la mayor validez interna y
cificidad de 1 a 0,92 de sensibilidad y 0,97 de especificidad9 .
Además de las consecuencias para su práctica clínica, con-
sidere la subestimación de la técnica que podría resultar
Tabla 2 Requisitos principales en la valoración de artículos
incorporar este trabajo a un metaanálisis6 .
sobre pruebas diagnósticas
1. ¿Es esta técnica diagnóstica/intervencionista importante
2. ¿Se ha comparado la prueba con la de
para mi práctica?
referencia? 2. ¿Se ha comparado la prueba con la de referencia?
3. ¿Incluyó este estudio de validación un espectro adecuado
La prueba de referencia es la habitualmente establecida de individuos?
para instaurar el diagnóstico definitivo de la patología 4. ¿Se evitó el sesgo de verificación?
objeto de estudio. Recuerde que ciertos estudios no compa- 5. ¿Se evitó el sesgo de expectación?
ran con ninguna prueba de referencia, simplemente aplican 6. ¿Demostró la prueba ser reproducible tanto intra- como
la técnica diagnóstica a los sujetos/patología referida. Estos interobservador?
trabajos no pueden confirmar que la «alta tasa» de hallaz- 7. ¿Cuáles son las consecuencias de la prueba derivadas de
gos indique que la enfermedad objetivo (la enfermedad este estudio?
que está buscando) esté presente o que los «bajos» resul- 8. ¿Se aportaron los intervalos de confianza para la
tados indiquen que la enfermedad no lo esté. La nueva sensibilidad, especificidad y otros resultados de la
prueba diagnóstica debe compararse con un patrón de refe- prueba?
rencia o prueba habitualmente realizada (gold standard). 9. De estos resultados, ¿se ha establecido un rango de
En caso de que no haya prueba de referencia, existen normalidad adecuado?
4 alternativas: a) use la prueba para adecuarla con el resul- 10. ¿Se ha puesto esta prueba en el contexto de otras
tado del paciente (mortalidad, morbilidad, supervivencia); pruebas potenciales en la secuencia diagnóstica para
b) mida el acuerdo entre la prueba estudiada y otra prue- esta patología?
bas de referencia (p. ej., trátelas ambas como 2 métodos
Documento descargado de http://www.elsevier.es el 24/01/2016. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.

Lectura crítica de artículos de pruebas diagnósticas i 17

externa es para un estudio aleatorizado3 . Sin embargo, exis- - ¿Quién fue incluido en el estudio?
ten problemas clínicos que no pueden comprobarse, ya que No todos los trabajos describen las comorbilidades y
las conductas clínicas son aceptadas como estándares o por medicaciones de los pacientes. Ejemplo: los resultados de
motivos éticos consolidados. Ejemplo: en caso de neumo- un estudio de farmacocinética de un nuevo contraste para
peritoneo por perforación de ulcus gástrico la conducta es hepatocarcinoma en pacientes polimedicados mayores no
cirugía, ya que no existe la alternativa de un ensayo clínico pueden ser aplicables a una joven de 23 años con lesión
que asignara de forma aleatoria a pacientes hacia cirugía focal hepática indeterminada.
o a tratamiento conservador. En diagnóstico por imagen, Asimismo, valore los criterios de exclusión. Por ejem-
p. ej., se podría plantear que pacientes con sospecha de plo, en un estudio aleatorizado con coronariografía por TC
neoplasia de pulmón en radiografía fueron distribuidos alea- solo estudian a pacientes con estadios moderados o graves
toriamente a una TC convencional (prueba de referencia) o de cardiopatía isquémica. Deben explicar cómo, por qué y
RM. Este difícil escenario solo podría verse en un ensayo quiénes fueron los casos leves excluidos.
clínico. La sensibilidad y la especificidad de una prueba son prác-
Existe un tipo de estudios, particularmente útiles, en ticamente constantes para cualquier prevalencia, pero los
las pruebas por imagen, que se conocen como de no valores predictivos positivos y negativos son dependien-
inferioridad11 . Ejemplo: para el diagnóstico de las metásta- tes fundamentalmente de la misma. Uno de los problemas
sis hepáticas hipervasculares ¿es mejor la TC con contraste más habituales en los trabajos de pruebas de imagen es la
directo que la TC sin y con contraste posterior? Este tipo falta de datos sobre prevalencia16 . Compruebe que esta se
de estudios no se basan ni en la ausencia ni en la presen- referencia con citas o estudios de la práctica local donde
cia de significación estadística para afirmar la equivalencia se desarrolla el estudio. Desconfíe de los estudios que se
de estas pruebas. Se fundamentan en intervalos de con- basan en la experiencia de los autores, porque los médi-
fianza, donde la diferencia en resultados entre los 2 grupos cos somos imprecisos en esto (recordamos los casos más
está dentro de un intervalo predeterminado que representa notables o los últimos)15 . Una vez situado el ámbito del
un rango aceptable que clínicamente se describe como . estudio, recuerde que los centros de referencia estarán ses-
Es fundamental un adecuado cálculo del tamaño muestral, gados hacia casos de mayor morbilidad. En estos pacientes
escogido de forma conservadora, para evitar decir que hay una buena prueba diagnóstica (generalmente usada cuando
o no hay diferencias11 . el paciente tiene algunos síntomas sugestivos de enferme-
dad) no es necesariamente una buena prueba de cribado
(utilizada en pacientes sin síntomas).

3. ¿Incluyó este estudio de validación un espectro


4. ¿Se evitó el sesgo de verificación?
adecuado de individuos?
Debemos estar atentos para detectar sesgos, que son
Es más útil cuando los pacientes son explorados en circuns-
cualquier artefacto que influencia erróneamente las
tancias de la vida real. Si, para aplicarlo en su práctica, lee
conclusiones16 . En este caso debe preguntarse simplemente
un trabajo que utiliza un contraste determinado fuera de un
¿todos los sujetos que fueron explorados con la nueva téc-
ensayo clínico, compruebe que la indicación para el mismo
nica recibieron también la prueba de referencia y viceversa?
está en la ficha técnica aprobada por la Agencia Española
Es evidente el problema que surgiría si la prueba de referen-
de Medicamentos y Productos Sanitarios12 . Ejemplo: se está
cia fuera realizada solo en aquellos que ya han sido positivos
pensando en utilizar un contraste de óxido de hierro super-
en la prueba objeto de estudio8 . Esto complementa el punto
paramagnético para detectar adenopatías tumorales en RM.
2 previo, por tanto revise cuidadosamente que las caracte-
Se han leído artículos y se sabe que ese contrate se aprobó
rísticas de la población basal son similares y que se evitó
para estudiar lesiones hepáticas. Pues bien, informándose
este sesgo. Estos detalles deben relatarse en el texto y, habi-
adecuadamente se conocerá que se retiró por el propio
tualmente, exponerse en una tabla para comprobar que no
laboratorio13 , y además la indicación para adenopatías no
hay diferencias en las características basales. Use su sentido
fue nunca aprobada14 .
común, aunque los autores digan que no había diferencias y
Para la selección de la muestra, revise si puede contestar
compare usted mismo las características. Para mayor detalle
a estas 2 preguntas:
es recomendable leer el artículo de Reid et al.17
- ¿Cómo fueron seleccionados los sujetos?
No son lo mismo los criterios de inclusión de un ensayo clí-
nico, más restrictivo, que los de la práctica clínica cotidiana. 5. ¿Se evitó el sesgo de expectación?
Se debe conocer el nivel asistencial y donde se realiza, ya
que difieren los resultados de un hospital terciario de los de Incluso si las características anteriores están controladas
otros niveles8 . A veces, los autores comparan el rendimiento rigurosamente, el estudio será inválido si los radiólogos
de la prueba en un grupo de pacientes que se sabe que tie- que tienen que juzgar el resultado conocen qué grupo
nen la enfermedad y en un número igual sin la misma. Esta de pacientes están valorando. Olvide los conceptos de
es una forma eficiente de describir la sensibilidad y la espe- los signos «patognomónicos» y/o «característicos» de las
cificidad. No obstante, cualquier valor predictivo de estos enfermedades8 y revise la frecuencia de los mismos con
estudios es irrelevante, porque se ha determinando a partir las estimaciones de sensibilidad y especificidad. Revise las
de un grupo de pacientes en los que los investigadores arti- condiciones de valoración de las imágenes y su secuencia
ficialmente establecieron la prevalencia de la enfermedad dentro de todo el proceso diagnóstico16 . P. ej., en un tra-
en el 50%15 . bajo sobre una nueva secuencia de RM para enfermedad
Documento descargado de http://www.elsevier.es el 24/01/2016. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.

18 E. Arana

desmielinizante, compruebe, respecto a la evaluación por absolutos para una prueba diagnóstica y depende de la pato-
los radiólogos: logía buscada15 .
Se deben plantear una serie de consideraciones más deta-
- Si sabían que en el grupo todos padecían esclerosis múl- lladas, pero estas se pueden resumir en 2:
tiple o eran pacientes en general de todos los géneros
y edades. Si todos los sujetos tienen esclerosis múltiple,
estarán sesgados a mirar más atentamente estos casos, • El tamaño muestral
especialmente aquellos con más lesiones (sesgo de expec- • La comprobación de diagnóstico
tación). • Tamaño muestral
- Si las secuencias habituales (T2/FLuid Attenuated Inver- En estudios de intervención, y los estudios sobre prue-
sion Recovery [FLAIR]) eran evaluadas y conocidas por los bas diagnósticas son de este tipo, el requisito inicial es
mismos radiólogos que evaluaban la nueva. calcular el tamaño muestral (potencia del estudio). En
palabras del estadístico Douglas Altman, un trabajo debe
6. ¿Demostró la prueba ser reproducible tanto ser lo suficientemente grande para detectar, como esta-
dísticamente significativo, un efecto válido si existe, y
intra- como interobservador?
así estar razonablemente seguros de que no hay beneficio
si no se encuentra en ese trabajo21 . El autor debe defi-
Aunque este aspecto se tratará con detalle en el siguiente
nir lo que es clínicamente significativo, y nótese que esto
artículo del suplemento, indicamos los aspectos más rele-
puede no coincidir con estadísticamente significativo. Por
vantes. Habitualmente si el mismo observador contempla la
ejemplo: una técnica de posproceso en TC detecta los
misma prueba en 2 momentos, en un sujeto cuyas caracterís-
nódulos pulmonares, aparentemente mejor que el pospro-
ticas no han cambiado, la prueba dará resultados diferentes
cesado habitual, ¿es clínicamente significativo detectar
en distintas ocasiones8 . Todas las pruebas diagnósticas hacen
más nódulos en pacientes con metástasis?
esto de alguna forma, pero una reproducibilidad del 99%
Para estos cálculos, debe familiarizarse con un término,
claramente es distinta del 50%. Varios factores contribuyen
el número necesario a tratar22 . Representa el número de
a ella, pero se necesita saber la reproducibilidad para el
pacientes a tratar de manera experimental con el fin de
mismo observador (intraobservador) y entre varios (interob-
evitar que uno de ellos desarrolle un resultado negativo.
servador). El método más utilizado es el estadístico kappa,
Es una forma ideal de determinar la importancia clínica
que mide este acuerdo más allá del azar. Compruebe que los
de un trabajo, que además sea estadísticamente signifi-
autores lo han trabajado en condiciones lo más cercanas a
cativo. Su cálculo es sencillo, porque es 1/RAR (reducción
la práctica clínica habitual18 .
del riesgo absoluto) y puede realizarse con calculadoras
Respecto al ejemplo antes citado de las nuevas secuen-
en Internet23 . Esto se puede aplicar tanto a estudios diag-
cias para esclerosis múltiple, si los radiólogos habían visto las
nósticos y tratamientos como a estudios de cribado; en
secuencias habituales FLAIR /T2, hay que saber con cuánta
estos últimos se transforma en número necesario de cri-
antelación respecto a las nuevas secuencias valoradas. E
bado para evitar una muerte. Cuanto más reducido es
igualmente, en la valoración de las nuevas imágenes debe
el número necesario a tratar, mayor es el efecto de la
esperarse un tiempo para volver a valorarlas, para que no se
magnitud del diagnóstico/tratamiento.
recuerden las características de las mismas y estemos sesga-
Ejemplo, el número necesario de pacientes para cribar
dos a reportar una alta reproducibilidad. Este sesgo se llama
con TC para evitar una muerte por cáncer de pulmón, en
de recuerdo (recall bias) y el tiempo mínimo considerado
población seleccionada, es 32024 , sin embargo, para un
entre valoraciones para estudios de imagen es de 15 días19 .
cribado con mamografía, dependiendo de los rangos de
Aunque suena sensato que una prueba radiológica se
edad, se sitúa entre 233 y 746 pacientes25 .
valore por consenso, hay bastantes problemas en este tipo
• La comprobación de diagnóstico
de estudios20 . Por ejemplo, en un trabajo 2 radiólogos con
Cuando el tratamiento de una enfermedad tiene altos
distinta experiencia o uno que sea superior jerárquicamente
riesgos asociados, se usan múltiples pruebas para obtener
al otro, inconscientemente se está sesgado a converger en
la precisión más alta. Siempre se deben considerar los
una valoración. En estudios diagnósticos es mejor dejar clara
falsos positivos y los falsos negativos cuando se estudie
la experiencia en años tras la residencia, que la valora-
el perjuicio de una prueba diagnóstica. Los inconvenien-
ción fue individual, si se siguieron guías clínicas y en qué
tes de los falsos positivos dependen de la agresividad de
tipo de monitores20 . No es lo mismo utilizar los monitores
las sucesivas pruebas o tratamientos (mayores cuanto más
de ordenadores domésticos y oficina, que los habituales de
invasivas sean), junto a los efectos emocionales y cogniti-
los Picture Archiving and Communications System (PACS).
vos de una denominación inadecuada de la enfermedad.
Puede no tener importancia en RM, donde las imágenes
De igual modo, si una paciente presenta un falso positivo
tienen menos rango dinámico, que en estudios de TC y/o
en una mamografía y se le dice que es probablemente
radiografía, que requieren más rango dinámico del que los
maligno, es muy posible que tanto ella como su médico
monitores de ordenador y sobremesa proporcionan.
estén dispuestos a que se realice la biopsia, además del
deterioro emocional que sufrirá la paciente15 . El grado de
7. ¿Cuáles son las consecuencias de la prueba perjuicio de los falsos negativos depende de la gravedad
derivadas de este estudio? de la enfermedad si esta no es detectada, además de los
riesgos por la propia prueba. Por ejemplo, la arteriografía
Todos los requisitos anteriores pueden cumplirse, pero diagnóstica para confirmar un aneurisma o malformación
la prueba diagnóstica podría no ser útil. No hay valores arteriovenosa visualizada en TC/RM no tiene un riesgo
Documento descargado de http://www.elsevier.es el 24/01/2016. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.

Lectura crítica de artículos de pruebas diagnósticas i 19

cero. Esta arteriografía es una prueba invasiva con un importante descartar una patología determinada, que tiene
1,3% de complicaciones, siendo en el 0,5% de los casos graves consecuencias si pasa desapercibida; p. ej., en TC
irreversibles26 . torácica con una lesión que puede ser un cáncer de pul-
Si se tiene un cáncer potencialmente fatal y un cribado món. Consecuentemente, lo más importante es usar una
precoz lo detecta precozmente, se debe saber además de prueba clasificatoria con alta sensibilidad y valor predictivo
la precisión de la prueba diagnóstica, la reducción de la negativo, siendo menos relevante un diagnóstico real de la
mortalidad por el adelanto diagnóstico y si además reduce enfermedad particular, p. ej., si es granuloma o neumonía
la mortalidad por cualquier causa27 . Si no utilizan estas eosinofílica15 .
medidas, quizás usen medidas subrogadas, es decir otras
que pueden tener importancia, pero no son las idóneas, 9. De estos resultados, ¿se ha establecido un rango
p.ej., tiempo desde el diagnóstico hasta progresión de de normalidad adecuado?
la enfermedad. De cualquier forma, tiene que estar sufi-
cientemente claro que estas medidas subrogadas se han
Si la prueba da un resultado continuo (no dicotómico), como
validado previamente en humanos y que reflejan real-
p. ej. un valor numérico, deben explicarse los valores de nor-
mente el resultado del paciente, idealmente la reducción
malidad. Ejemplo: si los resultados de la perfusión cerebral
de la mortalidad28 .
de tumoraciones intraxiales, medida en volumen sanguíneo
relativo se considera patológica ≥ 1,75, al lector se le debe
8. ¿Se aportaron los intervalos de confianza para la proveer con las citas donde se han establecidos los rangos
sensibilidad, especificidad y otros resultados de la de «normal» y «limítrofe»8,30 . Definir las zonas de riesgo
prueba? absoluto y relativo para una variable fisiológica o patoló-
gica continua es complejo, y siempre debe considerar la
Estos parámetros aportan la ventaja de expresar los resul- probabilidad real del evento negativo que el diagnóstico o
tados en las unidades en las que se ha realizado, lo cual tratamiento intenta prevenir. Este proceso es más simple
facilita su interpretación en términos de magnitud y rele- y objetivo usando las razones de verosimilitud (likelihood
vancia clínica frente a la clásica significación «p»29 . Está ratio). El lector interesado puede encontrar una entretenida
más allá del objetivo del presente trabajo su explicación discusión de los posibles significados de la palabra «normal»
detallada, pero compruebe que estos intervalos están ade- en la investigación diagnóstica en este libro de texto31 .
cuadamente detallados3,29 . Recuerde que cuanto mayor es Mire con cautela el término biomarcador, que no es
el tamaño muestral, más estrechos son los intervalos de con- un término nuevo, aunque sea más utilizado últimamente.
fianza (fig. 1), los cuales pueden calcularse fácilmente con Lleva en la medicina desde hace años, y p. ej. la hemoglo-
recursos en Internet23 . Si son muy amplios, piense que pro- bina es un biomarcador32 . El desarrollo de biomarcadores
bablemente no son válidos para su aplicación a la muestra diagnósticos no se ha llevado con la adecuada regulación ni
objeto de estudio8 . validación de su efectividad32,33 . Uno de los últimos casos ha
Si los resultados de precisión se presentan como verdade- sido el fracaso de la técnica de la tomografía por emisión de
ros positivos, verdaderos negativos, falsos positivos y falsos positrón para detectar las placas ␤-amiloide en el cerebro de
negativos, puede trasladarse fácilmente a otros parámetros pacientes con enfermedad de Alzheimer. Se ha comprobado
como sensibilidad, especificidad, valor predictivo positivo y que sus hallazgos no son específicos de esta enfermedad ---el
valor predictivo negativo. Los lectores deben decidir cuá- 30% de las personas mayores sanas las presentan--- y que el
les de estos se relacionan más con la precisión requerida ver las placas de ␤-amiloide no es un marcador de la misma,
para los resultados clínicos esperados8 . En ocasiones es más aunque se haya publicitado como tal a un coste de 3.000$
la prueba34 .
100
10. ¿Se ha puesto esta prueba en el contexto de
90
otras pruebas potenciales en la secuencia
80
Intervalos de Observado diagnóstica para esta patología?
confianza al
70 95%

Las pruebas diagnósticas no se aplican de la misma manera


Sensibilidada (%)

60
y, habitualmente, el valor de una aislada no es igual que
50 junto a otras técnicas anteriores o posteriores a la misma15 .
40 Ejemplo: no es lo mismo la secuencia diagnóstica de un car-
cinoma de pulmón con radiografía y TC, que en una lesión
30
focal hepática donde hay secuencia de ecografía y/o TC,
20 posteriormente con RM sin/con contraste órgano específico.
10
Como se usan técnicas con menos del 100% de sensibi-
lidad, especificidad y razones de verosimilitud, una única
0
0 5 10 15 20 25 30 35 40 45 50 prueba diagnóstica habitualmente resulta una probabilidad
Número de pacientes observados intermedia. Generalmente, no es aceptable parar el proceso
diagnóstico y se aplican múltiples pruebas. Sin embargo,
Figura 1 Precisión de la sensibilidad estimada. Intervalo de algunas son positivas y otras negativas, siendo su interpreta-
confianza del 95% para una sensibilidad observada del 76%, ción complicada. Las pruebas se pueden realizar en paralelo
según el número de personas observadas. (p. ej., todas al mismo tiempo) y un resultado positivo de
Documento descargado de http://www.elsevier.es el 24/01/2016. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.

20 E. Arana

cualquiera se considera enfermedad; o pueden hacerse en 7. Things physicians and patients should question choosing wisely
serie (p. ej., consecutivo), con la decisión para la próxima [actualizado 2 Ene 2014; acceso 30 Ene 2014]. Disponible en:
prueba basada en los resultados de la anterior. En teoría http://www.choosingwisely.org/doctor-patient-lists/Publicado
todas las pruebas deben dar un resultado positivo para hacer 19/12/2011
8. Greenhalgh T. Papers that report diagnostic or screening tests.
el diagnóstico, aunque lo más habitual en radiología es que
En: En: How to read a paper. The basics of evidence based
algunas den positivo y otras negativo15 .
medicine. 2.a ed. London: BMJ Books; 2001. p. 105---19.
- Pruebas diagnósticas en paralelo. 9. Dodd JD, MacEneaney PM, Malone DE. Evidence-based radio-
Se deben realizar así cuando se precisa un estudio rápido, logy: How to quickly assess the validity and strength of
como p. ej., en urgencias o en pacientes ambulatorios en publications in the diagnostic radiology literature. Eur Radiol.
los que se requiere rapidez. De esta forma, se aumenta la 2004;14:915---22.
sensibilidad, y por tanto el valor predictivo negativo para 10. Trikalinos TA, Balion CM. Chapter 9: Options for summarizing
una prevalencia determinada de enfermedad, por encima de medical test performance in the absence of a «gold standard».
cada una de las pruebas individuales. No obstante, la especi- J Gen Intern Med. 2012;27 Suppl 1:S67---75.
ficidad y el valor predictivo positivo son menores que para las 11. Ahn S, Park SH, Lee KH. How to demonstrate similarity by using
noninferiority and equivalence statistical testing in radiology
pruebas individuales. Esto indica que es menos probable que
research. Radiology. 2013;267:328---38.
pase desapercibida la enfermedad, pero que también es más
12. AEMPS:CIMA. Website del Centro de Información online de Medi-
probable que haya falsos positivos (lo que explica la propen- camentos de la Agencia Española de Medicamentos y Productos
sión al sobrediagnóstico en los hospitales de referencia)15 . Sanitarios [acceso 30 Ene 2014]. Disponible en: http://www.
- Pruebas diagnósticas en serie. aemps.gob.es/cima/fichasTecnicas.do?metodo=detalleForm
Esta secuencia maximiza la especificidad y el valor 13. Wang Y-XJ. Superparamagnetic iron oxide based MRI contrast
predictivo positivo, pero baja la sensibilidad y el valor agents: Current status of clinical application. Quant Imaging
predictivo negativo. Este algoritmo es especialmente útil Med Surg. 2011;1:35---40.
cuando ninguna de las pruebas es altamente específica. Usa 14. European Medicines Agency. Withdrawal asessment report
menos los servicios diagnósticos pero lleva más tiempo, por- for sinerem [publicado 24 Ene 2008; actualizado 21 Jul
2013; acceso 30 Ene 2014]. Disponible en: http://www.
que solo se solicitan las nuevas al conocer el resultado de
ema.europa.eu/docs/en GB/document library/Medicine QA/
las precedentes. La prueba con menos riesgo, menos inva-
2009/11/WC500015294.pdf
siva y más fácil es la que se debe hacer antes. Si todas son 15. Fletcher R, Fletcher SW. Diagnosis. En: En: Clinical epidemio-
similares, lo más eficiente es practicar la que tenga más logy: The essentials. 5.a ed Philadelphia: Lippincott Williams &
especificidad15 . Wilkins; 2013. p. 272---301.
16. Boone D, Halligan S, Mallett S, Taylor SA, Altman DG. Systema-
Conclusiones tic review: Bias in imaging studies-the effect of manipulating
clinical context, recall bias and reporting intensity. Eur Radiol.
2012;22:495---505.
Los principios para valorar un estudio diagnóstico primario 17. Reid MC, Lachs MS, Feinstein AR. Use of methodological stan-
deben aplicarse siempre que se lea un artículo sobre este dards in diagnostic test research. Getting better but still not
tema, ya que ayuda a usar adecuadamente estas técnicas de good. JAMA. 1995;274:645---51.
imagen y son requisito previo en numerosas revistas médi- 18. Arana E, Kovacs FM, Royuela A, Estremera A, Sarasíbar
cas. Estas bases permiten pensar crítica y autónomamente, H, Amengual G, et al. Influence of nomenclature in the
mejorando la práctica basada en los principios de la radio- interpretation of lumbar disk contour on MR imaging: A com-
logía basada en pruebas3 . Este cambio de mentalidad y de parison of the agreement using the combined task force and
práctica debe instaurarse en todos los radiólogos. the nordic nomenclatures. AJNR Am J Neuroradiol. 2011;32:
1143---8.
19. Gur D, Rockette HE, Armfield DR, Blachar A, Bogan JK, Bran-
Conflicto de intereses
catelli G, et al. Prevalence effect in a laboratory environment.
Radiology. 2003;228:10---4.
Los autores declaran no tener ningún conflicto de intereses.
20. Bankier AA, Levine D, Halpern EF, Kressel HY. Consensus inter-
pretation in imaging research: Is there a better way? Radiology.
Bibliografía 2010;257:14---7.
21. Altman DG. Practical statistics for medical research. London,
1. Kelly AM, Cronin P. How to perform a critically appraised UK: Chapman & Hall; 1991.
topic: Part 1, ask, search, and apply. AJR Am J Roentgenol. 22. Pita Fernández S, López de Ullibarri Galparsoro I. Número nece-
2011;197:1039---47. sario de pacientes a tratar para reducir un evento. Cad Aten
2. Fryback DG, Thornbury JR. The efficacy of diagnostic imaging. Primaria. 1998:96---8.
Med Decis Mak. 1991;11:88---94. 23. Buckingham J, Fisher B, Saunders D. EBM toolkit [publicado y
3. García Villar C. Radiología basada en la evidencia en el diag- actualizado 1 Oct 2008; acceso 30 Ene 2014]. Disponible en:
nóstico por imagen: ¿qué es y cómo se practica? Radiologia. http://www.ebm.med.ualberta.ca/TherapyCalc.html
2011;53:326---34. 24. National Lung Screening Trial Research TeamChurch TR, Black
4. Malone DE, Staunton M. Evidence-based practice in radiology: WC, Aberle DR, Berg CD, Clingan KL, Duan F, et al. Results of ini-
Step 5 (evaluate)– caveats and common questions. Radiology. tial low-dose computed tomographic screening for lung cancer.
2007;243:319---28. N Engl J Med. 2013;368:1980---91.
5. González Rodríguez M, Velarde Mayol C. Lista de comprobación 25. Feig SA. Number needed to screen: Appropriate use of this new
de estudios sobre precisión de pruebas diagnósticas: declara- basis for screening mammography guidelines. AJR Am J Roent-
ción STARD. Evid Pediatr. 2012;8:1---4. genol. 2012;198:1214---7.
6. Sardanelli F, Hunink MG, Gilbert FJ, Leo G, Krestin GP. Evidence- 26. Willinsky RA, Taylor SM, TerBrugge K, Farb RI, Tomlinson G, Mon-
based radiology: Why and how? Eur Radiol. 2009;20:1---15. tanera W. Neurologic complications of cerebral angiography:
Documento descargado de http://www.elsevier.es el 24/01/2016. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.

Lectura crítica de artículos de pruebas diagnósticas i 21

Prospective analysis of 2,899 rocedures and review of the lite- imaging compared with conventional MR imaging. AJNR Am J
rature. Radiology. 2003;227:522---8. Neuroradiol. 2003;24:1989---98.
27. Broeders M, Moss S, Nyström L, Njor S, Jonsson H, Paap E, 31. Haynes RB, Sackett DL, Guyatt GH. Evaluating diagnostic tests.
et al. The impact of mammographic screening on breast can- En: Haynes RB, Sackett DL, Guyatt GH, Tugwell P, editores.
cer mortality in Europe: A review of observational studies. J Clinical epidemiology: How to do clinical practice research.
Med Screen. 2012;19 Suppl 1:14---25. 3.a ed. Philadelphia: Lippincott Williams & Wilkins; 2006. p.
28. Yankelevitz DF, Smith JP. Understanding the core result of the 273---322.
National Lung Screening Trial. N Engl J Med. 2013;368:1460---1. 32. Wilson JF. The rocky road to useful cancer biomarkers. Ann
29. Condés E. La bioestadística: una herramienta fundamen- Intern Med. 2006;144:945---8.
tal en la elaboración de artículos radiológicos. Radiologia. 33. Wilson C, Schulz S, Waldman SA. Biomarker development, com-
2008;50:265---70. mercialization, and regulation: Individualization of medicine
30. Law M, Yang S, Wang H, Babb JS, Johnson G, Cha S, lost in translation. Clin Pharmacol Ther. 2007;81:153---5.
et al. Glioma grading: Sensitivity, specificity, and predictive 34. Mitka M. PET imaging for Alzheimer disease: Are its benefits
values of perfusion MR imaging and proton MR spectroscopic worth the cost? JAMA. 2013;309:1099---100.

También podría gustarte