Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Pruebas diagnósticas y
decisiones médicas: introducción
C. Diana Nicoll, MD, PhD, MPA, Michael Pignone, MD, MPH
y Chuanyi Mark Lu, MD, PhD
La principal tarea del médico es tomar decisiones razonadas en relación con la atención del paciente, tanto si
la información es incompleta como si los resultados clínicos suscitan cierta incertidumbre. Aunque los datos
obtenidos del interrogatorio y la exploración física son a menudo suficientes para establecer un diagnóstico o
definir el tratamiento, tal vez se requiera más información. En tales situaciones, el clínico recurre con
frecuencia a las pruebas diagnósticas.
RENTABILIDAD Y RIESGOS
Cuando se utilizan en forma apropiada, las pruebas diagnósticas pueden ser de gran ayuda para el médico y
también útiles para el procedimiento de detección, por ejemplo, para identificar factores de riesgo y
descubrir alguna enfermedad oculta en personas asintomáticas. El reconocimiento de los factores de riesgo
posibilita una intervención temprana que previene la aparición de un trastorno; asimismo, la detección
oportuna de una enfermedad oculta puede disminuir la morbilidad y mortalidad del padecimiento por la
instauración oportuna del tratamiento. Las pruebas de detección recomendadas para la atención preventiva
en adultos asintomáticos de bajo riesgo incluyen medición de la presión arterial y lípidos séricos. También
está indicado solicitarlas para los cánceres mamario, cervicouterino y colónico, pero la detección para cáncer
prostático y pulmonar todavía es causa de controversia (cap. 1, Promoción y prevención a la salud). Los
estudios de detección ideales deben satisfacer los criterios enumerados en el cuadro e2-1.
Características de la población
Características de la enfermedad
Características de la prueba
Las pruebas tienen utilidad para la atención del paciente, ya que ayudan a: 1) valorar la gravedad del
padecimiento; 2) precisar el pronóstico; 3) vigilar la evolución de la enfermedad (progresión, estabilidad o
resolución); 4) detectar la recurrencia de la anomalía, y 5) seleccionar fármacos y adecuar el tratamiento.
Al solicitar los estudios, el clínico debe comparar los beneficios potenciales respecto de los costos potenciales
y los efectos secundarios. Algunos de estos procedimientos conllevan riesgo de morbilidad o mortalidad,
como la angiografía cerebral, que ocasiona apoplejía en 0.5% de los casos. Las molestias vinculadas con las
pruebas, como la colonoscopia, disuaden a algunos pacientes de completar el estudio diagnóstico. Es posible
que el resultado de una prueba diagnóstica obligue a solicitar estudios adicionales o seguimientos frecuentes;
por ejemplo, un sujeto con resultado positivo en la prueba de sangre oculta en heces debe enfrentar el costo
significativo, la molestia y el riesgo de la colonoscopia de seguimiento.
Además, el resultado falso positivo en una prueba puede propiciar un diagnóstico incorrecto o pruebas
adicionales innecesarias. Considerar a un individuo sano como enfermo a partir de una prueba diagnóstica
con resultado falso positivo puede ocasionar estrés psicológico y exposición a riesgos innecesarios o
tratamientos inapropiados. Una prueba diagnóstica o de detección puede revelar un trastorno que no se
hubiera identificado de otra manera y no habría ocasionado molestias a la persona. Un ejemplo es el
descubrimiento de un cáncer prostático de grado bajo en etapa temprana mediante antígeno prostático
específico en un varón de 84 años con insuficiencia cardiaca congestiva grave diagnosticada; en este caso, lo
más probable es que el individuo no muestre síntomas ni requiera tratamiento para el tumor en lo que le
resta de vida.
Asimismo, es importante conocer y tomar en consideración los costos de las pruebas diagnósticas. Algunas
veces éstos son muy elevados o poco rentables. Incluso los estudios relativamente baratos pueden ser poco
rentables cuando suministran escasos beneficios clínicos.
Dos factores repercuten de manera negativa sobre la rentabilidad de los estudios diagnósticos: 1) las pruebas
paralelas o perfiles (p. ej., solicitar cierto número de análisis en el mismo momento para reconocer
rápidamente alguna anormalidad en cualquier estudio para establecer el diagnóstico); 2) pruebas excesivas;
esto es, utilizar varias pruebas para vigilar la misma respuesta (progresión de una enfermedad o la respuesta
al tratamiento), solicitar estudios con más frecuencia de la necesaria o indicar estudios sólo para documentar
el expediente. La pregunta pertinente al solicitar un análisis es: “¿el resultado del análisis repercutirá en el
tratamiento del paciente?” Si la respuesta es negativa, no se justifica el análisis. Los análisis innecesarios
generan trabajo, reactivos, costos de equipo y provocan un gasto sanitario mayor.
La disponibilidad de pruebas genéticas y moleculares es cada vez mayor, pero es preciso examinar con
cuidado su rentabilidad y beneficios para la salud. La prueba genética diagnóstica basada en síntomas (p. ej.,
la prueba para el cromosoma X frágil en un niño con retraso mental) difiere de otras pruebas genéticas
predictivas (p. ej., valoración de una persona sana con antecedente familiar de enfermedad de Huntington) y
de pruebas genéticas de predisposición, las cuales indican la sensibilidad relativa a ciertos trastornos (p. ej.,
prueba de BRCA-1 o HER-2 para el cáncer mamario). Todavía no se confirman los beneficios de muchas
pruebas farmacogenéticas nuevas en estudios clínicos prospectivos; por ejemplo, aún no hay evidencia
suficiente de que las pruebas genotípicas para establecer la dosis de warfarina conduzcan a resultados
superiores al uso de los algoritmos convencionales para la dosificación, en términos de la reducción del
intervalo de acuerdo al Índice Normalizado Internacional. Otras pruebas (p. ej., búsqueda de causas de
trombofilia, como factor V de Leiden, mutación en la protrombina, etc.) sólo tienen valor limitado en el
tratamiento de los pacientes, ya que el saber que un sujeto tiene una trombofilia hereditaria casi nunca
cambia la intensidad ni la duración del tratamiento anticoagulante. Las pruebas de portador (p. ej., fibrosis
quística) y los estudios fetales prenatales (p. ej., identificación del síndrome de Down) a menudo requieren
asesoría para los pacientes para que comprendan las consecuencias clínicas, sociales, éticas y, en ocasiones,
legales de los resultados.
Los médicos solicitan e interpretan numerosos análisis todos los días y la complejidad de estas pruebas no ha
dejado de aumentar. La creciente variedad de análisis ha creado una serie de retos para los médicos, por
ejemplo, seleccionar el análisis correcto e interpretarlo con propiedad. Muchas veces los médicos se
equivocan al seleccionar o interpretar el estudio, pero esto es difícil de detectar. Sin embargo, el uso de
algunos algoritmos diagnósticos basados en evidencia que guían la selección de los estudios en determinadas
enfermedades y permiten que un experto interprete el resultado (p. ej., interpretaciones y comentarios a la
interpretación por parte de un patólogo clínico) ayuda a reducir estos errores, mejorar la oportunidad y
precisión del diagnóstico.
Bailey DB et al. Ethical, legal, and social concerns about expanded newborn screening: Fragile X syndrome
as a prototype for emerging issues. Pediatrics. 2008 Mar; 121(3):e693–704. [PMID: 18310190]
Elder NC et al. Quality and safety in outpatient laboratory testing. Clin Lab Med. 2008 Jun;28(2):295–303.
[PMID: 18436072]
Flockhart DA et al. Pharmacogenetic testing of CYP2C9 and VKORC1 alleles for warfarin. Genet Med. 2008
Feb;10(2):139–50. [PMID: 18281922]
Lamberts SW et al. Genetic testing in clinical practice. Annu Rev Med. 2009;60:431–42. [PMID: 18947300]
Laposata M et al. “Pre-pre” and “Post-post” analytical error: high-incidence patient safety hazard involving
the clinical laboratory. Clin Chem Lab Med. 2007;45(6):712–19. [PMID: 17579522]
Nelson HD et al. Screening for breast cancer: an update for the U.S. Preventive Services Task Force. Ann
Intern Med. 2009 Nov;151(10):727–37. [PMID: 19920273]
Twombly R. Preventive Services Task Force recommends against PSA screening after age 75. J Natl Cancer
Inst. 2008 Nov;100(22):1571–3. [PMID: 19001606]
Van Den Bruel A et al. The evaluation of diagnostic tests: evidence on technical and diagnostic accuracy,
impact on patient outcome and cost-effectiveness is needed. J Clin Epidemiol. 2007 Nov;60(11):1116–22.
[PMID: 17938052]
PRUEBAS DIAGNÓSTICAS
Preparación de la prueba
Los factores que afectan al paciente y la muestra son importantes. El elemento determinante en una prueba
de laboratorio bien realizada es la obtención de una muestra apropiada.
Recolección de la muestra
Es importante conceder especial atención a la identificación del paciente y rotulación de la muestra (p. ej.,
deben utilizarse dos rótulos: nombre y fecha de nacimiento del individuo o nombre y clave única de la
institución). Algunas veces es importante conocer el momento en que se tomó la muestra. Por ejemplo, para
interpretar de manera correcta las cifras de aminoglucósidos es preciso saber si la muestra se tomó justo
antes (concentración “farmacológica mínima”) o después (concentración “farmacológica máxima”) de
administrar el medicamento. Las concentraciones farmacológicas no pueden interpretarse si la muestra se
obtiene durante la fase de distribución del compuesto (p. ej., los niveles de digoxina cuantificados en las 6 h
siguientes a una dosis oral). La interpretación de sustancias que tienen variación circadiana (p. ej., cortisol)
sólo puede efectuarse en el contexto de la hora del día en que se recogió la muestra.
Deben recordarse asimismo otros principios durante la recolección de muestras. Éstas no deben obtenerse
por arriba del catéter, puesto que se contaminan con líquidos intravenosos y fármacos (p. ej., heparina).
La permanencia de un torniquete por un tiempo excesivo produce hemoconcentración e incrementa la
concentración de sustancias unidas a proteínas, como el calcio. La lisis celular durante la recolección de una
muestra sanguínea produce valores séricos altos falsos de sustancias concentradas en las células (p. ej.,
deshidrogenasa láctica y potasio). Algunas muestras necesitan una manipulación o almacenamiento
especiales (p. ej., muestras para gases arteriales y crioglobulina sérica). El retraso en la entrega de muestras
al laboratorio da lugar a que el metabolismo celular prosiga, lo que produce resultados falsos en algunos
estudios (p. ej., glucosa sérica baja).
Lippi G et al. Haemolysis: an overview of the leading cause of unsuitable specimens in clinical laboratories.
Clin Chem Lab Med. 2008;46(6):764–72. [PMID: 18601596]
Wagar EA et al. Specimen labeling errors: a Q-probes analysis of 147 clinical laboratories. Arch Pathol Lab
Med. 2008 Oct;132(10):1617–22. [PMID: 18834220]
CARACTERÍSTICAS DE LAS PRUEBAS
En el cuadro e2-2 se presentan las características generales de las pruebas diagnósticas útiles. La mayor
parte de los principios detallados a continuación se aplica no sólo a las pruebas de laboratorio y radiográficas,
sino también a elementos del interrogatorio y la exploración física. Para el médico es muy útil conocer estas
características al solicitar e interpretar los estudios.
Exactitud
La precisión de un análisis es su correspondencia con el valor verdadero. Una prueba inexacta es aquella en
la que el resultado difiere del valor verdadero, aunque los resultados sean reproducibles (fig. e2-1A), también
se llama error sistémico (o sesgo). Por ejemplo, la creatinina sérica se mide por lo general mediante el
método cinético de Jaffe, que tiene un error sistémico hasta de 0.23 mg/100 ml, en comparación con la
espectrometría de masa con dilución de isótopos y cromatografía de gases (GC-IDMS), que se considera la
prueba de referencia. En el laboratorio, la exactitud de los análisis se incrementa tras calibrar el equipo con
material de referencia y participar en programas externos de control de calidad.
A B C
Fig. e2-1. Relación entre la exactitud y la precisión de las pruebas diagnósticas. El centro del blanco
representa el valor verdadero de la sustancia de prueba. A: prueba diagnóstica precisa, pero inexacta; con la
medición repetida, la prueba produce resultados muy similares, pero todos están lejos del valor real.
B: prueba imprecisa e inexacta; la medición repetida suministra resultados muy diferentes y éstos están lejos
del valor real. C: una prueba ideal es precisa y exacta.
Precisión
La precisión es una medida de la reproducibilidad de una prueba cuando se repite en la misma muestra. Si
ésta se analiza varias veces, se anticipa cierta variación en los resultados (error aleatorio); esta variabilidad
se expresa como coeficientes de variación (CV: desviación estándar dividida entre la media, que a menudo se
expresa como porcentaje). Por ejemplo, cuando el laboratorio informa un CV de 5% para la creatinina sérica
y acepta resultados dentro de ± 2 desviaciones estándar significa que, para una muestra con una creatinina
individuos valorados
Número de
Promedio
Anormal Normal Anormal
(2.5%) (95%) (2.5%)
Resultados de la prueba
(porcentaje de población)
Fig. e2-2. El intervalo de referencia suele definirse como el delimitado por dos desviaciones estándar del
resultado promedio de la prueba (se muestra como –2 y 2) en una pequeña población de voluntarios sanos.
Obsérvese que en este ejemplo los resultados de la prueba tienen una distribución normal, pero muchas
sustancias biológicas poseen distribuciones sesgadas.
sérica de 1.0 mg/100 ml, el laboratorio podría informar resultado de 0.90 a 1.10 mg/100 ml al medir en
diversas ocasiones la misma muestra.
Una prueba poco precisa es aquella que genera resultados muy variables en mediciones repetidas
(fig. e2-1B). La precisión de los estudios diagnósticos, que se vigila en los laboratorios clínicos con material
testigo, debe ser suficiente para distinguir entre los cambios de relevancia clínica en el estado del paciente y
la variabilidad analítica (imprecisión) de la prueba. Por ejemplo, la cuenta diferencial manual de leucocitos
periféricos no es lo bastante precisa para identificar cambios relevantes en la distribución de los tipos
celulares, puesto que se calcula por medio de la valoración subjetiva de una pequeña muestra (100 células).
Las mediciones repetidas en la misma muestra por parte de distintos técnicos arrojan resultados muy
diferentes. Los recuentos diferenciales automáticos son más precisos porque se obtienen con aparatos que
utilizan características físicas objetivas para clasificar una muestra mucho mayor (10 000 células).
Intervalo de referencia
Los resultados de algunas pruebas diagnósticas se presentan como positivos o negativos, pero muchos se
informan de manera cuantitativa. El uso de intervalos de referencia es una técnica para interpretar estos
últimos resultados. Los intervalos de referencia son específicos para cada método y laboratorio. En la
práctica, muchas veces representan los resultados de la prueba encontrados en 95% de una pequeña
población que se presupone sana; por definición, 5% de los pacientes sanos tiene resultados anormales
en la prueba (fig. e2-2). Los resultados ligeramente anormales deben interpretarse en forma crítica, ya que
pueden ser anormales verdaderos o falsos. En términos estadísticos, la probabilidad de que una persona sana
tenga dos resultados distintos de una prueba dentro del intervalo de referencia es de 0.95 × 0.95 = 0.9025 o
90.25%; para cinco pruebas es de 77.4%; para 10 pruebas de 59.9% y para 20 pruebas de 35.8%. Cuanto
mayor sea el número de estudios solicitados, mayor será la probabilidad de que uno o más de los resultados
se encuentren por fuera del intervalo de referencia (cuadro e2-3). Por el contrario, es factible que valores
Cuadro e2-3. Relación entre el número de pruebas y la probabilidad de que una persona sana
tenga uno o más resultados anormales
1 5%
6 26%
12 46%
20 64%
Factores de interferencia
Los resultados de las pruebas diagnósticas pueden alterarse por factores externos, como ingestión de
fármacos, e internos, como estados fisiológicos anormales. Estos factores contribuyen a la variabilidad
biológica y deben tomarse en consideración al interpretar los resultados.
Las interferencias externas influyen en los resultados de las pruebas in vivo o in vitro. In vivo, el alcohol
incrementa la concentración de transpeptidasa de glutamilo γ, y los diuréticos modifican las concentraciones
de sodio y potasio. El tabaquismo induce enzimas hepáticas, lo que reduce los niveles de sustancias como la
teofilina, que se metabolizan en el hígado. In vitro, las cefalosporinas pueden suscitar niveles falsos de
creatinina sérica por la interferencia con el método de análisis habitual de los laboratorios.
Las interferencias internas derivan de estados fisiológicos anormales que influyen en la medición. Por
ejemplo, en sujetos con lipemia notable puede obtenerse un resultado bajo falso de sodio sérico, si la
metodología de la prueba incluye un paso en que se diluya el suero antes de medir el sodio, y en personas
con anticuerpos endógenos (p. ej., anticuerpos humanos anti-ratón) es posible obtener resultados falsos,
elevados o bajos, en inmunoensayos automáticos. En virtud de la posibilidad de interferencia con la prueba,
los médicos deben ser cautos ante los resultados inesperados e investigar razones distintas a la enfermedad
que expliquen los resultados anormales, incluidos los errores del laboratorio previos y durante la prueba.
Ismail AA. Interference from endogenous antibodies in automated immunoassays: what laboratorians need
to know. J Clin Pathol. 2009 Aug;62(8):673–8. [PMID: 19638536]
Smellie WS. What is a significant difference between sequential laboratory results? J Clin Pathol. 2008
Apr;61(4):419–25. [PMID: 17938161]
Sensibilidad y especificidad
Los clínicos deben usar mediciones del desempeño de las pruebas, como su sensibilidad y especificidad, con
el propósito de juzgar la calidad de un método diagnóstico para una enfermedad específica.
La sensibilidad de una prueba es su capacidad para detectar la enfermedad y se expresa como el
porcentaje de pacientes con la afección en que la prueba es positiva. En consecuencia, una prueba con 90%
de sensibilidad proporciona resultados positivos en el mismo porcentaje de pacientes enfermos y resultados
negativos en 10% de los sujetos con la enfermedad (falsos negativos). Por lo general, una prueba con alta
sensibilidad ayuda a descartar un diagnóstico, dado que arroja pocos resultados negativos falsos. Por
ejemplo, para descartar infección por el virus que causa el sida, un médico podría elegir un estudio muy
sensible, como el de anticuerpo contra el virus de inmunodeficiencia humana (VIH).
La especificidad de una prueba es su capacidad para detectar ausencia de enfermedad, y se expresa como
el porcentaje de pacientes sin la enfermedad en que la prueba es negativa. Por consiguiente, una prueba con
90% de especificidad suministra resultados negativos en el mismo porcentaje de sujetos sin enfermedad y
resultados positivos en 10% de individuos no enfermos (falsos positivos). Una prueba con alta especificidad
contribuye a confirmar el diagnóstico, ya que tiene pocos resultados positivos falsos. Por ejemplo, para
establecer el diagnóstico de artritis gotosa, un médico puede elegir una prueba muy específica, como la
presencia de cristales en forma de aguja con birrefringencia negativa dentro de los leucocitos en el estudio
microscópico del líquido sinovial.
Para determinar la sensibilidad y especificidad de una prueba para una enfermedad particular, la técnica debe
compararse con una “prueba de referencia” independiente o criterio diagnóstico estándar establecido que
defina el estado real de afectación del individuo. Por ejemplo, la sensibilidad y especificidad de la prueba de
detección rápida de antígenos para diagnosticar faringitis por el estreptococo hemolítico β del grupo A se
obtienen mediante la comparación de sus resultados con los de la prueba de referencia para este trastorno,
que es el cultivo de exudado faríngeo. La aplicación de la prueba de referencia a los pacientes con prueba
positiva para la demostración rápida de antígenos establece la especificidad. Cuando no se aplica esta prueba
después de la detección rápida negativa, puede haber sobrestimación de la sensibilidad, ya que no se
identifican los falsos negativos. Sin embargo, en muchas enfermedades (p. ej., pancreatitis) no hay prueba
de referencia o su aplicación es muy difícil o costosa; en tales casos es difícil obtener estimaciones
confiables de la sensibilidad y especificidad de la misma.
La población de la cual derivan los valores también puede afectar la sensibilidad y la especificidad; en
consecuencia, muchos procedimientos diagnósticos se valoran primero en personas con la forma grave de la
enfermedad y en grupos testigo jóvenes y sanos. En comparación con la población general, este grupo de
estudio presenta más resultados positivos verdaderos (porque los individuos sufren enfermedad más
avanzada) y más resultados negativos reales (porque el grupo testigo es sano); por lo tanto, la sensibilidad y
la especificidad de la prueba son más altas de lo que se espera en la población general, dado que en ésta hay
un espectro más amplio de salud y enfermedad. Los médicos deben estar conscientes de este sesgo de
espectro al extrapolar los resultados publicados de las pruebas a su práctica particular. A fin de minimizar el
sesgo de espectro, el grupo testigo debe incluir personas que tienen enfermedades relacionadas con la que
se estudia, pero que carezcan de este padecimiento principal. Por ejemplo, para establecer la sensibilidad y
especificidad de la prueba del péptido citrulinado anticíclico (CCP) en la artritis reumatoide, el grupo testigo
debe incluir pacientes con enfermedades reumáticas distintas a la artritis reumatoide. Otros sesgos, entre
ellos la composición del espectro, el reclutamiento de población y el estándar de referencia inexistente o
inadecuado, así como el sesgo de verificación, se explican en las referencias.
Es importante recordar que la sensibilidad y la especificidad informadas de la prueba dependen del nivel del
compuesto analizado (umbral) utilizado para distinguir un resultado normal de otro anormal. Si se reduce el
umbral, la sensibilidad aumenta a expensas de una menor especificidad; si se incrementa, la sensibilidad
disminuye al tiempo que aumenta la especificidad (fig. e2-3).
Sin
individuos valorados
enfermedad Enfermedad
Número de
A B C
Resultados de la prueba
Fig. e2-3. Distribución hipotética de resultados en pruebas para individuos sanos y enfermos. La posición del
“punto límite” entre los resultados “normal” y “anormal” (o “negativo” y “positivo”) determina la sensibilidad
y la especificidad de la prueba. Si A es el punto límite, la prueba tendría sensibilidad de 100%, pero
especificidad baja. Si el punto límite es C, la prueba tendría una especificidad de 100%, pero sensibilidad
baja. En muchas pruebas, el punto límite se determina por el intervalo de referencia, es decir, el intervalo de
resultados que esté a menos de dos desviaciones estándar del resultado promedio para individuos sanos
(punto B). En algunas situaciones, el límite se altera para incrementar la sensibilidad o especificidad.
La figura e2-4 muestra la forma en que pueden calcularse la sensibilidad y la especificidad con los resultados
de la prueba en pacientes clasificados en forma previa como enfermos o no enfermos, con base en la
prueba de referencia.
Puede compararse el desempeño de dos pruebas diferentes mediante la diagramación de las curvas de
característica del operador (ROC) en diversos valores límite de los intervalos de referencia. Las curvas
resultantes, que se obtienen al diagramar la sensibilidad contra (1-especificidad) para cada prueba, muestran
a menudo cuál es la mejor técnica; la curva ROC de la prueba superior queda siempre arriba y a la izquierda
de la curva de una prueba inferior. En general, mientras mejor sea la técnica, mayor será el área bajo la
curva ROC. Por ejemplo, la ilustración de la figura e2-5 muestra las curvas ROC para el antígeno prostático
específico (PSA) y la fosfatasa ácida prostática (PAP) en el diagnóstico del cáncer prostático. La prueba de
PSA es superior porque tiene mayor sensibilidad y especificidad para todos los valores límite.
Enfermedad
Presente Ausente
Prueba
FP = (1 – Especificidad)(1 – Probabilidad anterior a la prueba)
FN = (1 – Sensibilidad)(Probabilidad anterior a la prueba)
TN = (Especificidad)(1 – Probabilidad anterior a la prueba)
Negativa FN TN
Probabilidad posterior TP
a la prueba después = Probabilidad de enfermedad si la prueba es positiva =
de prueba positiva TP + FP
Fig. e2-4. Cálculo de sensibilidad, especificidad y probabilidad de enfermedad después de una prueba
positiva (probabilidad posterior a la prueba). TP, positivo verdadero; FP, positivo falso; FN, negativo falso;
TN, negativo verdadero.
1
1
.9 2
4
0.2
.8
6
.7
Sensibilidad
.6 10 0.3
.5
0.4
PSA μg/L
.4 20
.3 PAP U/L
0.6
0.8
.2
1.2
.1
0 .1 .2 .3 .4 .5 .6 .7 .8
1 – Especificidad
Fig. e2-5. Curvas de eficacia diagnóstica (ROC) para el antígeno prostático específico (PSA) y la fosfatasa
ácida prostática (PAP) en el diagnóstico de cáncer prostático. Para todos los valores límite, el PSA tiene
mayor sensibilidad y especificidad; por lo tanto, es una mejor prueba con base en estas características de
eficacia. (Modificada y reproducida con autorización de Nicoll D et al. Routine acid phosphatase testing for
screening and monitoring prostate cancer no longer justified. Clin Chem. 1993 Dec; 39(12):2540-1.)
Es importante señalar que, para un análisis determinado, la curva ROC también hace posible identificar el
umbral que reduce al mínimo los resultados falsos positivos y falsos negativos y que se ubica en el punto
más cercano a la esquina superior izquierda de la curva. Sin embargo, el valor umbral clínico óptimo depende
de la anomalía a identificar y la importancia relativa de los resultados falsos positivos respecto de los falsos
negativos.
Bossuyt X. Clinical performance characteristics of a laboratory test. A practical approach in the autoimmune
laboratory. Autoimmun Rev. 2009 Jun;8(7):543–8. [PMID: 19200856]
Christenson RH et al. Committee on Evidence Based Laboratory Medicine of the International Federation for
Clinical Chemistry Laboratory Medicine. Evidence-based laboratory medicine - a guide for critical evaluation
of in vitro laboratory testing. Ann Clin Biochem. 2007 Mar:44(Pt 2):111–30. [PMID: 17362577]
Hicks DG et al. HER2+ breast cancer: review of biologic relevance and optimal use of diagnostic tools. Am J
Clin Pathol. 2008 Feb; 129(2):263–73. [PMID: 18208807]
0.01 0.08
0.50 0.90
0.99 0.999
A manera de ejemplo, un médico desea calcular la probabilidad posterior a la prueba de cáncer prostático
mediante la cuantificación de PSA y un valor límite de 4 μg/L. A partir de los datos mostrados en la figura
e2-5, la sensibilidad es de 90% y la especificidad de 60%. El médico determina la probabilidad anterior a la
prueba de la enfermedad con base en toda la evidencia y luego calcula la probabilidad posterior a la prueba
mediante el procedimiento que se muestra en la figura e2-4. La probabilidad anterior a la prueba de que un
varón de 50 años de edad, por lo demás sano, tenga cáncer prostático, es igual a la prevalencia del cáncer
prostático en ese grupo de edad (probabilidad = 10%), y la probabilidad posterior a la prueba después de un
resultado positivo es sólo de 20%; esto significa que, aunque la prueba sea positiva, todavía hay una
probabilidad de 80% de que el sujeto no tenga cáncer prostático (fig. e2-6A). Si el médico encuentra un
nódulo prostático durante la exploración rectal, la probabilidad anterior a la prueba de cáncer prostático
se incrementa 50% y la probabilidad posterior a la prueba con la misma prueba es de 69% (fig. e2-6B).
Por último, si el médico prevé que la probabilidad anterior a la prueba es de 98% con base en un nódulo
prostático, dolor óseo y lesiones líticas en las radiografías de columna, la probabilidad posterior a la prueba
con PSA es de 99% (fig. e2-6C). Este ejemplo ilustra que la probabilidad anterior a la prueba tiene un efecto
profundo en la probabilidad posterior a la prueba y que las pruebas suministran más información cuando
el diagnóstico es muy incierto (probabilidad anterior a la prueba cercana a 50%) en comparación con un
diagnóstico improbable o casi seguro.
Bossuyt X. Clinical performance characteristics of a laboratory test. A practical approach in the autoimmune
laboratory. Autoimmun Rev. 2009 Jun;8(7):543–8. [PMID: 19200856]
A Probabilidad
anterior a la
prueba
Probabilidad
posterior a la
prueba
Prueba
positiva
0 .1 .2 .5 1
Probabilidad de enfermedad
Probabilidad Probabilidad
anterior a la posterior a la
B prueba prueba
Prueba
positiva
0 .5 .69 1
Probabilidad de enfermedad
Probabilidad Probabilidad
anterior a la posterior a la
prueba prueba
0 .5 .98 1
Probabilidad de enfermedad .99
Hargett CW et al. Clinical probability and D-dimer testing: how should we use them in clinical practice.
Semin Respir Crit Care Med. 2008 Feb;29(1):15–24. [PMID: 18302083]
Scott IA et al. Cautionary tales in the clinical interpretation of studies of diagnostic tests. Intern Med J. 2008
Feb;38(2):120–9. [PMID: 17645501]
Van Randen A et al. Acute appendicitis: meta-analysis of diagnostic performance of CT and graded compres-
sion US related to prevalence of disease. Radiology. 2008 Oct;249(1):97–106. [PMID: 18682583]
PROBABILIDAD DE MOMIOS
Otra forma de calcular la probabilidad de enfermedad posterior a la prueba consiste en recurrir a la
probabilidad de momios. Se combinan la sensibilidad y la especificidad en una entidad llamada índice
de probabilidad (LR):
Cuando los resultados se dividen en dos, toda prueba tiene dos índices de probabilidad, uno correspondiente
a un resultado positivo (LR+) y otro a uno negativo (LR–):
Probabilidad de que la prueba sea positiva en personas enfermas
LR+ =
Probabilidad de que la prueba sea positiva en personas no enfermas
Sensibilidad
=
1 – Especificidad
1 – Sensibilidad
=
Especificidad
Para las mediciones continuas pueden definirse múltiples índices de probabilidad que correspondan a los
intervalos de resultados. (Véase un ejemplo en el cuadro e2-5.)
≥100 0.08
45-99 0.54
35-44 1.83
25-34 2.54
15-24 8.83
≤15 51.85
Datos tomados de Guyatt G et al. Laboratory diagnosis of iron deficiency anemia. J Gen Intern Med. 1992
Mar-Apr;7(2):145-53.
Copyright © The McGraw-Hill Companies. Derechos reservados.
Nota de privacidad. Cualquier uso está sujeto a los Términos de Uso y Aviso.
Los índices de probabilidad pueden calcularse con las fórmulas previas. También pueden encontrarse en
algunos libros de texto, artículos de revistas y programas en línea (véase el cuadro e2-6, que incluye valores
de muestra). Los índices de probabilidad proporcionan una estimación sobre si habrá un cambio significativo
en la probabilidad previa a la prueba o en la posterior a la prueba de una enfermedad con base en el
.1 99
.2
.5 95
1 1000 90
500
2 200 80
100
50 70
5
20 60
10 50
10
Fig. e2-7. Nomograma para establecer la probabilidad posterior a la 5 40
prueba a partir de la probabilidad anterior a la prueba y los índices de 2 30
20
probabilidad. Para cuantificar la probabilidad posterior a la prueba se % 1 %
coloca una línea recta entre la probabilidad anterior y el índice de 30 .5
20
probabilidad para la prueba específica. La probabilidad posterior es el 40 .2
punto en que la línea recta cruza esta última. (Adaptada y 10
50 .1
reproducida con autorización de Fagan TJ. Nomogram for Bayes
60 .05
theorem. [Letter.] N Engl J Med. 1975 Jul 31;293(5):257.) 5
70 .02
.01
80 .005 2
.002
90 .001 1
95 .5
.2
99 .1
Probabilidad Índice de Probabilidad
anterior a la probabilidad posterior a la
prueba prueba
Una manera más formal de calcular la probabilidad posterior a la prueba consiste en usar el índice de
probabilidad como sigue:
Para utilizar esta fórmula, las probabilidades deben convertirse en momios; en tal caso, los momios que
presentan una enfermedad se expresan como la probabilidad de tener la enfermedad dividida entre la
probabilidad de no tenerla. Por ejemplo, una probabilidad de 0.75 es lo mismo que momios de 3:1 (fig.
e2-8).
Para calcular el beneficio potencial de una prueba diagnóstica, el médico cuantifica primero los momios de la
enfermedad anteriores a la prueba, a partir de toda la información clínica disponible, y a continuación
multiplica los momios antes de la prueba por los índices positivo y negativo de probabilidad. Los resultados
son los momios posteriores a la prueba, o los momios de que el paciente tenga la enfermedad si la
prueba es positiva o negativa. Para obtener la probabilidad posterior a la prueba, los momios se convierten
en una probabilidad (fig. e2-8).
Probabilidad
Momios =
1 – Probabilidad
0.75 0.75 3
Momios = = = = 3:1
1 – 0.75 0.25 1
Momios
Probabilidad =
Momios + 1
3/1 3
Probabilidad = = = 0.75
(3/1) + 1 3+1
Por ejemplo, si el clínico cree que el enfermo tiene una probabilidad de 60% de haber sufrido un infarto
miocárdico (momios antes de la prueba, 3:2), y la prueba de troponina I es positiva (LR+ = 24), los momios
posteriores a la prueba de que exista un infarto miocárdico son los siguientes:
3 72
× 24 = o 36:1 momios
2 2
(36/1)
36/1
+1
=
36
37
= 97% de probabilidad
Si la prueba de troponina I es negativa (LR– = 0.01), los momios posteriores a la prueba de que exista un
infarto miocárdico son los siguientes:
3 0.03
× 0.01 = momios
2 2
(0.03/2)
0.03/2
+1
=
0.015
0.015 + 1
= 1.5% de probabilidad
Pruebas en secuencia
Hasta el momento se ha descrito el efecto de una sola prueba en la probabilidad de enfermedad; sin
embargo, en la mayor parte de los estudios diagnósticos, los médicos obtienen información clínica de manera
secuencial. Por ejemplo, para calcular los momios posteriores a la prueba después de tres pruebas, el médico
podría cuantificar los momios anteriores a la prueba y usar el índice de probabilidad adecuado para cada
prueba:
Sin embargo, cuando se utiliza este método, el clínico debe estar consciente de una presuposición
importante: las pruebas o hallazgos elegidos deben ser condicionalmente independientes. Por ejemplo,
cuando hay daño celular hepático, las enzimas aminotransferasa de aspartato (AST) y aminotransferasa de
alanina (ALT) se liberan por el mismo proceso, razón por la cual no son condicionalmente independientes. Si
se usan pruebas condicionalmente dependientes de este método secuencial, se obtiene una probabilidad
posterior a la prueba inexacta.
Bossuyt X. Clinical performance characteristics of a laboratory test. A practical approach in the autoimmune
laboratory. Autoimmun Rev. 2009 Jun;8(7):543–8. [PMID: 19200856]
Christenson RH et al. Committee on Evidence Based Laboratory Medicine of the International Federation for
Clinical Chemistry Laboratory Medicine. Evidence-based laboratory medicine – a guide for critical evaluation
of in vitro laboratory testing. Ann Clin Biochem. 2007 Mar;44(Pt 2):111–30. [PMID: 17362577]
Elamin MB et al. Accuracy of diagnostic tests for Cushing’s syndrome: a systemic review and meta-analysis.
J Clin Endocrinol Metab. 2008 May;93(5):1553–62. [PMID: 18334594]
Petersen PH et al. ‘Likelihood-ratio’ and ‘odds’ applied to monitoring of patients as a supplement to ‘refe-
rence change value’ (RCV). Clin Chem Lab Med. 2008;46(2):157–64. [PMID: 18076354]
No C
trat
ar Tratar
Utilidad
D
Umbral de
tratamiento
Fig. e2-9. Umbral de “tratar/no tratar”. A: el paciente no tiene la enfermedad y no recibe tratamiento (la
mayor utilidad). B: el paciente no tiene la enfermedad y recibe tratamiento (menor utilidad que A). C: el
paciente tiene la enfermedad y recibe tratamiento (menor utilidad que A). D: el paciente tiene la enfermedad
y no recibe tratamiento (menor utilidad que C).
El uso de una prueba diagnóstica está indicado cuando su resultado podría modificar la probabilidad de
enfermedad en el umbral de tratamiento. Por ejemplo, un médico podría optar por la antibioticoterapia si la
probabilidad de faringitis estreptocócica en un sujeto con irritación faríngea es mayor de 25% (fig. e2-10A).
Si después de revisar los datos del interrogatorio y la exploración física, el médico considera que la
probabilidad anterior a la prueba de faringitis estreptocócica es de 15%, una prueba diagnóstica como el
cultivo faríngeo (LR+ = 7) sólo sería útil si el resultado positivo incrementara la probabilidad posterior a la
prueba a más de 25%. El empleo del nomograma mostrado en la figura e2-7 indica que la probabilidad
posterior a la prueba sería de 55% (fig. e2-10B); por lo tanto, estaría justificado solicitar la prueba, ya que
afectaría el tratamiento del paciente. Por otro lado, si el interrogatorio y la exploración física señalan que la
probabilidad anterior a la prueba de faringitis estreptocócica es de 60%, el cultivo faríngeo (LR– = 0.33) sólo
estaría indicado si un resultado negativo redujera la probabilidad posterior a la prueba a menos de 25%. Si
se emplea el mismo nomograma, la probabilidad posterior a la prueba después de un resultado negativo
sería de 33% (fig. e2-10C). En consecuencia, no estaría justificado realizar un cultivo faríngeo, ya que no
influye en el tratamiento. Este método para tomar decisiones se aplica en la bibliografía clínica.
Análisis de decisiones
Hasta este punto, el análisis de las pruebas diagnósticas se ha enfocado en las características de la prueba y
los métodos para usarlas en el cálculo de probabilidad de enfermedad para distintas situaciones clínicas.
A Umbral tratar/
no tratar
No tratar Tratar
0 .5 1
Probabilidad de enfermedad
Probabilidad
anterior a la Probabilidad
B
prueba posterior a la
prueba
Prueba
positiva
No tratar Tratar
Prueba
positiva
No tratar Tratar
0 .5 1
Probabilidad de enfermedad
Aunque son útiles, estos métodos son limitados porque no incorporan los múltiples resultados que pueden
ocurrir en la clínica ni los valores que los individuos y médicos dan a tales resultados. Para incorporar los
resultados y los valores a las características de las pruebas puede emplearse el análisis de decisiones.
El análisis de decisiones es una evaluación cuantitativa de los resultados que se obtiene de un conjunto de
alternativas en una situación clínica determinada. Aunque se usa pocas veces en la práctica clínica habitual,
la estrategia de análisis de decisiones ayuda a responder interrogantes sobre las decisiones clínicas que no
tienen respuesta directa en la bibliografía.
La idea esencial del análisis de decisiones consiste en modelar las opciones de una decisión médica, conceder
probabilidades a las acciones alternativas, asignar valores (utilidades) (p. ej., tasas de supervivencia, años de
vida ajustados por calidad o costos) a los diversos resultados y luego precisar qué decisión aporta el mayor
valor esperado (utilidad esperada). Para completar un análisis de decisión, el médico podría actuar de la
siguiente manera: 1) trazar un árbol de decisiones que muestre los elementos de la decisión médica; 2)
asignar probabilidades a las diversas ramas; 3) asignar valores (utilidades) a los resultados; 4) establecer el
valor esperado (utilidad esperada) (el producto de probabilidad y el valor [utilidad]) de cada rama, y 5)
tomar la decisión con el mayor valor esperado (utilidad esperada). Los resultados obtenidos de un análisis
de decisión dependen de la exactitud de los datos empleados en el cálculo de las probabilidades y los
valores de los resultados.
La figura e2-11 muestra un árbol de decisión en el que se determina si se administra tratamiento sin
pruebas, si se realiza una prueba y después se trata con base en sus resultados, o si no se solicitan pruebas
ni se prescribe tratamiento. El médico comienza el análisis con la elaboración de un árbol de decisiones que
muestre los elementos importantes de la determinación. Una vez trazado el árbol, el médico asigna
probabilidades a todas las ramas. En este caso, todas las probabilidades de rama pueden calcularse a partir
de: 1) la probabilidad de enfermedad antes de la prueba (probabilidad anterior a la prueba); 2) la
probabilidad de un resultado positivo si existe la enfermedad (sensibilidad), y 3) la probabilidad de un
resultado negativo en caso de ausencia de la enfermedad (especificidad). A continuación, el médico concede
un valor (utilidad) a cada resultado.
Resultados
Enfermedad Tratar, enfermedad +, sin prueba
Tratar
Enfermedad
No tratar, enfermedad +, sin prueba
No tratar
Fig. e2-11. Árbol genérico para tomar decisiones clínicas en el que las opciones son: 1) tratar al paciente
de manera empírica; 2) realizar la prueba y luego tratar sólo si el resultado es positivo, o 3) prescindir del
tratamiento. El nodo cuadrado se conoce como nodo de decisión y los nodos circulares se denominan nodos
de oportunidad. p, probabilidad de enfermedad antes de la prueba; Sens, sensibilidad; Spec, especificidad.
Después de calcular el valor esperado (utilidad esperada) de cada rama del árbol de decisión mediante la
multiplicación del valor (utilidad) del resultado por la probabilidad de éste, el médico puede identificar la
alternativa con el mayor valor esperado (utilidad esperada).
Aunque requiere tiempo, el análisis de decisión ayuda a estructurar los problemas clínicos complejos y tomar
decisiones clínicas difíciles. La decisión de solicitar pruebas para establecer un diagnóstico específico, instituir
directamente el tratamiento específico sin realizar pruebas o tan sólo observar al paciente sin realizar
pruebas depende de la interrelación entre: 1) la probabilidad relativa de cada uno de los diversos
diagnósticos diferenciales; 2) la gravedad y la posibilidad de tratar los diagnósticos posibles; 3) la eficacia,
los efectos secundarios (toxicidad) y la facilidad de administrar los diversos tratamientos, y 4) la posibilidad
de que los estudios diagnósticos permitan distinguir entre el paciente enfermo y el sano. Los umbrales de
probabilidad de enfermedad a los que deben o no someterse a prueba los pacientes varían con base en los
factores previos. Los análisis son más útiles en los casos con una probabilidad intermedia de que exista la
enfermedad, en los cuales es más probable que el resultado del análisis modifique las decisiones clínicas.
Braithwaite RS et al. Influence of alternative thresholds for initiating HIV treatment on quality-adjusted life
expectancy: a decision model. Ann Intern Med. 2008 Feb;148(3):178–85. [PMID: 18252681]
Lennon S et al. Utility of serum HER2 extracellular domain assessment in clinical decision making: pooled
analysis of four trials of trastuzumab in metastatic breast cancer. J Clin Oncol. 2009 Apr;27(10):1685–93.
[PMID: 19255335]
Scott IA et al. Cautionary tales in the clinical interpretation of studies of diagnostic tests. Intern Med J. 2008
Feb;38(2):120–9. [PMID: 17645501]
Medicina basada en evidencias
La medicina basada en evidencias es la atención de pacientes que utiliza la mejor evidencia disponible para
guiar las decisiones clínicas. Se basa en la identificación de evidencia con solidez metodológica, la valoración
crítica de las investigaciones; la difusión de resúmenes precisos y útiles de evidencia para informar las
decisiones médicas. Para resumir la evidencia que se difundirá pueden emplearse revisiones sistemáticas, al
igual que sinopsis de la investigación vigente basada en evidencias. Las revisiones sistemáticas utilizan a
menudo el metaanálisis, que consiste en el uso de técnicas estadísticas para combinar evidencias de
diferentes estudios, a fin de obtener un cálculo más preciso del efecto de una intervención o la exactitud de
una prueba.
Los lineamientos para la práctica clínica son afirmaciones que se desarrollan en forma sistemática, cuya
finalidad es ayudar a los médicos a tomar decisiones sobre la atención a la salud. En la actualidad se emplean
de manera extensa en la medicina los algoritmos clínicos y las normas prácticas, diseñados por diversas
asociaciones profesionales o paneles de expertos independientes. Las pruebas diagnósticas forman parte
integral de estos algoritmos y normas. Su utilidad y validez dependen de la calidad de la evidencia que
delineó las recomendaciones, su actualización constante, y su aceptación y aplicación correcta por parte de
los clínicos. Aunque algunos médicos están preocupados por el efecto de los lineamientos en la autonomía
profesional y las decisiones individuales, muchas organizaciones buscan que dichos lineamientos para la
práctica se cumplan, como una medida de calidad de la atención.
Debido a que las decisiones de tratamiento no siempre han incluido el mejor conocimiento médico y los
valores del paciente, hay interés creciente en la toma compartida de decisiones. Se trata de un proceso en el
que los médicos proporcionan información de la salud basada en evidencias a los pacientes, entran en
contacto con sus valores y colaboran con ellos para alcanzar una decisión mutua aceptable. Se ha
demostrado que en muchos casos los auxiliares para tomar decisiones (herramientas que facilitan la toma
compartida de decisiones) mejoran este proceso y sus resultados. A este respecto, la medicina basada en
evidencias se utiliza para complementar, no sustituir, el criterio médico ajustado a cada paciente.
La tecnología informática ofrece al médico datos de laboratorio, imagenología, sistemas de vigilancia
fisiológica y muchos otros recursos. Cada vez se utiliza más el apoyo informático para tomar decisiones
clínicas (CCDS) con el fin de diseñar, implementar y depurar protocolos informáticos para procesos
específicos de la atención derivados de las normas prácticas basadas en evidencias. Es importante que el
médico utilice la tecnología moderna para ofrecer atención médica estándar en su práctica.
Aleem IS et al. Clinical decision analysis: incorporating the evidence with patient preferences. Patient Prefer
Adherence. 2009 Nov 3;3:21–4. [PMID: 19936141]
O’Connor AM et al. Do patient decision aids meet effectiveness criteria of the international patient decision
aid standards collaboration? A systematic review and meta-analysis. Med Decis Making. 2007 Sep–
Oct;27(5):554–74. [PMID: 17873255]
Sucher JF et al. Computerized clinical decision support: a technology to implement and validate evidence
based guidelines. J Trauma. 2008 Feb;64(2):520–37. [PMID: 18301226]