Documentos de Académico
Documentos de Profesional
Documentos de Cultura
3ER ARTICULO
UN MANUAL SOBRE LA PRECISIÓN Y EXACTITUD DEL
EXAMEN CLÍNICO
LAS CARACTERÍSTICAS DE LA PRECISIÓN DE LAS PRUEBAS
DIAGNÓSTICAS
Volviendo nuestra atención a la Figura 1-1, podemos examinar las características de
precisión de las preguntas CAGE. Los 60 pacientes de la celda a de la figura 1-1
respondieron sí a 3 o 4 de las preguntas del CAGE y constituyen el 51%, o el 0,51, de
los 117 pacientes (a + c) con un diagnóstico positivo de dependencia o abuso de
alcohol. El término abreviado para esta proporción de 0.51, o a / (a + c), es
sensibilidad, y es una medida útil de qué tan bien una prueba de diagnóstico (ya sea
un síntoma, signo o prueba de laboratorio) detecta un trastorno diana cuando está
presente. Cuanto más cercana esté la sensibilidad al 100%, más “sensible” será el
hallazgo clínico o de laboratorio.
En la columna de la derecha están las respuestas de los pacientes para quienes el
criterio estándar descartó el diagnóstico de problemas con la bebida. Los 400
pacientes de la celda d respondieron sí a 2, solo 1 o ninguna de las preguntas de
CAGE y constituyen el 99,8%, o 0,998, de los 401 pacientes (b + d) que no tenían
dependencia o abuso de alcohol. El término abreviado para esta proporción de 0,998,
od / (b + d), es especificidad y es una medida útil de la frecuencia con la que un
síntoma, signo u otra prueba diagnóstica está ausente cuando el trastorno diana no
está presente.
Cuanto más cercana sea la especificidad al 100%, más “específico” será el hallazgo
clínico o de laboratorio. (Por supuesto, a los médicos no les interesa la sensibilidad y
la especificidad como tales, sino su efecto sobre la interpretación de los hallazgos
positivos y negativos, y llegaremos a eso en breve. La sensibilidad y la especificidad
son propiedades que deben establecerse de antemano, y es por eso que se presentan
aquí.)
Observará que la sensibilidad de las preguntas CAGE no es impresionante. El número
de "verdaderos positivos" en la celda a es casi igual al número de "falsos negativos"
en la celda c, y la sensibilidad de sólo el 51% confirma que "pasa por alto"
aproximadamente la mitad de los bebedores problemáticos. Por otro lado, la
especificidad de las preguntas CAGE es sobresaliente. El número de "verdaderos
negativos" en la celda d supera ampliamente el número de "falsos positivos" en la
celda b, y la especificidad del 99,8% confirma que casi nunca etiqueta a un paciente
como un bebedor problema cuando este trastorno está ausente.
Ahora podemos considerar las "predicciones" que hacemos sobre nuestro paciente
según las características anteriores. Debido a la alta especificidad, prácticamente
todos los pacientes de la celda a que respondieron sí a 3 o 4 de las preguntas CAGE
(a + b) tienen el trastorno objetivo, abuso o dependencia del alcohol, y el término
abreviado para esta proporción a / (a + b), que es 60/61, o 98%, es el valor predictivo
positivo o la probabilidad posprueba de tener el trastorno diana (entre pacientes con 3
o más respuestas positivas). Además, a pesar de la sensibilidad bastante poco
impresionante, la mayoría de los pacientes en las celdas cyd que respondieron sí a
ninguna, solo 1 o 2 de las preguntas CAGE estaban en la celda d y no tenían el
trastorno diana. El término abreviado para esta proporción d / (c + d), que es 400/457,
o 88%, es el valor predictivo negativo o la probabilidad posprueba de no tener el
trastorno diana entre los pacientes con 2 o menos respuestas positivas. El
complemento de este valor predictivo negativo, oc / (c + d), describe la probabilidad
posprueba de tener el trastorno entre los pacientes con 2 o menos respuestas
positivas, y algunos médicos consideran útil esta otra forma de decir lo mismo. .
La razón por la que el valor predictivo negativo parece relativamente alto, a pesar de la
baja sensibilidad, radica en el hecho de que la proporción de todos los pacientes en
este estudio que consumieron alcohol la dependencia o el abuso, (a + c) / (a + b + c +
d), o 117/518, era sólo el 23% para empezar. Es decir, 100% - 23%, o 77%, de los
pacientes no eran dependientes del alcohol antes de que se les hiciera alguna
pregunta. El término abreviado para el conocimiento previo contenido en este (a + c) /
(a + b + c + d) es prevalencia o, más útilmente, la probabilidad previa a la prueba del
trastorno objetivo (porque esta probabilidad previa a la prueba es el punto de partida
para hacer uso clínico de la prueba
características, lo colocaremos encima de las entradas de “predicciones” en figuras
posteriores).
En contraste con esta probabilidad preprueba del 23% en el artículo clínico que
describe las preguntas CAGE, en nuestro paciente, juzgamos que la probabilidad
preprueba de abuso o dependencia del alcohol era del 50%. ¿Cómo funcionarían las
preguntas CAGE en pacientes como el nuestro? Si los pacientes del estudio resumido
en la Figura 1-1 fueran como nuestro propio paciente, esperaríamos el resultado que
se muestra en la Figura 1-3.
Siempre que la “combinación” de pacientes y la gravedad de la enfermedad en el
estudio CAGE resumido en la Figura 1-1 sean similares a la combinación de pacientes
y la gravedad de la enfermedad en nuestra práctica, esperaríamos que la sensibilidad
y la especificidad permanezcan constantes, a pesar de los cambios de la estudio a la
probabilidad previa a la prueba de nuestro paciente del trastorno objetivo. Por tanto, la
sensibilidad (51%) y la especificidad (99,8%) de la Figura 1-3 son las mismas que las
de la Figura 1-1.
Sin embargo, observe que el valor predictivo negativo ha disminuido del 88% al 67%
porque los valores predictivos deben cambiar con los cambios en la prevalencia del
trastorno diana.
Una forma útil de pensar en esto es llevar a cabo este concepto de prevalencia.
Después de todo, el valor predictivo de un resultado de prueba positivo es
simplemente la prevalencia del trastorno diana entre los pacientes con resultados de
prueba positivos. De manera similar, el valor predictivo negativo es la prevalencia de
no tener el trastorno diana entre los pacientes con un resultado de prueba negativo.
No es de extrañar, entonces, que los valores predictivos deban cambiar con un cambio
en la prevalencia general del trastorno diana.
VOLVER AL PACIENTE
Su paciente admitió fácilmente que había dejado de beber, que su cónyuge y
compañeros de trabajo lo habían molestado al quejarse de su forma de beber, y que a
menudo necesitaba una "revelación" para empezar por la mañana. De acuerdo con
este breve historial médico, y dado su juicio previo (antes de tener conocimiento de
sus respuestas a cualquiera de estas preguntas) de que sus posibilidades de ser
dependiente del alcohol eran 50-50 (es decir, una probabilidad previa a la prueba del
50%), Puede seguir su respuesta a través de la Figura 1-3 y concluir que su
probabilidad de dependencia del alcohol después de la prueba es del 99,6%, o casi
tan seguro como nunca puede estar sobre cualquier diagnóstico.
Su paciente nos ayuda a plantear otro punto general: debido a que dio una respuesta
positiva a un historial diagnóstico cuya especificidad era extremadamente alta (99,8%),
usted “descartó” el trastorno objetivo. Una forma sencilla de recordar esta propiedad
de una prueba de diagnóstico poderosa es el acrónimo SpPin: cuando la especificidad
es extremadamente alta, un resultado positivo de la prueba rige en el trastorno diana.
¿Las pruebas de laboratorio que estaba considerando solicitar le hubieran ahorrado
algo de tiempo y hubieran hecho un mejor trabajo para determinar este diagnóstico?
De hecho, y además de retrasar el diagnóstico, su precisión es mucho peor. En la
misma investigación que estudió las preguntas CAGE, las especificidades para la γ-
glutamil transpeptidasa, el volumen corpuscular medio y una batería de función
hepática completa fueron de solo 76%, 64% y 81%, respectivamente.3 Además, la
nueva prueba de moda de La actividad de la enzima plaquetaria tiene una
especificidad de solo el 73% .2
Por lo tanto, en su paciente, un historial médico simple no solo fue más rápido y fácil
sino también mucho más específico.
¿Qué pasa con su posible ascitis? Dado que tienes establecido el diagnóstico de
dependencia al alcohol, ya puedes planificar su manejo perioperatorio y posoperatorio
para prevenir, detectar y tratar los síndromes de abstinencia alcohólica. No obstante,
le gustaría saber si tiene suficiente daño hepático como para afectar su manejo del
tipo de medicamentos que probablemente reciba.
Dado su tobillo fracturado, la posición de rodillas requerida para provocar el signo del
charco está fuera de discusión, e incluso una prueba de embotamiento cambiante le
causará un dolor considerable. Ya ha ido a radiología y no querrás que vuelva a hacer
el viaje para un examen ecográfico abdominal si puedes evitarlo. Su tobillo no afectado
no está hinchado ahora, y le dice que nunca ha tenido hinchazón en el tobillo en el
pasado. ¿Sería útil este simple historial médico para la inflamación del tobillo anterior?
La figura 1-4 resume un estudio de 63 pacientes ingresados en un servicio médico
general en Durham, Carolina del Norte.9 De 15 pacientes con ascitis en el examen
ecográfico abdominal (el criterio estándar), 14 tenían antecedentes de hinchazón del
tobillo, para una sensibilidad impresionante del 93%. Si aplicamos esta sensibilidad
(93%) y especificidad (66%) a nuestra probabilidad previa a la prueba de ascitis del
50%, el resultado (que se muestra en la Figura 1-5 que la probabilidad posprueba de
no tener ascitis es del 90% cuando el paciente niega inflamación del tobillo. Una vez
más, este simple elemento de la historia clínica proporciona información diagnóstica
poderosa: cuando la sensibilidad de un síntoma o signo es alta, una respuesta
negativa descarta el trastorno diana y el acrónimo de esta propiedad es SnNout.
Sin embargo, es posible que haya observado que este estudio incluyó solo a 15
pacientes con ascitis, y bien puede preguntar qué tan seguros debemos sentirnos
acerca de esta sensibilidad de 0,93. Da la casualidad que el grado de confianza que
debemos depositar en esta (o cualquier otra) estimación de sensibilidad (o
especificidad) se puede calcular y expresar como un intervalo de confianza, dentro del
cual puede estar seguro de que la verdadera sensibilidad reside, digamos, 95% del
tiempo.1
En este caso, el intervalo de confianza del 95% sobre esta sensibilidad de 0,93
basado en 15 pacientes corre desde 0.81 (no terriblemente
sensible) a 1,00 (o sensibilidad perfecta). Si, por otro lado, este
sensibilidad de 0,93 se basaron en 100 pacientes con ascitis, la
El intervalo de confianza del 95% iría de 0,88 a 0,98, y se justificaría tener más
confianza en que un historial médico negativo descarta la ascitis. Por lo tanto, debe
buscar información sobre el intervalo de confianza del 95% para las medidas de
precisión, como la sensibilidad y la especificidad, cuando lea sobre ellas.
EL INTERVALO DE CONFIANZA
Cuando comenzó la serie The Rational Clinical Examination, presentamos los
resultados de probabilidad como valores de un solo punto como si describieran
completamente un hallazgo clínico; no es así. Como todos los parámetros estadísticos,
un LR tiene asociado un intervalo de confianza (IC) que nos ayuda a decidir si los
datos son suficientes para inferir su utilidad. Estos IC son importantes porque brindan
transparencia. Un LR optimista sugiere un hallazgo clínico prometedor, pero un IC
amplio apaga el entusiasmo al implicar que un tamaño de muestra pequeño
representa cierta certeza. Somos particularmente cautelosos cuando el IC del 95%
incluye 1 porque los valores de LR de 1 no agregan información a la probabilidad
previa a la prueba. Los IC amplios alrededor de LR–, incluso cuando no incluyen 1,
son un problema particular.
Debido a que los valores de LR– están restringidos entre 0 y 1, un IC amplio parece un
problema menor que el IC amplio alrededor de un LR + alto. Para comparar los
hallazgos relativos, el lector clínico puede usar la técnica que describimos
anteriormente (es decir, tomar el valor 1 / LR–) para comparar la amplitud de los IC de
LR negativos a positivos.
Algunos lectores se sorprenderán de que existen diferentes métodos que producen
pequeñas diferencias (pero clínicamente sin importancia) en los IC. Preferimos el
método computacional más sencillo que también funciona bien en hojas de cálculo.
Una situación presenta problemas tanto para los investigadores como para los lectores
clínicos: ¿qué hacemos cuando una celda de la tabla 2 × 2 es 0? Cuando una sola
celda tiene un valor 0 (normalmente, las celdas para falsos positivos o falsos
negativos), agregar 0.5 a cada celda de la tabla 2 × 2 permite el cálculo de IC útiles.3
Una sensibilidad del 100% produce un LR – de 0, con el LR superior IC del 95%
obtenido después de agregar 0.5 a cada celda. Una especificidad del 100% produce
un LR + que no es calculable (∞), por lo que informamos tanto el LR + como el CI
obtenidos después de agregar 0.5 a cada celda. Aunque los estudios de alta calidad
informan tanto la sensibilidad como la especificidad de los hallazgos clínicos, no todos
ellos calculan los LR por nosotros. Cuando los investigadores proporcionan el número
real de pacientes afectados y no afectados, junto con la sensibilidad y la especificidad,
podemos generar los LR y los IC del 95%. Aunque a veces es fácil calcular los IC a
partir de informes de investigación individuales, el metanálisis nos ofrece una forma
aún mejor de describir los LR de los hallazgos evaluados en varios estudios.
METAANÁLISIS
El metanálisis de síntomas y signos combina los resultados descritos en varios
estudios y los resume para obtener una única estimación e IC. Aunque algunos
estadísticos tienen un alto grado de escepticismo acerca de la conveniencia de
combinar los LR, asumimos la posición de que resumir los resultados proporciona
claridad a los médicos que, al menos, les permite asimilar datos y decidir si un síntoma
o signo es útil, inútil o incierto.
Una parte importante del metanálisis requiere que el investigador tome decisiones
sobre la conveniencia de combinar los datos. Aunque los estadísticos a menudo
sugieren un enfoque puramente estadístico (es decir, los estudios que tienen
resultados estadísticamente heterogéneos no deben combinarse), adoptamos un
enfoque más pragmático similar al adoptado por otros diagnosticadores clínicos.4
Primero, evaluamos si el universo de estudios publicados representa el universo de
pacientes para quienes se podría considerar la condición objetivo. Cuando el Los
estudios reflejan la población de pacientes para quienes se aplican los síntomas y
signos, preferimos intentar combinar los LR. Por otro lado, cuando los estudios utilizan
varias definiciones de enfermedad o diferentes umbrales para los síntomas y signos,
no podemos combinar los resultados de manera significativa. Cuando no podemos
combinar los resultados, presentamos rangos para los LR.
En segundo lugar, consideramos que nuestro público objetivo son lectores clínicos.
Para una afección que podría tener un LR muy diferente entre diferentes poblaciones
de pacientes (por ejemplo, hallazgos de apendicitis entre niños frente a pacientes
geriátricos), evitamos combinar los resultados o al menos mostramos cómo varían.
Parte de este enfoque requiere sentido común, y parte de esto es estadístico, en el
que examinamos los resultados atípicos para deducir si hay algo reconocible que
explique los hallazgos variantes de LR. En tercer lugar, examinamos los resultados
reales con sus IC después de combinar los datos. Siempre usamos medidas de
efectos aleatorios para generar el LR y los IC, en lugar del enfoque de efectos fijos.
Las medidas de efectos aleatorios generan IC más amplios que los efectos fijos, lo que
proporciona al menos cierta seguridad de que no estamos exagerando la importancia y
la confianza en nuestros hallazgos. Si un estudio es un valor atípico de LR estadístico,
aún lo incluimos en los datos combinados si no marca una gran diferencia clínica en
los LR. Sugerimos que el médico utilice el juicio clínico al decidir si 2 LR producen
diferencias clínicamente importantes en la probabilidad posprueba. Por ejemplo, para
una probabilidad previa a la prueba del 30%, una LR de 5,4 produce una probabilidad
posterior a la prueba del 70%, mientras que una LR de 3,5 produce una probabilidad
posterior a la prueba del 60%. Estos LR "se ven" diferentes, pero un médico puede
tomar una acción similar para una probabilidad posterior a la prueba del 70% frente al
60%. Por lo tanto, los 2 LR podrían ser estadísticamente diferentes pero proporcionar
resultados clínicamente similares. Siempre proporcionamos los resultados de cada
estudio, y
Los lectores astutos pueden decidir a partir de las estimaciones puntuales y los IC si
creen que un hallazgo es útil o inútil.
Los lectores con más experiencia estadística pueden reconocer que el metanálisis de
los LR difiere de lo que esperan. Los estadísticos, cuando aceptan el metanálisis de
las pruebas de diagnóstico, prefieren resumir el DOR como una medida global del
rendimiento de la prueba. Adoptamos un enfoque diferente porque resumir el DOR
brinda a los médicos un valor que no pueden usar para pacientes individuales. Aunque
a veces proporcionamos medidas resumidas del DOR, las medidas resumidas de la
prevalencia de la enfermedad (probabilidad previa a la prueba) y la LR son los valores
necesarios para resolver la ecuación de la probabilidad posprueba. A veces, nos
encontramos con estudios que solo proporcionan datos sensibles. ¿Qué hacemos con
los estudios que son series de casos de pacientes con enfermedad y que no tienen
valores de especificidad?