Está en la página 1de 32

1ER ARTICULO

LA CIENCIA DEL ARTE DEL EXAMEN CLÍNICO

Nuestros primeros momentos con un paciente están llenos de información visual,


auditiva y táctil que determina tanto la efectividad como los costos de nuestra atención
posterior. De todos los diagnósticos que se harán, la mayoría se hace durante la
anamnesis y la mayor parte del resto durante el examen físico.
Por ejemplo, Crombie1 documentó que el 88% de los diagnósticos en la atención
primaria se establecieron al final de una breve historia y alguna subrutina del examen
físico. De manera similar, Sandler2 encontró que al 56% de los pacientes de una
clínica médica general se les habían asignado diagnósticos correctos al final de su
historia, y que esta cifra se elevó al 73% al final de su examen físico. Incluso cuando
los pacientes son remitidos a centros de especialidades después de exámenes
exhaustivos en otro lugar, la atención se reorienta adecuadamente en el examen
clínico: la "historia" del paciente y el examen físico. De hecho, cuando se le pidió a un
colega gastroenterológico principal de uno de nosotros que consultara sobre un
paciente que ya se había sometido a una enorme batería de estudios endoscópicos,
radiográficos y bioquímicos en otro lugar, proclamó: "Todo lo que nos queda por hacer
es una historia". y físico! " Además de su papel en el desarrollo de una relación y
comprensión de nuestros pacientes y en la expresión de nuestro respeto por ellos y
sus dificultades, el examen clínico nos permite ejecutar otros tres actos clínicos
poderosos. En primer lugar, para muchas afecciones, nos proporciona todo lo que
necesitamos para realizar un diagnóstico. Este poder se extiende más allá de los
diagnósticos "instantáneos" que se logran cuando vemos la cara patognomónica del
síndrome de Down o la erupción única de uno de los exantemas infantiles. Incluye la
abrumadora probabilidad de que haya más del 75% de estenosis de la arteria
coronaria cuando un historial cuidadoso, tomado en un entorno de derivación de un
hombre de 65 años que ha fumado desde la niñez, revela que tiene opresión central
en el pecho que aparece regularmente en El esfuerzo, lo obliga a dejar lo que está
haciendo, y desaparece igualmente regularmente después de 2 a 3 minutos de
descanso.3,4 Cuando tales diagnósticos explican la queja principal, el proceso de
diagnóstico se completa y podemos pasar a la gestión y otros actos clínicos.
En segundo lugar, y con similar poder, la exploración clínica nos permite a menudo
descartar hipótesis diagnósticas. Así, por ejemplo, mientras un paciente inconsciente
con el cráneo intacto presente pulsaciones espontáneas de la vena retiniana, el
aumento de la presión intracraneal no es la causa del coma.
Las implicaciones de esta capacidad de la historia clínica y el examen físico para
descartar entidades diagnósticas se extienden mucho más allá de la cabecera o el
consultorio, ya que su impacto en los costos de la atención puede ser enorme. Por lo
tanto, el hombre con angina de pecho clásica requiere una angiografía invasiva solo si
es candidato para la reparación arterial, y no es necesario llamar al radiólogo en medio
de la noche para realizar una tomografía computarizada de emergencia en el paciente
en coma con pulsación de la vena retiniana. Para otro ejemplo, se ha demostrado
repetidamente que los pacientes sintomáticos remitidos para una serie del tracto
gastrointestinal superior que tienen menos de 50 años y no tienen antecedentes de
úlcera, no sienten dolor después de comer, y ningún dolor que se alivia con alimentos
o leche es muy poco probable que muestre úlcera, hernia de hiato, motilidad anormal u
otros hallazgos importantes.
El tercer poder adicional de la historia clínica y el examen físico es su capacidad para
identificar a los pacientes en una etapa temprana de trastornos que, si no se atienden,
pueden provocar una discapacidad o la muerte prematura. No es necesario buscar
más allá del control rápido de la presión arterial para validar esta afirmación.
No es de extrañar, entonces, que la obtención de una historia clínica precisa y la
realización de un examen físico adecuado sean elementos venerados del arte de la
medicina; son la mejor serie de "pruebas" de diagnóstico que hemos tenido. Pero hay
una ciencia en este arte de la medicina. Uno de sus pilares es el reconocimiento de
que las importantes tareas que llevamos a cabo como clínicos requieren la
particularización, para un paciente específico, de nuestras experiencias previas (no
solo como médicos individuales, sino como profesión) con grupos de pacientes
similares. Por tanto, la valoración racional de un síntoma, signo o resultado de
laboratorio en el paciente actual exige nuestra valoración crítica de cómo se ha
comportado previamente este hallazgo entre grupos de pacientes con el mismo
diagnóstico diferencial. De manera similar, la selección racional de un tratamiento para
el paciente de hoy requiere nuestra evaluación de cómo les ha ido a pacientes
similares con varios tratamientos en el pasado. No es de extrañar, entonces, que las
estrategias y tácticas científicas desarrolladas para tratar con un gran número de
pacientes, derivadas de la epidemiología y la bioestadística, hayan sido tan valiosas
en el diagnóstico y tratamiento del paciente individual.
En ningún lugar se puede aplicar con mayor provecho esta ciencia del arte de la
medicina que en el arte del diagnóstico: el esfuerzo por reconocer la clase o grupo al
que pertenece la enfermedad de nuestro paciente para que, en base a nuestra
experiencia previa con esa clase, la clínica posterior. Los actos que podamos realizar y
que nuestro paciente esté dispuesto a aceptar, maximizarán la salud y la calidad de
vida del paciente. El más temprano y más prominente aquí ha sido el campo del
diagnóstico de laboratorio, donde hemos aprendido mucho de la aplicación de una
gran cantidad de tácticas modernas (sensibilidad, especificidad, valor predictivo,
razones de probabilidad, y similares) que guardan una notable similitud con la
estrategia histórica del condicionamiento. probabilidad descrita hace más de dos siglos
por el reverendo Thomas Bayes.7 Estas tácticas son reconocidas, y a menudo
dominado por aquellos que desarrollan pruebas de diagnóstico innovadoras en el
laboratorio clínico o en la suite de diagnóstico de subespecialidades, y ahora es común
ver la defensa de nuevos procedimientos de diagnóstico respaldados por sus
comparaciones repetidas, independientes y ciegas con estándares de referencia o
"oro". Además, ha evolucionado un nuevo género de textos médicos que documentan
e integran la precisión, sensibilidad y especificidad no solo de los ensayos químicos,
microbiológicos e inmunológicos, sino también de las pruebas fisiológicas y las
imágenes de diagnóstico.8 "11 Ninguna prueba de laboratorio o fisiológica merece
adopción hasta que haya sido probado.
Pero la mayor parte de lo anterior se ha centrado en eventos que tienen lugar en el
laboratorio clínico o en la sala de diagnóstico, después del encuentro clínico primario
que los puso en movimiento. ¿Qué hay del encuentro inicial entre el médico y el
paciente, donde se identifican la mayoría de los problemas, se descartan muchos y se
seleccionan otros para intervención o estudio adicional? En colaboración con un grupo
internacional de científicos clínicos, THE JOURNAL está corrigiendo el desequilibrio
actual en el foco de las discusiones sobre la ciencia del arte del diagnóstico,
redirigiéndolas a la historia clínica y al examen físico.
¿Por qué las investigaciones sobre la precisión y exactitud del examen clínico
se han retrasado con respecto a estudios similares de pruebas de laboratorio?
Después de todo, la identificación de síntomas y signos es posible mediante la
realización de pruebas específicas a pie de cama.
Creemos que al menos cinco factores pueden estar en juego. Primero, las
investigaciones sobre la precisión y exactitud de la historia clínica y el examen físico
son difíciles de diseñar y arduas de ejecutar. Por ejemplo, las investigaciones sobre la
utilidad clínica de la palpación hepática implican la reunión deliberada de un gran
número de pacientes apropiados (un ejercicio formidable tanto en la definición como
en la logística), su examen repetido por parte de "expertos" o médicos con amplios
grados de capacitación y experiencia (un ejercicio abrumador, necesariamente
programado en torno a las otras demandas impuestas tanto a los examinadores como
a los examinados), su fiel sometimiento a algún examen estándar de referencia ("oro")
(por ejemplo, autopsia, cirugía o diagnóstico por imágenes), el escrutinio estadístico
detallado de los datos resultantes (a menudo necesitando métodos de análisis
innovadores o poco ortodoxos), y la síntesis de los resultados en recomendaciones
clínicamente sensatas sobre la práctica clínica y la enseñanza clínica.
En segundo lugar, un diagnóstico clínico rara vez reside en un solo síntoma o signo,
sino que surge de los patrones de muchos síntomas y signos. El mero reconocimiento
de los obstáculos que dificultan la captura y disección fiel de este fenómeno
multivariado, mucho menos su interpretación y transmisión a colegas y aprendices,
constituye un poderoso incentivo para que los aspirantes a investigadores abandonen
el campo por desafíos científicos más fáciles.
En tercer lugar, e influenciados por los emocionantes desafíos (¡y las recompensas
académicas!) De la investigación de banco, la mayoría de los "investigadores clínicos"
no son muy "clínicos". 12 Para continuar y mantenerse al día con la investigación
biomédica básica, tienen poco tiempo la cabecera del paciente ejercitando y
manteniendo sus habilidades clínicas. A medida que esta última se atrofia, también lo
hace su capacidad e inclinación para investigar, mucho menos modelar y enseñar, la
historia clínica y el examen físico. Por lo tanto, no debería sorprendernos encontrar
que aquellos a quienes enseñan imitan su dependencia del laboratorio de diagnóstico
y su interés en sus conocimientos biológicos, incluso cuando tales incursiones
producen información de diagnóstico y pronóstico que cuesta más y significa menos
de lo que podría haberse derivado de hablar más de cerca con el paciente o
examinarlo.
En cuarto lugar, a menudo existen incentivos económicos que recompensan al médico
que utiliza alta tecnología, especialmente por confirmar diagnósticos ya bien
establecidos por el examen clínico o descartar trastornos que ya han demostrado ser
insostenibles al lado de la cama. De hecho, se podría argumentar que hasta ahora los
esquemas de tarifas parecen haber sido desarrollados para disuadir a los médicos de
dedicar tiempo a tomar historias cuidadosas y realizar exámenes físicos completos,
mientras los alentaban a ordenar o realizar pruebas técnicas de diagnóstico.
Finalmente, algunos médicos insisten en que el diagnóstico es, de hecho, un "arte"
que desafía y repele los intentos de su disección y elucidación científicas. Si bien no
estamos de acuerdo con los colegas que sostienen este punto de vista, no les
deseamos ninguna ofensa. Más bien, rogamos su comprensión mientras iniciamos un
nuevo departamento, diseñado para dar nueva vida al viejo H & P.
A partir de este número, THE JOURNAL publicará revisiones periódicas de la precisión
y exactitud de elementos específicos del examen clínico a medida que se emplean
para identificar y resolver problemas clínicos comunes. Los artículos de esta serie han
sido escritos por médicos de primera línea, la mayoría de los cuales también llevan a
cabo investigaciones epidemiológicas clínicas en diagnóstico y terapéutica. Cada
artículo seguirá un formato común, comenzando con un breve escenario clínico de una
presentación clínica común. A continuación, se proporcionarán instrucciones
detalladas sobre cómo obtener los síntomas y signos que son relevantes para el
problema clínico, seguidas de un resumen de su precisión y exactitud. Cada artículo
concluirá con una "línea de fondo", recomendando el examen clínico más eficaz y
eficiente para este problema dado nuestro estado actual de conocimiento. Cuando
corresponda, se incluirán consejos sobre cómo desarrollar, probar y mejorar las
habilidades clínicas relevantes.
Estos artículos son el resultado de revisiones formales de sus temas.13 Es decir, cada
uno comenzó con una búsqueda exhaustiva de la literatura (generalmente por
MEDLINE, y aumentada de expedientes personales, textos y el "colegio invisible" de
estudiantes del examen clínico). Luego, se examinó cada cita para verificar su
adherencia a los estándares científicos para el estudio de precisión y exactitud (estos
se describen en detalle en la cartilla adjunta14). Los estudios clínicos que
sobrevivieron a este filtro de calidad fueron luego analizados por lo que tenían que
decir sobre la precisión y exactitud del examen clínico (nuevamente, el manual adjunto
define y describe el cálculo e interpretación de estas medidas) y sintetizados.
Finalmente, los resultados de cada síntesis se han integrado en el formato común de
la serie.
Las descripciones generales resultantes están destinadas a informar, no a tranquilizar.
Algunos elementos sagrados del examen clínico, justificados por el tiempo y la
autoridad, pueden arder (sin duda, calentando nuestras Cartas al Editor en el
proceso).
Muchos más fragmentos de historia y física serán puestos en libertad condicional
porque su precisión y exactitud son simplemente desconocidas, y esperamos que su
designación los lleve, no a la desesperación, sino a una vigorosa investigación
aplicada (qué mejor comienzo para los estudiantes o funcionarios de la casa que
quieran probar sus manos en la investigación, especialmente cuando los hará mejores
y más rápidos, no peores y más lentos, ¡examinadores!).
Dado que esta serie está dirigida al generalista, los subespecialistas deben leerla con
precaución, ya que el "ultrafiltrado" de los pacientes que acuden a ellos con
regularidad traen consigo signos y síntomas cuyos significados cambian a medida que
avanzan de primaria.a la atención terciaria. Por lo tanto, cuando los pacientes con
trombosis venosa profunda sintomática llegan al experto, sus síntomas y los signos se
han "agotado" y ya no son útiles para distinguir entre pacientes con venogramas
positivos y negativos.15 Por el contrario, debido a las grandes diferencias en la tasa
subyacente de estenosis arterial coronaria significativa en diferentes entornos, el dolor
en el pecho y los antecedentes cardíacos idénticos generan mucho mayores
probabilidades de estenosis coronaria significativa en la atención terciaria que en la
atención primaria.
Esperamos una vigorosa serie de intercambios en nuestras Cartas al editor, mientras
los lectores debaten sobre los "resultados finales,
 
 Mejorando la práctica clínica
Vivimos en una época de grandes oportunidades. La ciencia, la tecnología y los
hallazgos clínicos han proporcionado una gran base de conocimiento que los médicos
pueden aprovechar para tomar decisiones de calidad sobre la atención del paciente.
Paradójicamente, es esa misma abundancia de información científica y hallazgos
prácticos, más la complicación de la evidencia contradictoria, lo que finalmente impide
la implementación generalizada de métodos basados en la investigación para mejorar
los resultados de los pacientes. Nuestro desafío en la Agencia para la Política e
Investigación de la Atención de la Salud (AHCPR) es trabajar con paneles
independientes de expertos para inculcar la base más amplia de ciencia y experiencia
clínica en las pautas de práctica que los médicos pueden adaptar fácilmente para la
más amplia gama de pacientes.
El desafío de la medicina es evaluar y asimilar ese conocimiento basado en la ciencia,
considerar las prácticas y resultados actuales y adoptar las pautas que funcionan
mejor en la práctica.
Es esencial para este desafío la necesidad de reducir el nivel de atención inadecuada
que compromete los resultados exitosos para los pacientes, al tiempo que permite la
mayor autonomía posible para identificar referencias adicionales relevantes,
proporcionar ejemplos adicionales y proponer problemas clínicos, signos y síntomas
adicionales para su inclusión en las series. Estas consultas, además de las nuestras,
identificarán las lagunas de conocimiento que se deben llenar mediante una
investigación verdaderamente "clínica" y harán que el diagnóstico físico sea más
interesante y más preciso.
Finalmente, esperamos que la serie sirva a los lectores de The Journal, ayudándoles a
mantener y mejorar sus habilidades clínicas y mostrándoles que la ciencia del arte de
la medicina se puede aplicar especialmente a ese encuentro inicial crucial con los
pacientes, sus predicamentos, y los síntomas y signos que delimitan sus
enfermedades.
 
2DO ARTICULO
EL EXAMEN CLÍNICO: UNA AGENDA PARA HACERLO MÁS
RACIONAL
JAMA presentó la serie The Rational Clinical Examination en 1992. El fundador de la
serie, David Sackett, escribiendo con uno de nosotros1 (DR), observó que la historia y
el examen físico (en conjunto, el examen clínico) con frecuencia proporcionaban todo
lo que se necesitaba para un diagnóstico, permitió a los médicos descartar hipótesis
diagnósticas, pudo identificar a los pacientes en las primeras etapas de sus
enfermedades y jugó un papel importante en el desarrollo de una buena relación con
el paciente.
Sackett y Rennie notaron que aunque los hechos obtenidos del examen clínico eran
como pruebas de laboratorio en el sentido de que tenían sensibilidades,
especificidades y poderes predictivos medibles, la investigación de la precisión y
exactitud del examen clínico se había quedado atrás de la de los exámenes más
costosos (y quizás menos terapéuticos). Pruebas de laboratorio. Sugirieron que esto
se debía a que tal investigación era ardua y no era fácil de realizar por aquellos a
quienes se les enseñó a confiar en el laboratorio; porque el diagnóstico clínico rara vez
reside en un único hallazgo, pero más a menudo en un patrón; porque los incentivos
económicos tendían a recompensar el uso de tecnología compleja; y, finalmente,
porque muchos sintieron que el diagnóstico era un arte demasiado para investigar de
forma cuantitativa.
Cinco años después, publicamos 21 artículos en la serie The Rational Clinical
Examination y nos sentimos satisfechos con las respuestas positivas sobre su valor
para nuestros lectores.
Seguimos trabajando con posibles colaboradores para desarrollar nuevas ideas,
revisar la literatura y preparar manuscritos de alta calidad.
No obstante, seguimos encontrando ironía en la relativa falta de inversión para mejorar
nuestra comprensión del examen clínico en comparación con nuestro fuerte
compromiso con la evaluación de las pruebas, muchas de las cuales serían
innecesarias si supiéramos más y prestáramos más atención a los aspectos clínicos.
examen Sin embargo, los tiempos están cambiando. El esfuerzo actual por reducir los
costos de la prestación de atención médica está alterando los incentivos para solicitar
costosas pruebas de laboratorio. Esto supone una carga adicional para el examen
clínico tradicional, una carga que solo puede soportar cuando entendemos, utilizando
la analogía de las pruebas de laboratorio, las "características operativas" de nuestras
preguntas a los pacientes (por ejemplo, el poder predictivo de la pregunta
"¿Su dolor de pecho se extiende al brazo?" para el diagnóstico de angina) y de
nuestros hallazgos en el examen. Se está reconociendo cada vez más que nuestros
mayores esfuerzos para expandir la atención primaria significa que necesitamos
depender de los resultados del examen clínico, no solo para establecer un diagnóstico,
sino para pronosticar y delinear una estrategia de manejo adecuada. Estas cargas
adicionales hacen que cualquier esfuerzo por establecer la precisión del examen
clínico sea altamente rentable y valga la pena respaldarlo.
La serie Rational Clinical Examination promueve dos objetivos principales. Primero,
buscamos la identificación de hallazgos en el examen clínico que sean útiles (p. Ej., El
cuestionario CAGE [cortado, molesto por la crítica, ¿culpable de beber, bebidas
reveladoras] para problemas con el alcohol2) o inútiles (p. Ej., Escuchar soplos
abdominales en pacientes jóvenes asintomáticos), 3 y la distinción no debe depender
del número de defensores, sino de la calidad de la evidencia. En segundo lugar,
deseamos estimular nuevas investigaciones para mejorar el examen clínico. Casi la
mitad de los posibles autores pierden fuerza y no completan sus manuscritos
asignados porque no pueden localizar evidencia sobre su tema o la evidencia
identificada es de baja calidad. La ubicación de la evidencia podría facilitarse si la
Biblioteca Nacional de Medicina creara un "tipo de publicación" en MEDLINE para
"estudios de pruebas diagnósticas sistemáticas" e incluyera subtipos para
evaluaciones de exámenes clínicos y pruebas diagnósticas de laboratorio, patología y
radiografías. Dado el hecho llamativo de que más de las tres cuartas partes de los
diagnósticos en atención primaria se establecen durante el examen clínico, es una
acusación a nuestra profesión encontrar tales lagunas en nuestro conocimiento4 · 5.
La imagen del médico auscultando el tórax de un paciente ocupa un lugar destacado
en el arte médico. La contribución del Dr. Etchells y sus colegas "a The Rational
Clinical La serie de exámenes publicada en este número de JAMA destaca la poca
información que se conoce acerca de lo que los médicos generalistas creen que
escuchan al auscultar soplos sistólicos. Por mucho que odiemos admitirlo, el examen
de los médicos generalistas en busca de soplos sistólicos está respaldado
principalmente por defensores y el sentido común más que por hechos. Esperamos
que la ausencia de evidencia sobre la utilidad del examen de los generalistas refleje
una falta de investigación más que de exámenes clínicos efectivos. La situación es
más brillante para los cardiólogos donde existen datos que demuestran sus excelentes
habilidades auscultatorias. Nos tranquiliza saber que los médicos especialistas tienen
habilidades especiales de exploración clínica; encontrar lo contrario socavaría la
premisa de la formación avanzada.
Proponemos una amplia agenda de investigación destinada a expandir la ciencia
detrás de las observaciones clínicas para condiciones clínicas comunes. Los objetivos
de esta agenda son mejorar el desempeño, la interpretación y la integración del
examen clínico por parte del médico en la toma de decisiones médicas. El enfoque de
dicha investigación debe concentrarse primero en identificar señales de alerta
confiables a partir del examen clínico (p. Ej., La retención urinaria de inicio reciente
con dolor de espalda agudo sugiere el síndrome de la cola de caballo7), hallazgos que
son tan altamente predictivos para identificar estados subyacentes graves que
deberían no se lo pierda.
En segundo lugar, debemos concentrarnos en los hallazgos que estratifican a los
pacientes según los cursos de acción que sus médicos deben tomar en lugar de
obsesionarnos con el diagnóstico fisiopatológico exacto. Los ejemplos aquí incluyen la
evaluación del paciente mareado para decidir si tiene una forma grave de vértigo8 o
una evaluación de un paciente con un trastorno musculoesquelético regional, como
dolor de hombro, para evaluar si la condición es una que podría responder a la
fisioterapia.
En tercer lugar, debemos evaluar las diferencias en el desempeño del examen clínico
como una función del entrenamiento para disminuir la variabilidad en nuestras
habilidades y mejorar la precisión. El enfoque de este esfuerzo sería evaluar el
desempeño de los generalistas en comparación con el de los especialistas, teniendo
en cuenta las diferencias en el espectro de enfermedades que evalúan. Proponemos
que comprender la variación en la precisión nos permitirá describir los hallazgos que
requieren un mejor desempeño de maniobras o técnicas específicas.
También debemos comprender mejor la variabilidad entre los médicos en su
capacidad para integrar los componentes del examen clínico con sus observaciones
globales y habilidades interpretativas. Estas habilidades se derivan del reconocimiento
de patrones aprendidos al ver a los pacientes y escucharlos contarnos la historia
personal de su enfermedad. No es sorprendente que algunos médicos parezcan
mejores que otros en su capacidad para reconocer intuitivamente la enfermedad y su
gravedad sin evaluar los componentes fundamentales de la historia clínica y el
examen físico. Por ejemplo, la impresión general del médico después de hablar y
examinar a un paciente que tiene síntomas de los senos nasales arroja información de
diagnóstico importante más allá de cualquier hallazgo individual.9 Sospechamos que
la impresión general del médico a menudo será más importante que la suma
incompleta de varios elementos de la clínica. examen. Dado que la impresión general
requiere los componentes del examen clínico, debemos aprender a proporcionar
experiencias adecuadas a los alumnos que les permitan recopilar datos precisos y
luego integrar esos hallazgos con su sentido clínico en desarrollo.
Finalmente, debemos centrarnos en la aplicación de los resultados de desde el
examen clínico hasta la toma de decisiones médicas. Esto requiere una mejor
comprensión de cómo equilibramos nuestras sospechas anteriores sobre la presencia
o ausencia de las condiciones objetivo con los hallazgos de los exámenes clínicos y
las pruebas de diagnóstico adicionales.
Desafortunadamente, los pedidos de nuevas investigaciones de los editorialistas
suenan vacíos cuando no hay un plan. La investigación sobre el examen clínico
requiere la voluntad de los pacientes participantes y requiere que las personas estén
ansiosas por hacerlo y que sus colegas los respeten. También requiere dinero para
comparar los hallazgos con un estándar de referencia objetivo (por ejemplo,
radiografías, muestras patológicas o análisis de sangre). Por lo tanto, proponemos que
los investigadores clínicos evalúen los hallazgos del examen clínico que identificaron a
los pacientes para su inclusión o exclusión en sus ensayos y que incluyan la
información en sus informes publicados. Nos sorprende que los lectores parezcan tan
dispuestos a aceptar los resultados de los ensayos clínicos cuando los investigadores
no presentan datos para demostrar la precisión de los exámenes clínicos que
conducen a la participación de los pacientes.
El mismo énfasis puesto en las mediciones de resultados del paciente altamente
precisas y precisas debería aplicarse a los requisitos de ingreso.10 Por ejemplo, los
lectores deben querer saber cuánta variación hay entre los muchos médicos que
participan en grandes ensayos clínicos en cuanto a su capacidad para evaluar los
signos y síntomas clínicos. Cuando se publica como parte de un ensayo clínico, la
Biblioteca Nacional de Medicina debe utilizar los términos de Encabezados de temas
médicos (MeSH) existentes para poder recuperar los resultados del examen clínico.
Desde un punto de vista pragmático, la combinación de la investigación sobre el
examen clínico con los ensayos clínicos tiene sentido, aunque los pacientes que
participan en ensayos clínicos pueden representar una muestra sesgada. Desde un
punto de vista científico, la validación de los criterios de inclusión y exclusión debe
integrarse en los métodos de estudio y los informes de investigación porque los
criterios son fundamentales para comprender cómo extrapolar los resultados a los
pacientes de los médicos10.
Para limitar la posibilidad de que los investigadores de ensayos clínicos y sus
pacientes puedan representar una muestra sesgada, recomendamos que los médicos
se prueben a sí mismos mediante el mantenimiento de registros y evaluaciones
cuantitativas de sus propios resultados. Primero, los médicos deben reevaluar
sistemáticamente su propio desempeño.
La palabra clave en esta sugerencia es "sistemático". Por ejemplo, los médicos
podrían registrar sus propios hallazgos e impresiones sobre si un paciente con baja
visión tiene cataratas o glaucoma, en comparación con el examen y la tonometría del
oftalmólogo como estándares pragmáticos de referencia. El problema aquí es que los
médicos deben validar si los resultados de los estudios de exámenes clínicos
publicados se extrapolan a sus propios pacientes. Cuando se evalúa
sistemáticamente, el médico debe decidir si sus pacientes difieren de los de los
informes publicados o si necesitan una mejor formación en exploración clínica. En
segundo lugar, sugerimos que los médicos combinen evaluaciones entre colegas de
organizaciones de atención médica administrada o dentro de grupos académicos, de
los cuales el Grupo de Investigación Cooperativa de Estados Unidos-Canadá sobre el
Examen Clínico de la Sociedad de Medicina Interna General es un ejemplo.
Las organizaciones de atención médica representan el mayor potencial para dicha
investigación sobre la mejora de la calidad, no solo porque se beneficien
económicamente de los estudios que definen la precisión del examen clínico. Tienen la
oportunidad de invertir en la investigación del examen clínico financiando las pruebas
diagnósticas que se requieren como objetivo estándares de referencia pragmáticos
para el examen clínico.
Por ejemplo, si una organización de atención médica desea evaluar los costos de las
pruebas de diagnóstico para pacientes con disnea, podría estructurar un estudio que
recopile las características relevantes del examen clínico en comparación con la
radiografía o pruebas de función respiratoria o cardíaca. Al renunciar a la obligación
financiera con el paciente, el médico o ambos por los estudios de confirmación, la
organización puede eliminar una barrera financiera importante para dicho trabajo y
realizar una inversión relativamente pequeña que debería resultar en una mejor
calidad.
El Grupo de Interés sobre Examen Clínico de la Sociedad de Medicina Interna General
representa otro tipo de colaboración aplicable a otros grupos de médicos. Estos
grupos brindan la oportunidad de agrupar datos en todos los centros médicos para
responder preguntas sencillas y económicas sobre el examen clínico. Creemos que la
mayoría de las grandes sociedades médicas tienen miembros que están interesados
en cuestiones tan fundamentales, un interés que quizás se remonta a sus primeras
clases sobre el examen físico en la facultad de medicina. Con el tiempo, esperamos
que esta iniciativa dé a estas clases una base mucho más firme. Sin embargo, el éxito
final de tales esfuerzos de colaboración depende de la disponibilidad del tiempo, los
recursos, la experiencia metodológica y la voluntad de realizar tal investigación.

3ER ARTICULO
UN MANUAL SOBRE LA PRECISIÓN Y EXACTITUD DEL
EXAMEN CLÍNICO

Este artículo de antecedentes presentará y explicará los términos u conceptos que se


están utilizando en la serie de reseñas sobre el examen clínico racional que comienza
en este número de THE JOURNAL. Incluye definiciones y explicaciones de ciertos
conceptos clave, ejemplos clínicos, guías para leer revistas clínicas sobre una prueba
de diagnóstico y una “mesa de trabajo” en blanco que puede usar para aplicar los
conceptos por su cuenta.
Los artículos de antecedentes de esta serie discutirán temas seleccionados en la
precisión y exactitud del examen clínico con mayor detalle o los extenderán a
situaciones de diagnóstico más complejas. Algunos de estos temas también se tratan
en los libros de texto de epidemiología clínica.
Por supuesto, la precisión y exactitud del examen clínico no son las únicas
preocupaciones en el encuentro clínico, y su aplicación adecuada proporciona solo el
punto de partida para las decisiones sobre qué tan seguros debemos estar sobre un
diagnóstico antes de actuar sobre él (la decisión umbral) y cómo debemos incorporar
las preocupaciones tanto de los pacientes como de la sociedad al decidir si actuar y
cómo hacerlo. Los artículos de antecedentes posteriores discutirán estas
consideraciones adicionales; éste se limitará a la precisión y exactitud.
Como otros en la serie, este artículo de antecedentes se presentará con un paciente.
EL PACIENTE
Uno de sus pacientes, a quien no ve desde hace varios años, ingresa en el servicio de
ortopedia después de que una caja de embalaje se volcó sobre su pierna,
produciéndose una fractura inestable de su tibia y peroné distal. Pasa a verlo mientras
lo preparan para la cirugía. Está alerta y hemodinámicamente estable, pero huele a
alcohol (a las 10 a. M.) Y tiene 3 nevos de araña en la parte superior del pecho (pero
sin ginecomastia ni asterixis). Es obeso y su vientre es prominente. Entre las
preguntas que se plantean en su mente, las siguientes son de especial importancia:
1. ¿Este hombre es alcohólico? Colocaría las probabilidades de este trastorno en 50-
50 (y la ciencia del arte de cómo los médicos generan estas probabilidades será el
tema de un artículo de antecedentes posterior). La respuesta a esta pregunta de
diagnóstico es importante a largo plazo y para protegerlo de las complicaciones de la
abstinencia aguda durante y después de su operación.
2. ¿Tiene ascitis? Aquí está mucho menos seguro, pero si es dependiente del alcohol,
colocaría las probabilidades de que la prominencia de su vientre represente ascitis
también en 50-50.
Nuevamente, sería importante saber si tiene esta manifestación de daño hepático
alcohólico avanzado.
Sus opciones para responder estas preguntas son varias. Para explorar su posible
abuso o dependencia del alcohol, (1) podría tomarse el tiempo necesario para una
confrontación completa y interrogatorio sobre la cantidad de alcohol que consume (y,
en el proceso, arriesgarse a alienarlo, alejar al personal de enfermería y exasperarse);
(2) puede solicitar una o más pruebas de función hepática; (3) incluso podría solicitar
una de las nuevas pruebas “calientes” para la actividad de la enzima plaquetaria, que
se informa que está elevada en personas con alcoholismo2; o (4) podría hacerle las 4
preguntas rápidas “JAULA”: ¿Alguna vez sintió que debería reducir su consumo de
alcohol? ¿Te ha molestado la gente al criticar tu forma de beber? ¿Alguna vez se ha
sentido mal o culpable por beber?
¿Alguna vez ha tomado una copa a primera hora de la mañana para calmar los
nervios o para deshacerse de una resaca (revelador)? Este ejemplo inicial de la serie
es tanto más apropiado cuando observamos que el primer informe sobre el
cuestionario CAGE en una revista médica general fue de John Ewing3 y que fue
acompañado de un editorial de uno de los principales partidarios de esta serie, George
Lundberg.4 Para explorar sus posibles ascitis, (1) puede comprobarlo para ver si tiene
opacidad cambiante, onda fluida o incluso el signo del charco; (2) puede solicitar un
examen ecográfico abdominal; o (3) simplemente podría preguntarle si alguna vez ha
tenido los tobillos hinchados.
Deténgase un momento y considere las implicaciones, en términos de su tiempo y el
dinero de alguien, de las formas alternativas de responder a estas 2 preguntas. ¿No
sería mejor si pudiera responder a ambos con solo 5 preguntas rápidas (4 para CAGE
y 1 sobre hinchazón del tobillo)?
Da la casualidad de que es posible que pueda hacer precisamente eso. Si responde
afirmativamente a 3 o 4 de las preguntas CAGE, es un hombre alcohólico o
dependiente del alcohol (y este historial médico es mucho más poderoso que cualquier
prueba de laboratorio que pueda solicitar). Si responde que no a la hinchazón del
tobillo, ha descartado bastante bien la ascitis clínicamente importante (puede verificar
esta última mediante la prueba de la opacidad cambiante; como la mayoría de estos
pacientes, no tenía una onda de líquido, y como verá en un próxima descripción
general sobre la ascitis, el signo del charco no le sirve a él ni a nadie más). Por lo
tanto, para ambas preguntas, un examen rápido a pie de cama ha proporcionado
información diagnóstica definitiva, sin necesidad de pruebas de laboratorio o
diagnóstico por imágenes.
¿Cómo podemos hacer una declaración tan audaz sobre el poder de estos elementos
simples de la historia clínica y el examen físico? La respuesta radica en la ciencia del
arte del diagnóstico clínico que sustenta esta serie de descripciones generales sobre
el examen clínico racional. Este primer artículo de antecedentes presentará e ilustrará
los elementos clave de esta ciencia (y los lectores que deseen una discusión más
detallada de lo que sigue pueden consultar una discusión paso a paso publicada en
otro lugar1
). Los artículos de antecedentes también están destinados a transmitir la diversión y la
gratificación que los médicos obtienen al hacer diagnósticos correctos con nitidez y
rapidez.
TOMANDO UNA HISTORIA ALTERNATIVA DEL ALCOHOLISMO
Examine la Figura 1-1. En él se muestra el número de respuestas positivas a las
preguntas CAGE de 2 grupos de pacientes ingresados en los servicios médicos o
ortopédicos de un hospital universitario comunitario en Boston, Massachusetts.5
En la columna de la izquierda están las respuestas de los pacientes cuyas
evaluaciones exhaustivas (incluidas, cuando se indique, historias sociales detalladas,
seguimientos y biopsias de hígado) proporcionaron una "prueba" aceptable de que
eran alcohólicos o dependientes del alcohol. En la columna de la derecha están los
pacientes cuyas evaluaciones mostraron que no eran alcohólicos ni dependientes.
Estas extensas investigaciones de confirmación a menudo se denominan estándares
de criterio de diagnóstico y típicamente consisten en hallazgos definitivos en
angiografía, operación, autopsia y similares.
Este estudio es útil para los médicos porque la historia de CAGE y las investigaciones
extensas (estándar de referencia o criterio) se llevaron a cabo de forma independiente
entre un amplio espectro de pacientes bien descritos en los que era clínicamente
razonable preguntar sobre el abuso de alcohol. Por tanto, satisface el primer criterio de
un artículo válido y clínicamente útil sobre estrategias de diagnóstico que aparece en
la tabla 1-1 (¿ha habido una comparación independiente, "ciega" con un criterio
estándar de diagnóstico?). Los autores de esta serie han utilizado las guías del lector
de la Tabla 11 sobre el examen clínico racional para "seleccionar" artículos para
incluirlos en sus descripciones generales de enfoques de diagnóstico para problemas
clínicos específicos. La tabla 1-1 se puede recortar y llevar para una fácil referencia al
leer artículos clínicos que hacen afirmaciones sobre la utilidad de
(especialmente las nuevas) pruebas de diagnóstico, y el razonamiento detrás de sus
elementos se describen en detalle en otra parte.1
El estudio que generó la Figura 1-1 también satisfizo la segunda guía de sentido
común, ya que se llevó a cabo en una muestra de pacientes que incluía un espectro
apropiado de alcoholismo leve y severo, tratado y no tratado, más individuos con
trastornos diferentes pero comúnmente confusos. Se describió el entorno del estudio
(un gran hospital urbano, general), satisfaciendo la tercera guía del lector y
permitiéndonos determinar la aplicabilidad de los resultados a nuestro propio entorno,
y el término normal (la quinta guía) fue clara y sensiblemente definida como la
ausencia de abuso o dependencia del alcohol (volveremos a la cuarta guía de
reproducibilidad más adelante).
Los autores del estudio CAGE no proponían que sus preguntas se utilizaran como
parte de una serie extensa ("grupo") de pruebas de diagnóstico (por lo que la sexta
guía no se aplica), y las preguntas se presentaron con su redacción exacta en el
artículo. , satisfaciendo la séptima guía y permitiendo su exacta aplicación en la propia
práctica del lector. La guía del lector final (¿se ha determinado la utilidad de la
prueba?) Está satisfecha en la medida en que las preguntas de CAGE reconocieron a
muchas más personas con alcoholismo, especialmente los que abusan del alcohol,
que el diagnóstico clínico de rutina y las convirtieron en candidatos para tratamiento y
asesoramiento.
En resumen, el estudio CAGE observó los estándares metodológicos requeridos para
una descripción válida y clínicamente útil de la aplicabilidad clínica de cualquier
información diagnóstica, ya sea que provenga de la historia clínica, el examen físico o
el laboratorio de diagnóstico.
LA PRECISIÓN DEL EXAMEN CLÍNICO
Para que un elemento de la historia clínica o del examen físico sea exacto, primero
debe ser preciso. Es decir, debemos tener cierta confianza en que 2 médicos que
examinen al mismo paciente sin cambios estarían de acuerdo entre sí en la presencia
o ausencia del síntoma (como la respuesta de nuestro paciente a una de las preguntas
CAGE) o signo (como el presencia de nevos de araña en el pecho de nuestro
paciente). La precisión (que a menudo aparece bajo el nombre de “variación del
observador” en la literatura clínica) de tales hallazgos clínicos puede cuantificarse.6
Suponga que 2 médicos registraron si encontraron nevos de araña cuando
examinaron de forma independiente a los mismos 100 pacientes sospechosos de
tener una enfermedad hepática y generaron los datos que se muestran en la Figura 1-
2. Los 2 médicos estuvieron de acuerdo en que 23 de los pacientes (celda a) tenían
nevos de araña y que 66 pacientes (celda d) no; por lo tanto, estuvieron de acuerdo
con (23 + 66) / 100 = 89% de los pacientes que examinaron. Sin embargo, 6 pacientes
(celda c) que el primer médico consideró que tenían nevos de araña no tenían nevos
el segundo, y 5 pacientes (celda b) que el segundo médico consideró que tenían
nevos de araña no tenían nevos por el primero.
¿Cómo debemos interpretar esta precisión? ¿Es bueno este grado de concordancia
clínica o deberíamos esperar algo mejor?
Podríamos comenzar reconociendo que algún acuerdo clínico se produciría por
casualidad. Por ejemplo, si el segundo médico simplemente lanzara una moneda por
cada paciente en lugar de realizar un examen, informando nevos si la moneda salió
"cara" y ningún nevo si salió "cruz", el acuerdo sería del 50%. Debemos comenzar,
entonces, por determinar qué parte de la concordancia observada del 89% se debió al
azar, de modo que podamos descubrir cuánta habilidad clínica real (concordancia más
allá de la casualidad) estaban demostrando estos médicos.
El acuerdo de azar se puede calcular mediante el proceso formal de "productos
cruzados marginales" que se muestra en la Figura 1-2, pero también se puede
considerar como un lanzamiento de moneda en el que, por ejemplo, la primera
moneda del médico salió cara el 29% de el tiempo (basado en [a + c] / [a + b + c + d]).
Por lo tanto, el 29% de los 28 pacientes que el segundo médico (a + b) consideró que
tenían nevos de araña también serían considerados por el primer médico, y el 29% de
28 es 8 (el número de pacientes que esperaríamos tener) encontrar en la celda a solo
por casualidad). Del mismo modo, la moneda del primer médico salió cruz el 71% de
las veces ([b + d] / [a + b + c + d]), y el 71% de los 72 pacientes que el segundo
médico consideró libres de arañazos. (c + d) es 51 (el valor esperado para la celda d).
Como resultado, esperaríamos que los 2 médicos estuvieran de acuerdo (8 + 51) /
100, o el 59% de las veces, solo sobre la base del azar, y el acuerdo potencial restante
más allá del azar es, por lo tanto, del 100% al 59%, o 41%.
¿Cuánto de este acuerdo potencial del 41% más allá del azar se logró? Esto se
determina comparándolo con el acuerdo real más allá de la posibilidad de 89% - 59%
o 30%, y 30% / 41% llega a 0,73, lo que significa que alrededor de las tres cuartas
partes del acuerdo potencial más allá de la casualidad se logró mediante nuestro 2
clínicos. Esta medida de concordancia se conoce con el nombre de κ y es más bien
como un coeficiente de correlación.
Va desde –1,0 (donde 2 médicos estarían en perfecto desacuerdo), pasando por 0,0
(donde solo se logró un acuerdo al azar), hasta +1,0 (donde 2 médicos estarían en
perfecto acuerdo). Como puede ver en la lista de "niveles convencionales de κ" que
aparece en la leyenda de la Figura 1-2, la concordancia entre nuestros 2 médicos se
considera "sustancial" y este es el caso de muchos aspectos "presentes / ausentes"
del examen físico. Como puede imaginar, la concordancia es aún mayor cuando los 2
exámenes los realiza el mismo médico.
Otros elementos del examen clínico no son tan buenos.
Por ejemplo, en un estudio del examen de tórax, la κ para cianosis, taquipnea y
pectoriloquia susurrada fue de 0,36, 0,25 y 0,11, respectivamente.7
Ninguna medida de concordancia clínica es ideal y κ no es una excepción. Su tamaño
se ve levemente afectado por la frecuencia del hallazgo anormal en el grupo de
pacientes examinados (es más alto cuando la mitad de los pacientes tienen el hallazgo
y disminuye un poco cuando el hallazgo es extremadamente común o poco común). Si
sus intereses y los nuestros lo justifican, volveremos a esto en un artículo de
antecedentes posterior.
Pero, por supuesto, una alta precisión no es suficiente, ya que los examinadores
pueden ser consistentes pero equivocados en sus evaluaciones. Los 5 miembros de
mi equipo clínico en ocasiones no detectan un hígado grande o escuchan un soplo
diastólico importante. En otros casos, los médicos pueden no ser precisos ni exactos.
Por ejemplo, se pidió a un grupo de iridólogos que examinaran el iris de una serie de
pacientes y distinguieran a los que tenían cálculos biliares de los que tenían la
vesícula biliar ecográficamente vacía.8
Su acuerdo clínico fue sólo "leve", con un κ promedio de 0,18 (casi como un
pectoriloquio susurrado). Sin embargo, lo más importante es que su precisión
diagnóstica no fue mejor que la casualidad: omitieron aproximadamente la mitad de los
pacientes con cálculos biliares (sensibilidad, 54%) y diagnosticaron cálculos biliares en
aproximadamente la mitad de los pacientes con resultados de ecografía negativos
(especificidad, 52%). Para comprender la sensibilidad y la especificidad, ahora
debemos pasar de determinar la precisión del examen clínico a definir las
características de su precisión.

 
LAS CARACTERÍSTICAS DE LA PRECISIÓN DE LAS PRUEBAS
DIAGNÓSTICAS
Volviendo nuestra atención a la Figura 1-1, podemos examinar las características de
precisión de las preguntas CAGE. Los 60 pacientes de la celda a de la figura 1-1
respondieron sí a 3 o 4 de las preguntas del CAGE y constituyen el 51%, o el 0,51, de
los 117 pacientes (a + c) con un diagnóstico positivo de dependencia o abuso de
alcohol. El término abreviado para esta proporción de 0.51, o a / (a + c), es
sensibilidad, y es una medida útil de qué tan bien una prueba de diagnóstico (ya sea
un síntoma, signo o prueba de laboratorio) detecta un trastorno diana cuando está
presente. Cuanto más cercana esté la sensibilidad al 100%, más “sensible” será el
hallazgo clínico o de laboratorio.
En la columna de la derecha están las respuestas de los pacientes para quienes el
criterio estándar descartó el diagnóstico de problemas con la bebida. Los 400
pacientes de la celda d respondieron sí a 2, solo 1 o ninguna de las preguntas de
CAGE y constituyen el 99,8%, o 0,998, de los 401 pacientes (b + d) que no tenían
dependencia o abuso de alcohol. El término abreviado para esta proporción de 0,998,
od / (b + d), es especificidad y es una medida útil de la frecuencia con la que un
síntoma, signo u otra prueba diagnóstica está ausente cuando el trastorno diana no
está presente.
Cuanto más cercana sea la especificidad al 100%, más “específico” será el hallazgo
clínico o de laboratorio. (Por supuesto, a los médicos no les interesa la sensibilidad y
la especificidad como tales, sino su efecto sobre la interpretación de los hallazgos
positivos y negativos, y llegaremos a eso en breve. La sensibilidad y la especificidad
son propiedades que deben establecerse de antemano, y es por eso que se presentan
aquí.)
Observará que la sensibilidad de las preguntas CAGE no es impresionante. El número
de "verdaderos positivos" en la celda a es casi igual al número de "falsos negativos"
en la celda c, y la sensibilidad de sólo el 51% confirma que "pasa por alto"
aproximadamente la mitad de los bebedores problemáticos. Por otro lado, la
especificidad de las preguntas CAGE es sobresaliente. El número de "verdaderos
negativos" en la celda d supera ampliamente el número de "falsos positivos" en la
celda b, y la especificidad del 99,8% confirma que casi nunca etiqueta a un paciente
como un bebedor problema cuando este trastorno está ausente.
Ahora podemos considerar las "predicciones" que hacemos sobre nuestro paciente
según las características anteriores. Debido a la alta especificidad, prácticamente
todos los pacientes de la celda a que respondieron sí a 3 o 4 de las preguntas CAGE
(a + b) tienen el trastorno objetivo, abuso o dependencia del alcohol, y el término
abreviado para esta proporción a / (a + b), que es 60/61, o 98%, es el valor predictivo
positivo o la probabilidad posprueba de tener el trastorno diana (entre pacientes con 3
o más respuestas positivas). Además, a pesar de la sensibilidad bastante poco
impresionante, la mayoría de los pacientes en las celdas cyd que respondieron sí a
ninguna, solo 1 o 2 de las preguntas CAGE estaban en la celda d y no tenían el
trastorno diana. El término abreviado para esta proporción d / (c + d), que es 400/457,
o 88%, es el valor predictivo negativo o la probabilidad posprueba de no tener el
trastorno diana entre los pacientes con 2 o menos respuestas positivas. El
complemento de este valor predictivo negativo, oc / (c + d), describe la probabilidad
posprueba de tener el trastorno entre los pacientes con 2 o menos respuestas
positivas, y algunos médicos consideran útil esta otra forma de decir lo mismo. .
La razón por la que el valor predictivo negativo parece relativamente alto, a pesar de la
baja sensibilidad, radica en el hecho de que la proporción de todos los pacientes en
este estudio que consumieron alcohol la dependencia o el abuso, (a + c) / (a + b + c +
d), o 117/518, era sólo el 23% para empezar. Es decir, 100% - 23%, o 77%, de los
pacientes no eran dependientes del alcohol antes de que se les hiciera alguna
pregunta. El término abreviado para el conocimiento previo contenido en este (a + c) /
(a + b + c + d) es prevalencia o, más útilmente, la probabilidad previa a la prueba del
trastorno objetivo (porque esta probabilidad previa a la prueba es el punto de partida
para hacer uso clínico de la prueba
características, lo colocaremos encima de las entradas de “predicciones” en figuras
posteriores).
En contraste con esta probabilidad preprueba del 23% en el artículo clínico que
describe las preguntas CAGE, en nuestro paciente, juzgamos que la probabilidad
preprueba de abuso o dependencia del alcohol era del 50%. ¿Cómo funcionarían las
preguntas CAGE en pacientes como el nuestro? Si los pacientes del estudio resumido
en la Figura 1-1 fueran como nuestro propio paciente, esperaríamos el resultado que
se muestra en la Figura 1-3.
Siempre que la “combinación” de pacientes y la gravedad de la enfermedad en el
estudio CAGE resumido en la Figura 1-1 sean similares a la combinación de pacientes
y la gravedad de la enfermedad en nuestra práctica, esperaríamos que la sensibilidad
y la especificidad permanezcan constantes, a pesar de los cambios de la estudio a la
probabilidad previa a la prueba de nuestro paciente del trastorno objetivo. Por tanto, la
sensibilidad (51%) y la especificidad (99,8%) de la Figura 1-3 son las mismas que las
de la Figura 1-1.
Sin embargo, observe que el valor predictivo negativo ha disminuido del 88% al 67%
porque los valores predictivos deben cambiar con los cambios en la prevalencia del
trastorno diana.
Una forma útil de pensar en esto es llevar a cabo este concepto de prevalencia.
Después de todo, el valor predictivo de un resultado de prueba positivo es
simplemente la prevalencia del trastorno diana entre los pacientes con resultados de
prueba positivos. De manera similar, el valor predictivo negativo es la prevalencia de
no tener el trastorno diana entre los pacientes con un resultado de prueba negativo.
No es de extrañar, entonces, que los valores predictivos deban cambiar con un cambio
en la prevalencia general del trastorno diana.

VOLVER AL PACIENTE
Su paciente admitió fácilmente que había dejado de beber, que su cónyuge y
compañeros de trabajo lo habían molestado al quejarse de su forma de beber, y que a
menudo necesitaba una "revelación" para empezar por la mañana. De acuerdo con
este breve historial médico, y dado su juicio previo (antes de tener conocimiento de
sus respuestas a cualquiera de estas preguntas) de que sus posibilidades de ser
dependiente del alcohol eran 50-50 (es decir, una probabilidad previa a la prueba del
50%), Puede seguir su respuesta a través de la Figura 1-3 y concluir que su
probabilidad de dependencia del alcohol después de la prueba es del 99,6%, o casi
tan seguro como nunca puede estar sobre cualquier diagnóstico.
Su paciente nos ayuda a plantear otro punto general: debido a que dio una respuesta
positiva a un historial diagnóstico cuya especificidad era extremadamente alta (99,8%),
usted “descartó” el trastorno objetivo. Una forma sencilla de recordar esta propiedad
de una prueba de diagnóstico poderosa es el acrónimo SpPin: cuando la especificidad
es extremadamente alta, un resultado positivo de la prueba rige en el trastorno diana.
¿Las pruebas de laboratorio que estaba considerando solicitar le hubieran ahorrado
algo de tiempo y hubieran hecho un mejor trabajo para determinar este diagnóstico?
De hecho, y además de retrasar el diagnóstico, su precisión es mucho peor. En la
misma investigación que estudió las preguntas CAGE, las especificidades para la γ-
glutamil transpeptidasa, el volumen corpuscular medio y una batería de función
hepática completa fueron de solo 76%, 64% y 81%, respectivamente.3 Además, la
nueva prueba de moda de La actividad de la enzima plaquetaria tiene una
especificidad de solo el 73% .2
Por lo tanto, en su paciente, un historial médico simple no solo fue más rápido y fácil
sino también mucho más específico.
¿Qué pasa con su posible ascitis? Dado que tienes establecido el diagnóstico de
dependencia al alcohol, ya puedes planificar su manejo perioperatorio y posoperatorio
para prevenir, detectar y tratar los síndromes de abstinencia alcohólica. No obstante,
le gustaría saber si tiene suficiente daño hepático como para afectar su manejo del
tipo de medicamentos que probablemente reciba.
Dado su tobillo fracturado, la posición de rodillas requerida para provocar el signo del
charco está fuera de discusión, e incluso una prueba de embotamiento cambiante le
causará un dolor considerable. Ya ha ido a radiología y no querrás que vuelva a hacer
el viaje para un examen ecográfico abdominal si puedes evitarlo. Su tobillo no afectado
no está hinchado ahora, y le dice que nunca ha tenido hinchazón en el tobillo en el
pasado. ¿Sería útil este simple historial médico para la inflamación del tobillo anterior?
La figura 1-4 resume un estudio de 63 pacientes ingresados en un servicio médico
general en Durham, Carolina del Norte.9 De 15 pacientes con ascitis en el examen
ecográfico abdominal (el criterio estándar), 14 tenían antecedentes de hinchazón del
tobillo, para una sensibilidad impresionante del 93%. Si aplicamos esta sensibilidad
(93%) y especificidad (66%) a nuestra probabilidad previa a la prueba de ascitis del
50%, el resultado (que se muestra en la Figura 1-5 que la probabilidad posprueba de
no tener ascitis es del 90% cuando el paciente niega inflamación del tobillo. Una vez
más, este simple elemento de la historia clínica proporciona información diagnóstica
poderosa: cuando la sensibilidad de un síntoma o signo es alta, una respuesta
negativa descarta el trastorno diana y el acrónimo de esta propiedad es SnNout.
Sin embargo, es posible que haya observado que este estudio incluyó solo a 15
pacientes con ascitis, y bien puede preguntar qué tan seguros debemos sentirnos
acerca de esta sensibilidad de 0,93. Da la casualidad que el grado de confianza que
debemos depositar en esta (o cualquier otra) estimación de sensibilidad (o
especificidad) se puede calcular y expresar como un intervalo de confianza, dentro del
cual puede estar seguro de que la verdadera sensibilidad reside, digamos, 95% del
tiempo.1
En este caso, el intervalo de confianza del 95% sobre esta sensibilidad de 0,93
basado en 15 pacientes corre desde 0.81 (no terriblemente
sensible) a 1,00 (o sensibilidad perfecta). Si, por otro lado, este
sensibilidad de 0,93 se basaron en 100 pacientes con ascitis, la
El intervalo de confianza del 95% iría de 0,88 a 0,98, y se justificaría tener más
confianza en que un historial médico negativo descarta la ascitis. Por lo tanto, debe
buscar información sobre el intervalo de confianza del 95% para las medidas de
precisión, como la sensibilidad y la especificidad, cuando lea sobre ellas.

UN ENFOQUE MÁS RÁPIDO Y PODEROSO: LA RELACIÓN DE


PROBABILIDAD
Muchas de las descripciones generales de esta serie describirán no solo la
sensibilidad y especificidad de síntomas y signos específicos, sino también sus
razones de probabilidad (LR). Este método de describir la precisión de la información
diagnóstica, una vez dominado, es mucho más rápido y más poderoso que el enfoque
de sensibilidad y especificidad.
Se muestra en la Figura 1-6 para la inflamación del tobillo y la ascitis. En resumen, un
LR expresa las probabilidades de que un hallazgo dado en el historial médico o el
examen físico se produzca en un paciente con, en contraposición a un paciente sin, el
trastorno diana. Cuando el LR de un hallazgo es superior a 1.0, la probabilidad de
enfermedad aumenta (porque el hallazgo es más probable entre pacientes con el
trastorno que sin él); cuando el LR está por debajo de 1.0, la probabilidad de
enfermedad disminuye (porque el hallazgo es menos probable entre pacientes con el
trastorno que sin él); finalmente, cuando el LR se acerca a 1.0, la probabilidad de
enfermedad no cambia (porque el hallazgo es igualmente probable en pacientes con y
sin el trastorno).
Los LR están relacionados con la sensibilidad y la especificidad, pero poseen algunas
ventajas para los médicos. En una tabla de 2 × 2 como la Figura 1-6, el LR para un
historial positivo de hinchazón del tobillo es igual a la sensibilidad / (1 - especificidad) o
0.93 / 0.33, o 2.8, lo que indica que un historial positivo es casi 3 veces mayor Es
probable que se obtenga de un paciente con ascitis, a diferencia de un paciente sin
ascitis. El LR para un historial negativo de hinchazón del tobillo es igual a (1 -
sensibilidad) / especificidad o 0.07 / 0.67, o 0.10, lo que indica que es probable que se
obtenga un historial negativo de un paciente con, a diferencia de un paciente sin ,
ascitis (y confirmando nuestra conclusión anterior de que esta historia negativa nos
permitió SnNout este diagnóstico).
La primera ventaja de los LR es que el LR para un hallazgo dado, cuando se aplica a
las probabilidades previas a la prueba del trastorno objetivo, genera las probabilidades
posteriores a la prueba para ese trastorno. Porque el LR se expresa como
probabilidades, esto puede parecer incómodo al principio, ya que significa que la
probabilidad previa a la prueba también debe expresarse como probabilidades
(aunque esto es tedioso de hacer a mano, más adelante, le mostraremos cómo evitar
los cálculos utilizando el nomograma mostrado en la Figura 1-7). Cuando se hace a
mano, la probabilidad previa a la prueba del trastorno objetivo se convierte en
probabilidades previas a la prueba mediante la fórmula: Probabilidades previas a la
prueba = Probabilidad de tener el trastorno objetivo / Probabilidad de no tener el
trastorno objetivo
En la figura 1-6, la probabilidad previa a la prueba de ascitis es 0,24 y la probabilidad
previa a la prueba de no tener ascitis es 1,00 - 0,24 o 0,76. Por lo tanto, las
probabilidades de ascitis antes de la prueba son 0.24 / 0.76, o 0.32, y esto se puede
multiplicar por 2.8 (generando una probabilidad posprueba de ascitis de 0.90) cuando
el historial es positivo para inflamación del tobillo y por 0.10 (generando una
probabilidad posprueba de 0.03). ) cuando este historial es negativo.
Estas probabilidades posteriores a la prueba pueden volver a convertirse en
probabilidades mediante la fórmula: Probabilidad posterior a la prueba del trastorno
objetivo = probabilidades posteriores a la prueba / (probabilidades posteriores a la
prueba + 1). Por lo tanto, las probabilidades posteriores a la prueba de 0.90 después
de un historial positivo de hinchazón del tobillo se convierten (en 0.90 / 1.90) en 47%, y
las probabilidades posteriores a la prueba de ascitis de 0.03 después de un historial
negativo se convierten (en 0.03 / 1.03) en 3%, y observará que estos son los mismos
valores para la probabilidad posprueba de tener ascitis que generamos en la Figura 1-
4.
La necesidad de convertir la probabilidad en probabilidades y viceversa puede
obviarse utilizando el nomograma que se muestra en la Figura 1-7, que ya ha
realizado las conversiones por nosotros.
Puede demostrarse esto a sí mismo de la siguiente manera: ancle una regla no
graduada en el margen izquierdo del nomograma, con la probabilidad de prueba previa
del 24%, y rote la regla hasta que cruce la línea media del nomograma en un LR de
2.8, correspondiente a un antecedentes positivos de hinchazón del tobillo. Se cruzará
con el margen derecho del nomograma justo por debajo del 50%.
De manera similar, gire la regla hasta que se cruce con un LR de 0.10 para el historial
negativo y observe que la probabilidad de ascitis posprueba disminuye al 3%.
La segunda ventaja de los LR se hace evidente cuando vemos que el nomograma nos
permite determinar la probabilidad de ascitis cuando la probabilidad previa a la prueba
cambia del 24% en la Figura 1-4 al 50% en la Figura 1-5 sin tener que construir la
última. Simplemente podemos volver a anclar la regla al 50% y ejecutarla a través de
los LR de 2.8 y 0.10 como antes, cruzando la línea de probabilidad posterior a la
prueba en aproximadamente el 73% y el 10%.
La tercera ventaja de los LR es que, a diferencia de la sensibilidad y la especificidad
(que limitan el número de resultados de la prueba a solo 2 niveles, "positivo" y
"negativo"), se pueden generar para múltiples niveles del resultado de la prueba de
diagnóstico. En cada nivel, la proporción de pacientes con el trastorno diana en este
nivel se divide por la proporción de pacientes que no tienen el trastorno diana en este
mismo nivel; el resultado es el LR para este nivel. Esto se muestra en la Tabla 1-2, en
la que se muestran los LR para 4, 3, 2 y 1 y no se muestran respuestas positivas al
cuestionario CAGE (el LR incómodo e infinitamente alto para 4 respuestas positivas
puede evitarse si 3 y 4 respuestas positivas las respuestas se combinan, generando
un LR de 206 para la combinación).
La cuarta ventaja de la estrategia LR es que la probabilidad posterior a la prueba del
trastorno diana obtenida del primer elemento de información de diagnóstico (por
ejemplo, un historial de hinchazón del tobillo) es la probabilidad previa a la prueba de
ese diagnóstico para el siguiente elemento de información de diagnóstico (por ejemplo,
el examen físico en busca de edema de tobillo). Este ejemplo también identifica el
problema al que siempre nos enfrentamos cuando combinamos información de
diagnóstico del historial médico y el examen físico (¡y del laboratorio de química y la
sala de radiología!): Los resultados del historial médico y el examen físico no son
independientes entre sí. Por lo tanto, un paciente con un historial positivo de tobillos
hinchados tiene muchas más probabilidades de tener edema del pie que un paciente
con un historial negativo, y debemos utilizar un LR que considere ambos elementos
como un par o modificar el LR para el segundo, según los resultados del primero. Este
tema de la independencia, junto con la consideración del lugar (atención primaria o un
hospital terciario) donde se realiza el examen, se abordará en un artículo de
antecedentes posterior de esta serie.

MANUAL DE PRECISIÓN Y EXACTITUD


RESUMEN ACTUALIZADO SOBRE PRECISIÓN Y
PRECISIÓN DEL EXAMEN CLÍNICO
¿QUÉ HAY QUE ACTUALIZAR?
Cada una de las actualizaciones en The Rational Clinical Examination evalúa
sistemáticamente la literatura recientemente publicada sobre el tema, excepto esta. La
actualización de Primer requiere un enfoque diferente para cumplir la promesa original
de que la serie abordaría preocupaciones metodológicas más allá de la precisión y
exactitud. Lo que haremos es adoptar un enfoque muy utilitario, impulsado por las
propias actualizaciones del tema. Las actualizaciones y nuestras propias conferencias
sobre el examen clínico racional desenterraron temas que debemos abordar. En lugar
de realizar una revisión sistemática de las medidas de calidad, sensibilidad,
especificidad, índices de probabilidad (LR) y una gran cantidad de temas relacionados,
proporcionamos información de antecedentes y respuestas a las preguntas que
nuestros propios autores requerían al preparar sus revisiones y actualizaciones.
Por supuesto, la premisa básica para el diagnóstico no ha cambiado desde el Manual
(o desde que Thomas Bayes lo descubrió hace más de 3 siglos): Probabilidades
previas × LR = Probabilidades posteriores
Para el examen clínico, esto significa que (1) usamos información sobre la
probabilidad de un trastorno diana (tomado frecuentemente como la prevalencia, que
luego se convierte en las probabilidades anteriores) y luego (2) aplicamos los
resultados de los síntomas o signos (en la forma de un LR). Después de aplicar el LR
asociado con varios síntomas y signos, obtenemos las probabilidades posteriores de
enfermedad. La probabilidad de enfermedad aumenta cuando un hallazgo clínico es
más probable en un paciente con el trastorno diana (reflejado por un LR> 1). La
probabilidad de enfermedad disminuye cuando es más probable que ocurra un
hallazgo clínico en un paciente sin el trastorno diana (reflejado por un LR <1). La
probabilidad resultante se convierte en la probabilidad "posterior" porque la
probabilidad previa se establece primero y luego se modifica con información del
historial médico y el examen físico expresada cuantitativamente en la forma de LR. *
Mantener la ecuación simple en mente enfoca el objetivo de The Rational Artículos de
la serie Clinical Examination sobre cómo proporcionar todos los datos necesarios para
resolver la ecuación de probabilidades posterior.

¿POR QUÉ LR?


En la cartilla, enfatizamos el papel del LR univariado para los médicos. El término
univariado significa los resultados de un hallazgo, sin tener en cuenta los hallazgos de
otras características históricas o clínicas. Elegimos esta ruta por una variedad de
razones, siendo la más importante su propiedad fundamental que permite a los
médicos aplicar los valores a pacientes individuales en un patrón consistente. Los LR
siempre transmiten la misma información: cuantifican el cambio en las probabilidades
de enfermedad para un resultado de prueba en particular. Por tradición, para los
resultados de prueba dicotómicos, llamamos LR asociado con una prueba positiva LR
+ (LR positivo), mientras que LR asociado con una prueba negativa es LR– (LR
negativo). En cualquier caso, el valor de LR real está relacionado con el cambio en la
probabilidad de que el paciente tenga la enfermedad de interés. Por lo tanto, no puede
haber confusión, como ocurre a veces cuando los médicos se sienten abrumados por
cómo traducir el valor predictivo positivo, la tasa de verdaderos positivos, la tasa de
falsos positivos, el valor predictivo negativo, la tasa de verdaderos negativos o la tasa
de falsos negativos en un cambio. en la probabilidad de enfermedad para un paciente
individual.
Muchos médicos se sienten más cómodos con los términos sensibilidad y
especificidad. Sin embargo, estos valores en sí mismos tienen poca aplicación en el
entorno clínico. La sensibilidad y la especificidad son valores que se aplican al
resultado de una prueba de detección antes de saber si el paciente tiene el trastorno
diana.
Entonces, ¿qué resultado usamos al lado de la cama? La sensibilidad se aplica solo a
pacientes con enfermedad, mientras que la especificidad se aplica solo a pacientes sin
enfermedad. Debido a que utilizamos pruebas de detección precisamente porque no
conocemos la presencia o ausencia de la enfermedad, ¿cómo decidimos si el valor de
¿La sensibilidad o el valor de la especificidad se aplica a nuestro paciente?
La respuesta simple es que no lo sabemos. Si sabemos qué resultado se aplica a
nuestro paciente, entonces, por definición, conocemos el estado de la enfermedad y
los resultados de las pruebas de detección pierden relevancia. El verdadero valor de
un LR proviene de su definición matemática que combina los valores de sensibilidad y
especificidad, haciéndolo aplicable a cada paciente antes de que sepamos si la
enfermedad está presente o ausente. Cuando se evalúan en combinación, la
sensibilidad y la especificidad son los componentes básicos del LR para las pruebas
que son dicotómicas (p. Ej., "Positivo" o "negativo", "presente" o
"ausente"). El LR para un resultado positivo es sensibilidad / (1 - especificidad),
mientras que el LR para un resultado negativo es (1 - sensibilidad) / especificidad.
Pero, ¿qué sucede cuando una prueba de detección tiene más de 2 resultados (tabla
1-3)?
Las pruebas de laboratorio tradicionales se miden en escalas continuas, donde los
intervalos de resultados tienen un significado matemático, pero el médico no podría
conocer el LR para cada resultado. Un laboratorio clínico informa el resultado sin
procesar, junto con un indicador que indica si el resultado es "alto", "normal" o "bajo".
El informe toma el valor bruto y lo transforma a una escala ordinal, lo que facilita a los
médicos la revisión de una gran cantidad de datos. Cuando hay más de 2 resultados
de una prueba de detección, la sensibilidad y la especificidad no se pueden calcular
directamente, por lo que el médico debe confiar en los LR que generalmente se dan
para los resultados ordinales.
Una explicación cuantitativa simple ayuda a explicar por qué la sensibilidad y la
especificidad pierden significado cuando hay más de 2 resultados de pruebas de
detección. La presencia de un tercer ruido cardíaco (S3) sugiere disfunción sistólica
del ventrículo izquierdo (VI).
A veces, el médico no está seguro de si el sonido está presente. Para ilustrar este
punto, podemos inventar algunos datos que podrían aplicarse a la interpretación del
clínico del S3 en comparación con un ecocardiograma estándar de referencia que
cuantificó la función del VI (tabla 1-4).
Podemos describir la sensibilidad del S3 como 30 / (30 + 5 + 10) = 0,68 y la
especificidad como 50 / (5 + 10 + 50) = 0,77.
Aunque esto puede parecer sencillo, una inspección más detallada revela algunos
problemas con esa interpretación. Primero, el tratamiento de los resultados "inciertos"
carece de coherencia. Para calcular la sensibilidad, “contamos” un S3 incierto como si
realmente estuviera ausente. Pero la realidad clínica era que el médico no podía
afirmar con certeza si estaba presente o ausente. Cuando calculamos la especificidad,
hacemos exactamente lo contrario y contamos los resultados "inciertos" como si
fueran "positivos". ¿Cómo se puede considerar un hallazgo "incierto" como "positivo"
para la sensibilidad pero "negativo" para la especificidad? Este tratamiento dual crea
problemas que se vuelven aún más pronunciados a medida que el número de
resultados aumenta más allá de los 3 resultados.
En segundo lugar, incluso si creyéramos que la sensibilidad y la especificidad
capturaron el significado de un S3 que está presente o ausente, ¿cómo describimos
los resultados para "incierto"?
La sensibilidad proporciona una definición inadecuada porque la sensibilidad es el
valor que describe el porcentaje de pacientes con un resultado anormal entre todos
aquellos con enfermedad y “incierto” no es ni anormal ni normal. Un argumento similar
se aplica a la especificidad, de modo que ni la sensibilidad ni la especificidad ofrecen
una descripción razonable del valor de un resultado incierto. Las construcciones
simplemente no se aplican a un resultado de prueba que no es completamente normal
ni completamente anormal. El LR proporciona una manera de describir no solo los
resultados positivos y negativos, sino también los que son inciertos.
En un nivel fundamental, el LR toma un resultado de prueba de detección determinado
y para ese resultado nos dice la proporción de personas con enfermedad y sin
enfermedad. Entonces, una vez que sabemos a qué fila de la tabla pertenece un
paciente de acuerdo con el resultado de su prueba (S3 presente, S3 incierto o S3
ausente), el LR nos dice la probabilidad de que el paciente provenga de la primera
columna frente a la segunda columna. Podemos calcular un LR para cada fila de una
tabla r × 2 (donde r representa el número de filas) (Tabla 1-5). Así, cuando
escuchamos un S3 en el paciente, aplicamos el valor 8,7, lo que hace mucho más
probable la disfunción sistólica del VI. Cuando estamos seguros de que no hay un S3,
la probabilidad de disfunción sistólica del VI disminuye. Sin embargo, cuando estamos
"inciertos", el LR que aplicamos es 0,72, un valor que se acerca a 1 y sugiere que el
resultado "incierto" no debería tener un gran efecto en nuestra estimación de la
probabilidad de enfermedad. A menudo, es útil saber que "incierto" realmente significa
"poca información" con un LR cercano a 1 ¿No está toda la información en el historial
médico del paciente?
Ahora debemos abordar la creencia común de que el examen físico no es
particularmente útil y, en el mejor de los casos, solo confirma los hallazgos y síntomas
históricos. A menudo, un médico toma el historial médico de un paciente y hace un
diagnóstico antes de realizar un examen físico. Este proceso, aunque a veces exitoso,
conduce a la inferencia de que el examen físico fue innecesario. Por una simple razón,
la inferencia no es cierta: el examen físico comienza desde el momento en que el
médico se encuentra con un paciente y antes de que el paciente pronuncie una
palabra. Observamos el lenguaje corporal, la marcha del paciente, los signos vitales
(p. Ej., Taquipnea) y las deformidades físicas, y juzgamos la agudeza de la
enfermedad. Estos hallazgos derivados de observaciones visuales pueden ser difíciles
de cuantificar (p. Ej., La sensación de que el paciente tranquilo y hosco puede estar
deprimido), aunque la mayoría de los médicos reconocen la enorme cantidad de
información que recopilan en los primeros momentos de la interacción del paciente.
Debido a que es difícil describir y medir la influencia de nuestras observaciones
generales, los investigadores a menudo pasan por alto la gestalt clínica.
Una forma de aislar la gestalt clínica es evaluar si podemos hacer un diagnóstico en
ausencia de observar directamente a un paciente. Se puede obtener una lista de
verificación de síntomas (pero no el historial médico del paciente) mediante un
cuestionario autoadministrado por el paciente. A veces, podemos inferir un diagnóstico
de tales cuestionarios con nuestra impresión no contaminada por
hallazgos físicos, pero el diagnóstico generalmente requiere confirmación obtenida a
través de una entrevista con el paciente o un examen físico. La capacidad de
desenredar la historia de los hallazgos del examen físico es a menudo una ilusión, lo
que lleva a la inferencia de que el historial médico del paciente (síntomas) domina el
proceso de diagnóstico clínico sobre el examen físico (signos).

LA PROBABILIDAD PREVIA A LA PRUEBA


La parte más importante del examen clínico y el diagnóstico resultante generalmente
no son los síntomas o signos; es la probabilidad previa a la prueba, transformada en
las probabilidades anteriores, lo que domina la ecuación. En pocas palabras, si una
condición es muy poco probable (o viceversa), la presencia o ausencia de cualquier
hallazgo adicional generalmente no cambiará las cosas. Como corolario, cuando la
probabilidad de una condición objetivo no es tan segura, el efecto de los signos y
síntomas sobre la probabilidad previa crea un efecto potencialmente mayor.
Entonces, ¿de dónde proviene la probabilidad previa a la prueba? Establecemos la
probabilidad previa a la prueba en el curso de nuestro examen clínico, y eso crea un
pequeño problema (tanto para los investigadores como para los médicos). En otras
palabras, a medida que aprendemos más sobre el historial médico, los síntomas y los
signos del paciente, orientamos nuestro enfoque hacia un espectro más reducido de
posibilidades de enfermedad. Este enfoque requiere que “desperdiciemos” algunos
hallazgos para establecer la probabilidad previa a la prueba. Por ejemplo, la mayoría
de los pacientes que examinamos no tienen sinusitis y no hacemos preguntas sobre
los síntomas relacionados con la sinusitis, ni transiluminamos los senos paranasales
durante el curso de un examen clínico a menos que tengamos una sospecha de la
enfermedad. Podríamos limitar nuestra evaluación de la sinusitis a los pacientes que
afirman tener congestión nasal, secreción nasal o malestar facial en el maxilar o que
dicen de inmediato: "Creo que tengo una infección de los senos nasales". Cada uno de
estos hallazgos provocaría una evaluación adecuada para la sinusitis y en un estudio
de investigación crear los "criterios de ingreso". Por lo tanto, cuando nos referimos a la
probabilidad de sinusitis previa a la prueba, lo más probable es que nos refiramos a la
prevalencia de sinusitis entre los pacientes con cualquiera de esos hallazgos más que
a la prevalencia de sinusitis entre todos los pacientes en general. Esta probabilidad
previa a la prueba se convierte en el valor que usamos en la ecuación y el ancla para
aplicar otros síntomas y signos que descubrimos durante nuestro examen clínico.
El establecimiento de la probabilidad previa a la prueba es el problema que la mayoría
de los estudiantes temen, y representa su principal “excusa” para no usar los
conceptos del Examen Clínico Racional. Con frecuencia, los alumnos afirman "falta de
experiencia". Cuando los estudios existentes describen adecuadamente su población
de estudio, la probabilidad previa a la prueba no es difícil de entender. La experiencia
se vuelve más valiosa cuando la literatura es menos clara, y quizás esto sea parte del
"arte" del examen clínico. Los alumnos pueden ser bastante buenos para estimar la
probabilidad previa a la prueba de condiciones comunes. Sin embargo, tanto los
alumnos como los médicos experimentados tienden a sobreestimar las probabilidades
previas de enfermedades menos comunes.
Los alumnos expresan malestar al estimar la probabilidad previa porque (1) no
practican cuantificar y luego validar su impresión clínica y (2) pueden recordar sus
propios casos en los que buscaron un diagnóstico poco probable para una
presentación aparentemente "clásica", solo para encontrar que la enfermedad no
estaba presente. Aunque la segunda razón proviene de pasar por alto la importancia
de la probabilidad previa, requiere una reevaluación del papel de los síntomas y
signos.

¿QUÉ ES UN SÍNTOMA O SIGNO "BUENO"?


La presencia de un "buen" síntoma o signo crea un gran efecto sobre la probabilidad,
convenciendo al médico de que es mucho más probable que esté presente la
condición objetivo de lo que sugiere la probabilidad previa. La sugerencia de que algún
umbral de LR preespecificado define un buen hallazgo clínico para todas las
enfermedades es un mito tan persistente que representa una leyenda médica urbana.
Algunos investigadores y médicos definen un resultado de prueba "bueno" como el
asociado con un LR mayor que 10 o un LR menor que 0.1, pero estos resultados no
tienen propiedades intrínsecas que sean la condición sine qua non de un valor alto.
Por ejemplo, una probabilidad previa a la prueba del 10% y una prueba positiva con un
LR = 10 genera una probabilidad posterior a la prueba del 53%; esto es un gran
aumento en la probabilidad de enfermedad pero apenas un aumento que confirma el
diagnóstico. Además, esta es una probabilidad posprueba similar que se deriva de una
enfermedad con una probabilidad preprueba del 20% y una prueba positiva con un LR
= 5. Por lo tanto, aunque los resultados positivos de la prueba son cada vez más
poderosos a medida que aumenta el LR y los resultados negativos son cada vez más
valiosos el LR disminuye, la eficiencia del hallazgo para hacer un diagnóstico depende
de la probabilidad previa a la prueba.
Cuando se considera que varios síntomas y signos se interpretan juntos, los hallazgos
individuales con LR mucho menos impresionantes solos (p. Ej., LR +, 2-5; o LR–, 0.25-
0.50) podrían resultar útiles cuando se usan en combinación. Si ningún umbral de LR
califica automáticamente un resultado como bueno, ¿hay alguna manera de comparar
la eficiencia de diferentes hallazgos clínicos?
Un hallazgo clínico positivo con el LR + más alto o un hallazgo negativo con el LR más
bajo siempre tendrá el mayor efecto sobre la probabilidad posprueba.
Desafortunadamente, los médicos descubren que una lista de síntomas y signos para
un paciente individual a veces produce simultáneamente resultados que sugieren
(resultados positivos) y apuntan en sentido contrario (resultados negativos) un
trastorno objetivo. Sin embargo, hay una manera de darle sentido a esto. Ordenar por
rango el LR + asociado con cada resultado, junto con el recíproco del LR– (1 / LR–),
revela el “mejor” hallazgo clínico individual para una condición objetivo. El valor con el
LR + o 1 / LR– más alto es el mejor resultado de síntoma o signo. Un solo síntoma o
signo puede ser útil cuando está presente (LR + alto) o ausente (LR– pequeño).
Desafortunadamente, la mayoría de los síntomas y signos no producirán los mejores
resultados cuando sean positivos y tampoco los mejores cuando sean negativos. Por
ejemplo, un signo clínico puede tener un LR bajo - cuando es negativo, mientras que
un resultado positivo puede tener un LR + cercano a 1. Crear una lista mental de LR y
1 / LR– para una variedad de síntomas y signos no es fácil. Algunos médicos quieren
identificar el único hallazgo que, en general, es el más probable para darles la
respuesta correcta (es decir, positivo cuando el paciente tiene la enfermedad y
negativo cuando el paciente no está afectado).
La razón de probabilidades de diagnóstico (DOR) crea una única medida de precisión
que nos dice qué síntoma o signo es más probable que clasifique correctamente a un
paciente como con el trastorno diana o no.1
El DOR no es difícil de calcular, ya que DOR = LR + / LR–. Cuanto más preciso sea el
síntoma o el signo, mayor será el DOR. Por lo tanto, cuando se enfrenta a una tabla de
datos sobre muchos hallazgos clínicos en los que ninguno se distingue como el
favorito abrumador, el médico debe elegir el hallazgo con el DOR más alto.
Desafortunadamente, el DOR no se puede usar como el LR para estimar la
probabilidad de un diagnóstico, pero puede ayudarnos a elegir los síntomas y signos
de mayor utilidad para que podamos ignorar los de menor valor. En este punto, el
lector escéptico podría aceptar que existe un método para identificar mejores síntomas
y signos en términos de sus propiedades generales de medición (a través del DOR) y
mejores resultados aplicables a pacientes individuales (a través del LR). Sin embargo,
una pregunta restante podría ser: ¿Qué tan seguro puedo estar de que los síntomas y
signos que creo que son.

EL INTERVALO DE CONFIANZA
Cuando comenzó la serie The Rational Clinical Examination, presentamos los
resultados de probabilidad como valores de un solo punto como si describieran
completamente un hallazgo clínico; no es así. Como todos los parámetros estadísticos,
un LR tiene asociado un intervalo de confianza (IC) que nos ayuda a decidir si los
datos son suficientes para inferir su utilidad. Estos IC son importantes porque brindan
transparencia. Un LR optimista sugiere un hallazgo clínico prometedor, pero un IC
amplio apaga el entusiasmo al implicar que un tamaño de muestra pequeño
representa cierta certeza. Somos particularmente cautelosos cuando el IC del 95%
incluye 1 porque los valores de LR de 1 no agregan información a la probabilidad
previa a la prueba. Los IC amplios alrededor de LR–, incluso cuando no incluyen 1,
son un problema particular.
Debido a que los valores de LR– están restringidos entre 0 y 1, un IC amplio parece un
problema menor que el IC amplio alrededor de un LR + alto. Para comparar los
hallazgos relativos, el lector clínico puede usar la técnica que describimos
anteriormente (es decir, tomar el valor 1 / LR–) para comparar la amplitud de los IC de
LR negativos a positivos.
Algunos lectores se sorprenderán de que existen diferentes métodos que producen
pequeñas diferencias (pero clínicamente sin importancia) en los IC. Preferimos el
método computacional más sencillo que también funciona bien en hojas de cálculo.
Una situación presenta problemas tanto para los investigadores como para los lectores
clínicos: ¿qué hacemos cuando una celda de la tabla 2 × 2 es 0? Cuando una sola
celda tiene un valor 0 (normalmente, las celdas para falsos positivos o falsos
negativos), agregar 0.5 a cada celda de la tabla 2 × 2 permite el cálculo de IC útiles.3
Una sensibilidad del 100% produce un LR – de 0, con el LR superior IC del 95%
obtenido después de agregar 0.5 a cada celda. Una especificidad del 100% produce
un LR + que no es calculable (∞), por lo que informamos tanto el LR + como el CI
obtenidos después de agregar 0.5 a cada celda. Aunque los estudios de alta calidad
informan tanto la sensibilidad como la especificidad de los hallazgos clínicos, no todos
ellos calculan los LR por nosotros. Cuando los investigadores proporcionan el número
real de pacientes afectados y no afectados, junto con la sensibilidad y la especificidad,
podemos generar los LR y los IC del 95%. Aunque a veces es fácil calcular los IC a
partir de informes de investigación individuales, el metanálisis nos ofrece una forma
aún mejor de describir los LR de los hallazgos evaluados en varios estudios.

METAANÁLISIS
El metanálisis de síntomas y signos combina los resultados descritos en varios
estudios y los resume para obtener una única estimación e IC. Aunque algunos
estadísticos tienen un alto grado de escepticismo acerca de la conveniencia de
combinar los LR, asumimos la posición de que resumir los resultados proporciona
claridad a los médicos que, al menos, les permite asimilar datos y decidir si un síntoma
o signo es útil, inútil o incierto.
Una parte importante del metanálisis requiere que el investigador tome decisiones
sobre la conveniencia de combinar los datos. Aunque los estadísticos a menudo
sugieren un enfoque puramente estadístico (es decir, los estudios que tienen
resultados estadísticamente heterogéneos no deben combinarse), adoptamos un
enfoque más pragmático similar al adoptado por otros diagnosticadores clínicos.4
Primero, evaluamos si el universo de estudios publicados representa el universo de
pacientes para quienes se podría considerar la condición objetivo. Cuando el Los
estudios reflejan la población de pacientes para quienes se aplican los síntomas y
signos, preferimos intentar combinar los LR. Por otro lado, cuando los estudios utilizan
varias definiciones de enfermedad o diferentes umbrales para los síntomas y signos,
no podemos combinar los resultados de manera significativa. Cuando no podemos
combinar los resultados, presentamos rangos para los LR.
En segundo lugar, consideramos que nuestro público objetivo son lectores clínicos.
Para una afección que podría tener un LR muy diferente entre diferentes poblaciones
de pacientes (por ejemplo, hallazgos de apendicitis entre niños frente a pacientes
geriátricos), evitamos combinar los resultados o al menos mostramos cómo varían.
Parte de este enfoque requiere sentido común, y parte de esto es estadístico, en el
que examinamos los resultados atípicos para deducir si hay algo reconocible que
explique los hallazgos variantes de LR. En tercer lugar, examinamos los resultados
reales con sus IC después de combinar los datos. Siempre usamos medidas de
efectos aleatorios para generar el LR y los IC, en lugar del enfoque de efectos fijos.
Las medidas de efectos aleatorios generan IC más amplios que los efectos fijos, lo que
proporciona al menos cierta seguridad de que no estamos exagerando la importancia y
la confianza en nuestros hallazgos. Si un estudio es un valor atípico de LR estadístico,
aún lo incluimos en los datos combinados si no marca una gran diferencia clínica en
los LR. Sugerimos que el médico utilice el juicio clínico al decidir si 2 LR producen
diferencias clínicamente importantes en la probabilidad posprueba. Por ejemplo, para
una probabilidad previa a la prueba del 30%, una LR de 5,4 produce una probabilidad
posterior a la prueba del 70%, mientras que una LR de 3,5 produce una probabilidad
posterior a la prueba del 60%. Estos LR "se ven" diferentes, pero un médico puede
tomar una acción similar para una probabilidad posterior a la prueba del 70% frente al
60%. Por lo tanto, los 2 LR podrían ser estadísticamente diferentes pero proporcionar
resultados clínicamente similares. Siempre proporcionamos los resultados de cada
estudio, y
Los lectores astutos pueden decidir a partir de las estimaciones puntuales y los IC si
creen que un hallazgo es útil o inútil.
Los lectores con más experiencia estadística pueden reconocer que el metanálisis de
los LR difiere de lo que esperan. Los estadísticos, cuando aceptan el metanálisis de
las pruebas de diagnóstico, prefieren resumir el DOR como una medida global del
rendimiento de la prueba. Adoptamos un enfoque diferente porque resumir el DOR
brinda a los médicos un valor que no pueden usar para pacientes individuales. Aunque
a veces proporcionamos medidas resumidas del DOR, las medidas resumidas de la
prevalencia de la enfermedad (probabilidad previa a la prueba) y la LR son los valores
necesarios para resolver la ecuación de la probabilidad posprueba. A veces, nos
encontramos con estudios que solo proporcionan datos sensibles. ¿Qué hacemos con
los estudios que son series de casos de pacientes con enfermedad y que no tienen
valores de especificidad?
 

ESTUDIOS "SOLO DE SENSIBILIDAD"


Cuando las condiciones son menos comunes, los investigadores reconocen que la
inscripción de pacientes consecutivos en riesgo de padecer el trastorno diana crea una
población de estudio abrumada por quienes no padecen la enfermedad. Este enfoque
es costoso y requiere tiempo, y el pequeño número de pacientes con enfermedad
conduce a IC amplios en torno a la sensibilidad y LR–. El enfoque alternativo de
estudiar solo a pacientes con enfermedad para poder definir la sensibilidad es
pragmático y puede ser lo mejor que puede hacer el investigador. Estos estudios
generalmente provienen de un espectro reducido de pacientes enfermos y, a menudo,
el hallazgo clínico se registra entre los pacientes cuando el médico sabe que la
enfermedad está presente. Además de comprender los posibles sesgos en los datos,
debemos comprender las inferencias realizadas a partir de la sensibilidad de los
síntomas y signos sin valores de especificidad. El objetivo de los estudios de
sensibilidad es identificar un grupo de síntomas y signos que es poco probable que
todos sean negativos en un paciente con la afección objetivo.
Es menos probable que los síntomas y signos con alta sensibilidad sean negativos en
pacientes con enfermedad. Cuando se presentan los datos de sensibilidad por sí
mismos, los médicos contarán el número de
hallazgos en sus pacientes y deducir que aquellos con hallazgos normales en
múltiples síntomas y signos de alta sensibilidad probablemente no tendrán la
enfermedad. Por ejemplo, suponga que identificamos 2 síntomas y 1 signo, cada uno
de los cuales tiene una sensibilidad del 85% para la condición objetivo. Eso significa
que cada hallazgo estaría ausente en el 15% de los pacientes con enfermedad; los 3
estarían ausentes en menos del 1% de los pacientes (0,15 × 0,15 × 0,15).

¿CÓMO UTILIZAMOS TODOS LOS SÍNTOMAS Y SIGNOS?


Entre varias razones para preferir los LR como nuestro parámetro estadístico común,
en lugar de los valores individuales de sensibilidad y especificidad, la capacidad de
multiplicar los resultados de probabilidad de varios hallazgos es la más atractiva.
Desafortunadamente, una suposición crucial no suele abordarse por completo: la
multiplicación secuencial de los RL requiere que los síntomas y los signos sean
independientes entre sí.
Expliquemos el concepto de independencia con un ejemplo sencillo. Suponga que
realiza un estudio de los síntomas del dolor en el pecho como un predictor de isquemia
aguda y clasifica las palabras como con connotaciones "físicas" o "emocionales". Las
palabras que describen la ubicación y la radiación serían físicas (por ejemplo, "centro
del pecho", "en el cuello"), mientras que las palabras que describen la interpretación
del dolor serían emocionales (por ejemplo, "sofocante", "aplastante"). Decide registrar
cada vez que un paciente se refiere a un "elefante" al describir su malestar como
emocional, como "Sentí como si un elefante me hubiera pisado el pecho".
Sospechamos que es obvio que un paciente que es "elefante positivo" está
experimentando un dolor aplastante, pero si informa que tiene "un dolor aplastante que
se siente como un elefante en mi pecho", ¿deberíamos informar los hallazgos por
separado para "aplastamiento positivo "Y" elefante positivo? " Multiplicar los LR para el
malestar "aplastante", "parecido al de un elefante" probablemente exagera la
importancia, lo que produce una razón de probabilidades posterior a la prueba que es
demasiado alta porque el dolor similar al de un elefante no es independiente del dolor
aplastante.
Aunque el sentido común podría funcionar como un juez inicial de la independencia, el
sentido común no debería ser el único árbitro de la independencia. ¿Qué debe hacer
cuando se le presente una serie de hallazgos para muchos síntomas y signos sin
ninguna evaluación de independencia?
Para que la enseñanza y la realización de la historia clínica y el examen físico sean
más eficientes y precisos, queremos parsimonia. Por "parsimonia", nos referimos a la
menor cantidad de síntomas y signos que producen la información más precisa. Los
exámenes parsimoniosos obligan a los profesores a enseñar sólo las partes más
relevantes del examen, lo que permite a los estudiantes dedicar más tiempo a
aprender lo que es importante y, al mismo tiempo, eliminar las maniobras inútiles. Por
supuesto, parte de este desperdicio está en eliminar maniobras que no funcionan bien.
Por ejemplo, es interesante enseñar una prueba de Rinne, pero no agrega información
de diagnóstico útil al síntoma de "disminución de la audición" informado por el
paciente.5
Eliminamos el esfuerzo adicional desperdiciado cuando descartamos hallazgos no
independientes.
Un examen parsimonioso debería hacernos matemáticamente más precisos porque
una historia médica y un examen físico “completos” casi con certeza producen
hallazgos no independientes. Los hallazgos “positivos” no independientes nos
confunden y distorsionan nuestras estimaciones de probabilidad, lo que generalmente
nos hace inferir una probabilidad de enfermedad más alta de lo que está justificado. La
mayoría de los autores de los artículos de The Rational Clinical Examination enfatizan
no más de 3 a 4 hallazgos, incluso cuando los síntomas y signos adicionales tienen RL
útiles. Reducir el número de hallazgos recomendados requiere "validez aparente", con
lo que nos referimos al uso del sentido común para recomendar los elementos con los
mejores LR aparentemente independientes. Cuando adoptamos este enfoque, los
médicos experimentados utilizan el razonamiento semicuantitativo y deducen que
cuantos más hallazgos se presenten, es más probable que el paciente tenga la
enfermedad (o viceversa).
Cuando los médicos desean incorporar los resultados de los estudios de diagnóstico
en su toma de decisiones, pueden adoptar 3 enfoques para prevenir errores creados
por la falta de independencia.6 Realizar el examen clínico y luego usar un único
hallazgo de la historia clínica o del examen físico para ajustar las probabilidades
anteriores garantizará que no hay problema con la independencia. (¡Por supuesto,
también garantiza que el médico podría estar ignorando mucha información clínica
útil!) Por lo general, el médico querrá usar el hallazgo único que tenga el mayor efecto
sobre las probabilidades anteriores, o el "mejor" hallazgo que descrito anteriormente.
El enfoque no es difícil ya que las matemáticas simples le permiten clasificar los
hallazgos en orden de más útil a menos útil. Suponga que tiene 3 hallazgos (A,
B, y C) que pueden ser positivos o negativos, con los LR asociados con cada resultado
que se muestran en la Tabla 1-6. ¿Es el hallazgo de que "A" está presente más útil
para el diagnóstico que la ausencia de "C"? Para determinar esto, puede ordenarlos
por rango comparando el LR para los resultados positivos con 1 / LR para los
resultados negativos. La Tabla 1-6 muestra el valor relativo de cada uno de los
hallazgos. Si su paciente tenía "A" ausente, "C" presente y "B" presente, entonces
multiplicaría las probabilidades anteriores por el LR asociado con el resultado para la
prueba "B" (LR = 5.0) porque había tenido la mayor cantidad resultado útil para ese
individuo. Aunque el resultado anterior elimina cualquier preocupación con
independencia, el clínico debe recopilar muchos datos que finalmente se descartan.
Como mínimo, no es eficiente y, en el peor de los casos, se podría ignorar información
importante. No es sorprendente que este enfoque carece de atractivo porque ignora la
forma en que la mayoría de los médicos incorporan muchos bits de información en su
toma de decisiones.
Los investigadores clínicos deben analizar sus datos de forma multivariante para
ayudar a los médicos. Por “multivariante” queremos decir que deben analizar
combinaciones de hallazgos para que haya menos preocupación por la independencia.
Esto puede implicar uno de dos enfoques generales. El método más sencillo es tomar
el historial médico y los resultados del examen físico y realizar una regresión logística.
La regresión logística toma una serie de variables individuales y determina su
importancia para predecir si la enfermedad está presente o ausente. En la primera
estrategia para evaluar la independencia, la regresión logística identifica variables que
carecen de independencia y que pueden eliminarse como redundantes. En nuestro
ejemplo anterior, si todos los pacientes con sibilancias también tuvieran disnea,
entonces el hallazgo de la disnea "variable" podría no ser importante una vez que
conozcamos el estado de las sibilancias. El enfoque de regresión logística identificaría
esto como no significativo, y el investigador sugeriría que concentramos nuestros
esfuerzos en evaluar las sibilancias. Utilizado como un paso de "reducción de datos"
para lograr la parsimonia, el médico utilizaría los LR simples y univariados para
cualquier hallazgo identificado como útil independientemente en el modelo logístico.
Este enfoque tiene mucho atractivo porque identifica las variables importantes y útiles
para el clínico y no requiere que entiendan el modelo logístico sí mismo, porque se
utilizan los LR univariados. Sin embargo, al usar los LR simples, no ajustados,
ignoramos la relación entre los diversos hallazgos clínicos a favor de la simplicidad.
Los parámetros β de un análisis logístico multivariado describen la importancia relativa
de los síntomas y signos.
Del álgebra, quizás recuerdes que la ecuación para una línea recta es y = mx + b. La
m en la ecuación es la pendiente, y cuantifica cómo un cambio en x afecta a y. * Un
modelo logístico funciona de manera similar, excepto que ahora, en lugar de tener 1 x,
tenemos varios síntomas y signos que evaluamos todos a la vez. El equivalente de m
en el modelo logístico ahora representa el parámetro β, que es la razón de
probabilidades asociada con cada síntoma o signo; cuanto mayor sea el parámetro β,
más importante será el hallazgo. Cuando los investigadores nos proporcionan los
modelos multivariados reales, podemos poner los resultados del examen clínico de
nuestro propio paciente en el modelo, y el resultado es la probabilidad real de
enfermedad del paciente individual
EL ESCÁNDALO POR LA PRECISIÓN
El Manual establece que "para que un elemento de la historia clínica o del examen
físico sea exacto, primero debe ser preciso". Por precisión, damos a entender que 2 o
más observadores coinciden en la presencia o ausencia de un hallazgo en un paciente
que no experimentó cambios clínicos. *
Cuando medimos la precisión, describir el porcentaje de tiempo en que 2
observadores están de acuerdo en un síntoma o signo no tiene en cuenta la simple
suerte. En lugar de informar un simple acuerdo, los investigadores informan que la
precisión es el acuerdo más allá del atribuible al azar. Para los hallazgos dicotómicos
("sí" frente a "no" o "presente" frente a "ausente") comparados entre 2 observadores,
cuantificamos este acuerdo más allá del azar con la estadística κ. †
El estadístico κ varía de –1 (desacuerdo perfecto) a 0 (acuerdo al azar) a +1 (acuerdo
perfecto).
Supongamos que estamos interesados en saber si un tercer ruido cardíaco identifica a
los pacientes con disfunción sistólica del VI. Es fácil imaginar que un cardiólogo podría
identificar mejor esto correctamente que un internista generalista, lo que sugiere que
una estadística κ podría mostrar un menor acuerdo más allá del azar que si
estuviéramos comparando a 2 médicos generales. ¿Debemos concluir que un tercer
ruido cardíaco no es una buena prueba a partir de la precisión entre un cardiólogo y un
internista general? La respuesta, por supuesto, es no porque la precisión de la prueba
depende de la calidad de la observación; el cardiólogo puede ser un mejor observador
que un médico con menos experiencia. Estos síntomas y signos aparentemente
imprecisos son potencialmente útiles cuando ciertos proveedores obtienen buenos
resultados consistentemente porque representan oportunidades para mejorar el
rendimiento y la precisión.
Un segundo tipo de precisión es más importante para identificar hallazgos inexactos.
Aunque un κ bajo entre observadores apunta a oportunidades de mejora, un acuerdo
intraobservador deficiente impide una alta precisión a menos que se pueda eliminar el
problema. El acuerdo intraobservador describe si un médico obtiene el mismo
resultado al evaluar un síntoma o un signo en un paciente que no ha cambiado
clínicamente. Por ejemplo, cuando un médico pregunta acerca de los dolores de
cabeza unilaterales como síntoma de migraña, pero el paciente cambia su respuesta,
el hallazgo nunca puede ser exacto o preciso. Aunque la suposición natural podría ser
culpar al paciente por la inconsistencia, parte de un acuerdo intraobservador deficiente
puede atribuirse a una técnica deficiente que se puede mejorar. Esto es cierto incluso
cuando se aplica a los síntomas informados por el paciente porque se obtienen
respuestas diferentes cuando la información se solicita de manera diferente (p. Ej.,
Hacer al paciente una pregunta principal sobre dolores de cabeza unilaterales frente a
una pregunta abierta). Pero si los médicos no pueden asegurar la confiabilidad de sus
propios hallazgos, nunca usarán los síntomas y signos con precisión. Si no puede
estar de acuerdo con usted mismo, los resultados de LR serán aleatorios.

UNAS BREVES PALABRAS SOBRE LA CALIDAD


Todos los artículos de la serie The Rational Clinical Examination y las actualizaciones
de este libro utilizan un proceso estándar para evaluar la calidad de los datos. Aunque
el Manual se centra principalmente en los resultados de sensibilidad, especificidad y
LR, debe quedar claro que los IC estrechos alrededor de los resultados no garantizan
el rigor metodológico de los estudios que generaron los resultados. Al comienzo de la
serie The Rational Clinical Examination, el movimiento de la medicina basada en la
evidencia estaba en su infancia. Uno de los primeros artículos de la serie anunció su
entrada en los pensamientos principales de los educadores e investigadores clínicos.7
Debido a que no se habían desarrollado enfoques estandarizados para evaluar la
calidad de la historia médica y el examen físico, David L. Sackett, MD, y Charles H.
Goldsmith, PhD, estuvieron de acuerdo en ciertas características que pidieron a sus
revisores que usaran al juzgar la calidad. Los criterios fueron simplificados y resumidos
en uno de los primeros artículos de la serie8.
Posteriormente, varios grupos han publicado sus criterios para la revisión de estudios
de precisión diagnóstica, aunque ninguno aborda los matices particulares de los
síntomas y signos.9-11 Quizás no sea sorprendente que muchos investigadores
clínicos y epidemiólogos hayan informado sobre un gran número de medidas de
calidad que describir lo que parecen innumerables sesgos potenciales en los estudios
de pruebas de diagnóstico. A pesar de la creciente complejidad de los sistemas de
clasificación y las medidas de calidad, los criterios originales para la revisión de
artículos han resistido la prueba del tiempo y el pragmatismo. En todo caso, facilitamos
el proceso y redujimos la cantidad de niveles de calidad que un revisor
podría asignar un artículo. Revisamos las recomendaciones para los estudios de
pruebas diagnósticas9,10 y las adaptamos específicamente para los estudios del
examen clínico.12 En los primeros artículos que aparecen en la serie The Rational
Clinical Examination, asignamos Grados para los niveles de evidencia. Sin embargo,
esto borró la distinción entre los Niveles 3, 4 y 5. Debido a que ningún estudio acepta
la evidencia del Nivel 5 al hacer recomendaciones, eliminamos la designación de
Grado y ahora informamos solo los Niveles como se muestra en La mayoría de los
sesgos importantes que comprometen los resultados de un estudio se derivan de que
la población del estudio no es consecutiva, prospectiva o evaluada de forma
independiente con un estándar de referencia apropiado aplicado a ciegas. Por
consecutivos, queremos decir que los autores inscribieron a todos los pacientes para
quienes el trastorno diana era una consideración razonable. Independiente significa
que el síntoma o signo en estudio no se utilizó para seleccionar pacientes para el
estudio. Ciego significa que los síntomas y signos se aplicaron sin conocimiento de la
presencia de la enfermedad determinada por el estándar de referencia, pero también
que el estándar de referencia se interpretó sin conocimiento de las preguntas del
estudio. El tamaño de un estudio (nivel 1 frente a nivel 2) para la evaluación de la
calidad depende de la enfermedad en cuestión. Los autores de The Rational Clinical
Examination evalúan los tamaños de las muestras de acuerdo con su revisión de la
literatura porque no existe un número uniforme que determine la calidad; por ejemplo,
un estudio grande de aneurismas aórticos torácicos probablemente no tenga tantos
pacientes como un estudio grande de infección del tracto urinario en mujeres.
Un sesgo particular, el sesgo de verificación, merece una consideración especial
porque puede ser insidioso y tener un gran efecto en el LR. El sesgo de verificación se
produce cuando todos los
los pacientes no se someten a la confirmación de su estado de enfermedad. A
menudo, esto se hace por razones pragmáticas. Un ejemplo podría ser un estudio de
pacientes con dolor de cabeza que busca describir si los hallazgos neurológicos
asimétricos (p. Ej., Debilidad) que indiquen anomalías intracraneales graves se
descubrieron mediante neuroimágenes. Debido a que sería costoso y poco práctico
someter a todos los pacientes con dolores de cabeza a imágenes, un investigador
generalmente elige maximizar la posibilidad de encontrar algo al incluir a todos los
pacientes con fuerza muscular asimétrica, pero solo una muestra de los que son
normales. Podemos resaltar el efecto del sesgo de verificación sobre la sensibilidad, la
especificidad y los LR mediante el examen de tablas de datos de ejemplo. Suponga
que un investigador informa los hallazgos que se muestran en la Tabla 1-8.
En el ejemplo, el hallazgo parece excelente, con una sensibilidad y especificidad del
90%. Sin embargo, debido a que el investigador no pudo justificar el estándar de
referencia (p. Ej., Neuroimagen en todos los pacientes con dolor de cabeza), el equipo
de investigación remitió solo una muestra de aquellos con hallazgos clínicos positivos
(con fines ilustrativos, 10%). Si el investigador hubiera estado evaluando a todos los
pacientes, los hallazgos podrían haber sido los que se muestran en la Tabla 1-9.
Los datos demuestran que el sesgo de verificación tiende a sobrestimar la sensibilidad
mientras subestima la especificidad. * Cuando el sesgo no se ajusta, el investigador no
reconocerá que la presencia del hallazgo es en realidad mejor de lo sugerido (el LR +
ajustado debería ser mayor), mientras que la ausencia del hallazgo no es tan bueno
como se sugiere (el LR ajustado debe estar más cerca de 1). Los investigadores
astutos reconocerán que si recopilan datos completos sobre todos los pacientes
potencialmente elegibles, el sesgo es uno de los pocos en la investigación de pruebas
de diagnóstico que se puede corregir matemáticamente

También podría gustarte