Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ª E D I C I Ó N
Lectura crítica
B978-413.026/Elsevirpañ,SLU
de la evidencia
clínica
JUAN BAUTISTA CABELLO LÓPEZ
Lectura crítica de la evidencia clínica, 2.ª ed., de Juan Bautista Cabello López
© 2022 Elsevier España, S.L.U., 2015
ISBN: 978-84-9113-883-9
eISBN: 978-84-1382-125-2
Advertencia
La medicina es un área en constante evolución. Aunque deben seguirse unas precauciones de
seguridad estándar, a medida que aumenten nuestros conocimientos gracias a la investigación básica
y clínica habrá que introducir cambios en los tratamientos y en los fármacos. En consecuencia, se
recomienda a los lectores que analicen los últimos datos aportados por los fabricantes sobre cada
fármaco para comprobar la dosis recomendada, la vía y la duración de la administración, y las con-
traindicaciones. Es responsabilidad ineludible del médico determinar la dosis y el tratamiento más
indicados para cada paciente en función de su experiencia y del conocimiento de cada caso concreto.
Ni los editores ni los directores asumen responsabilidad alguna por los daños que pudieran generarse
a personas o propiedades como consecuencia del contenido de esta obra.
A Casti, quien desde la discreción fue esencial en cada una de las actividades de CASPe.
Su excelente competencia y su capacidad de organización nos facilitaron enormemente
el buen funcionamiento de los proyectos. Su calidez, bondad y accesibilidad hacían que todos,
a pesar de nuestra enorme dispersión geográfica, nos sintiéramos siempre cohesionados
y bien coordinados. Siempre estarás en nuestro recuerdo y en nuestro corazón.
Marisa Montes por todos los miembros de CASPe
Permitidme que presente este libro recordando una experiencia personal. En 1969, cuando era un
joven médico, viajé a Gaza para trabajar en un campo de refugiados palestino. Era joven, entusiasta
y tenía las mejores intenciones, pero, durante mi estancia en la Franja, aprendí una dura lección: aun
cuando actuamos con la mejor de las intenciones, médicos y enfermeras causamos, en ocasiones,
más daño que bien. Un ejemplo propio: ¿debería haber dado antibióticos como medida profiláctica
a niños con sarampión? Siguiendo las enseñanzas de mis profesores en la Facultad de Medicina,
no lo hice. Como consecuencia, con casi total certeza, algunos niños con sarampión de la Franja de
Gaza sufrieron y, posiblemente, murieron innecesariamente porque les negué el acceso a antibióticos
profilácticos en 1969 y 1970, pese a que ya existían seis ensayos, todos publicados antes de mi viaje
a Gaza, que mostraban que prescribir antibióticos a niños con sarampión puede reducir el riesgo
de que desarrollen neumonía.
Estoy lejos de ser el único profesional sanitario que ha perjudicado a sus pacientes al seguir las
prácticas estándar o las enseñanzas de los expertos. Tal y como Antman y sus colegas (1) demos-
traron de manera dramática: «El uso del conocimiento sobre terapias que pueden salvar vidas se
ha retrasado, a veces más de una década, al tiempo que ciertos tratamientos han seguido siendo
recomendados mucho después de que hubiera ensayos que mostraban que eran perjudiciales».
En los últimos años, para los clínicos se ha vuelto algo más sencillo encontrar y actuar sobre la
base de la evidencia recogida, organizada y revisada sistemáticamente. Aun así, sigue existiendo
una enorme brecha entre la evidencia disponible y la práctica clínica, lo cual representa un gran
desperdicio de los ya de por sí escasos recursos destinados a la sanidad y la investigación, y ello
priva a los pacientes de recibir los mejores cuidados posibles. La educación tradicional de médicos,
enfermeras y otros profesionales sanitarios ha fracasado en la tarea de enseñar las habilidades
necesarias para la práctica clínica basada en la evidencia, pese a que hay pruebas de que esta produce
mejores resultados en los pacientes que los cuidados médicos estándar (2).
Este libro enseña las habilidades necesarias para incorporar a la práctica clínica los mejores
conocimientos disponibles sobre procedimientos clínicos esenciales como diagnóstico, pronóstico y
tratamiento. Ha sido escrito pensando especialmente en los clínicos, quienes, con los pacientes, son
los usuarios más importantes de la investigación en salud. Este libro es también una herramienta
de valor incalculable para profesores, tutores de residentes e investigadores, y ayudará a los jóvenes
clínicos a comprobar si el tratamiento o la prueba diagnóstica que se les ha enseñado es realmente
lo mejor para su paciente.
La obra ha sido escrita por médicos, enfermeras y documentalistas involucrados en la enseñanza de
habilidades de lectura crítica a clínicos desde hace más de una década a través del Critical Appraisal
Skills Programme España (CASPe). Los autores lo son también de varias revisiones sistemáticas
para The Cochrane Collaboration, y han participado en el desarrollo y la actualización de métodos
como la aproximación GRADE para evaluar la evidencia y hacer recomendaciones en las guías, y la
valoración de las reglas de predicción clínica y los métodos adecuados para estudios de pronóstico.
La intención primordial del libro es la de ayudar a quienes tienen que tomar decisiones clínicas
o de salud a adquirir las habilidades necesarias para asegurarse de que las decisiones se toman
usando la mejor evidencia disponible. A mí me hubiera gustado tener un libro así al principio de
mi ejercicio clínico. Con las habilidades que hubiera podido adquirir gracias a él, quizás hubiera
hecho menos daño y más bien a mis pacientes.
Forgive me if I introduce this book with a personal story. In 1969 as a young doctor I went to work in a
Palestinian refugee camp in Gaza. I was young, keen and had the very best of intentions. However, during
my time in Gaza I learnt a very hard lesson: even when we are acting with the very best of intentions,
doctors and nurses sometimes do more harm than good. Here is one personal example: should I have given
VII
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
VIII PRÓLOGO A LA PRIMERA EDICIÓN
antibiotics prophylactically to children with measles? In accordance with what my teachers at medical school
had told me, I did not. As a result some children developing measles in the Gaza Strip in 1969 and 1970
almost certainly suffered and possibly died unnecessarily because I withheld prophylactic antibiotics. Yet
there were six controlled trials, all reported before I went to Gaza, that showed that prescribing antibiotics
for children with measles can reduce their risk of developing pneumonia.
I am far from the only health professional who has misguidedly followed standard practice or expert
teaching to the detriment of my patients. As Antman and his colleagues (1) demonstrated so dramatically:
“Advice on some life-saving therapies has been delayed for more than a decade, while other treatments have
been recommended long after controlled research has shown them to be harmful.”
Over recent years it has become somewhat easier for clinicians to find and act on systematically collected,
collated and appraised research evidence. Yet there remain large gaps between research evidence and practice.
This wastes scarce research and health care resources and deprives patients of good care. Traditional medical,
nursing and other health care professionals’ training has failed to teach clinicians the skills needed for
evidence-informed practice, despite the fact that there is evidence that evidence-based practice is associated
with better patient outcomes than standard hospital care (2).
This book covers the skills needed to incorporate in clinical practice clinical knowledge about essential
clinical procedures, such as diagnosis, prognosis and treatment. It has been designed particularly for clini-
cians, who, together with patients, are one of the two most important users of health research. However,
the book will also be an invaluable tool for teachers, clinical trainers and producers of health research.
It will help young clinicians check whether what they have been taught is in fact the best treatment or
diagnostic test for their patient.
The book has been written by doctors, nurses and information specialists involved in teaching critical
appraisal skills to clinicians for over a decade through the Spanish Critical Appraisal Skills Programme.
The authors are producers of systematic reviews for The Cochrane Collaboration and contributors to the
development and use of up-to-date best practice and methods, for example, the GRADE approach to asses-
sing evidence and making recommendations in guidelines, the appraisal of clinical prediction rules, and
methods recommended for prognostic studies.
The book is intended to help anyone who has to take decisions about health or health care to acquire
the skills needed to help make sure that their decisions are informed by the best available evidence. I wish
I had access to such a book in my early clinical career. With the skills I could have learnt from this book I
might have done less harm and more good for my patients.
Bibliografía
1. Antman EM, Lau J, Kupelnick B, Mosteller F, Chalmers TC. A Comparison of Results of Meta-analyses
of Randomized Control Trials and Recommendations of Clinical Experts: Treatments for Myocardial
Infarction. JAMA 1992;268(2):240-8.
2. Emparanza JI, Cabello JB, Burls AJ. Does evidence-based practice improve patient outcomes? An analysis
of a natural experiment in a Spanish hospital. J Eval Clin Pract 2015;21(6):1059-65.
El movimiento de la epidemiología clínica española desde sus albores, en la década de los ochenta
del siglo xx, ha dado sucesivas y frecuentes muestras de su capacidad. Ahora nos ofrece en este
libro, dirigido por Juan Cabello, un nuevo fruto, maduro y denso, aún más dulce de lo que sus
propios autores creen.
La lectura crítica es, sin duda, la mejor herramienta de los clínicos para afrontar la optimización
de sus decisiones sobre los pacientes. Y lo es porque constituye el núcleo de la medicina basada
en la evidencia (MBE). El fundamento es la epidemiología clínica, sustantiva y sin adornos ni
apellidos, entendida como la aplicación de métodos epidemiológicos para responder las preguntas
clínicas importantes para los pacientes y pertinentes para los clínicos. Preguntas que versan sobre
diagnóstico, pronóstico, tratamiento, daño, prevención, valores, decisión, etc. Dada la complejidad
de las preguntas, la diversidad de los diseños y la dificultad de conducción de los estudios clínicos,
es fácil comprender que la interpretación de los resultados constituye el reto clínico crucial previo
a la decisión sobre si se han de aplicar los resultados al paciente o grupos de pacientes. Validez y
aplicabilidad son, justamente, las claves de la lectura crítica.
A lo largo y ancho de los capítulos que ofrece este texto, el lector puede avanzar en una plena
comprensión de lo que es la lectura crítica, sus fundamentos y sus variadas estrategias para abordar
los diferentes tipos de estudios, las revisiones sistemáticas, otras síntesis de evidencia y las reco-
mendaciones basadas en ellas (guías de práctica clínica). Quienes se decidan a aventurarse en sus
páginas obtendrán una visión sencilla, actualizada y estimulante del escalón de la evidencia clínica
más cercano a la decisión clínica cotidiana.
El núcleo de la epidemiología clínica en España nació gracias a un selecto elenco de clínicos
de alto nivel que cursaron las primeras ediciones de los cursos de Metodología de la Investigación,
promovidos desde el Instituto de Salud Carlos III. Cursos de los que Francisco Pozo fue alma máter,
y hacia el que todos los que tuvieron ocasión de participar en ellos guardan un profundo sentimiento
de deuda y gratitud. Este grupo de clínicos epidemiólogos (y viceversa), así forjados en este crisol,
se afanaron durante años en la traslación de esa visión clínica y aplicada a la investigación clínica
española, y contribuyeron de modo determinante a la implantación y el desarrollo de los diferentes
nodos de la Red Española de Unidades de Investigación (REUNI). La REUNI sembró y cosechó,
logrando llevar la metodología de la investigación a la inmensa mayoría de las áreas sanitarias de
nuestro país. Y en su corazón, esa REUNI llevaba el valor de la promoción de la investigación
clínico-epidemiológica como motor de cambio para una práctica clínica basada en el conocimiento
científico y no solo basada en la experiencia y el estudio. Ese fue el logro esencial de la REUNI.
En algunos momentos y ambientes, se ha considerado que la MBE no ha podido aportar
evidencias sólidas sobre su utilidad. Pero la MBE es una herramienta, no una creencia, y aún menos
una forma alternativa de medicina. Lo que ha aportado, sobre todo, es la posibilidad de ampliar
de manera extraordinaria la base de conocimiento para las decisiones sanitarias, tanto en pacientes
como en grupos de pacientes, y aun en modelos asistenciales. De hecho, hoy ya no es necesario
explicar a nadie que las decisiones deben estar objetivamente fundamentadas. Tampoco hay
que explicar ya que el juicio sobre la validez de las evidencias es complejo, sutil e implica continuo
entrenamiento. Pero nos enfrentamos ahora a un nuevo reto, que es la integración del conocimiento
que procede de fuentes alternativas a las académicas. De ahí que, lejos de la complacencia por el
éxito del modelo de la MBE, aunque ya no sea necesario llamarlo así, se deba seguir trabajando
duro y continuadamente por la adaptación constante de la epidemiología clínica a lo que ya es la
etapa de una medicina aumentada.
El éxito de aquel grupo de clínicos que impregnaron la REUNI y que alientan este libro es haber
contribuido de manera decisiva e irreversible a la mejora de la clínica y de la investigación en España.
No importa que los más jóvenes ya no sepan lo que fue la REUNI, no importa que estos clínicos,
IX
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
X PRÓLOGO A LA SEGUNDA EDICIÓN
de pura cepa, no hayan constituido un lobby con el que poder gozar de mayores cuotas de influencia
política, profesional o académica. De hecho, su influencia real es mucho más trascendente porque
han conseguido ser el factor determinante de esa transformación. El espíritu de estos pioneros que
imaginaron y habitaron nuevos territorios de pensamiento, incómodos para la tradición clínica y
para la ortodoxia académica, tendrá sin duda continuadores que de nuevo pensarán en la nueva
clínica y construirán moradas intelectuales arriesgadas y no acomodaticias. Algunos de esos nuevos
exploradores ya escriben en este libro y otros nuevos se irán asomando a él poco a poco.
En cierto modo, este libro es varios libros, pero sobre todo es dos libros. El lector queda invitado
a elegir una de las dos posibilidades que señalamos en estas letras, a las que llamamos tablero de
dirección, alusión que el lector sin duda entenderá.
El primer libro se puede leer como un libro de métodos de investigación clínica, aunque visto
desde la perspectiva del lector del estudio y no desde la del diseñador. Ese libro está constituido
por el texto de los capítulos del primero al vigésimo. El orden del libro, desde la perspectiva de
los autores, se despliega en cuatro bloques: un primer bloque introductorio (capítulos 1-4); un
segundo bloque (capítulos 5-10), que se dedica a la lectura crítica de estudios clínicos primarios;
el tercer bloque (capítulos 11-15) se centra en la lectura de los diferentes tipos de revisiones sis-
temáticas usados en clínica, y el bloque final (capítulos 16-20) aborda los estudios que implican la
integración de conocimientos diversos para la construcción de decisiones. El lector puede escoger
también el orden de lectura, pero conviene saber que algunos capítulos contienen, a modo de
muñeca rusa, otros precedentes. Por ejemplo, para leer el capítulo 8 es preciso haber leído el 6
y el 7, y es preciso haber leído los tres y el capítulo 16 para comprender el capítulo 20. De modo
análogo, para leer cada uno de los capítulos de revisiones (12, 13, 14 y 15), conviene haber leído
su correspondiente capítulo de estudio primario, que serían los capítulos 5 (para los capítulos 12
y 13), 6 (para el capítulo 14) y 7 (para el capítulo 15), y además haber leído el capítulo general de
revisiones y síntesis de la evidencia, el 11, que es imprescindible. En otro orden de cosas, la lectura
del capítulo 3 es esencial para dar sentido a todos los capítulos posteriores, y los capítulos 1 y 2
pueden funcionar como piezas individuales, pero leídas al inicio le dan otra dimensión a lo restante.
En cuanto a los capítulos de integración (del 16 al 20), aunque pueden leerse directamente, su
utilidad será mayor si se han leído los tres bloques precedentes. Un caso singular es el capítulo 9,
que trata de la lectura de la investigación cualitativa y que por sustentarse en un paradigma diferente
no depende de otros capítulos.
El segundo libro se puede ver como un libro de trabajo sobre habilidades de lectura crítica de
los diferentes tipos de estudios clínicos. Este segundo libro se encuentra en parte en este texto
y en parte en la nube, y por ello el procedimiento de lectura es un poco más complejo. Veamos:
en primer lugar, será necesario leer el texto del capítulo correspondiente, incluido el escenario
clínico; a continuación, será preciso bajar de Internet el artículo elegido para ese escenario y de
ese artículo se realizará la lectura crítica. En este sentido, hemos elegido artículos de revistas de
acceso abierto. En consecuencia, si se maneja una versión electrónica de este libro, se accederá
al artículo por el hipertexto, y si se usa una versión en soporte tradicional, será preciso acceder
desde un navegador a la dirección web correspondiente por la referencia o el DOI del artículo.
Asimismo, se necesitará el material CASPe de lectura para los diferentes tipos de estudios; son las
llamadas plantillas, que facilitarán la lectura crítica del estudio correspondiente. Estas plantillas
pueden bajarse libremente desde el sitio web de CASPe: http://www.redcaspe.org/herramientas/
instrumentos. Con esos tres componentes, el lector podrá hacer su propia lectura crítica, sea de
modo individual, sea en un grupo o en un club de lectura presencial o virtual. Una vez realizada
esta, el lector puede consultar en el libro las notas de lectura crítica sobre el artículo elegido en
cada capítulo. Estas notas han sido elaboradas y debatidas por los autores correspondientes, lo
cual permitirá al lector comparar su lectura con la de los autores. Para este segundo uso, como
libro de trabajo, valen las reflexiones sobre el orden de lectura comentadas para el primer libro. Es
asimismo posible elegir practicar sobre itinerarios específicos de lectura crítica: sobre tratamiento
o prevención (capítulos 3, 5, 11, 12, 13, 17, 18 y 19), sobre diagnóstico (capítulos 3, 6, 8, 14, 17
y 18), sobre pronóstico (capítulos 3, 7, 8, 15, 17 y 20) o sobre síntesis de la evidencia (capítulos
11, 12, 13, 14, 15, 17, 18 y 19).
XI
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
XII TABLERO DE DIRECCIÓN
Abierto este abanico de posibilidades, invitamos al lector a elegir el mejor modo de usar este
libro; porque entendemos la lectura como un proceso activo, sugerimos empezar a decidir desde
este mismo instante.
Juan B. Cabello
XIII
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
XIV COLABORADORES
Parece no haber ningún estudio tan fragmentado, ninguna hipótesis tan trivial,
ninguna lista de referencias tan sesgada o tan egoísta, ningún diseño tan retorcido,
ninguna metodología tan mala, ninguna presentación de resultados tan imprecisa,
oscura o contradictoria, ningún análisis tan autocomplaciente, ningún argumento
tan circular, ninguna conclusión tan insignificante o injustificada, y ninguna
gramática ni sintaxis tan ofensiva o molesta que evite que un artículo termine
siendo publicado.
Drummond Rennie (1)
surge es: si ya existe el proceso del peer review, ¿por qué es necesario saber (y sobre todo practicar)
la lectura crítica?
Una primera razón, muy importante, es que los estudios (2) para evaluar la bondad del sistema
peer review no han sido capaces de demostrar su efecto en la mejora de la calidad de los artículos
seleccionados.
En análogo sentido, la Unidad de Información e Investigación en Salud (HIRU) del Departa-
mento de Epidemiología Clínica de la Universidad de McMaster publica varias revistas secundarias:
ACP Journal Club, EBM Journal, EB Nursing y EB Mental Health. Su trabajo consiste en propor-
cionar al clínico artículos importantes, de utilidad en su práctica diaria. Escrutan sistemáticamente
170 revistas, seleccionan artículos, los evalúan críticamente y los resumen (sinopsis) y publican en
las cuatro revistas citadas. En el año 2000, las 170 revistas escrutadas publicaron 60.352 artículos. El
número total de artículos que fueron ofrecidos tras el proceso sistemático descrito fue de 4.132, lo
que supone que solo el 6,85% de los publicados aprobó. Considerando solo las 20 revistas con mayor
factor de impacto, aprobó el 7,3% de los artículos. Ni que decir tiene que todas ellas cuentan con
un proceso de peer review, que, sin embargo, no fue capaz de discriminar suficientemente la calidad
de los artículos (3). La situación ha llevado a Drummond Rennie, ex editor de la revista JAMA, a
declarar: «Si el peer review fuera un fármaco, nunca se hubiera autorizado su salida al mercado».
Parece obvio que no podemos fiarnos del nombre de la revista o del proceso del peer review
para admitir como válidos y aplicables los resultados publicados. Necesitamos ser capaces de dis-
cernir qué artículo ofrece una respuesta válida, con resultados importantes y aplicables a nuestra
necesidad de conocimiento.
A simple vista, parecería que el progreso en el mundo editorial de la evidencia y su nueva
estructura del conocimiento, con las mencionadas revistas de resúmenes (sinopsis), mejores sistemas
de evidencia previamente evaluada, guías de práctica clínica (GPC) cada vez mejor elaboradas,
etc., podría reducir la necesidad de la lectura crítica. Sin embargo, el horizonte para el desarrollo
completo de esos sistemas de ayuda aún está lejos y, en todo caso, hay dos argumentos para seguir
aprendiendo lectura crítica.
Uno es que la producción de esos sumarios, guías y sistemas de ayuda precisa, justamente, la
cooperación de clínicos con habilidades de lectura crítica; quizás en el futuro colaborar en compartir
el conocimiento con otros sea tan apreciado como otras actividades de la clínica. El otro es que la
interpretación con profundidad y hondura de las GPC no es posible sin, al menos, un nivel medio
de lectura crítica. Por tanto, parece que el desarrollo de los sistemas de apoyo a la decisión basada
en la evidencia, lejos de alejar la necesidad de la lectura crítica, la hace aún más necesaria, tanto a
nivel sistémico como para el desempeño clínico personal o grupal.
Pero hay algunas amenazas que inciden sobre este escenario, en efecto.
En 2004, Marcia Angell, ex editora del New England Journal of Medicine, tras dejar el puesto,
escribió el libro The truth about drug companies (4). En él describía la disolución de los límites entre
facultades de Medicina, hospitales docentes y otras instituciones con la industria farmacéutica que
infiltraba todos los procesos, y que generaba conflictos de intereses cruzados con repercusiones
sobre la validez y la transparencia de la investigación.
Angell escribe: «Los condescendientes arguyen que esas transgresiones legales de las farmacéu-
ticas podrían estar justificadas porque su objetivo primario es cuidar los intereses de sus inversores,
simplemente es que han llegado demasiado lejos. Sin embargo, clínicos, facultades y organizaciones
profesionales son depositarios de la confianza de pacientes y ciudadanos, a quienes se deben».
En 2006, Richard Smith (editor de BMJ de 1979 a 2004, uno de los impulsores de las publi-
caciones open access, creador de la base de datos de case reports y de la revista Open-access Cases
Journal) escribió otro libro esencial, The trouble with medical journals (5). En él relata en primera
persona cómo el sistema peer review no es realmente capaz de mejorar la calidad de lo publicado y,
asimismo, describe cómo los intereses industriales enajenan la investigación y corrompen el sistema
de autorías utilizando escritores fantasmas (los llamados «negros» en el argot o ghost writer) y
reflexiona con profundidad sobre la compleja relación de las revistas médicas con los ciudadanos
y los medios de comunicación.
En esa última dirección, Ben Goldacre, doctor y columnista de The Guardian, publicó en 2009
el libro Bad Science (6), que recoge muchos de los errores y creencias injustificadas sobre salud, y,
más recientemente, en 2013, publicó Bad Pharma (7), en el que insiste, en lenguaje ciudadano,
en los problemas que los intereses de la industria producen sobre la validez y la transparencia de
la investigación clínica o, como él escribe, «los efectos secundarios de la industria farmacéutica».
Aún más recientemente, Peter Gotzsche (director del centro Cochrane Nórdico, bien conocido
por las controversias sobre el cribado con mamografía) escribió en 2013 Deadly medicines and
organised crime (8). El libro (prologado por Richard Smith y por Drummond Rennie) incide con
especial dureza en los conflictos de la industria con los investigadores, la academia y las revistas
médicas, y es, realmente, un catálogo de errores y malas conductas frecuentemente con resultados
fatales en términos de salud.
Esta enumeración de casos es exponente de la creciente preocupación de estas personas (proba-
blemente, las más influyentes en el mundo de la edición médica de los últimos años) y refleja los
conflictos de valores implícitos en las diferentes formas de ver el conocimiento en salud. Todo parece
indicar que uno de los actores del escenario de la salud (la industria) está en situación de clara
dominancia respecto de los otros tres (sistemas de salud, clínicos y pacientes-ciudadanos), e impone
sus valores sin contemplación. Parece que el mundo editorial se incomoda, los clínicos dudan, los
ciudadanos desconfían. Hay, en suma, una crisis de confianza en todo este mundo, que no parece
capaz de dar con la tecla para garantizar la validez, la difusión y el acceso al conocimiento en salud.
Para ese nuevo escenario, la lectura crítica constituye un elemento de transformación intelectual
para los clínicos, pero también para ciudadanos, pacientes y gestores, porque, en esencia, propone una
reconquista de la libertad de pensamiento y una vía de emancipación a través del empoderamiento
individual, profesional y social.
Por ello, realmente la pregunta adecuada a nuestro tiempo no es si hay aún que leer críticamente,
sino ¿realmente es posible en el siglo xxi leer de otro modo? ¿Es prudente leer crédulamente la evidencia
clínica?
Bibliografía
1. Rennie D. Editorial Peer Review in Biomedical Publication. The First International Congress. JAMA
1990;263(10):1317.
2. Jeferson T, Rudin M, Brodney S, Davidoff F. Editorial peer review for improving the quality of reports
of biomedical studies. Cochran Database Syst Rev 2007;(2):MR000016.
3. McKibbon KA, Wilczynski NL, Haynes RB. What do evidence-based secondary journals tell us about
the publication of clinically important articles in primary healthcare journals? BMC Medicine 2004;2:33.
4. Angels M. The truth about drug companies. How They Deceive Us and What to Do About It. New York:
Random House; 2004.
5. Smith R. The trouble with medical journals. London: The Royal Society of Medicine Press; 2011.
6. Goldacre B. Bad Science. London: Fourth State; 2009.
7. Goldacre B. Bad Pharma. London: Fourth State; 2012.
8. Gotzsche PC. Deadly medicines and organized crime. How the Big pharma has corrupted healthcare.
London: Radcliffe Publishing; 2013.
OB J ETIV OS D EL CA PÍ TULO
Introducción
El modo de transmitir el saber fue objeto de discusión desde la antigüedad clásica. Sócrates defendía
la transmisión oral y Platón también defendía las ventajas de la oralidad, aunque nos informaba
de ello por escrito en Fedro. Para rizar el rizo, lo hacía usando un esquema literario de diálogo que
recuerda la agilidad del debate entre personas y tiene, por ello, evidentes connotaciones orales. Sea
como fuere, existe una larga tradición en la transmisión del saber por escrito y, desde luego, es la
forma usual en la transmisión del conocimiento científico y médico. En consecuencia, si deseamos
usar las evidencias científicas para el mejor cuidado de los pacientes, hemos de acceder a ese
conocimiento que se transmite a través de la literatura médica.
También señalaba Platón que el texto no elige a su lector y debe ser interpretado; esa inter-
pretación de los textos (hermenéutica) era, hasta hace poco, un saber reservado a los iniciados
(escribas, sabios, sacerdotes, etc.), en contraste, al menos aparente, con la situación actual. Lo
cierto es que, aunque tenga presunción de veracidad («lo escrito, escrito está»; San Juan, XIX, 22),
la clave siempre estuvo y está en la interpretación de lo escrito y, puesto que la interpretación es
cosa de humanos, el debate sobre las interpretaciones es la esencia de la auténtica comprensión
de los textos.
De la interpretación de los textos que contienen la evidencia para la práctica clínica trata esta
obra en general, y este capítulo trata de fijar el marco para leer el resto del libro.
o social, etc.). En cualquiera de esos enfoques teóricos es posible reconocer varias dimensiones
(2) en el proceso lector. Revisaremos esas dimensiones de la lectura y reflexionaremos sobre sus
equivalentes en la lectura de documentos de la literatura científico-médica y, en especial, en algunas
de las convenciones que configuran el marco social en el que se produce el fenómeno lector. Tales
dimensiones son las que se indican a continuación.
DIMENSIÓN ENUNCIATIVA
En ella se profundiza en la actitud del que escribe y se intuye lo que desea lograr del lector a partir
de la forma en que se usa el lenguaje para contar hechos, datos, ideas, emociones o creencias, y
especialmente a partir del énfasis de sus juicios sobre certidumbre, importancia, confianza, etc.
Esta dimensión es claramente diferente en los documentos biomédicos respecto de los de
otros ámbitos (literario, periodístico, etc.). En el ámbito médico se prefiere un estilo neutro de
escritura, que será expositivo o reflexivo (dependiendo de las secciones) y que trata de trans-
mitir ideas, hechos o interpretaciones, y raramente énfasis. Además de ese equilibrio expositivo,
se ofrecen indicaciones de estilo, como el uso de algunas convenciones para tiempos verbales
(futuro para los protocolos, pasado para las revisiones y la preferencia por la forma activa frente
a la pasiva) y otras sugerencias de estilo que se mencionan en sucesivas versiones de Vancouver,
aunque hay publicaciones y organizaciones —p. ej., BMJ (4) o Cochrane Collaboration (5)—
que tienen sus propios manuales de estilo literario para sus autores e incluso repositorios de
frases preconstruidas (Manchester Academic Phrasebank, http://www.phrasebank.manchester.
ac.uk/).
DIMENSIÓN VALORATIVA
Trasciende lo estrictamente escrito en las líneas y trata de identificar lo que hay entre líneas, es decir,
los elementos intelectuales que subyacen en el texto. En esta dimensión se hace uso de los recursos
señalados de las anteriores dimensiones, y se incorporan otros recursos propios que permiten al
lector adentrarse en una visión crítica del texto.
En definitiva, un texto ofrece siempre un punto de encuentro para una negociación comunicativa
con el lector (6). Pero esa negociación no siempre se produce: un lector podría comprender el
contenido del texto y su significado sin reconocer la dimensión valorativa que hay detrás, es decir,
sin juzgar el texto. En efecto, esa negociación implica una actitud lectora especial (crítica) y la
existencia de conocimiento previo, es decir, siempre nos aproximamos a un texto con nuestras
propias preconcepciones; a esas preconcepciones o prejuicios de los lectores de la literatura médica
dedicaremos parte del próximo apartado; digamos, por ahora, que son determinantes del resultado
de la valoración y, por tanto, elemento esencial de la lectura crítica.
sopita de pollo, o las sopitas con vino, o beber un dedito de whisky, que, en Escocia, todo el
mundo sabe que es estupendo para la salud.
2. El segundo tipo de prejuicios son las leyendas y tradiciones clínicas, por ejemplo, maniobras
en la reanimación muy consolidadas sobre las que no hay evidencias, pero que se practican
y se recomiendan (p. ej., el golpe en el pecho en el inicio de la reanimación cardiopulmonar,
hace tiempo retirado de las guías de práctica clínica [GPC]).
3. Un tipo especial de prejuicios son los vinculados a mecanismos y esquemas de funcionamiento
(homeostasis, poscarga, feedback, etc.), que tienen gran fuerza explicativa, tienen la ventaja de
que hacen comprensible los mecanismos fisiológicos o fisiopatológicos de un modo próximo
al sentido común y, por ello, son fácilmente internalizables.
4. El cuarto tipo es el conocimiento establecido, que incluye cosas no probadas, aunque
tradicionalmente asumidas como si fueran ciertas, y que por inercia se mantienen en
la mente y en la práctica (p. ej., la administración de oxígeno en el infarto agudo de
miocardio, que hasta hace pocos años era sugerida en todas las GPC). Incluye este grupo,
también, el conocimiento clínico probado, o lo que podríamos llamar cuerpo de evidencias
consolidadas, que antes considerábamos inmutable y ahora sabemos que tiene caducidad,
y que obviamente es un saber que el lector clínico formado ya posee antes de comenzar la
lectura.
5. Un quinto tipo son las «preconcepciones» metodológicas o epistemológicas sobre la calidad
de los estudios usados en la construcción de evidencias clínicas. Ejemplos de estas precon-
cepciones son la fascinación común por los ensayos clínicos aleatorios (ECA) como diseño
óptimo de estudio, sin considerar el tipo de pregunta que debe responderse o sin percatarse
de la limitada capacidad probatoria de un solo estudio, o las impresionantes coreografías
usadas para hacer ciegos, doble ciegos, triple ciegos, n ciegos, doble enmascaramiento, etc.,
sin reflexionar sobre el tipo de desenlace que estamos estimando.
De todas estas preconcepciones, el primer tipo tiene carácter general y los tres siguientes están
relacionados con la formación básica y/o el entrenamiento profesional del clínico, y forman parte
de su bagaje (naturalmente con profundidad variable). Respecto de los conocimientos sobre la
calidad metodológica, es obvia la necesidad de disponer de elementos de juicio sobre la calidad
del diseño correspondiente para poder evaluar lo leído (7). Este es, sin duda, un punto crítico en el
aprendizaje de la lectura crítica, tenido en cuenta en la mayoría de las estrategias docentes (8). Por
ello, en los capítulos de este libro dedicados a la lectura de diseños específicos se ofrece una breve
introducción sobre aquellos conceptos claves que definen la validez del diseño correspondiente y
que se concretan en los instrumentos de lectura crítica.
Pero leer críticamente es, en realidad, una habilidad intelectual (como tomar decisiones bajo
incertidumbre o hacer cálculos complejos) y, al igual que todas las habilidades, se desarrolla
© Elsevier. Fotocopiar sin autorización es un delito.
mediante la práctica y la reiteración, no bastan los saberes teóricos o metodológicos (9). Para
reflexionar sobre el desarrollo de esa habilidad, esencial para el currículo clínico (7), dedicaremos
los siguientes apartados.
ESTRATEGIA DE LECTURA
Las piezas elementales de evidencia (los estudios) muestran un tradicional esquema IMRAD,
donde la introducción define el marco de lo ya conocido; el material y los métodos muestran los
detalles necesarios para su comprensión, reproducción o posterior aplicación de la investigación;
los resultados son la información nuclear del estudio, y la discusión ofrece explicaciones para los
hallazgos, define de nuevo el marco de conocimiento y propone nuevas hipótesis.
En realidad, la información nueva (y sustancial) está contenida en los resultados, pero la validez
de ellos dependerá del material y los métodos. Por ello, tradicionalmente, la lectura crítica se cen-
tra primeramente en la validez (y, por tanto, en el material y los métodos), a continuación, en los
resultados y, posteriormente, en la aplicabilidad, ya sea a pacientes, a grupos o a la investigación
de síntesis.
Sin embargo, la validez depende de las preguntas en un doble sentido: la pregunta formulada
condiciona la selección del diseño de investigación adecuado y, sobre todo, la pregunta incorpora los
diferentes desenlaces de investigación; ello nos permite valorar si los desenlaces son importantes para
la decisión clínica o para la investigación en curso. Abordaremos esto con detalle en el capítulo 3;
por ahora, señalemos que:
■ La primera reflexión de cualquier lectura crítica será sobre la pregunta de investigación y,
estudio contiene realmente la evidencia que necesitamos para nuestra clínica o para nuestra
investigación de síntesis.
■ Los siguientes elementos de validez, resultados y, en su caso, aplicabilidad se incorporan
por ese orden en los instrumentos de lectura (que describimos en el siguiente apartado). Por
tanto, la secuencia lógica de lectura será: Pregunta – Validez – Resultados – Aplicación.
■ En el contexto de aplicación clínica, si los resultados son poco importantes para tomar
decisiones, y también si la pregunta está lejos de tus decisiones clínicas, debes plantearte si
te compensa seguir con la lectura crítica. Si estás haciendo investigación de síntesis, sim-
plemente sigue el protocolo del estudio.
formular la pregunta clave del escenario clínico, buscar «eficientemente» la evidencia, leerla
críticamente y, si es buena, aplicarla. A veces encontrarás la evidencia preevaluada (v. capítulo 10),
¡estupendo!, pero otras veces no lo estará y tendrás que decidir con el estudio, tu habilidad para
leerlo y tus otras habilidades de buen clínico.
■ Organizar sesiones basadas en la evidencia, sesiones bibliográficas o participar en clubes de
lectura (recuerda que leer era históricamente un acto social, se leía en alto y se comentaba). Piensa
siempre que el aprendizaje solo «madura» con la deliberación y la discusión de visiones diversas.
■ Plantear y diseñar un estudio. Si ya tienes tu pregunta de investigación, será preciso que leas
críticamente los estudios previos que hayas encontrado sobre el tema, para saber si:
■ La evidencia existente es adecuada. En ese caso, si la evidencia es suficientemente buena, deberás
estudio «primario», sea más interesante sintetizar el cuerpo de evidencia y hacer una RS; en ese
caso, recuerda que para diseñar y conducir una RS necesitarás un muy buen nivel de lectura crítica.
■ Hacer resúmenes (sinopsis), tanto de estudios primarios como de RS:
■ Puede que lo que desees sea contribuir a ayudar a otros colegas a leer críticamente la evidencia
tomar algunas decisiones en tu práctica y elaborar un critically appraised topic (CAT) que puedes
compartir en internet. Para ambas cosas, disponer de habilidades de lectura crítica te será de gran
utilidad.
■ Contribuir a la realización de sumarios de evidencia, guías de práctica clínica, etc. Si lo que deseas
es participar en alguna de esas estrategias, en el caso de los sumarios de evidencia, para seleccionar,
leer críticamente, resumir y catalogar las evidencias desde perspectivas clínicas para propiciar su
utilización, sin duda esta es una habilidad que necesitarás.
temente versátiles para ese propósito, que, en ocasiones, son de validez y en otras de calidad en
general. Por ejemplo, pueden incluir preguntas sobre los requisitos formales de eticidad del estudio
© Elsevier. Fotocopiar sin autorización es un delito.
o sobre la calidad de la escritura de la investigación, que son, sin duda, aspectos importantes para
la calidad concebida en un sentido global (distinto del que hemos propuesto), pero no lo son tanto
para evaluar la validez. Los segundos, o «diseño-específicos», se orientan a la validez del estudio y
asumen que los elementos clave de la validez son distintos para cada tipo de diseño de estudio. Es
decir, los ítems que hay que responder serán distintos si estamos ante un ECA, ante un estudio de
cohortes, ante un estudio de exactitud diagnóstica, etc.
Los instrumentos generales se dirigen a aspectos troncales de los estudios y tienen la peculiaridad
de que permiten comparar diseños diferentes. Por ello, pueden ser de utilidad para propósitos gene-
rales; por ejemplo, para la evaluación de proyectos para financiación, para algunas RS especiales que
precisan combinar diferentes tipos de estudios, o para su uso en grupos de pacientes o ciudadanos.
Sin embargo, para la investigación y la práctica basada en la evidencia, el interés se centra en la
validez de los resultados, como paso previo a decidir sobre su aplicabilidad. Por ello, para la lectura
de la evidencia clínica nos referiremos exclusivamente a instrumentos diseño-específicos.
Una reciente RS (11), que incluye los instrumentos publicados en revistas peer review (excluyendo
los estudios de exactitud diagnóstica), encuentra que el 57% de ellos son generales o multipropósito,
el 25% se orientan a diseños experimentales y el 18% se dedican a otros diseños. Asimismo, señala
algunas dificultades observadas en la construcción y evaluación formal de los instrumentos: selección
de ítems, consistencia interna y externa, validez en sus diferentes formas, contenido, constructo, etc.
No profundizaremos aquí en este asunto, pero sí mencionaremos algunos aspectos importantes.
En primer lugar, el modo de seleccionar los ítems que se van a incluir en un instrumento es
frecuentemente objeto de discusión y controversia, y de manera particular si debe usarse un método
formal de generación de ítems (al estilo psicométrico) o usar criterios racionales o intuitivos (al
modo de los índices clinimétricos). Ciertamente, hay características metodológicas cuyo impacto
sobre la validez es bien conocido, porque disponemos de evidencias empíricas al respecto y, por
tanto, deben ser incorporadas (p. ej., la ausencia de ocultación de la secuencia de aleatorización o
el cegamiento en un ECA). Hay otras características metodológicas sobre cuyo impacto aún no
tenemos evidencias sólidas, pero la racionalidad indica que así es, y probablemente también deban
incluirse. En cualquier caso, este es un apartado en continuo movimiento por los progresos en el
diseño, la conducción, el análisis y la comunicación de la evidencia clínica, y hay que tener siempre
presente que la validez de un instrumento es siempre contextual (del conocimiento existente y de
la función del instrumento).
En segundo lugar, durante un tiempo pareció interesante el desarrollo de scores o puntuaciones
que expresaran numéricamente la validez del estudio; así adquirieron relevancia algunas escalas,
como la de Jadad para ECA (12) o la Newcastle-Otawa Scale (NOS) (13) para estudios de cohortes
o estudios de casos y controles, en parte por influencias psicométricas y en parte por el atractivo
que tenía poder incorporar la validez del estudio expresada en un número, como elemento de
ponderación de ese estudio, a la hora de calcular un estimador global en el contexto de estudios
de síntesis (metaanálisis).
Sin embargo, estudios y reflexiones posteriores (14) mostraron que lo realmente importante
no son solo los elementos de valoración metodológica, reflejados en los ítems, sino su relación
con los desenlaces concretos, es decir, el impacto de una característica concreta sobre un desenlace
determinado. Por ejemplo, la importancia del cegamiento del paciente en un ECA será menor si el
desenlace es mortalidad que si el desenlace es la valoración subjetiva de síntomas. En consecuencia, la
calidad no puede predicarse exclusivamente del diseño sin considerar los desenlaces específicos. Por
ello, actualmente los scores son formalmente desaconsejados y se proponen reflexiones duales: juicios
sobre cada uno de los dominios metodológicamente importantes y juicios sobre sus consecuencias o
el riesgo de sesgo que pueden producir en la estimación del efecto para cada desenlace (trataremos
esto en los capítulos 5, 11 y 17).
Hay que destacar la ausencia, en la citada revisión, de la mayoría de los instrumentos usados
para la enseñanza de las habilidades de lectura crítica, como los CASPe, GATE, PICO-RAMbo y
otros muchos accesibles en la mayoría de las webs docentes de medicina basada en la evidencia y en
revisiones enfocadas a catálogos de instrumentos para medir el riesgo de sesgo (15). Sin duda, ello
se debe a los restrictivos criterios de inclusión, pero también a que estos instrumentos constituyen
un subgrupo especial en dos sentidos.
Por una parte, la finalidad de estos instrumentos es esencialmente docente y en el contexto
de práctica basada en la evidencia, mientras que los primeros son instrumentos de investigación-
desarrollo, y su contexto, el de realización de RS o evaluación de cuerpo de evidencia para el
caso de las GPC. Esta diferente finalidad debe ser considerada a efectos de validez formal de
los instrumentos.
Por otra parte, los instrumentos docentes incluyen la validez, los resultados (estimadores y
pertinencia) y también un grupo de ítems sobre la aplicabilidad de los resultados, aunque es obvio
que unas breves preguntas en modo alguno pueden representar todo el universo de factores que
influyen en una decisión clínica real. Aprender a decidir es ciertamente un asunto más amplio
que la lectura clínica o que la valoración de la calidad de la evidencia, y precisa otras habilidades
adicionales.
En nuestro caso, y durante todos los ejercicios del libro, usaremos los instrumentos CASPe, que
describimos sucintamente y que pueden descargarse de http://www.redcaspe.org/herramientas/
instrumentos.
Se trata de instrumentos (diseño-específicos) organizados en tres secciones sucesivas (validez,
resultados y aplicabilidad), diseñados para ser usados asociados a un escenario de decisión (real o
docente) y que requieren una sesión de formación metodológica previa. El formato del instrumento
es de listado de preguntas (10 u 11 preguntas), cada una de ellas con tres posibles respuestas (Sí, No
se puede saber y No). En realidad, lo relevante es que incluye una pequeña guía de uso en forma
de pistas para abordar cada una de las preguntas y conducir el debate grupal.
Bibliografía
© Elsevier. Fotocopiar sin autorización es un delito.
1. Rayner K, Reichle ED. Models of the Reading Process. Wiley Interdiscip Rev Cogn Sci 2010;1(6):
787-99.
2. Módulo de lectura crítica. SABER-PRO-2013-1. [Fecha de última consulta: 24 de marzo de 2021].
Disponible en: https://www.unitecnar.edu.co/sites/default/files/pdfs/M%C3%B3dulo-LECTURA%20
CRITICA.pdf.
3. International Committee of Medical Journal Editors (ICMJE). Recommendations for the Conduct,
Reporting, Editing, and Publication of Scholarly Work in Medical Journals [Fecha de última consulta:
22 de marzo de 2021]. Disponible en: http://www.icmje.org/recommendations/.
4. BMJ. House style [Fecha de última consulta: 22 de marzo de 2021]. Disponible en: http://www.bmj.com/
about-bmj/resources-authors/house-style.
5. Cochrane Style Guide. 4.1 edition [Fecha de última consulta: 22 de marzo de 2021]. Disponible en: http://
www.cochrane.org/training/cochrane-style-resource/cochrane-style-guide.
6. Gadamer HG. Truth and Method. 2nd ed. Kansas City: Sheed & Ward; 2004.
7. Cabello JB, Emparanza JI, Burls AJ. Una educación para la clínica del siglo xxi: el currículo para la
práctica basada en la evidencia. Med Clin (Barc) 2013;141(5):221-6.
8. Horsley T, Hyde C, Santesso N, Parkes J, Milne R, Stewart R. Teaching critical appraisal skills in health-
care settings. Cochrane Database Syst Rev 2011;(11):CD001270.
9. Norman G, Eva K, Brooks L, Hamstra S. Expertise in medicine and surgery. En: Ericsson KA, Charness
N, Feltovich PJ, Hoffman RR, editores. The Cambridge handbook of expertise and expert performance.
New York: Cambridge University Press; 2006. p. 339-54.
10. Katrak P, Bialocerkowski AE, Massy-Westropp M, Kumar S, Grimmer GA. A systematic review of the
content of critical appraisal tools. BMC Med Res Methodol 2004;4:22.
11. Crowe M, Sheppard L. A review of critical appraisal tools show they lack rigor: Alternative tool structure
is proposed. J Clin Epidemiol 2011;64(1):79-89.
12. Jadad AR, Moore RA, Carroll D, Jenkinson C, Reynolds DJM, Gavaghan DJ, et al. Assessing the quality
of reports of randomized clinical trials: is blinding necessary? Control Clin Trials 1996;17(1):1-12.
13. Wells GA, Shea B, O’Connell D, Peterson J, Welch V, Losos M, et al. The Newcastle-Ottawa Scale
(NOS) for assessing the quality if nonrandomized studies in meta-analyses. Disponible en: http://www.
ohri.ca/programs/clinical_epidemiology/oxford.asp.
14. Boutron I, Page MJ, Higgins JPT, Althman DG, Lundh A, Hrobjartsson A. Chapter 7. Considering bias
and conflicts of interest among the included studies. En: Higgins JPT, Thomas J, Chanler J, Cumpston M,
Li T, Page MJ, editores. Cochrane handbook for systematic reviews of interventions. 2.ª ed. Chichester:
John Wiley & Sons; 2019. p. 177-204.
15. Ma LL, et al. Methodological quality (risk of bias) assessment tools for primary and secondary medical
studies: what are they and which is better? Military Medical Research 2020;7:7. Disponible en: https://
doi.org/10.1186/s40779-020-00238-8.
16. Ruíz García V, Cabello JB. Journal clubs at XXIth century. Med Clin (Barc) 2010;135(12):556-60.
OB J ETIV OS D EL CA PÍ TULO
Introducción
La formulación de preguntas clínicas es el paso inicial en el esquema clásico de «cinco pasos
para práctica basada en la evidencia» (1) (formulación de preguntas, búsqueda, lectura crítica,
aplicación y evaluación de la práctica) y, por ello, es considerado un pilar básico del currículo
clínico (2).
Dada la actual naturaleza del conocimiento clínico, sujeto a permanente cambio y renovación,
la identificación de las lagunas de conocimiento emerge como un punto clave para mantener una
práctica clínica basada en la evidencia y también para identificar las necesidades del conocimiento
clínico que debería ser investigado.
Desde esa perspectiva, la formulación de preguntas es una habilidad clínica fundamental, al ser
un instrumento de conexión entre la práctica clínica y el conocimiento en los dos sentidos: aplicar
conocimiento a la práctica y generar desde la práctica preguntas para la investigación.
La cuestión clave es: ¿son todas ellas preguntas clínicas? Desde una perspectiva estricta lo son,
en la medida en que ocurren en ese ámbito clínico; sin embargo, no todas las preguntas que ocurren
en ese ámbito tienen el mismo significado y las mismas implicaciones.
En efecto, el proceso clínico es complejo desde el punto de vista cognitivo (3), y comienza con
una fase de adquisición de información seguida de un proceso de síntesis y combinación de datos
que permite formar hipótesis diagnósticas, hacer finos equilibrios entre beneficios y riesgos de los
test diagnósticos o de los diversos tratamientos y, finalmente, formular o evaluar planes de manejo
de los pacientes.
En ese proceso continuo e interactivo es posible diferenciar dos modelos de preguntas: unas
ocurren durante las primeras fases y responden simplemente a una necesidad de ganancia de
información, que es filtrada selectivamente y procesada para configurar un escenario clínico; otras
preguntas, en cambio, emergen en ese escenario conformado, pero como necesidad de disponer de
conocimiento para tomar las decisiones clínicas, generar o probar hipótesis diagnósticas, sopesar
tratamientos, fijar pronósticos, etc. A partir de ahora nos centraremos solo en estas últimas y
consideraremos preguntas clínicas exclusivamente aquellas que son la formulación de una
necesidad de conocimiento.
Cabe preguntarse: ¿de qué tipo de conocimiento hablamos?
En la práctica clínica se usan diversos tipos de conocimientos, unos generales, otros prudenciales
y, naturalmente, de conocimiento científico-médico, con mayor o menor proximidad a la clínica.
Veámoslo con dos preguntas que se refieren a dos tipos de conocimiento diferentes.
La primera es: ¿cuál es el efecto de la isquemia miocárdica transitoria y repetida sobre la ultraes-
tructura de los miocitos?
En tu opinión, ¿es esta una pregunta clínica? Piénsalo un instante.
Suponemos que has dudado un poco, porque su respuesta ofrece un tipo de conocimiento
de «indudable interés» para un clínico; acordarás, sin embargo, que está muy alejado de lo que
necesitamos para la toma de decisiones. Es, por así decirlo, una pregunta previa o preclínica.
Compárala con la segunda pregunta: en pacientes con sospecha de síndrome coronario agudo, ¿es
útil el uso de un protocolo especial (TIMI score + ECG + 2 valores de troponina) comparado con el manejo
tradicional para prevenir eventos cardíacos adversos e infarto agudo de miocardio?
Esta otra es, en cambio, una pregunta cuyo conocimiento está directamente relacionado con las
decisiones que se han de tomar en el manejo clínico de los pacientes mencionados (con sospecha
de síndrome coronario agudo). Estas preguntas son llamadas evidencias orientadas a los pacientes
(o patient-oriented evidence that matters [POEM]).
Así pues, la segunda característica de lo que entendemos por una pregunta clínica es «que tiene
relación directa con la toma de decisiones sobre el paciente». Naturalmente, esta «relación directa»
es un enunciado algo ambiguo; pero volveremos sobre ello al final del capítulo.
Cabe señalar que los dos ejemplos de preguntas mencionadas necesitarían diferentes procesos
para ser contestados. Así, aquellas preguntas que están alejadas de la clínica deberán investigarse
mediante métodos o técnicas diversas y generalmente en ámbitos alejados de la clínica. Por el con-
trario, las POEM deberán investigarse sobre pacientes y, lo que es más relevante, utilizando diseños
de investigación específicos según el tipo de pregunta, es decir, según el tipo de conocimiento que
se precise.
Abordaremos a continuación los tipos de preguntas clínicas posibles y comentaremos brevemente
los diseños de investigación adecuados.
La mayoría de los estudios (4-7) son consistentes respecto de la frecuencia relativa de cada uno
de los tipos de pregunta según dominio. La mayor frecuencia corresponde (en atención primaria y
en especialidades de medicina interna) a las preguntas de tratamiento, seguidas de las de diagnós-
tico, etiología, daño, pronóstico, prevención y otras. Naturalmente, existen variaciones dependientes
de las diferentes especialidades o ámbitos disciplinarios; así, los radiólogos hacen más preguntas
de diagnóstico, los farmacéuticos de daño o de efectos adversos, los enfermeros de investigación
cualitativa o los gestores de organización de servicios.
Hay que señalar ahora la estrecha relación entre estos dominios clínicos y los diseños de
investigación adecuados para producir conocimiento al respecto; tales diseños constituyen una de
las contribuciones esenciales de la epidemiología clínica en los últimos años y se comentarán en
sucesivos capítulos. En la tabla 3.1 se ofrece un resumen sumario de esa relación.
SEGÚN SU AMPLITUD
© Elsevier. Fotocopiar sin autorización es un delito.
Hay preguntas clínicas que son muy genéricas y que guardan relación con las bases del conocimiento
clínico, son «saber establecido y aceptado»; un ejemplo de ellas sería: ¿cuáles son los síntomas y signos
de un infarto de miocardio? En cambio, otras son más específicas y aluden a un aspecto concreto de un
problema que está frecuentemente en el límite de lo conocido o en proceso de revisión o discusión, por
ejemplo, ¿es efectivo el ácido acetilsalicílico en dosis bajas en la disminución de la probabilidad de preeclampsia?
Las primeras serán llamadas preguntas fundamentales (8) (preguntas de background), y son
las que se aprenden en los libros de medicina tradicionales o en sus versiones electrónicas. Se
trata de conocimiento establecido y su búsqueda no precisa habilidad específica. Las segundas,
o preguntas de «primer plano» (preguntas de foreground), responden a la necesidad de disponer de
evidencia actualizada sobre un problema «actual». Esa evidencia deberá buscarse en bases de datos
o repositorios de documentos adecuados y su búsqueda requiere una formulación específica de la
pregunta y una exploración estructurada de esas fuentes.
Clásicamente, el uso de esos tipos de preguntas varía según la historia natural del aprendizaje de
los clínicos, de modo que en los períodos iniciales de formación y al comienzo de la actividad pro-
TABLA 3.1 ■ Relación entre tipo de pregunta (según dominio clínico) y diseños adecuados
de investigación
Tipo de pregunta clínica (por dominio clínico) Tipo de estudio adecuado (estudios primarios)
Diagnóstico
Exactitud del test (S, E, LR+, LR–, etc.) Estudios transversales, cohortes
Consecuencias clínicas de su uso Ensayo clínico aleatorio
Pronóstico
En todos los casos, la opción más deseable es la de contar con estudios de síntesis o revisiones sistemáticas
de estudios primarios (aleatorios, observacionales, de exactitud de test, etc.).
E, especificidad; LR+, cociente de probabilidad positivo; LR–, cociente de probabilidad negativo; S, sensibilidad.
fesional las preguntas «fundamentales» son mucho más frecuentes que las específicas. Sin embargo,
con el aumento de la experiencia y de las habilidades de decisión, las preguntas fundamentales se
van reduciendo gradualmente, en tanto que las preguntas específicas aumentan, siempre que exista
la actitud intelectual y el entrenamiento adecuado para ello.
TABLA 3.2 ■ Taxonomía de las preguntas genéricas (las 10 formas más frecuentes de formular
la pregunta por los clínicos)
Pregunta formulada Porcentaje
del problema». Sin embargo, y aunque ciertamente refleja las necesidades de conocimiento
percibidas por el clínico, no coincide con el modo en que se formulan y contestan las preguntas
cuando se realiza investigación clínica, y tampoco con el modo en que esa investigación es
indexada. Dicho de otro modo, estas preguntas de sintaxis intuitiva, si bien reflejan la necesidad
de conocimiento clínico, carecen de contenido empírico (no son contestables formalmente) y
se buscan con más dificultad.
La aproximación alternativa es el uso de una «sintaxis estructurada» propuesta por Richardson
(8) y llamada también «formato PICO» por la nemotecnia usada en inglés (Patient, Intervention,
Comparison, Outcome). Este formato tiene cuatro componentes, que se describen en el cuadro 3.1.
Hay ocasiones en que el formato hay que adaptarlo ligeramente en razón del dominio clínico;
por ello han sido propuestas otras nemotecnias, entre las que destacan las de PECO o PECOT
para estudios observacionales (Patient, Exposure/Comparison, Outcome/Time), y PIRTO para
© Elsevier. Fotocopiar sin autorización es un delito.
y de investigación, esta forma PICO es particularmente adecuada si deseamos usar la evidencia para
informar nuestras decisiones. Otras ventajas de esta aproximación pueden verse en el cuadro 3.2.
La formulación de preguntas PICO es reconocida como una habilidad esencial para la práctica
basada en la evidencia (1,2); hay evidencias de que la sintaxis mejora con el entrenamiento orientado
(9) y debería formar parte del currículo clínico (1,2). Además, esta habilidad de formular preguntas
PICO es absolutamente crucial para el desarrollo, la comprensión y la interpretación de las guías
de práctica clínica (GPC) (10).
Finalmente, hay que señalar que existe un enorme interés en identificar las relaciones entre la
formulación intuitiva y la formulación estructurada, en razón de la importancia de esa traslación en
la generación de sistemas automáticos de ayuda a la decisión basada en la evidencia (los llamados
«sistemas» que veremos en el capítulo 4). Este es un fascinante asunto para la investigación que
trasciende los objetivos de este libro.
En resumen, formular preguntas clínicas «es un proceso cognitivo que comienza con la identi-
ficación, en un escenario clínico, de una necesidad de conocimiento orientado a la decisión sobre el
paciente, y concluye con la traducción de esta a una frase con una sintaxis específica que la provea
de contenido empírico» (es decir, que sea contestable mediante investigación clínica).
Esta habilidad esencial para la práctica basada en la evidencia se desarrolla, como todas las
habilidades, practicando. A tal efecto, en el anexo incluimos un grupo de escenarios clínicos para
la práctica de la formulación de preguntas.
con el modo en que los clínicos sopesamos los múltiples efectos de un tratamiento o de una prueba.
Por lo demás, y como se verá en capítulos posteriores, la «validez» de la estructura del estudio debe
ser considerada independientemente para cada uno de esos desenlaces.
Algunos de esos desenlaces, como mortalidad, supervivencia, comorbilidad, complicaciones,
efectos adversos, síntomas o calidad de vida, etc., están claramente orientados a los pacientes
(patient-oriented outcomes) y son el objetivo final de las acciones clínicas. Otros, como la glucemia,
la presión arterial, la presencia de una placa coronaria o la histopatología, están más relacionados
con la enfermedad (disease-oriented outcomes), pero no constituyen el objetivo final de las acciones de
tratamiento o prevención, aunque puedan tener importancia en el diagnóstico o puedan ser usadas
como «desenlaces subrogados». En ocasiones se toma un conjunto de desenlaces para formar un
«desenlace combinado», que puede ofrecer una visión global de los efectos clínicos de una acción.
En cualquier caso, si hay múltiples dimensiones, es obvio que no todas serán igualmente
importantes y, por tanto, no todas tendrán la misma relevancia para la decisión. En tal sentido, el
Grading of Recommendations Assessment, Development and Evaluation (GRADE) Working
Group (10) propone clasificar los desenlaces (sean positivos o negativos) según su importancia
creciente, que puntúa del 1 al 9, pero que agrupa finalmente en tres categorías (tabla 3.3):
■ 7-9: Críticos para la toma de decisión.
■ 3-6: Importantes, aunque no críticos, para la decisión.
■ 1-3: No importantes para la decisión y de escasa importancia para el paciente.
Muerte 9
Cambios radiológicos 4
Nota: El ACR 50 es una variable que significa que el paciente alcanza una mejoría de un 50% en la puntuación
de un desenlace «compuesto» que incluye el número de articulaciones sensibles o inflamadas y otros
resultados, como el dolor y la discapacidad. El ACR 20 produce una mejora del 20% con respecto a los
mismos ítems del ACR 50. El DAS es una variable «compuesta» por una medida de dolor articular, un índice
de inflamación en 44 articulaciones, la velocidad de sedimentación globular y la valoración de la actividad por
el paciente. El HAQ es un cuestionario estándar de calidad de vida que evalúa diferentes dimensiones, como
discapacidad, dolor, eventos adversos, costes y mortalidad.
Modificado de Ruiz García 2017 (11).
Bibliografía
1. Tilson JK, Kaplan SL, Harris JL, Hutchinson A, Ilic D, Niederman R, et al. Sicily statement on clas-
sification and development of evidence-based practice learning assessment tools. BMC Med Educ
2011;11:78.
2. Cabello JB, Emparanza JI, Burls A. Una educación para la clínica del siglo xxi: el currículo para la práctica
basada en la evidencia. Med Clin 2013;141(5):221-6.
3. Kassirer J, Wong J, Kopelman R. Learning Clinical reasoning. 2nd ed. Baltimore: Lippincott Williams
& Wilkins; 2010.
4. Allan MG, Ma V, Aaron S, Vandermeer B, Manca D, Korownyk C. Residents’ clinical-questions: how
are they answered and are the answers helpful? Can Fam Physician 2012;58:e344-51.
5. Gorman PN, Helfand M. Information seeking in primary care: how physicians choose which clinical
questions to pursue and which to leave unanswered. Med Decis Making 1995;15:113-9.
6. Ely JW, Osheroff A, Gorman P, Ebell MH, Chambliss ML, Pifer EA, et al. A taxonomy of generic clinical
questions: classification study. BMJ 2000;321:429-32.
7. Kloda LA, Bartlett J. Formulating Answerable Questions: Question. Negotiation in-Evidence-based
Practice. JCHLA/JABSC 2013;34:55-60.
8. Richardson SW, Wilson M, Nishikawa J, Hayward R. The well-built clinical question: a key to evidence-
based decisions. ACP J Club 1995;123(3):A12-3.
9. Horsley T, O’Neill J, McGowan J, Perrier L, Kane G, Campbell C. Interventions to improve question
formulation in professional practice and self-directed learning. Cochrane Database Syst Rev 2010;5:
CD007335.
10. Guyatt GH, Oxman AD, Kunz R, Vist GE, Falck-Ytter Y, Schünemann HJ. GRADE Working Group.
Rating quality of evidence and strength of recommendations: What is «quality of evidence» and why is it
important to clinicians? BMJ 2008;336:995-8.
11. Ruiz García V, Burls A, Cabello JB, Vela Casasempere P, Bort-Marti S, Bernal JA. Certolizumab pegol
(CDP870) for rheumatoid arthritis in adults. Cochrane Database Syst Rev 2017;9(9):CD007649.
Ejemplos
Ejemplo 1
En tu condición de residente de segundo año y médico de guardia en el servicio de urgencias
de tu hospital, recibes una llamada sobre el traslado en ambulancia desde un restaurante del puerto
pesquero de una paciente de 34 años (Laura) con cefalea, enrojecimiento facial, urticaria en el tronco,
hipotensión arterial y broncoespasmo, sin antecedentes asmáticos ni alérgicos.
El médico de la ambulancia, que llegará en 10 min, sugiere que puede ser una intoxicación
escombroide.
Dado que no has oído nunca hablar de esta patología, te preguntas: ¿qué es una intoxicación
escombroide?
En este caso estamos planteando una pregunta sobre la etiología del cuadro clínico que presenta
Laura. Planteas la pregunta porque desconoces los términos a los que se refiere el médico de la
ambulancia. No está formulada en relación con una toma decisión clínica, sino con la necesidad de
conocimiento. Es, por lo tanto, una pregunta general, no específica.
Ejemplo 2
Has diagnosticado a Erenia, una mujer de 65 años, por lo demás sana, de una infección del tracto
urinario. Le explicas que el tratamiento que le vas a prescribir, amoxicilina-clavulánico, eliminará
probablemente en un par de días la sintomatología que ahora sufre, y que debe venir a realizar un
urocultivo de control más adelante, cuando la llamen de consultas. Erenia comenta que hace 3 años
le dieron ese mismo tratamiento y tuvo una diarrea considerable. Te pregunta si hay alguna forma
de prevenir que le suceda lo mismo esta vez.
Te planteas la posibilidad de recomendar yogures «bio» para prevenir la diarrea desencadenada
por amoxicilina-clavulánico en estos términos:
En una mujer sin patología crónica con infección del tracto urinario y antecedente de diarrea por
amoxicilina-clavulánico, ¿la adición de yogures bio a su dieta habitual puede prevenir la aparición
de la diarrea o su intensidad?
En este caso, la pregunta es de tratamiento preventivo, y está formulada en términos específicos.
La pregunta tiene por objeto obtener conocimiento sobre una decisión clínica de manejo, añadir
o no yogures bio a la dieta, y está estructurada en los cuatro componentes de la estructura PICO.
Ejemplo 3
Iñaki, de 13 años, ha sufrido un traumatismo en el pulgar derecho mientras jugaba al balonces-
to con abducción forzada, tras el que presenta dolor, hinchazón e impotencia funcional en la
articulación metacarpofalángica.
Trasladado por sus padres al servicio de urgencias del hospital, es visto por el traumatólogo de
guardia. En la exploración, el traumatólogo hace ver a los padres la laxitud de esa articulación, que
sugiere rotura del ligamento lateral. En la radiografía se observa una leve subluxación que sugiere el
mismo diagnóstico. El padre señala que la laxitud es similar a la que se observa en el pulgar izquierdo,
© Elsevier. Fotocopiar sin autorización es un delito.
que no ha sufrido traumatismo alguno, y que una radiografía anterior de la mano izquierda realizada
hace 2 meses por rotura de la falange distal del 5.º dedo izquierdo mostraba una imagen similar en
la articulación metacarpofalángica del primer dedo izquierdo. Estas observaciones no son tenidas
en cuenta por el traumatólogo, que, con el diagnóstico de rotura del ligamento, propone la cirugía
reparadora urgente.
La cirugía, con anestesia regional, transcurre sin problemas, aunque el ligamento se observa
intacto y el único hallazgo patológico es un leve desgarro del aductor. El cirujano señala que ha
suturado este desgarro.
Tras la cirugía, Iñaki es trasladado al servicio de pediatría, donde le mantienen a dieta durante
6 h y establecen una pauta de probar la tolerancia progresiva a líquidos antes de darle el alta.
Algunas preguntas que surgen de este escenario son:
■ En un joven en edad de crecimiento con hiperlaxitud ligamentosa, ¿qué características
(Continúa)
■ En los desgarros del aductor del pulgar sin rotura del ligamento lateral producidos como
consecuencia de un traumatismo directo, ¿es necesaria la sutura del mismo para la total
recuperación de la función?
■ Tras una cirugía de 20 min con anestesia regional en un varón de 13 años, ¿es necesario el
ingreso?
■ ¿Es necesario mantener a dieta y probar la tolerancia progresiva tras una cirugía breve con
OB J ETIV OS D EL CA PÍ TULO
Introducción
En los últimos años se ha producido una evolución en la relación entre la evidencia y su aplicación.
Inicialmente producción y aplicación aparecían como procesos independientes y la incorporación
a las decisiones clínicas era una cuestión individual del buen clínico o decisor. Esta visión ha
evolucionado hacia una concepción sistémica del uso de la evidencia en los sistemas de salud
que afecta a la producción de evidencias, a su difusión e implementación y al interés estratégico
en propiciar su uso y aplicación (1). Todo ello ha producido el desarrollo de nuevos tipos de
documentos de evidencia, y una mayor facilidad de acceso a la evidencia. De esos nuevos tipos de docu
mentos, del modo de organizarlos y de esos nuevos accesos clínicos a la evidencia tratará este
capítulo.
En suma, para incorporar la mejor evidencia a la práctica parecía suficiente generar evidencias
de calidad y esperar que los clínicos aprendieran a ir a por ellas y las usaran. Sin embargo, pronto
hubo pruebas de que esos métodos tradicionales de difusión apenas tenían de influencia sobre los
cambios en la práctica clínica (3) y que el camino de incorporación de la evidencia a la práctica era
algo más complejo (4,5).
Entre tanto, se multiplicaron los informes sobre las variaciones injustificadas en los
patrones de práctica clínica y sobre la existencia de asimetrías en la provisión de salud, con
procesos y áreas claramente por debajo de los estándares deseables (basados en evidencias).
Todo ello ha generado una presión social creciente sobre clínicos, sistemas de salud, ins
tituciones académicas, organizaciones profesionales, asociaciones de pacientes y sociedad
en general, que perciben en esa asimetría una forma de desigualdad. Como consecuencia de
este nuevo entorno de valores, el interés por potenciar de modo sistémico la aplicación de la
evidencia en la práctica ha alcanzado una nueva dimensión estratégica al tiempo que se ha
convertido en un lugar común.
En ese empeño estratégico se pueden distinguir al menos tres factores: el primero es la
aparición de una visión amplia ordenadora y sintetizadora del conocimiento clínico de modo que
esté orientado, dimensionado y preparado para su uso inmediato (ready to go). De este modo
emergen poderosas organizaciones y grupos multidisciplinares (metodólogos, clínicos, estadís
ticos, pacientes, etc.) que generan nuevos productos en los que la búsqueda de la evidencia es
adecuada y eficiente, la evidencia está ya críticamente evaluada (evidencia previamente evaluada)
y los resultados son ordenados (y en su caso sintetizados) para facilitar su uso clínico. Así, junto
a los estudios clásicos, aparecen nuevos tipos de documentos como las sinopsis, las síntesis, los
catálogos de recomendaciones basadas en evidencias, los diversos sumarios de evidencia de uso
clínico, que trataremos después.
El segundo factor es la explosión de internet y sus tecnologías asociadas, que faculta un acceso
fácil e inmediato a la evidencia, sea en sus formatos clásicos, sea en los nuevos tipos de documentos.
Esto permite reactivar el sueño de usar la evidencia en el lugar en que se interacciona con el
paciente; es la llamada evidencia en consulta o evidencia a pie de cama (evidence «point-of-care»)
que visionó D. Sackett el pasado siglo con su famoso «carrito de la evidencia» con el que recorría
el John Radcliffe Hospital de Oxford y que el capricho del tiempo nos trae de nuevo a primer
plano, esta vez por fin viable. Finamente, el desarrollo combinado de los dos factores mencionados,
unidos al desarrollo de las historias y los registros electrónicos de pacientes (Regs), permite diseñar
e imaginar una medicina digital con sistemas de ayuda a la decisión irrumpiendo en la consola del
clínico ayudando a las decisiones complejas.
El tercer factor tiene que ver con una visión industrial de la generación y aplicación de la eviden
cia. De ese modo, desde los estados mayores de los sistemas de salud se lanzan estrategias de calidad
global, se propician múltiples regulaciones administrativas, se implantan incentivos económicos o
administrativos, se estimulan programas definición de estándares y un amplio catálogo de estrategias
de persuasión, entre las que destaca especialmente la promoción de las guías de práctica clínica,
con involucración de los clínicos, sociedades científicas en el proceso, como actores esenciales. Sin
embargo, por razones diversas, que no procede analizar aquí, estas acciones orientadas a trasladar
la evidencia a los clínicos y decisores han tenido resultados solo discretos.
Para resumir la frustración que genera el proceso, la broma usada en la literatura (1) es
que «dado que el caballo no bebe solo» (fase inicial), «habrá que llevar al caballo al agua y allí hacer que
beba» (fase de las guías). Como eso tampoco funcionó del todo, la broma se va progresivamente
transformando en ¿cómo hacer más fácil y más agradable de beber el agua? Y en la actualidad,
en ¿cómo comprender mejor qué es lo que lleva al caballo a beber?» Damos por supuesto que los
gestores hablan siempre de «purasangres».
Veamos pues esos documentos y después nos detendremos a comentar cómo ordenar esos
documentos de un modo que favorezca los accesos de clínicos y decisores.
Documentos de evidencia
Este nuevo panorama con nuevos productos de evidencia ha transformado el modo en que se
escriben los documentos de evidencia (6,7) y por ello es preciso describirlos. Así pues, hablaremos
sucesivamente de estudios originales, revisiones sistemáticas, guías clínicas, sumarios y sistemas.
ESTUDIOS ORIGINALES
Corresponden a los estudios tradicionales o piezas elementales de evidencia, versan sobre los
diferentes dominios clínicos mencionados en el capítulo 3 (tratamiento, pronóstico, diagnóstico,
etc.) y por tanto asumen alguno de los diseños señalados como adecuados para la construcción de
conocimiento en el dominio correspondiente (ensayos clínicos aleatorios, estudios de exactitud,
pruebas diagnósticas, estudios de cohortes, etc.) y, obviamente, utilizan un formato estructurado
«PICO» para la formulación de la pregunta (v. capítulo 3).
En cuanto a la arquitectura los documentos mantienen la tradicional estructura IMRAD
(Introducción, Material y métodos, Resultados y Discusión). Generalmente, los estudios aportan
un pequeño resumen (150-200 palabras) que mantiene la estructura del artículo y permite su ojeo
rápido en las bases de datos.
Estos documentos que constituyen la «evidencia cruda» deben, idealmente, aportar la informa
ción necesaria para realizar lectura crítica (y eventualmente aplicarla a la clínica) pero también la
información necesaria para la inclusión del estudio en procesos de investigación de síntesis.
REVISIONES SISTEMÁTICAS
Son documentos que reportan un estudio que realiza una «síntesis de la evidencia» y que, proce
diendo de un modo sistemático y prefijado, recopilan, valoran y sintetizan (cualitativa o/y cuan
titativamente) toda la evidencia existente en torno a una pregunta en formato PICO o análogos.
Incorporan toda la evidencia disponible sobre la pregunta, una visión global sobre ella y aportan,
además, un extra de validez respecto de los estudios individuales (incluidos grandes estudios), en
la medida en que implican que un efecto es puesto a prueba en diversos estudios o circunstancias
diferentes. Es decir, si el efecto existe, el modo de prueba es más robusto, más válido. La revisión
sistemática se ha convertido así en un diseño de investigación en sí misma en el que las unidades de
estudio son los estudios originales cuya síntesis ofrece la mejor evidencia sobre la pregunta planteada.
Podemos leer críticamente la revisión, pero la lectura crítica directa de los artículos incluidos en
ella no es posible, no obstante, por la propia dinámica de este tipo de investigación implica realizar
un análisis del riesgo de sesgo de los estudios incluidos usando instrumentos específicos.
Las revisiones sistemáticas son un instrumento capital en la aplicación de la evidencia a las
© Elsevier. Fotocopiar sin autorización es un delito.
decisiones clínicas y para incorporar la evidencia a las guías de práctica clínica, informes de
evaluación de tecnologías de salud, programas preventivos o estrategias de screening.
clínicas.
■ Muestran la evidencia previamente evaluada a través de procesos de selección, lectura crítica
El objetivo de los sumarios es responder a las preguntas que surgen en el punto de atención al
paciente (9,10), y que necesitan respuestas rápidas; son denominados resúmenes sintetizados para
uso en la consulta clínica (6). Las recomendaciones prácticas, las conclusiones clave y las sinopsis de
la evidencia al respecto deben brindar una respuesta rápida con la capacidad de profundizar según
sea necesario. Por tanto, lo realmente innovador de esas herramientas es que están específicamente
diseñadas para ser usadas el punto donde clínico y paciente interactúan.
Un aspecto esencial de los sumarios es que extraen la evidencia de todas las categorías inferiores
de documentos citados (guías clínicas, revisiones sistemáticas y estudios originales), y constituyen
en el momento actual un recurso altamente eficiente para localizar la evidencia de las revisiones
sistemáticas y guías clínicas, ya que son referenciados en su presentación constituyendo su principal
estructura. Un detalle interesante es que organizan la información del modo tradicional en la
enseñanza médica y en los textos clínicos, y quizás esa organización es, a la hora de leer, una ventaja
cognitiva que influye en su éxito.
SISTEMAS
En este epígrafe nos referimos a los sistemas de ayuda a la decisión basados en la evidencia. La
función ideal de un «sistema» es ofrecer acceso automático a la evidencia relativa al problema
específico del paciente. Se trata de sistemas computarizados que resumen de modo conciso la
evidencia actualizada sobre un problema clínico determinado dentro de una condición clínica y
conectan (a través de las historias clínicas electrónicas) con las circunstancias clínicas y problemas
clínicos de decisión. Usan algoritmos específicos y sistemas de análisis de decisión para ensamblar
la información con la evidencia y ofrecer las recomendaciones sobre las rutas a seguir. Aunque hay
tradición y progresos relevantes en áreas de este campo entendido como sistema, se trata aún de
una promesa de futuro.
SINOPSIS
La sinopsis es un resumen estructurado y comentado de un estudio original, revisión sistemática o
guía clínica, que incluye juicios de valor sobre la validez de la evidencia aportada por ese documento
y otras consideraciones relacionadas con el contexto de conocimiento o con la aplicación clínica, muy
especialmente comentarios orientados a resaltar su aplicabilidad clínica. Por tanto, tienen el valor
añadido de que esta criticado y resumido, y el inconveniente (relativo) de que no podemos hacer
lectura crítica personalmente o directa. Esto es lo denominado evidencia previamente evaluada.
Dado que son breves resúmenes comentados, no suelen aportar la información necesaria para
realizar lectura crítica directa, sin embargo, constituyen una pieza elemental de evidencia previa
mente evaluada siempre que los criterios de lectura crítica sean preespecificados y consistentes.
Las sinopsis ofrecen la oportunidad de ahorrar tiempo para el clínico o decisor ocupado; sin
embargo, en la medida en que realizan juicios de valor, deben ser evaluados con especial prudencia
(dependiendo de la fuente). Las ventajas de una sinopsis elaborada por fuentes fiables son la
brevedad del resumen, el valor añadido de los comentarios y su utilidad para la enseñanza de
habilidades de lectura crítica.
Los recursos de información que proporcionan sinopsis deben tener procedimientos definidos
y explícitos para recuperar. seleccionar y criticar los estudios resumidos. Muchas de esas sinopsis
se agrupaban clásicamente en revistas de resúmenes como ACP Journal Club, o Evidence Based
Medicine, que finalmente se han incluido en revistas generalistas.
dentro de ellas a múltiples preguntas PICO, y ofrecen la evidencia ya evaluada (sistemas, sumarios
y guías). En cambio, revisiones sistemáticas y estudios originales abarcan un solo aspecto de la
condición clínica: el relativo a la pregunta PICO que contestan y ofrecen la evidencia cruda de
modo que es necesario su lectura crítica.
En el momento actual, la mayor parte de los clínicos acceden a la evidencia mediante los
sumarios, los cuales integran a los documentos de evidencia mencionados con anterioridad (estudios
originales, revisiones sistemáticas y guías clínicas), pero si el problema es muy específico o nuevo
(p. ej., COVID-19), hay evidencias muy novedosas o la actualización de los documentos de niveles
superiores se demora, será preciso usar la evidencia de niveles inferiores de la pirámide y hacer su
lectura crítica, lo cual convierte esa habilidad en un instrumento esencial para la clínica basada en
la evidencia.
METABUSCADORES
La forma piramidal del modelo tiene una serie de desventajas, entre otras el tiempo necesario para
elaborar los documentos de los niveles superiores, agravada por la posible existencia de información
más reciente o ausencia de evidencia en los niveles inferiores (11).
La clásica búsqueda secuencial en diferentes bases de datos o recursos de información (saltando
de una a otra) puede hacer la búsqueda clínica tediosa e impracticable. Para solucionar el problema se
han desarrollado herramientas en línea que ofrecen desde un único punto de acceso la recuperación
de todo tipo de documentos basados en la evidencia. Son los denominados metabuscadores o sis
temas de búsquedas federadas.
Las características de un metabuscador son:
■ Ayuda a la formulación de la pregunta clínica PICO, o en su caso usa habilidades para su
interpretación.
■ Desde un único punto de acceso (cajetín de búsqueda) ejecuta la búsqueda de forma simul
mentos de evidencia.
■ En algunos casos ofrecen asimismo mapas de evidencia que informan sobre la investigación
de evidencia (un estudio); el segundo es si el documento utiliza una pregunta estructurada (tipo
PICO) o una condición clínica o/y especialidad (de modo análogo a como los clínicos formulan
intuitivamente sus necesidades de conocimiento que señalábamos en el capítulo 3), y, finalmente,
el tercero es la extensión o el tamaño del documento, que, obviamente, es el mayor condicionante
de su uso. Los tres criterios se relacionan con las grandes líneas o tendencias de la práctica basada
en la evidencia: una es la vocación de síntesis del conocimiento, otra la resolución de la brecha
entre preguntas de investigación y de aplicación, y la tercera es la usabilidad de la evidencia en un
entorno clínico donde el tiempo es demasiado valioso.
Dónde buscar
En la tabla 4.2 se muestran los múltiples enlaces para buscar y una breve descripción de los recursos.
Muchos de ellos obtienen evidencias de varios niveles del sistema 5.0; existen, además, excelentes
metabuscadores que obtienen la evidencia en varios estratos.
Sistemas
Sumarios
Guías clínicas ✓
Revisiones ✓
sistemáticas
Estudios ✓
ACCESSSS Es una herramienta que proporciona la mejor Acceso libre (es necesario
(McMaster evidencia actual con el fin de ayudar en la toma de registrarse).
University’s decisiones clínicas. Ofrece información preevaluada https://www.accessss.
Health por su interés científico y relevancia clínica org/
Information También proporciona alertas (por correo electrónico
Research) o RSS) a la evidencia recientemente publicada
en el área de interés indicada
NHS Evidence Servicio web del NICE (National Institute for Health Acceso libre.
and Care Excellence), que ayuda a tomar rápidas https://www.evidence.
y mejores decisiones basadas en la evidencia. Es nhs.uk
un portal que busca en múltiples fuentes de alta
calidad, como British National Formulary, Clinical
Knowledge Summaries, SIGN, Cochrane Library
y Royal Colleges, Social Care Online and GOV.UK
Revisiones sistemáticas
Joanna Briggs Esta base de datos facilita la búsqueda en diferentes Suscripción (Wolters
Institute EBP tipos de documentos que resumen de manera Kluwer Health)
Database crítica la evidencia sobre un tema clínico para ayudar
en la práctica de los cuidados. Incluye revisiones
sistemáticas y otro tipo de documentos como
Evidence Based Recommended Practices, Evidence
Summaries, Best Practice Information Sheets, etc.
(Continúa)
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
34 Lectura crítica de la evidencia clínica
POEMs (Patient Son sinopsis de artículos relevantes para la práctica Suscripción (bajo la base
Oriented clínica. Ofrecen alertas diarias por correo de datos Essential
Evidence electrónico que resumen la investigación más Evidence Plus)
that Matters) reciente y relevante de más de 100 revistas
Research con el fin de ayudar al clínico a mantenerse al día
Summaries
Systematic Revista open access que tiene como misión la Acceso libre.
Reviews publicación de revisiones sistemáticas, protocolos http://www.
y métodos de investigación relacionados con las systematicreviewsjournal.
revisiones sistemáticas com
Bibliografía
1. Scott I. The evolving science of translating research evidence into clinical Practice. EBM 2007;12(1):4-7.
2. Tilson JK, Kaplan SL, Harris JL, Hutchinson A, Ilic D, Niederman R, et al. Sicily statement on clas
sification and development of evidence-based practice learning assessment tools. BMC Med Educ
2011;11:78.
3. Thomson O’Brien MA, Freemantle N, Oxman AD, et al. Continuing education meetings and work
shops: effects on professional practice and health care outcomes. Cochrane Database Syst Rev 2001;(1):
CD003030.
4. Glasziou P, Haynes B. The paths from research to improved health outcomes. ACP Journal Club
2005;142:A8-9.
5. Smith R. What clinical information do doctors need? BMJ 1996;313(7064):1062-8.
6. Alper BS, Haynes RB. EBHC pyramid 5.0 for accessing preappraised evidence and guidance. Evid Based
Med 2016;21(4):123-5.
7. DiCenso A, Bayley L, Haynes RB. Accessing preappraised evidence: fine-tuning the 5S model into a 6S
model. Evid Based Nurs 2009;12(4):99-101.
8. Guyatt GH, Oxman AD, Vist GE, Kunz R, Falck-Ytter Y, Alonso-Coello P, et al. GRADE Working
Group. GRADE: an emerging consensus on rating quality of evidence and strength of recommendations.
BMJ 2008;336:24-6.
9. Banzi R, Liberati A, Moschetti I, Tagliabue L, Moja L. A review of online evidence-based practice point-
of-care information summary providers. J Med Internet Res 2010;12(3):e26.
10. Kwag KH, González-Lorenzo M, Banzi R, Bonovas S, Moja L. Providing Doctors With High-Quality
Information: An Updated Evaluation of Web-Based Point-of-Care Information Summaries. J Med
Internet Res 2016;18(1):e15.
11. Shaneyfelt T. Pyramids are guides not rules: the evolution of the Evidence pyramid. Evid Based Med
2016;21(4):121-2.
Introducción
La mayoría de las preguntas que se formulan en la clínica corresponden a preguntas sobre la
efectividad de los tratamientos o intervenciones, sean con finalidad preventiva o terapéutica
(v. capítulo 3). Para obtener respuestas a este tipo de preguntas el ensayo clínico aleatorio (ECA) es
considerado tradicionalmente el diseño de investigación clínica de referencia. Por tanto, saber leer
críticamente un ECA es de una importancia capital para la práctica basada en la evidencia.
El ECA es un diseño prospectivo de investigación clínica (en personas con un problema
específico de salud o en riesgo definido de desarrollarlo) en el que se evalúa el efecto de al
menos dos intervenciones alternativas por medio de la asignación explícita (por un mecanismo
aleatorio) a una de ellas de cada participante y la comparación de los desenlaces obtenidos en
cada grupo generado.
Este diseño incorpora una herramienta específica (la aleatorización) que potencia la validez
interna de sus resultados y justifica el alto nivel de credibilidad que se otorga a los mismos. En
efecto, la asignación aleatoria evita los subjetivismos conscientes o inconscientes en la creación de
los grupos de comparación (sesgos de selección) y genera grupos cuyo pronóstico inicial es similar,
creando, de ese modo, el escenario ideal para comparar (sin confusión) el efecto de dos o más
intervenciones. En suma, es un diseño que ofrece, junto a una muy alta solvencia epistemológica,
una apariencia de comparación sencilla e intuitiva.
Hay que señalar que los resultados de las intervenciones son generalmente múltiples (unos
positivos y otros negativos), y en tal sentido los ECA proporcionan información sobre ambos y
por tanto datos para estimar el balance beneficio/riesgo.
Sin embargo, los ECA están, fundamentalmente, diseñados para responder a cuestiones de
eficacia o efectividad, y aunque analizan la seguridad en el horizonte temporal del ensayo, pueden no
detectar efectos adversos relevantes que sean poco frecuentes o tardíos. Estas «otras» consecuencias
de las intervenciones se identifican a posteriori mediante estudios observacionales (estudios de
cohortes o casos y controles) o por el uso ulterior en la rutina o registros asistenciales (1). Finalmente,
tras enfatizar la importancia de estos diseños para este tipo de preguntas, conviene señalar, también,
que hay preguntas sobre la efectividad de algunas intervenciones para las que este diseño de estudio
resulta absolutamente superfluo (2).
En realidad, el ECA es toda una familia de diseños que comparten lo esencial: una estrategia
de comparación y la aleatorización. Aunque mencionaremos algunos de los subtipos de esa familia de
ECA, en este capítulo nos referiremos, por defecto, al diseño típico y más común: el ECA paralelo.
En cuanto a las convenciones de escritura de ECA, cuya importancia mencionábamos en capítulos
previos, para este diseño paralelo la convención al uso es CONSORT (Consolidated standards of
reporting trials, http://www.consort-statement.org/), y para las diferentes variantes de diseño, las
respectivas Extensiones de CONSORT.
Escenario
Ves en tu consulta a Manuela, una mujer de 46 años sin antecedentes de alergia a betalactámicos,
historia de hipertensión arterial de 5 años de evolución que controla con inhibidores de la
ARA II, mantiene reglas regulares y vida sexual activa y realiza ejercicio físico habitualmente. Ella
tiene historia de infecciones urinarias de repetición desde hace 3 años, que han sido tratadas con
cotrimoxazol forte. Hace 2 años, aconsejada por una amiga, siguió un régimen rico en frutos del
bosque con escaso resultado, y más recientemente intensificó ese plan tomando preparados con
extracto de arándanos y otros frutos del bosque con análogos resultados. Consulta actualmente
porque ha recibido un comentario en una red social de que la mayoría de las infecciones de orina
van muy bien con ibuprofeno.
Te pregunta tu opinión y le indicas que revisarás el asunto y en próxima consulta le informarás.
Buscas en las guías de práctica sin resultados y vas a las bases de datos de estudios primarios,
donde encuentras este estudio.
Vik I, Bollestad M, Grude N, Bærheim A, Damsgaard E, Neumark T, et al. Ibuprofen versus
pivmecillinam for uncomplicated urinary tract infection in women—A double-blind, randomized
non-inferiority trial. PLoS Med 2018;15(5):e1002569.
Te preguntas:
1. ¿Es efectivo el ibuprofeno frente a pivmecilinam para prevenir infecciones urinarias en
mujeres?
© Elsevier. Fotocopiar sin autorización es un delito.
Población
Cuando formulábamos preguntas clínicas hablábamos de pacientes (P). Ahora, en investigación,
la P corresponderá a la «población de estudio» y se define como el subgrupo de la población que
reúne los criterios de inclusión y carece de los de exclusión.
Idealmente, esta población debe parecerse a los pacientes en quienes se piensa aplicar la interven-
ción si fuera efectiva, y no es preciso ningún muestreo representativo. Frecuentemente, por razones
de índole práctica o regulatoria se selecciona un subgrupo en el que es más probable observar el
desenlace investigado y en ocasiones ingresan «a prueba» (run-in) en el estudio y solo son reclutados
definitivamente si cumplen ciertos criterios. Por todo ello la población estudiada suele reflejar solo
una parte del espectro habitual de la enfermedad o condición.
Concierne a la prudencia clínica valorar las diferencias entre las poblaciones de estudio y el
paciente concreto a quien debe aplicarse el resultado. En realidad, casi nunca encontraremos un
ensayo con una población exactamente igual a nuestro paciente; por ello la pregunta sería si nues-
Figura 5.1 Esquema de un ensayo clínico aleatorio. Los números representan los dominios del estudio donde
hay que valorar el riesgo de sesgo: 1, problemas en la aleatorización; 2, desviaciones de las intervenciones
previstas; 3, pérdidas; 4, medición de los desenlaces; 5, reporte selectivo de los resultados. A, aleatorización;
C, grupo de control; D1, desenlace en grupo de intervención; D2, desenlace en grupo de control; I, grupo de
intervención; p, perdidos; P, población de estudio.
tro paciente es tan distinto como para no poder aplicarle el resultado del ensayo. Este proceso de
aplicación es realmente, en sentido aristotélico, una cuestión prudencial.
Intervención
Se trata de la acción cuyo efecto se pretende estudiar y que puede ser de diferentes tipos: fármacos,
grupos de fármacos, dispositivos, intervenciones quirúrgicas, fisioterápicas, psicológicas, estrategias
de manejo clínico o estrategias de organización, intervenciones complejas, terapias combinadas y
un largo etcétera.
En cualquiera de los casos la intervención (y la comparación) debe ser estandarizada y descrita
con el detalle suficiente como para poder ser aplicada a la clínica, reproducida en investigación
o incorporada en investigación de síntesis. La estandarización es relativamente fácil cuando
hablamos de fármacos, pero las intervenciones más complejas exigen definiciones más elaboradas
y contextualizadas. Otras veces las intervenciones son críticamente dependientes de las habilidades
específicas de las personas que las realizan (por ejemplo: cirugía, hemodinámica, manipulaciones
vertebrales, psicoterapia, etc.) y la estandarización resulta más complicada. En tales casos el control
de las curvas de aprendizaje o la utilización de diseños especiales llamados «diseños de habilidad»
(expertise design) son alternativas disponibles.
En otras ocasiones la intervención no se puede realizar sobre un individuo, pues hay que
considerar su integración en una organización o colectividad. Por ejemplo, al estudiar estrategias
docentes entre grupos aleatorios de residentes del mismo hospital la contaminación entre grupos
es segura, o estudiar dos intervenciones dietéticas entre escolares de la misma escuela plantea
dificultades obvias. En esos casos puede ser de utilidad el diseño de ensayo en clusters o con-
glomerados, cuya complejidad excede los objetivos del capítulo. Finalmente, cuando el efecto de la
intervención es reversible en un plazo corto y se aplica a una enfermedad crónica estable es posible
probar sucesivamente intervención y comparación en la misma población tras un período de lavado:
se trata de los diseños cruzados (cross-over trials). Este diseño puede ser llevado al extremo en
algunas circunstancias (paciente no adecuadamente representado en la población de estudio de los
ensayos disponibles u otras situaciones en las que los resultados de los ensayos no sean directamente
aplicables a nuestro paciente) aplicándolo a un único paciente (ensayos de n = 1); en estos casos, la
conexión entre la investigación clínica y su aplicación es máxima y puede ser el único método de
valorar la mejor intervención para un individuo concreto (4).
Comparación
En este aspecto está, sin duda, la clave práctica y ética de los ECA. Desde el punto de vista del
clínico práctico solo tiene sentido comparar nuevas intervenciones con intervenciones con efectos
ya probados, o al menos que sean los tratamientos usuales; no usar tratamientos probados sería
© Elsevier. Fotocopiar sin autorización es un delito.
maleficencia y además esa comparación reproduce el posible dilema decisional real (tratamiento
nuevo frente a tratamiento usual).
Desde el punto de vista ético, para proponer a un paciente la participación en un ensayo debe
existir un equilibrio entre los posibles beneficios y riesgos esperables del nuevo tratamiento con
los beneficios y riesgos de la intervención comparada (es la llamada equipoise). En realidad, este
concepto refleja el punto de fricción entre dos dialécticas diferentes: la de práctica clínica y la de
investigación clínica, y es, por tanto, un asunto crucial que condiciona el diseño en varios sentidos.
En primer lugar, exige un conocimiento explícito del estado del tratamiento para la condición
clínica en cuestión (preferiblemente mediante una revisión sistemática). En segundo lugar, la exis-
tencia de tratamientos efectivos limita el uso de placebo como técnica de investigación y obliga a
incluirlos en las comparaciones. En tercer lugar, la existencia de tratamientos efectivos condiciona,
cada vez más frecuentemente, la elección de unos de diseño especiales conocidos como estudios
de no inferioridad o de equivalencia. En cuarto lugar, hay ocasiones en las que se considera que
ese balance entre riesgos y beneficios que llamamos equipoise puede cambiar durante el ensayo
(como consecuencia de él); en tales casos tiene interés realizar diseños secuenciales (que tampoco
abordaremos) o programar análisis intermedios. Una posible consecuencia de ese cambio en el
balance riesgo/beneficio es que sea preciso suspender el ensayo.
En realidad, las razones para terminar de forma precoz un ensayo son fundamentalmente tres:
1) el beneficio observado del tratamiento experimental es muy superior a lo esperado a priori; 2) el
beneficio esperado de la nueva intervención, si existe, es inferior a lo esperado, poco relevante y es
altamente improbable que el ensayo, en su diseño y dimensión original, sea capaz de detectar las
diferencias esperadas (finalización por futilidad del efecto), y 3) los efectos adversos y la toxicidad
del nuevo tratamiento son superiores o más graves de lo esperado.
Existen distintos procedimientos para realizar análisis repetidos de los datos sin afectar a la
integridad estadística del análisis global, pero persiste un importante debate sobre cuándo se dis-
pone de suficiente evidencia para considerar que la incertidumbre sobre el riesgo/beneficio no se
mantiene, y ha de suspenderse el estudio. En cualquier caso, hay evidencias empíricas de que los
ensayos finalizados prematuramente por detección de un beneficio superior al esperado suelen
aumentar la incertidumbre en vez de disminuirla, ya sea por obtener estimaciones iniciales de
beneficio muy optimistas que no se confirman en estudios posteriores o porque se centraron en
variables subrogadas sin clara correspondencia con el desenlace clínico fundamental (5,6). Por
ello la presencia de detención precoz del estudio debe ser mirada con cautela por el lector clínico.
Desenlaces
Pueden ser orientados a los pacientes u orientados a la enfermedad (generalmente desenlaces
subrogados). El catálogo de desenlaces es tan amplio como la clínica: puede tratarse de condiciones
clínicas objetivas como, por ejemplo, mortalidad, eventos clínicos como accidente vascular cere-
bral o infarto de miocardio o curación, pero también pueden ser síntomas, signos, percepciones,
habilidades, calidad de vida, etc. En unos casos son valorados o medidos por médicos, sanitarios o
cuidadores, y en otras ocasiones pueden ser evaluados y/o comunicados directamente por el propio
paciente. Sea como fuere, será preciso evaluarlos con cuidadosa visión clinimétrica.
En otro sentido, la arquitectura del estudio permite comparar simultáneamente muchos desen-
laces clínicos, y por ello existen en los ECA dos jerarquías de desenlaces. Una es la investigacional,
en la cual los desenlaces (o variables de resultado) son clasificados en principal y secundarios según
condicionen o no el diseño del estudio (tamaño muestral, sistemas de medición, otros elementos
metodológicos, etc.). La otra jerarquía es la de la importancia clínica, que depende de su influencia
decisional y que, como señalamos en el capítulo 3, podía ser de tres tipos: desenlaces críticos para
la decisión, desenlaces importantes-no-críticos para la decisión y desenlaces no importantes.
Son dos visiones obligadas a coexistir, pero desde la perspectiva del lector hay que plantearse
dos aspectos: el primero es si son estos los desenlaces que necesito para mi decisión clínica o para
mi investigación (es decir, ¿es esta es mi pregunta?). El segundo es si están convenientemente
comunicadas todas las variables relevantes o, al menos, ¿están todas las prometidas en el protocolo?
A veces un grupo de síntomas, signos o variables, consideradas en conjunto, reflejan mejor el
estado de salud o el efecto del tratamiento que tomadas por separado; en esos casos hablamos de
variables compuestas (un ejemplo de ellas es la ACR50 del capítulo 3).
En otros casos el desenlace supone la terminación de la contribución de un paciente al ensayo
(por ejemplo, se produce su muerte), o se produce el evento que estamos estudiando (infarto de
miocardio, accidente vascular cerebral). Este tipo de desenlaces se denominan «punto final» (end
point). Un caso algo especial, frecuente en algunas áreas de investigación, es el de las variables punto
final compuestas (composite end point). Se trata de una variable que mide la ocurrencia de cualquiera
de los eventos punto final que la constituyen y puede hacerlo como ocurrencia de alguno de ellos en
el tiempo predefinido o como tiempo de ocurrencia hasta que acaece cualquiera de los elementos
de la variable punto final compuesta. Por ejemplo, en un estudio sobre estatinas la variable «punto
final compuesta» podría ser el tiempo hasta la ocurrencia de cualquiera de los eventos siguientes:
infarto de miocardio fatal, infarto no fatal, accidente vascular cerebral o accidente vascular periférico,
o la ocurrencia de cualquiera de ellas en 1 año.
Este abordaje puede tener cierto sentido biológico y/o clínico en la medida en que informa sobre
el progreso de la enfermedad vascular en su conjunto, y es usado frecuentemente porque aumenta
la probabilidad del desenlace y con ello hace más eficiente el estudio al precisar menos tamaño de
muestra. Pero a efectos de su lectura debe ser mirado con suma prudencia (7) y hemos de obtener
información de cada variable por separado y en su conjunto. En todo caso, a efectos de decidir
su importancia clínica puede haber dificultades, porque los diferentes componentes pueden ser
heterogéneos cualitativa y/o cuantitativamente.
En resumen, el lector debe decidir si estas son sus preguntas, si las comparaciones son las
adecuadas, si el diseño es pertinente, si los desenlaces son los realmente importantes para su
paciente o para su investigación, si la pregunta está formulada en términos de superioridad o de
no inferioridad y si la población es tan distinta de su caso (o de su población de interés) que no
podrá aplicar sus resultados.
derivadas de la asignación efectiva a los grupos o de problemas en la adhesión de los pacientes a los
Figura 5.2 Características metodológicas que se han de explorar en los ensayos clínicos aleatorios y dominios
del estudio sobre los que puede producir sesgos cada característica. Las características son usadas en el
instrumento de Cochrane RoB1 (22), mientras que los dominios son usados en el Cochrane RoB2 (23).
Aleatorización restrictiva Se impone alguna restricción al proceso de aleatorización (p. ej., bloques)
para asegurar el equilibrio de pacientes entre los grupos
grupos respectivos, pueden alterar la comparabilidad de los grupos (Dominio 2). Esas desviaciones
de las intervenciones (con cambios, abandonos, retiradas, etc.) implica que habrá diversos modos
de analizar estos datos y según el modo habrá más o menos riesgo de sesgo para la estimación del
efecto. El tercero es que, dado que el estudio tiene dimensión temporal, muy probablemente se
perderán algunos pacientes (y sus datos) y esas pérdidas pueden, también, amenazar la comparación
(Dominio 3). En cuarto lugar, la medición de los desenlaces debe ser adecuada y equilibrada; pro-
blemas en este apartado pueden, asimismo, amenazar la comparación (Dominio 4). En quinto y
último lugar, el reporte selectivo de los resultados puede romper el equilibrio de la comparación y
ser igualmente fuente de sesgo (Dominio 5).
A continuación, describimos esas características metodológicas mencionadas y el impacto que
cada una de ellas puede producir sobre los diferentes dominios del estudio.
Aleatorización
Consiste en la asignación de cada paciente a cada grupo en función de una secuencia aleatoria
generada de diversos modos posibles (tabla 5.1) (8). Esta es la manera que tenemos de intentar que
los dos grupos sean similares respecto de las variables que creemos importantes, pero también de
otras variables desconocidas. En teoría debe controlar el sesgo de selección y el sesgo de confusión.
Conceptualmente hay dos elementos distintos en la aleatorización, uno es la generación de la
secuencia de aleatorización y otro, más pragmático, es cómo se realiza el procedimiento de asignación
y especialmente si la secuencia se mantiene oculta para quien hace el reclutamiento (ocultación de
la secuencia de aleatorización, OSA).
Secuencia de aleatorización. Puede generarse de modo simple a través de una tabla o sistema
de números aleatorios (hasta con una moneda si hay solo dos grupos a comparar). El problema
de las secuencias generadas así es el desequilibrio de efectivos entre grupos, que es especialmente
frecuente para ensayos pequeños. El modo de resolver este problema es haciendo bloques de
permutaciones (aleatorización restrictiva por bloques); de ese modo la máxima diferencia posible
entre grupos en el número de individuos será igual a la mitad del tamaño del bloque. El segundo
problema posible es la distribución desigual en los grupos de los factores pronósticos importantes,
lo cual puede afectar al control del sesgo de confusión. Este problema suele abordarse mediante
la estratificación (con o sin bloques por estrato), o mediante algoritmos de minimización (9)
que resuelven el problema de manejar muchos estratos y cuyo uso se ha popularizado en los
últimos años (3).
En cualquiera de los casos la aleatorización genera una tendencia a la similitud entre los grupos,
pero solo a largo plazo (con tamaños muestrales grandes). Sin embargo, pese a las precauciones,
el azar puede producir desequilibrios en los factores pronósticos. Por tanto, la efectividad de la
aleatorización debe ser comprobada en todos los ensayos. El efecto de la aleatorización sobre las
variables conocidas suele mostrarse en la tabla 1 de todos los ensayos (es la llamada tabla 1 de
CONSORT) cuya exploración es obligada. En ella puede verse la distribución de características
en ambos grupos y suele realizarse test de significación estadística, de dudoso valor. La presencia
de diferencias importantes en la distribución de variables pronósticas en los grupos, aún sin
significación estadística, o la presencia de diferencias significativas en muchas características de los
pacientes puede sugerir que la randomización no ha sido eficaz.
de grupos comparables. Adicionalmente, la ausencia de OSA puede hacer que personal del estudio
conozca el grupo asignado al paciente, y ello puede afectar a los cuidados paralelos (DOMINIO 2)
o a la evaluación del desenlace (DOMINIO 4).
Cegado (enmascaramiento)
Entendemos por cegado o enmascaramiento en un ECA el procedimiento por el cual se asegura que
los participantes, los clínicos, los investigadores, los medidores de los desenlaces o los que analizan
el estudio desconozcan qué intervención se administra a cada participante. La figura 5.3 muestra
algunas definiciones relacionadas con los distintos tipos de cegado.
La ausencia de cegamiento en los pacientes puede producir disbalance en las intervenciones
porque los grupos asignados a la intervención experimental suelen ser más proclives a tener otros
comportamientos saludables, y la consciencia de la asignación a algunas intervenciones puede influir
en la solicitud de cuidados adicionales (DOMINIO 2). Por otra parte, la propia dinámica del ensayo
puede modificar el equilibrio de los grupos; por ejemplo, la consciencia de asignación al grupo
Figura 5.3 Algunas definiciones relacionadas con el cegado en los ensayos clínicos aleatorios. ECA, ensayo
clínico aleatorio.
control en un ensayo abierto puede inducir al paciente a buscar otras intervenciones adicionales
similares a la experimental (DOMINIO 2), o la ruptura de cegamiento por efectos colaterales puede
propiciar el abandono del estudio por el paciente (DOMINIO 3). La ausencia de cegamiento
puede también producir diferentes grados de adherencia a la intervención y/o pérdidas diferenciales
en los grupos en aquellos casos en los que mantenerse en el ensayo (o en algunos de sus brazos)
requiera de cierto entusiasmo del paciente (DOMINIO 3). Finalmente, la ausencia de cegamiento
en el paciente puede a afectar a la aparición diferencial de síntomas subjetivos o a la medición de
los mismos, especialmente si los desenlaces son medidos por el propio paciente (DOMINIO 4).
La ausencia de cegamiento en los clínicos y/o investigadores puede hacer que la administración
de cuidados extraprotocolarios sea diferencial en uno u otro grupo (DOMINIO 2) y también
puede provocar, en casos límite de efectos colaterales, retiradas del paciente por el clínico que serán
diferenciales en los grupos (DOMINIO 3). Otro efecto de la ausencia de cegamiento es su impacto
basales de los pacientes en cada grupo de tratamiento según la aleatorización inicial, se expanda
presentando para cada grupo las características de los pacientes que finalmente son incluidos en el
análisis seguido de las características de aquellos excluidos. De esta forma el lector podrá valorar
hasta qué punto hay diferencias en pérdidas entre ambos grupos y su posible repercusión (15).
Una vez detectada la presencia y calibrada la importancia de este sesgo, existen diferentes
estrategias a la hora de releer o reanalizar los datos. La más intuitiva es desarrollar ciertos escenarios
hipotéticos o simulaciones para asignar valores a los datos faltantes y evaluar hasta qué punto
cambian los resultados y las conclusiones fundamentales del ensayo. Es el llamado análisis de
sensibilidad, que admite dos escenarios extremos: el «análisis en el peor de los casos», en el que
se calculan los estimadores del efecto si todos los participantes perdidos del grupo experimental
tuvieran el evento negativo y los perdidos del grupo control no lo tuvieran, y el «análisis en el mejor
de los casos», en el que procederíamos justo al revés. De este modo veremos cuál es la sensibilidad
de nuestra estimación a los posibles cambios en las pérdidas. Entre estos dos escenarios extremos
se pueden plantear otros intermedios, más o menos plausibles, en función del problema clínico
de estudio, que pueden enriquecer la perspectiva sobre la robustez de los resultados y las posibles
relaciones entre las pérdidas y los resultados.
Otra alternativa es realizar análisis ajustados por una o más covariables que muestren desequili-
brios entre los grupos que se analizan o utilizar determinadas técnicas estadísticas que «imputan» o
asignan valores a los datos faltantes. Existe un número creciente de metodologías analíticas, algunas
muy sofisticadas, para aquellas situaciones en las que hay datos faltantes, pero no debemos perder
la perspectiva, pues bajo la maquinaria de los modelos estadísticos subyacen suposiciones teóricas
de difícil comprobación sobre los mecanismos que han originado la ausencia de los datos (16).
tes que no recibieron su intervención asignada o se desviaron del protocolo. Es por tanto una subpo-
blación de P-AIT cuyos grupos son escindidos de los iniciales, y a diferencia de los grupos del AIT
no son estrictamente comparables porque pueden ser afectados por sesgos de selección en el caso
de que factores pronósticos estén relacionados con la adherencia al tratamiento.
Una forma algo distinta es hacer el análisis de los tratados (AT, as treated), en la cual los
pacientes son analizados en el grupo de la intervención que realmente recibieron y completaron,
independientemente de si fueron aleatorizados a otro tratamiento. Este es otro subgrupo distinto
de la P-AIT con grupos reconstruidos en los que puede existir alto riesgo de sesgo si las razones
por las que se pasan de grupo se asocian a factores pronósticos.
Respecto de cuál es entonces el método más adecuado, como señalábamos al principio, depende
del interés de la pregunta del estudio.
Las ventajas que ofrece el de AIT son: que mantiene la aleatorización y por tanto controla
la confusión y mantiene la comparabilidad, y en cierto modo se aproxima a lo que ocurrirá en
general (los pacientes dejan de tomar el tratamiento y abandonan el estudio, etc.). Por otra parte,
es científicamente conservador en el sentido de que su uso produce sesgo hacia el no efecto (hacia
la hipótesis nula), lo cual es aceptable. Por ello ha sido sugerido tradicionalmente como el modo
más adecuado de análisis. Sin embargo, es obvio que el AIT implica ignorar deliberadamente todas
las circunstancias y vicisitudes del estudio que sean posteriores a la randomización y que, por lo
demás, son habituales en estos estudios clínicos.
Ese sesgo hacia la hipótesis nula no plantea mucho problema en los estudios de superioridad:
estimamos menos efecto del real, es decir, sesga en contra del investigador; sin embargo, en estudios
de no inferioridad, en los que formulación de la hipótesis es diferente, la dirección del sesgo será la
de aparecer como un efecto inferior (menor efecto) cuando realmente es «no inferior».
El APP, como señalábamos, rompe el equilibrio de la comparación y transforma el estudio en algo
más cercano a lo observacional, es decir, tiene más riesgo de sesgo. Sin embargo, es claro que responde
a otra pregunta diferente. Por ello, para considerar el efecto real de la adherencia a la intervención o
para ensayos pragmáticos, es adecuado el uso de APP, pero debe ser enunciado a priori, e idealmente
asociado a una previsión y una definición razonable de la adherencia al protocolo y un control de
sesgos mediante el uso de los instrumentos estadísticos de ajuste desarrollados al efecto (20,21).
Finalmente, para el caso de los ensayos de no inferioridad, lo aconsejable es usar los dos análisis
e interpretar el APP como un análisis de sensibilidad.
RESULTADOS
Los ECA se llevan a cabo para determinar si una determinada intervención es efectiva y segura o
si proporciona alguna ventaja en términos de riesgo/beneficio sobre una intervención de referencia.
La decisión se basará en el análisis comparativo de los resultados obtenidos en cada grupo de
intervención. Todos los elementos de calidad en el diseño y ejecución del ensayo comentados hasta
ahora tienen como objetivo que esta comparación sea equilibrada (no artefactada).
Es importante determinar primero cuál es la escala de medida de la variable de desenlace
principal, pues esta a su vez condiciona la técnica de análisis estadístico y la forma de presentación
de los resultados. Si la variable principal se mide en una escala continua (por ejemplo, el nivel
sanguíneo de un parámetro bioquímico o la puntuación de calidad de vida relacionada con la salud
medida con el cuestionario SF-36), la forma habitual de expresar el resultado sería proporcionar la
diferencia media entre el resultado observado en el grupo experimental y el del grupo de referencia,
añadiendo información sobre la precisión de esta estimación en forma de error estándar de la misma
o suministrando su intervalo de confianza. Generalmente se aconseja utilizar variables de gran
relevancia clínica, y entre ellas destacamos aquellas de tipo dicotómico o binario (SÍ/NO), pues
se acomodan bien a la forma de trabajo del profesional asistencial (tiene/no tiene este problema,
le trato/no le trato, se cura/no se cura, etc.) En este caso, deberemos siempre buscar los números
«crudos» (es decir, en cuántos pacientes se evaluó el desenlace y en cuántos se detectó el desenlace
de interés). De esta forma se clarificará si se analizó a todos los pacientes aleatorizados o a un
subgrupo determinado. Además, con sencillas herramientas de cálculo epidemiológicas, el clínico
entrenado y con ganas podrá fácilmente obtener y valorar a partir de ellos algunos estimadores del
efecto quizá no presentados en el artículo y que pueden ser de utilidad interpretativa.
Con este tipo de variables dicotómicas podremos encontrar los siguientes descriptores de los
resultados:
■ El Riesgo o probabilidad de desarrollar el desenlace de interés (por ejemplo, curación) en
refleja la diferencia en la probabilidad de ocurrencia del desenlace entre los grupos. Una
reducción de 0 equivale a igualdad de riesgo en los grupos y por tanto a la ausencia de efectos
diferentes de las intervenciones que se comparan. Si se obtiene un resultado distinto de 0,
habrá que valorar la magnitud y el sentido de la diferencia.
■ El llamado Número Necesario de Pacientes a Tratar (NNT). Es el inverso de la DR (RAR) y
nos informa del efecto de una intervención calculando cuántos pacientes deberían cambiar
su tratamiento y recibir el tratamiento experimental EN VEZ del de referencia para (en el
tiempo de seguimiento utilizado en el ensayo) conseguir un desenlace de interés adicional al
que se obtendría si recibieran la intervención de referencia. Es fácil determinar que el inverso
de 0 es infinito (una magnitud inespecífica) y por lo tanto este NNT no estimable sería el
que nos hablaría de la no diferencia de efectos. El NNT es un estimador de la efectividad de
la intervención, entendida como consecución de más desenlaces favorables o reducción de
los desfavorables. Cuando queremos referirnos a los sucesos desfavorables, y específicamente
cuando nos referimos a efectos indeseados de una intervención (toxicidad, efectos secundarios,
etc.), se utiliza el llamado Número Necesario de Pacientes para causar Daño (NND, NNH en
inglés), que informa sobre cuántos pacientes tendrían que recibir el tratamiento experimental
en vez del de referencia para que observemos un daño o suceso desfavorable (generalmente
un efecto tóxico grave) adicional a los que se observarían con el tratamiento de referencia
o control. De esta forma, la relación NNT/NND nos permite una aproximación al balance
beneficio/riesgo entre las intervenciones comparadas.
© Elsevier. Fotocopiar sin autorización es un delito.
APLICABILIDAD
Hasta el momento se han revisado los principales aspectos metodológicos que pueden condicionar
la validez interna de un ECA, es decir, aquellos aspectos que pueden llevar a cuestionar su calidad
desde el punto de vista epistemológico. Pero la lectura crítica, como herramienta básica de la práctica
Referencia (100) 40
Referencia (30) 12
Referencia (100) 50
El desenlace de interés es favorable. Los ensayos 1 y 2 muestran cómo un efecto importante (grande) puede
no ser detectado como estadísticamente significativo en un ensayo pequeño (ensayo 2). Los ensayos 3 y 4
muestran cómo un efecto moderado o pequeño puede alcanzar significación estadística si el ensayo tiene
el suficiente tamaño (ensayo 4). Todos los casos muestran cómo los IC proporcionan simultáneamente
información sobre la precisión de los resultados y sobre su (o la ausencia de) significación estadística.
Obsérvese la inexistencia de valores p en la tabla.
DR, diferencia de riesgos; IC 95%, intervalo de confianza al 95%; RR, riesgo relativo.
Modificado de Gardner MJ, Altman DG. Confidence intervals rather than P values: estimation rather than
hypothesis testing. BMJ. 1986;272:746-750.
basada en la evidencia, necesita ir un paso más allá para traspasar la frontera que separa el pensar del
hacer, y para ello es imprescindible que el lector analice la aplicabilidad de los ECA a su actividad
clínica real explorando la validez externa de sus hallazgos.
Entendemos por aplicabilidad la medida en que los efectos observados en los estudios publicados,
probablemente, reflejen los resultados esperados cuando una intervención específica se aplique a la
población de interés bajo condiciones de práctica real. Dicho de otra manera, la aplicabilidad debe
intentar responder a tres preguntas: ¿pueden los resultados del ensayo ser aplicados a mi paciente?;
o mejor ¿es mi paciente tan diferente de los pacientes del ECA que sus resultados no pueden serle
aplicados?; ¿es la intervención factible en mi medio?
Un elemento esencial de la aplicabilidad es que las poblaciones de los ensayos son en general
muy seleccionadas por razones metodológicas y regulatorias, de modo que son algo diferentes
de los pacientes «cotidianos», presentando, por ejemplo, mucha menos comorbilidad que los
pacientes habituales en la clínica. Adicionalmente, los entornos de investigación son más res-
trictivos en el manejo de los pacientes, más estrictos en las mediciones, y posiblemente más
complacientes en las visitas y cuidados, etc. En resumen, hay diferencias entre los ensayos y
la práctica real. Para rellenar ese hiato entre los ensayos y la aplicación práctica han surgido
estrategias que tratan de dar sentido real (y no solo investigacional) a los resultados de los ECA:
son los llamados estudios de mundo real (Real World Studies [RWS]). Este grupo de estudios
(24,25) incluye diseños experimentales, como los ensayos pragmáticos o los ensayos basados
en registros, y una serie de estudios observacionales basados en actividad o en registros de
diferente tipo (generales o específicos) con arquitecturas de cohortes retrospectivas, estudios no
aleatorizados, etc., y que constituyen un complemento interesante de la evidencia obtenida de
los ECA. Abordaremos algunos de estos aspectos en el capítulo 10 aunque el análisis de estos
estudios escapa a los límites de esta obra.
Un aspecto final de la aplicación a la práctica de los resultados de los ECA es la necesaria
corrección y adaptación de los estimadores del efecto (positivos o negativos) a los riesgos basales
de cada paciente, y la incorporación de los valores (colectivo e individuales) al proceso de decisión,
aspecto que trataremos a propósito de las recomendaciones (v. capítulo 18).
Artículo
Vik I, Bollestad M, Grude N, Bærheim A, Damsgaard E, Neumark T, et al. Ibuprofen versus
pivmecillinam for uncomplicated urinary tract infection in women—A double-blind, randomized
non-inferiority trial. PLoS Med 2018;15(5):e1002569. Disponible en: https://doi.org/10.1371/
journal.pmed.1002569.
© Elsevier. Fotocopiar sin autorización es un delito.
3. ¿Se mantuvo Sí ✓ No sé No
la comparabilidad Se aleatorizaron 383 pacientes, 194 al grupo ibuprofeno (IB)
de los grupos a través y 189 al grupo pivmecilinam (PIV). No hubo desviaciones
del estudio? en la intervención por problemas en la asignación.
Desviaciones de Los problemas de adherencia (< 80% de cumplimiento) fueron bajos,
la intervención por probablemente debido a la corta duración del tratamiento (3 días):
problemas en la 12 pacientes en el grupo IB y 7 en el grupo PIV.
asignación. Se declaró análisis por intención de tratar (AIT o ITT) en las tablas,
Desviaciones de no en el texto, pero se analizaron únicamente 181 de 194 pacientes
la intervención en el grupo IB y 178 de 189 en el grupo PIV. Podría considerarse
por problemas en un mITT (modified intention to treat analysis).
la adhesión al En realidad, y dado que el desenlace primario se analizó como de no
tratamiento. inferioridad, lo razonable hubiera sido un análisis por protocolo
¿Cómo se analizó el (APP), lo que hubiera incluido 150 pacientes en el grupo IB y
estudio: ITT mITT 154 en el grupo PIV (fig. 1). En realidad, así lo expresa (de modo
APP, AT? confuso) en el pie de la tabla 2.
4. ¿Son importantes Sí No sé No ✓
las pérdidas ocurridas Se perdió a 44 de 194 pacientes en el grupo IB (22,7%): 13 de los
durante el estudio? que no se recuperó información tras la basal, 19 perdidos para el
¿Difieren según el grupo? seguimiento y 12 que tuvieron baja adherencia.
¿Las pérdidas podrían En el grupo PIV se perdieron 35 (18,5%): 11 de los que no se recuperó
depender de su valor información tras la basal, 17 perdidos para el seguimiento y 7 que
o resultado? tuvieron baja adherencia. Puede considerarse que las pérdidas están
¿Se hace análisis balanceadas entre los grupos.
de sensibilidad? Las diferencias de pérdidas son relevantes y mayores en el grupo
IB, es posible que esos pacientes hayan buscado alternativa, y eso
podría tener relación con un resultado negativo.
No se hizo análisis de sensibilidad (worst case, best case).
5. ¿Fue adecuada la Sí No sé ✓ No
medición de los El desenlace primario medido fue la proporción de pacientes que
desenlaces? se sintieron curados en el día 4 tal y como recogieron en el diario
Tipo de desenlace del paciente o se decidió tras la consulta telefónica.
medido y método Los desenlaces secundarios incluyeron la duración de los síntomas y
usado. una puntuación de los síntomas del paciente reflejados en el diario
Cegamiento del paciente, según una escala ad hoc (mínimo 0, máximo 18). Otros desenlaces
clínico, evaluador, secundarios fueron proporción de pacientes con segundo cultivo
estadístico. positivo, proporción de pacientes con necesidad de consulta médica en
Si hay problema, ¿es
© Elsevier. Fotocopiar sin autorización es un delito.
Bibliografía
1. Frieden TR. Evidence for Health Decision Making – Beyond Randomized, Controlled Trials. N Engl J
Med 2017;377(5):465-75.
2. Glasziou P, Chalmers I, Rawlins M, McCulloch P. When are randomised trials unnecessary? Picking
signal from noise. BMJ 2007;334(7589):349-51.
3. Higgins JPT, Savovic J, Page MJ, Elbers RG, Sterne AC. Assessing risk of bias in a randomized trial.
En: Higgins JPT, Chandler J, Cumpston M, Li T, Page MJ, Welch VA, editores. Cochrane Handbook for
Systematic reviews of interventions. 2.ª ed. Hoboken: Wiley & Sons; 2019. p. 205-28.
4. Cabello JB, Abraira V, Gómez J. Ensayos clínicos para un solo paciente. Justificación, metodología y
aspectos bioéticos. Med Clin Barc 1997;109:592-602.
5. Montori VM, Devereaux PJ, Adhikari NKJ, Burns KEA, Eggert CH, Briel M, et al. Randomized trials
stopped early for benefit: a systematic review. JAMA 2005;294(17):2203-9.
6. Cannistra SA. The ethics of early stopping rules: who is protecting whom? J Clin Oncol Off J Am Soc
Clin Oncol 2004;22(9):1542-5.
7. Montori VM, Permanyer-Miralda G, Ferreira-González I, Busse JW, Pacheco-Huergo V, Bryant D, et al.
Validity of composite end points in clinical trials. BMJ 2005;330(7491):594-6.
8. McPherson GC, Campbell MK, Elbourne R. Use of randomization in clinical trials. Trials 2012;13:198.
9. Altman DG, Bland JM. Treatment allocation by minimisation. BMJ 2005;330(7495):843.
10. Schulz KF, Grimes DA. Allocation concealment in randomised trials: defending against deciphering.
Lancet Lond Engl 2002;359(9306):614-8.
11. Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical evidence of bias. Dimensions of methodological
quality associated with estimates of treatment effects in controlled trials. JAMA 1995;273(5):408-12.
12. Wood L, Egger M, Gluud LL, Schulz KF, Jüni P, Altman DG, et al. Empirical evidence of bias in treatment
effect estimates in controlled trials with different interventions and outcomes: meta-epidemiological study.
BMJ 2008;336(7644):601-5.
13. Page MJ, Higgins JPT, Clayton G, Sterne JAC, Hróbjartsson A, Savović J. Empirical Evidence of Study
Design Biases in Randomized Trials: Systematic Review of Meta-Epidemiological Studies. PLOS ONE
2016;11(7):e0159267.
14. Moustgaard H, Clayton GL, Jones HE, Boutron I, Jørgensen L, Laursen DRT, et al. Impact of blinding on
estimated treatment effects in randomised clinical trials: meta-epidemiological study. BMJ 2020;368:l6802.
15. Dumville JC, Torgerson DJ, Hewitt CE. Reporting attrition in randomised controlled trials. BMJ
2006;332(7547):969-71.
16. Thabane L, Mbuagbaw L, Zhang S, Samaan Z, Marcucci M, Ye C, et al. A tutorial on sensitivity analyses
in clinical trials: the what, why, when and how. BMC Med Res Methodol 2013;13:92.
17. Naci H, Davis C, Savović J, Higgins JPT, Sterne JAC, Gyawali B, et al. Design characteristics, risk of
bias, and reporting of randomised controlled trials supporting approvals of cancer drugs by European
Medicines Agency, 2014-16: cross sectional analysis. BMJ 2019;366:l5221.
18. Dwan K, Altman DG, Arnaiz JA, Bloom J, Chan AW, Cronin E, et al. Systematic Review of the Empirical
Evidence of Study Publication Bias and Outcome Reporting Bias. PLoS ONE 2008;3(8):e3081.
19. Hernán MA, Hernández-Díaz S. Beyond the intention-to-treat in comparative effectiveness research.
Clin Trials J Soc Clin Trials 2012;(1):48-55.
20. Hernán MA, Robins JM. Per-Protocol Analyses of Pragmatic Trials. N Engl J Med 2017;377(14):1391-8.
21. Hernán MA, Scharfstein D. Cautions as Regulators Move to End Exclusive Reliance on Intention to
Treat. Ann Intern Med 2018;168(7):515.
22. Higgins JPT, Altman DG, Gotzsche PC, Juni P, Moher D, Oxman AD, et al. The Cochrane Collabora-
tion’s tool for assessing risk of bias in randomised trials. BMJ 2011;343:d5928.
23. Sterne JAC, Savović J, Page MJ, Elbers RG, Blencowe NS, Boutron I, et al. RoB 2: a revised tool for
assessing risk of bias in randomised trials. BMJ 2019;366:l4898.
24. Fanaroff AC, Steffel J, Alexander JH, Lip GYH, Califf RM, Lopes RD. Stroke prevention in atrial fibri-
llation: re-defining «real-world data» within the broader data universe. Eur Heart J 2018;39(32):2932-41.
25. Dal-Ré R, Janiaud P, Ioannidis JPA. Real-world evidence: How pragmatic are randomized controlled
trials labeled as pragmatic? BMC Med 2018;16(1). Disponible en: https://bmcmedicine.biomedcentral.
com/articles/10.1186/s12916-018-1038-2.
OB J ETIV OS D EL CA PÍ TULO
Introducción
Según la Real Academia Española (RAE), el diagnóstico es el arte o acto de conocer la naturaleza
de una enfermedad mediante la observación de sus síntomas y signos. Es el primer paso en la
valoración del estado de un paciente, y solo desde un correcto diagnóstico podrá establecerse un
tratamiento adecuado y un óptimo seguimiento posterior.
Los estudios de diagnóstico suponen un interesante reto dentro de la investigación biomédica. Por
un lado, no gozan de una metodología tan ampliamente desarrollada, conocida y estandarizada como
los estudios de tratamiento o las revisiones sistemáticas (RS). Además, llevan asociada la dificultad de
tener que presentar sus resultados siempre en forma de binomio. Cuando se hable de la sensibilidad
en una prueba diagnóstica, tendrá que hablarse, ineludiblemente, también de su especificidad.
El marco conceptual de evaluación de pruebas diagnósticas está evolucionando de manera sus-
tancial en los últimos años. Ha pasado de considerarse un mero proceso de evaluación secuencial
en fases (1), mimetizando en mayor o menor medida las fases I a IV del ensayo clínico (EC), a
constituir una evaluación más amplia, que engloba desde aspectos técnicos de factibilidad de la
prueba, reproducibilidad y validez, hasta aspectos referentes a su impacto clínico y costes, teniendo
en cuenta el contexto clínico donde se va a aplicar (2).
En este capítulo se tratarán los aspectos más importantes del diseño de los estudios sobre
diagnóstico, la interpretación de resultados de un estudio sobre evaluación de pruebas diagnósticas
y su aplicación a diferentes escenarios clínicos.
Escenario
Pablo es un varón de 52 años que es remitido al especialista de medicina interna por elevación de transa-
minasas desde hace 1 año y factores clásicos de riesgo cardiovascular: fumador, con sobrepeso (IMC de
27), hipercolesterolemia y glucemia alterada en ayunas objetivados en las revisiones médicas de empresa.
© 2022. Elsevier España, S.L.U. Reservados todos los derechos 57
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
58 Lectura crítica de la evidencia clínica
a
Sens =
© Elsevier. Fotocopiar sin autorización es un delito.
a+c
Negativo FN VN c+d
c d
FN, falsos negativos; FP, falsos positivos; VN, verdaderos negativos; VP, verdaderos positivos.
La especificidad refleja la proporción de resultados negativos entre los sujetos que no tienen
la enfermedad:
d
Esp =
b+d
Cuando el objetivo es la detección de enfermedades graves y tratables, es necesaria una prueba
muy sensible. Las pruebas que se aplican para cribado de enfermedades, por ejemplo, deben ser
pruebas con alta sensibilidad. En cambio, con la especificidad se persigue la confirmación de los
sujetos no enfermos. Es preferible una prueba muy específica cuando la enfermedad es grave, pero
difícilmente tratable, y que un resultado falsamente positivo pueda tener una gran trascendencia,
por ejemplo, un falso diagnóstico de VIH o de cáncer.
En este sentido, se propone una regla nemotécnica que ayuda a valorar los resultados obtenidos
en la sensibilidad y especificidad: SNOUT recuerda que cuando una prueba diagnóstica tiene una
sensibilidad elevada (sensitivity), los resultados negativos ayudan a descartar el diagnóstico con
alta probabilidad (rule out). SPIN recuerda que si la prueba tiene alta especificidad (specificity), los
resultados positivos son muy indicativos para confirmar el diagnóstico (rule in).
Valores predictivos positivo y negativo: aunque los anteriores son los índices más recogidos en las
publicaciones científicas de evaluación de pruebas diagnósticas, no son índices útiles para la práctica,
pues, en realidad, cuando se solicita una prueba, no se conoce si el paciente está enfermo o no. Lo
que se quiere conocer es la probabilidad de estar enfermo a partir del resultado de la prueba. En este
contexto de práctica clínica, parece más útil hablar de valores predictivos, es decir, la probabilidad
de un diagnóstico cuando el resultado de la prueba es positivo o negativo.
El valor predictivo positivo se refiere a la proporción de enfermos entre todos los resultados
positivos de la prueba:
a
VP + =
a+b
El valor predictivo negativo obtiene la proporción de no enfermos entre todos los resultados
negativos de la prueba:
d
VP– =
c+d
Sin embargo, a pesar de su atractiva interpretación, no son unos índices adecuados para su uso como
evaluación del rendimiento diagnóstico de una prueba, pues están muy influidos por la prevalencia de
la condición que se está estudiando. Para una misma prueba diagnóstica, el aumento de la prevalencia
aumenta el valor predictivo positivo y disminuye el valor predictivo negativo, y viceversa. Esto explica
que una misma prueba se comporte de forma distinta según el ámbito en el que se aplique. Por tanto,
el valor predictivo está relacionado con la aplicabilidad de la prueba. La probabilidad de que un
paciente con prueba positiva esté realmente enfermo dependerá de la prevalencia de la enfermedad.
Haz la prueba.
En una población de 100.000 habitantes hay una prevalencia de la enfermedad X del 1%.
Tenemos una sensibilidad de la prueba diagnóstica del 90% y una especificidad del 90%.
El 1% de 100.000 habitantes son 1.000 pacientes. Habrá, por tanto, 1.000 enfermos y 99.000 sanos.
Si la sensibilidad de la prueba es del 90%, de los 1.000 pacientes enfermos diagnostica correc-
tamente a 900 (a). Si la especificidad de la prueba es del 90%, de los 99.000 sanos diagnostica
falsamente como enfermos a 9.900 (b).
Por tanto, de los pacientes diagnosticados como enfermos, 9.900 + 900 = 10.800 (a + b), solo
900 (a) son correctamente diagnosticados 900/10.800 (a/a + b), el 8,33%.
Si haces estos mismos pasos variando la prevalencia, observarás cómo se va a ir modificando
el porcentaje.
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
6. Lectura crítica de estudios de diagnóstico 61
en la especificidad, por tanto, nuestro ejemplo será 95/10 = 9,5. Para el cociente de probabilidad negativo
usaremos el «error» de la sensibilidad (1 – sen) y la especificidad, en nuestro ejemplo 5/90 = 0,055.
Antes de realizar una prueba diagnóstica, la probabilidad de padecer la enfermedad en el estudio,
denominada probabilidad a priori, coincide con la prevalencia para esa población de esa enfermedad
o condición. Utilizando el conocido teorema de Bayes, se puede utilizar el valor del CP (positivo
o negativo) del resultado de la prueba para actualizar la probabilidad a priori en probabilidad a
posteriori (posprueba).
Este cálculo puede obtenerse fácilmente gracias al nomograma desarrollado por Fagan en 1975
(5) (fig. 6.1). Trazando una línea de intersección entre la probabilidad a priori y el CP del resultado,
se obtiene una probabilidad posprueba.
characteristic) (6). Partiremos del ejemplo de la medición de glucosa en sangre para el diagnóstico
de la diabetes. En la figura 6.2 las barras no sombreadas representan personas no diabéticas, y
las sombreadas, personas diabéticas. Vemos que hay solapamiento entre ambas curvas y que la
proporción de FN o FP depende del punto de corte (barra vertical de color negro) que se establezca
para diferenciar a los diabéticos de los no diabéticos.
La curva ROC representa la sensibilidad en función de los falsos positivos (complementario
de la especificidad) para distintos puntos de corte (fig. 6.3). Para evaluar la bondad de la prueba
se obtiene el área bajo la curva, que oscila entre 0,5 (prueba inútil) y 1 (prueba perfecta). Se puede
interpretar como la probabilidad de que, ante un par de individuos, uno enfermo (diabético) y
otro sano (no diabético), la prueba (glucosa basal en sangre) clasifique correctamente.
Otra de las aplicaciones de la curva ROC es la búsqueda de un punto de corte que permita discri-
minar entre enfermos y no enfermos. La búsqueda de este punto de corte puede realizarse atendiendo
a diversos métodos, que escapan a los objetivos de este capítulo. A modo de resumen, se pueden
agrupar entre aquellos que maximizan la sensibilidad, la especificidad, la suma o el producto de ambas.
Artículo
Fedchuk L, et al. Performance and limitations of steatosis biomarkers in patients with nonalcoholic
fatty liver disease. Aliment Pharmacol Ther 2014;40(10):1209-1222. Disponible en: https://doi.
org/10.1111/apt.12963.
Figura 6.2 Función de densidad de probabilidad (fdp) de la glucosa en sangre en personas sanas y diabéticas.
Dependiendo del punto de corte empleado, la proporción de FP (barras desde la flecha hacia la derecha) o FN
(barras desde la flecha hacia la izquierda) varía.
© Elsevier. Fotocopiar sin autorización es un delito.
Figura 6.3 Curva ROC para la glucosa basal (mg/dl) en el diagnóstico de la diabetes.
(Continúa)
7. ¿Cuál es la precisión Sí ✓ No sé No
de los resultados? Si no están publicados en el apartado de resultados del estudio,
PISTA: hay que buscar o calcular pueden obtenerse los intervalos de confianza al 95% para los CP
los intervalos de confianza en cualquier calculadora en línea. En este caso, el IC 95% para el
de los cocientes de probabilidad. CP+ es de (1,34-18) y para el CP– (0,31-0,52). Es muy amplio
en el caso del CP+ y más estrecho para el CP–.
C) ¿Son los resultados aplicables al escenario?
8. ¿Serán satisfactorias en Sí ✓ No sé No
el ámbito del escenario la Pablo cumpliría el perfil de paciente a los que se realizó la biopsia:
reproducibilidad de la prueba edad, IMC, síndrome metabólico, elevación de transaminasas.
y su interpretación?
PISTA: considera si el ámbito
de la prueba es demasiado
diferente al del escenario.
9. ¿Es aceptable la prueba Sí ✓ No sé No
en este caso? El cálculo de NAFLD-LFS es sencillo, de uso libre, incluye
PISTA: considera la parámetros de la historia clínica y analíticos rutinarios.
disponibilidad de la prueba,
los riesgos y las molestias
de la prueba y los costes.
10. ¿Modificarán los Sí ✓ No sé No
resultados de la prueba Si Pablo tuviese un resultado de NAFLD-LFS elevado, sería
la decisión sobre cómo necesario indicar la biopsia; si no fuese así, podría seguirse
actuar? en consulta de forma conservadora.
PISTAS:
• Desde la perspectiva del
escenario, si la actitud no va a
cambiar, la prueba es (al menos)
inútil.
• Considera el umbral de acción y
la probabilidad de enfermedad
antes y después de la prueba.
Bibliografía
1. Sackett DL, Haynes RB. The architecture of diagnostic research. BMJ 2002;324(7336):539-41.
2. Van den Bruel A, Cleemput I, Aertgeerts B, Ramaekers D, Buntinx F. The evaluation of diagnostic tests:
evidence on technical and diagnostic accuracy, impact on patient outcome and cost-effectiveness is needed.
J Clin Epidemiol 2007;60(11):1116-22.
3. Jaeschke R, Guyatt GH, Sackett DL. Users’ guides to the medical literature. III. How to use an article
about a diagnostic test. B. What are the results and will they help me in caring for my patients? The
Evidence-Based Medicine Working Group. JAMA 1994;271(9):703-7.
4. Abraira V. Índices de rendimiento de las pruebas diagnósticas. SEMERGEN 2008;28:193-4.
5. Fagan TJ. Letter: Nomogram for Bayes theorem. N Engl J Med 1975;293(5):257.
6. Hanley JA, McNeil BJ. The meaning and use of the area under a receiver operating characteristic (ROC)
curve. Radiology 1982;143(1):29-36.
OB J ETIV OS D EL CA PÍ TULO
Introducción
En medicina, el pronóstico se refiere a la estimación del riesgo de futuros acontecimientos en
personas con una enfermedad, o condición de salud determinada y su relación con determinadas
características actuales (1). Realizar apreciaciones pronósticas que informen al paciente y a su
entorno sobre la evolución más probable de la enfermedad y ayuden a la toma de decisiones sobre la
realización de las distintas intervenciones posibles es una de las funciones básicas de la medicina y de
los médicos. Las intervenciones terapéuticas se encaminan, precisamente, a modificar el pronóstico
espontáneo o historia natural de la enfermedad, transformándolo en un sentido positivo. Sin duda,
la primera preocupación de una persona enferma es conocer en qué medida la enfermedad puede
interferir en su expectativa de vida, por lo tanto, el estudio de la mortalidad y el tiempo que trans-
curre entre el comienzo de la enfermedad, o su diagnóstico y/o la instauración del tratamiento y la
muerte, o tiempo de supervivencia, constituyen la prioridad para cualquier estudio de pronóstico.
Pero también forman parte del mismo otras consecuencias de la enfermedad (remisión, recidiva,
complicaciones, secuelas, etc.) que interesan al paciente y forman parte del proceso de toma de
decisiones del médico.
Con muchos puntos en común con el pronóstico, está el problema de los factores de riesgo para
enfermar, en el que también se trata de estimar el riesgo de un acontecimiento futuro, aunque en
este caso el acontecimiento de interés es enfermar entre personas de la población general, o de un
cierto subgrupo de ella, en lugar de muerte o complicaciones en personas enfermas. Por lo tanto,
los estudios para estimar factores de riesgo y factores pronósticos tienen muchas similitudes, en
ambos casos el diseño óptimo es un estudio de cohortes, es decir, un estudio en el que se selecciona
un grupo de individuos, bien definido, representativo de la población de estudio, al que se sigue
durante un tiempo suficientemente prolongado para observar el evento de interés. Idealmente son
estudios prospectivos, aunque a veces son retrospectivos o mixtos. En ocasiones, en lugar de un
único grupo se seleccionan grupos con distintos niveles del factor, sobre todo en el estudio de los
factores de riesgo, debido a que se trata de predecir enfermedades, en general con baja probabilidad,
mientras que los factores pronósticos predicen eventos, en general de mayor probabilidad.
Hemingway et al. (1) propusieron la siguiente clasificación de los estudios de pronóstico en
cuatro categorías distintas, aunque interrelacionadas:
1. Investigación fundamental en pronóstico, en la que se trata de estudiar el curso natural, o con el
cuidado habitual, de la enfermedad y sus variaciones. El resultado de esta investigación se expresa
como riesgo (o frecuencia) absoluto de uno, o más eventos, entre las personas que comparten
características demográficas y clínicas; es, por lo tanto, el pronóstico promedio de un determinado
grupo de interés, también llamado riesgo basal. Esta investigación proporciona respuestas iniciales
a la pregunta «¿cuál es el pronóstico de las personas con una determinada enfermedad?». Por
ejemplo, en promedio, cerca del 15% de las personas de 65 años de edad o más ingresadas en
2006 en EE. UU. murieron con un ataque al corazón dentro de los 30 días siguientes al de su
ingreso en el hospital, en comparación con un promedio del 19% en 1995 (2).
2. Investigación en factores pronósticos, en la que se trata de identificar factores específicos (tales
como biomarcadores, fármacos, otras enfermedades, signos…) asociados con el pronóstico. El
resultado de esta investigación se puede expresar, bien como riesgo relativo de sufrir el evento de
los pacientes con un nivel del factor respecto al que se toma como referencia —p. ej., en pacientes
con linfoma esplénico de la zona marginal, los que presentan adenopatía extrahiliar tienen un
riesgo de muerte por la enfermedad 2,1 veces mayor que los que no la presentan (3)—, o bien en
términos absolutos mostrando los riesgos, o más frecuentemente las curvas de supervivencia, para
los pacientes con distintos valores del factor. En el mismo artículo sobre el linfoma se presentan
las curvas de supervivencia de los tres estratos creados con el índice propuesto por los autores.
3. Investigación sobre modelos pronósticos, que trata de desarrollar, validar y evaluar el impacto de
modelos estadísticos para predecir el riesgo individual de un futuro evento. Es importante
enfatizar la necesidad de validación y evaluación del impacto, porque, aunque se han propues-
to muchos modelos pronósticos, relativamente pocos son validados externamente y muy
pocos evalúan el impacto de su uso (4). El resultado de esta investigación se puede presentar
en forma de una fórmula, o gráfica (nomograma) (5), que permite calcular la probabilidad
futura del evento para un individuo en función de los valores observados de los factores, o
bien como una puntuación obtenida de la fórmula, con sus puntos de corte para generar
grupos de riesgo (6). El uso de los modelos pronósticos para hacer predicciones individuales
es más preciso, y en general preferible, a la creación de grupos de riesgo, aunque los grupos de
riesgo pueden informar para opciones de tratamiento y permitir la estratificación por riesgo
de gravedad en los ensayos clínicos (4). Este tipo de investigación es tratada en el capítulo
dedicado a reglas de predicción clínica.
4. Investigación sobre medicina estratificada. La medicina estratificada pretende seleccionar
tratamientos en función de características de los pacientes que predigan la respuesta. La
investigación en pronóstico es un componente principal de esta medicina (7).
Escenario
Carmen es una mujer de 60 años a la que se le acaba de diagnosticar un adenocarcinoma de
estómago en estadio T2 N0 M0. Su oncóloga le ha explicado que el primer paso del tratamiento
es la cirugía de resección del tumor y después es posible que se requiera quimioterapia adyuvante.
Carmen quiere saber con más exactitud si será preciso recibir quimioterapia adyuvante con todo
lo que ello conlleva, pues tiene un pequeño negocio familiar que lleva ella directamente y necesita
decidir qué hacer con él. La oncóloga le explica que esto depende de la verdadera extensión del
adenocarcinoma y que antes de la operación es muy difícil de determinar. Carmen insiste en saber si
no existen otros datos, en el TAC o los análisis, que puedan ayudar a predecir mejor su pronóstico;
necesita organizarse y tomar decisiones importantes sobre su situación laboral desde el principio sin
esperar a después de la cirugía. Su oncóloga le dice que va a revisar estudios recientes pues recuerda
haber leído algo sobre un marcador en sangre.
En una búsqueda en PubMed encuentra un artículo sobre el valor pronóstico del dímero-D en
pacientes con cáncer gástrico antes de la cirugía (8).
Liu L, Zhang X, Yan B, Gu Q, Zhang X, Jiao J, et al. Elevated Plasma D-Dimer Levels Correlate
with Long Term Survival of Gastric Cancer Patients. PLoS ONE 2014;9:e90547.
Tras hacer una lectura crítica lo comenta con Carmen, y dado que es una prueba sencilla y barata
deciden hacerla; el resultado es de 1,15 µg/ml.
■ ¿Crees que la determinación del dímero-D puede ayudar a predecir el pronóstico de los
de laboratorio). Estos procedimientos deben garantizar la independencia (ceguera) entre los regis-
tros del evento y del factor.
El tiempo de seguimiento debe ser suficiente para que se pueda observar el número de eventos
necesario de acuerdo a la potencia estadística preestablecida. Esto depende, naturalmente, de la
naturaleza de la enfermedad y la frecuencia del evento estudiado. Por ejemplo, un período de segui-
miento de 5 años puede ser apropiado para el estudio de la supervivencia en muchas variedades de
cáncer, sin embargo, es un tiempo claramente insuficiente para valorar la supervivencia de enfermos
en tratamiento substitutivo por insuficiencia renal. Por el contrario, un seguimiento de 30 días es
adecuado para estudiar la supervivencia a un episodio agudo de tromboembolismo pulmonar. En
aquellos estudios que precisen un tiempo de seguimiento largo hay que prestar atención a la posible
pérdida de pacientes y sus causas, sobre todo a aquellas relacionadas con el evento o el factor, ya
que pueden introducir sesgos. Es deseable, para ayudar a evaluar su validez, que todo artículo de
pronóstico cuantifique las pérdidas en el seguimiento, describa las situaciones que las provocan
(abandono del estudio u ocurrencia de alguna otra circunstancia que impide la observación del
evento) y las características de los pacientes afectados (12).
EN LOS RESULTADOS
En cuanto a los resultados de estos estudios, como se dijo en el apartado «Introducción», se pueden
expresar de varias maneras: como riesgo (o frecuencia) absoluto de sufrir el evento en la población
de interés, mostrando la evolución del riesgo o la supervivencia (curvas de riesgo o supervivencia), o
como riesgo relativo de los pacientes de un nivel del factor respecto al que se toma como referencia.
Para estimar el riesgo absoluto se suelen usar dos índices: incidencia acumulada y densidad (o tasa)
de incidencia. La incidencia acumulada es la proporción de individuos que desarrollan el evento
durante el período de seguimiento. Como proporción no tiene dimensiones y su valor oscila entre
0 y 1, aunque también se suele expresar como porcentaje. Depende del tiempo de seguimiento, que
se debe hacer explícito. El resultado del ejemplo citado en el apartado «Introducción» (el 15% de
las personas de 65 años de edad o más ingresadas en 2006 en EE. UU. murieron con un ataque al
corazón dentro de los 30 días siguientes al de su ingreso) es una incidencia acumulada. La principal
limitación de este índice proviene del llamado efecto de cohorte fija: presenta cierta indeterminación
si hay pérdidas en el seguimiento. Para evitar esta limitación se puede usar otro índice, la densidad,
o tasa, de incidencia, que es el cociente entre el número de eventos ocurridos durante el período de
seguimiento y la suma de todos los tiempos de observación. Tiene dimensión de inversa del tiempo,
un rango ilimitado a partir de 0 y no depende del tiempo de seguimiento, asumiendo estacionariedad,
es decir, que el riesgo es constante a lo largo del tiempo. Esta asunción no siempre es razonable.
Sin embargo, en general, el resultado de interés no es la frecuencia de ocurrencia de los eventos sino
el tiempo hasta que ocurren. En este caso, los resultados se suelen expresar, generalmente en forma
gráfica, mediante la denominada función de supervivencia que da, para cada tiempo t, la probabilidad
de que el evento ocurra (el paciente sobreviva, si el evento es muerte) en un tiempo igual o mayor
que t. La figura 4 del artículo que se propone para la lectura (8) en el escenario muestra curvas de
supervivencia de pacientes con cáncer gástrico estatificados por diseminación peritoneal y valores del
dímero-D. La principal dificultad para estudiar el tiempo hasta la ocurrencia de un evento es que,
en general, al final del período de seguimiento siempre hay individuos en los que no se ha podido
observar el evento y, por lo tanto, en los que el tiempo hasta su ocurrencia es desconocido, si bien se
tiene una información parcial sobre él, es mayor o igual que el tiempo observado. A este fenómeno se
le denomina censura. La función de supervivencia se suele estimar por el método de Kaplan-Meier,
que tiene en cuenta la información contenida en las censuras, asumiendo, y es importante resaltarlo
porque es un punto crítico para la validez de la estimación, que las censuras son no informativas o,
dicho de otro modo, que los individuos censurados tienen el mismo riesgo de ocurrencia del evento
que los que siguen en observación más allá de ese tiempo. La importancia de esta asunción es tanto
mayor cuanto mayor sea el número de censuras. Nótese que esta asunción no es trivial y se violaría, por
ejemplo, si los pacientes que abandonan el estudio están más graves, o menos, que los que continúan o,
en otro ejemplo, si el evento fuera progresión de la enfermedad, la muerte sin progresión seguramente
no cumple con esa asunción. Aunque excede los objetivos de este texto profundizar en ello, hay que
distinguir entre censura (circunstancia que impide la observación del evento, pero se supone que este
ocurrirá en el futuro) y evento competitivo (circunstancia que impide que el evento ocurra) y conviene
señalar que, aunque relativamente poco usados, existen métodos para manejar la ocurrencia de eventos
competitivos (13,14). En el ejemplo anterior, la muerte sin progresión sería mejor considerarla un
evento competitivo que una censura. Un ejemplo de estos métodos puede verse en el reanálisis (15)
de un ensayo clínico sobre dos tipos de diálisis renal en el que se consideró el trasplante como evento
competitivo en lugar de censura como en el análisis original (16).
La otra forma de expresar el resultado de un estudio sobre factores pronósticos es mediante el
riesgo relativo, hazard ratio (HR), de los pacientes de un nivel del factor respecto al que se toma
como referencia. Es un cociente entre dos riesgos, por lo tanto, es igual a 1 si en ambos niveles del
factor los pacientes tuvieran el mismo riesgo, es decir, si el factor estudiado no fuera un factor de
riesgo, mayor que 1 si fuera factor de riesgo y menor que 1 si fuera factor de protección. El riesgo,
en estos análisis, se define como la probabilidad por unidad de tiempo (tasa instantánea de eventos)
de que un individuo que está en observación en el tiempo t, tenga el evento justo en ese tiempo,
condicionado a que el evento no ocurrió antes. Puede ser, y de hecho suele serlo, variable en el
tiempo. Sin embargo, el modelo de regresión de Cox, que es el método usado casi en exclusiva en la
investigación clínica (12) para estimar el riesgo relativo, asume que, aunque el riesgo pueda variar,
el riesgo relativo es constante. Esta asunción no siempre se cumple, no se cumpliría por ejemplo en
un estudio en el que al final del seguimiento a todos los pacientes les haya ocurrido el evento. Es
por lo tanto necesario evaluarla. Hay distintos procedimientos gráficos y estadísticos para hacerlo,
pero el más sencillo es la inspección visual de las curvas de supervivencia. Si se cumple la asunción
de riesgo relativo constante, las curvas se separan según avanza el tiempo; que las curvas converjan
o, en el caso extremo, se corten es un indicador de que la asunción no se cumple. En la figura 7.1
se muestran curvas que cumplen la asunción y en la figura 7.2 curvas que no la cumplen.
© Elsevier. Fotocopiar sin autorización es un delito.
Figura 7.1 Curvas de supervivencia en las que se cumple la asunción de riesgo relativo constante, o riesgo
proporcional. Obsérvese cómo se separan según avanza el tiempo.
Figura 7.2 Curvas de supervivencia en las que no se cumple la asunción de riesgo relativo constante. Este
sería un caso extremo en el que las curvas llegan a cruzarse, por lo que, para tiempos menores del punto
en el que se cruzan (150 meses), el riesgo de evento para los pacientes sin ganglios (línea negra) es menor
(supervivencia mayor) que para los pacientes con ganglios (línea celeste); por lo tanto, el riesgo relativo es
menor que 1 y, sin embargo, para tiempos mayores que 150, la relación se invierte y el riesgo relativo es mayor
que 1, es decir, no es constante.
PRECISIÓN
Es importante destacar también que los índices citados en el apartado «En los resultados» se calculan a
partir de muestras, es decir, un subconjunto de los pacientes de interés en lugar de todos ellos, por tanto
presentan una imprecisión que se debe cuantificar por el intervalo de confianza (intervalo dentro del
cual se puede asegurar, con una probabilidad determinada, habitualmente el 95%, que se encontraría
el índice si se hubieran estudiado todos los pacientes, asumiendo que el estudio sea válido). En el caso
de las curvas de supervivencia, la anchura del intervalo de confianza aumenta según avanza el tiempo
como consecuencia de la disminución del número de pacientes. En algunos estudios, la anchura al
final del tiempo de seguimiento es tan grande, aunque con demasiada frecuencia no mostrada (12),
que se hace difícil la interpretación de la curva. Una de las razones por las que no siempre se muestran
los intervalos de confianza es que cuando se presentan varias curvas en la misma gráfica, esta podría
llegar a ser engorrosa si se mostraran. Un modo alternativo de presentar la precisión en estos casos
es incluir debajo del eje del tiempo el número de pacientes que permanecen en el estudio en cada
tiempo. Como ayuda a la interpretación de cómo afecta este número a la precisión, se puede usar la
recomendación de Pockoc et al. (17) de acortar la gráfica en el punto en el que queden menos del
20-10% de los pacientes que empezaron el estudio. Recomiendan tal restricción solo para la gráfica;
para el análisis se deberían incluir todos los pacientes. Es una recomendación generalmente no seguida
en los artículos, pero que puede ser útil en la lectura crítica. En la figura 7.3 se muestran dos curvas
con sus intervalos de confianza al 95% y se observa este aumento de la anchura del intervalo según
avanza el tiempo. También se presenta el número de pacientes que permanece en el estudio.
CONFUSIÓN E INTERACCIÓN
La mayor amenaza para el estudio de asociaciones entre variables mediante estudios observacionales
es la confusión. Existe confusión cuando la asociación entre dos variables difiere según que se con-
Figura 7.3 Curvas de supervivencia con sus intervalos de confianza al 95% (IC 95%), en los que se observa
el aumento de anchura según avanza el tiempo.
sidere, o no, otra variable. A esta última variable se la denomina variable de confusión. Para que una
variable sea de confusión debe estar asociada al factor y al evento, siendo causa común (o marcador),
no consecuencia, de ambos. Por ejemplo, en el estudio para la estratificación pronóstica de pacientes
con linfoma esplénico de la zona marginal (3), se encontró que los pacientes con concentración sérica
elevada de la lactato deshidrogenasa (LDH) tienen un riesgo de muerte por la enfermedad 3,38 veces
mayor que los que no la tienen. Sin embargo, como la supervivencia puede depender no solo de la
LDH, sino también de otras variables como la edad, o los niveles de otros componentes sanguíneos,
podría ocurrir que, si los pacientes con niveles altos de LDH fueran también diferentes respecto a esas
otras variables, esa estimación del riesgo relativo esté equivocada (confundida). En efecto, cuando se
consideran otras variables el riesgo relativo de la LDH cambia a 2,47. La manera más usada y sencilla
© Elsevier. Fotocopiar sin autorización es un delito.
de controlar la confusión es, como se hizo en ese estudio, mediante modelos de regresión, en los que
se incluyen la variable de interés y las variables de confusión que se quieran considerar. Una medida
habitual para evaluar la confusión es comparar los efectos crudos (sin considerar otras variables) y
ajustados (considerándolas), diferencias mayores del 10% indican presencia de confusión. Hay que
resaltar que la confusión es un problema crucial cuando se estudian asociaciones causales, por ello el
diseño óptimo para evaluar el efecto de un tratamiento es el ensayo clínico, en el que la asignación
aleatoria del tratamiento a los pacientes trata justamente de evitar su asociación con cualquier otra
variable para impedir la confusión; y se han desarrollado complejos sistemas de análisis (18) para
controlar la confusión en los diseños observacionales de evaluación de efectos de los tratamientos. Sin
embargo, no es tan crítico en estudios de pronóstico, por ejemplo, cuando se encuentra que el estado
civil es un factor pronóstico para la supervivencia al cáncer de mama (19), probablemente no se ha
encontrado una asociación causal y hay algún factor, o varios (psicológicos, de comportamiento…),
distinto entre las mujeres casadas y no casadas que es el causante de la diferencia en mortalidad y
que, por lo tanto, sería un factor de confusión para esa asociación. A pesar de estar probablemente
confundida, la información pronóstica que ofrece ese hallazgo es útil tanto para informar a los
pacientes, como para generar ideas sobre los factores causales.
Otra dificultad que se puede presentar con los resultados de un estudio de pronóstico es la exis-
tencia de interacción o modificación del efecto. Existe interacción cuando la asociación entre dos
variables, en este caso factor y evento, varía según los diferentes niveles de otra u otras variables.
El análisis más sencillo de interacción se hace mediante el análisis de subgrupos creados según los
niveles de la variable modificadora de efecto, para ello hay que evaluar el efecto del factor en las dis-
tintas categorías de la variable modificadora de efecto, por ejemplo el efecto de la diabetes mellitus
(DM) sobre eventos cardiovasculares puede ser distinto si el paciente ha tenido, o no, enfermedad
cardiovascular previa (CVD), si fuera así, el efecto de la DM debería ser mostrado no como un
riesgo relativo, sino como dos: uno para los pacientes con CVD previa y otro para los pacientes
sin CVD previa (20). Se dice que hay interacción entre la DM y la CVD o que la CVD modifica
el efecto de la DM. Esta manera de analizarlo, muy utilizada en ensayos clínicos, presenta dos
dificultades: está restringida a variables modificadoras categóricas, es decir, no es posible realizarlo
para variables continuas y no contrasta estadísticamente si los efectos son distintos. Para evaluar
estadísticamente la interacción entre un factor y una variable modificadora del efecto se suelen usar
modelos de regresión en los que se incluyen como variables independientes el factor, la variable
modificadora y el producto de las dos anteriores; la significación obtenida para este producto con-
trasta estadísticamente la interacción entre el factor y la variable. Si existe interacción, el efecto del
factor no es único, sino que será distinto según los valores de la variable considerada, análogo a la
consideración realizada anteriormente en el caso de análisis de subgrupos. Si la interacción se realiza
con una variable continua el efecto será distinto según cada valor de la variable, una alternativa de
presentación podría ser mostrar el efecto del factor mediante un gráfico en el que en el eje de X se
muestre la variable modificadora y en el eje de ordenadas el efecto.
Artículo
Liu L, Zhang X, Yan B, Gu Q, Zhang X, Jiao J, et al. Elevated Plasma D-Dimer Levels Correlate
with Long Term Survival of Gastric Cancer Patients. PLoS ONE 2014;9:e90547. Disponible en:
http://dx.plos.org/10.1371/journal.pone.0090547.
Preguntas detalladas
3. ¿Se utilizaron criterios Sí ✓ No sé No
objetivos y no sesgados Los niveles de dímero-D fueron obtenidos 2 días antes
para los resultados? de la cirugía con un método de ensayo de fluorescencia
PISTA: los resultados a veces son ligado a enzima.
objetivos (p. ej., muerte), otras Se consideran normales valores de dímero-D menores a 0,5.
no tanto (p. ej., calidad de vida). El evento principal es muerte relacionada con el cáncer gástrico.
¿Se valoraron de modo «ciego»? No evalúan el riesgo competitivo de muerte, lo definen como
censura.
Se considera más robusto utilizar muerte por cualquier causa.
El punto de corte óptimo, un valor de 1.465, fue calculado basado
en la curva ROC, no se dice qué método es utilizado para decir
qué es mejor (maximizar sensibilidad, especificidad, la suma…).
(Continúa)
Bibliografía
1. Hemingway H, Croft P, Perel P, Hayden JA, Abrams K, Timmis A, et al. Prognosis research strategy
(PROGRESS) 1: A framework for researching clinical outcomes. BMJ 2013;346:e5595.
2. Krumholz HMM, Wang YP, Chen JM, Drye EEMS, Spertus JAM, Ross JSMM, et al. Reduction in
Acute Myocardial Infarction Mortality in the United States: Risk-Standardized Mortality Rates From
1995-2006. JAMA 2009;302:767-73.
3. Montalbán C, Abraira V, Arcaini L, Domingo-Domenech E, Guisado-Vasco P, Iannito E, et al. Risk
stratification for Splenic Marginal Zone Lymphoma based on haemoglobin concentration, platelet count,
high lactate dehydrogenase level and extrahilar lymphadenopathy: development and validation on 593
cases. Br J Haematol 2012;159:164-71.
4. Steyerberg EW, Moons KG, van der Windt DA, Hayden JA, Perel P, Schroter S, et al. Prognosis Research
Strategy (PROGRESS) 3: Prognostic model research. PLoS Med 2013;10:e1001381.
5. Semeraro F, Parrinello G, Cancarini A, Pasquini L, Zarra E, Cimino A, et al. Predicting the risk of diabetic
retinopathy in type 2 diabetic patients. J Diabetes Complications 2011;25:292-7.
6. Chen H, Bai M, Qi X, Liu L, He C, Yin Z, et al. Child-Na score: a predictive model for survival in
cirrhotic patients with symptomatic portal hypertension treated with TIPS. PLoS ONE 2013;8:e79637.
7. Hingorani AD, Windt DA, Riley RD, Abrams K, Moons KG, Steyerberg EW, et al. Prognosis research
strategy (PROGRESS) 4: Stratified medicine research. BMJ 2013;346:e5793.
8. Liu L, Zhang X, Yan B, Gu Q, Zhang X, Jiao J, et al. Elevated Plasma D-Dimer Levels Correlate with
Long Term Survival of Gastric Cancer Patients. PLoS ONE 2014;9:e90547.
9. Paula AR, Jerry HG, Kathy S, Muhammad M, David LS, Susan G, et al. Reader’s guide to critical appraisal
of cohort studies: 1. Role and design. BMJ 2005;330:895-7.
10. Hayden J, van der Windt D, Cartwright J, Côté P, Bombardier C. Assessing Bias in Studies of Prognostic
Factors. Ann Intern Med 2013;158:280-6.
11. U. S. Department of Health and Human Services Food and Drug Administration. Guidance for Industry.
Clinical Trail Endpoints for the Approval of Cancer Drugs and Biologics. Disponible en: http://www.fda.
gov/downloads/drugsGuidanceComplianceRegulatoyInformation/Guidance/UCM071590.pdf. 2007.
12. Abraira V, Muriel A, Emparanza JI, Pijoán JI, Royuela A, Plana MN, et al. Reporting quality of survival
analyses in medical journals still needs improvement. A minimal requirements proposal. J Clin Epidemiol
2013;66:1340-6.
13. Gooley TA, Leisenring W, Crowley J, Storer BE. Estimation of failure probabilities in the presence of
competing risks: new representations of old estimators. Stat Med 1999;18:695-706.
14. Fine JP, Gray RJ. A Proportional Hazards Model for the Subdistribution of a Competing Risk. J Am Stat
Assoc 1999;94:496-509.
15. Maduell F, Moreso F, Mora-Macià J, Pons M, Ramos R, Carreras J, et al. Reanálisis del estudio ESHOL:
mortalidad por todas las causas considerando riesgos de competición y tiempo-dependientes para trasplante
renal. Nefrología 2016;36:89-216.
16. Maduell F, Moreso F, Pons M, Ramos R, Mora-Macià J, Carreras J, et al. High-Efficiency Postdilution Online
Hemodiafiltration Reduces All-Cause Mortality in Hemodialysis Patients. J Am Soc Nephrol 2013;24:487.
17. Pocock SJ, Clayton TC, Altman DG. Survival plots of time-to-event outcomes in clinical trials: good
© Elsevier. Fotocopiar sin autorización es un delito.
Introducción
Una regla de predicción clínica (RPC) (1,2) es un modelo o ecuación matemática que combina
diferente información clínica (al menos dos variables predictoras) para predecir la presencia de
una enfermedad o circunstancia o para pronosticar un desenlace futuro en un grupo heterogéneo
de pacientes. Distinguimos así, por su objetivo, entre RPC diagnósticas (p. ej., regla de Ottawa
para fractura de tobillo) y pronósticas (p. ej., score Apache). En cualquier caso, el interés en las
RPC radica en su potencial, mediante una predicción certera, para asistir al clínico en la toma de
decisiones que concierne a un paciente concreto.
Hay autores que prefieren la denominación de Reglas de Decisión Clínica y otros que consi-
deran sinónimos los dos términos. Emplearemos preferentemente RPC porque expresan cuál es
la probabilidad de que un paciente padezca una determinada enfermedad o vaya a desarrollar un
evento dado, pero no necesariamente recomiendan una decisión específica.
Las RPC son más necesarias en aquellas áreas donde existe incertidumbre que es relevante en
términos de salud de los pacientes (probabilidad de una enfermedad grave, probabilidad de que
responda a un tratamiento o sufra efectos adversos, probabilidad de que fallezca, etc.) o en términos
de utilización de recursos sanitarios (intervenciones sanitarias que no ofrecen valor).
Esquemáticamente, el desarrollo de una RPC comprende cuatro fases:
1. Extraer información de un conjunto de pacientes con sospecha (o riesgo) de padecer una
enfermedad (o de sufrir un evento).
2. Seleccionar entre toda la información (variables) recogida aquella que se asocia con el
desenlace (diagnóstico o pronóstico) de interés.
3. Ponderar la contribución de cada variable seleccionada al riesgo o probabilidad del desenlace
en el paciente.
4. Aplicar la RPC creada en los tres pasos anteriores a un nuevo grupo de pacientes para evaluar
el rendimiento en la predicción de los eventos.
Los pasos 1 a 3 constituyen la derivación de la RPC, y el paso 4, la validación de la misma.
Escenario
Estando de guardia en la Unidad de Cuidados Intensivos de tu hospital, acude Pedro por deposi-
ciones oscuras y vómitos con sangre.
Pedro es un varón de 68, diagnosticado de cirrosis hace unos años.
Tras la exploración y la realización de pruebas complementarias, objetivas unas varices esofágicas
con un sangrado moderado y las siguientes cifras en la analítica: urea de 48 mg/dl (8 µmol/l), bili-
rrubina de 0,5 mg/dl (8,5 mmol/l), International Normalized Ratio (INR) de 2, glucosa de 120,
creatinina de 1,2 (106 mmol/l), lactato de 17,1 mg/dl (1,9 mmol/l) y un pH de 7.4.
El gradiente A/a es de 200 la Paco2 (kPA) de 5 y un MELD de 25.
La familia te expresa su preocupación por el pronóstico a corto plazo del paciente dada la
situación familiar que tienen.
Para dar respuesta a la familia realizas una búsqueda y encuentras el siguiente artículo.
Theocharidou E, Pieri G, Mohammad AO, Cheung M, Cholongitas E, Agarwal B, et al. The Royal
Free Hospital score: a calibrated prognostic model for patients with cirrhosis admitted to intensive care
unit. Comparison with current models and CLIF-SOFA score. Am J Gastroenterol 2014;109(4):554-562.
Te preguntas:
■ El Royal Free Hospital (RFH) Score, ¿es un buen predictor de la mortalidad en pacientes
uno retrospectivo. La inclusión consecutiva de pacientes permite que todo el espectro de pacientes
esté representado en el estudio. En una cohorte prospectiva, en contraste con una cohorte retros-
pectiva, la identificación de pacientes que se van a incluir se hace con mayor rigor porque la recogida
de variables predictoras puede ser más exacta y precisa y porque la medición del desenlace puede
ser también más fiable. Sin embargo, hay que reconocer que la mayoría de las RPC pronósticas se
realizan mediante estudios de cohorte retrospectivos y unicéntricos. A menudo se basan en registros
de datos. Por supuesto que la recogida de información es prospectiva en los registros, pero lo es con
un propósito distinto al de desarrollar una RPC, por lo que la información disponible en los regis-
tros puede no ser la óptima. Otro diseño posible son los casos-controles anidados, que es un diseño
muy eficiente, y particularmente atractivo cuando el desenlace de interés es muy poco frecuente.
TAMAÑO MUESTRAL
El tamaño muestral necesario para construir una RPC es difícil de determinar habida cuenta de la
naturaleza multivariable de la RPC. Existe una regla empírica que dice que son necesarios tantos
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
80 Lectura crítica de la evidencia clínica
individuos como número de variables se quieren incorporar en la RPC multiplicado por 10, en la
categoría de desenlace de menor tamaño. Así, si el desenlace ocurre en una minoría de la cohorte
(digamos 10%), y queremos incluir 7 variables predictoras, necesitaremos al menos 70 individuos con
el desenlace para estimar con suficiente poder estadístico los coeficientes del modelo: 70 individuos
con el desenlace y 630 sin él, para una cohorte total de al menos 700 individuos.
Otras propuestas incorporan para el cálculo del tamaño muestral en un modelo predictivo asun-
ciones sobre la proporción estimada de eventos en la población, el número de variables predictoras
candidatas a formar parte de la regla y el rendimiento previsto del modelo en términos de ajuste,
por ejemplo, la R2 coeficiente de determinación del modelo) (4).
Las técnicas modernas de modelización de machine learning exigen tamaños muestrales mayores
que las tradicionales (por ejemplo, modelo logístico), incluso 10 veces mayores para alcanzar la
estabilidad de la predicción y no producir inflación de las predicciones (5).
El tamaño muestral necesario para la validación externa de una RPC es un tema que pocas
veces se toma en consideración, pero en los últimos años se ha sugerido que la validación externa
requiere un mínimo de 100, e idealmente 200 eventos, para poder concluir con una estimación
razonable del rendimiento de la RPC (6).
VARIABLES PREDICTORAS
Las variables (predictoras) que forman parte de una RPC pueden ser de diversa índole:
■ Demográficas (edad, sexo…).
■ De anamnesis (historia personal, síntomas, comorbilidades…).
■ De exploración física (signos…).
■ De exámenes complementarios (bioquímica, microbiología, pruebas funcionales…).
■ De pruebas de imagen.
Las variables se recogen sin conocer el desenlace en los estudios pronósticos puesto que el
desenlace es futuro. Sin embargo, en los estudios de RPC diagnósticas, las variables predictoras
son contemporáneas del desenlace, que en este caso es la enfermedad. En este caso es deseable que
se recojan las variables predictoras sin conocer el verdadero estado del paciente (con enfermedad o
sin ella). De este modo la evaluación de una variable no estará influenciada de manera consciente o
inconsciente por el conocimiento del verdadero estado del paciente. Además, cuando las variables
predictoras estén sujetas a variabilidad por parte del observador (evaluaciones subjetivas), deberá
medirse la variabilidad intra- e interobservador, por ejemplo, mediante el índice Kappa de Cohen.
Desde el punto de vista estadístico, las variables predictoras pueden ser dicotómicas, categóricas
o continuas. Es una práctica común el transformar las variables predictoras continuas en variables
categóricas o incluso en dicotómicas y las categóricas en dicotómicas. Ello permite al desarrollador de
una RPC obviar la comprobación de diferentes asunciones estadísticas entre la variable y el desenlace.
Otra ventaja es la de la simplicidad: se simplifican las tareas estadísticas necesarias, ya que el análisis de
una variable dicotómica es mucho más fácil que el de una categórica y se simplifica la interpretación de
los resultados. Y sin embargo la pérdida de información es, en muchos casos, sustantiva. En particular, la
«dicotomización» de una variable continua puede tener consecuencias indeseables para la construcción
de una RPC. Y, ¿cómo decidimos en qué punto de la variable continua damos un corte, establecemos
el límite para codificar como «bajo» o «alto» el valor de esa variable en un individuo? Dependiendo
de dónde establezcamos ese punto de corte tendremos una diferente contribución de la variable en la
RPC. Algunos métodos comúnmente empleados incluyen: dicotomizar empleando el valor mediana,
usar el valor que mayor poder discriminatorio muestra en la curva ROC (ello exige realizar múltiples
comparaciones), el valor que ofrece un mayor índice de Youden (sensibilidad más especificidad), etc.
Incluso el empleo del valor mediana como punto de corte, preferible a los que exigen múltiples
pruebas de hipótesis, conlleva una pérdida de poder estadístico:
■ Si la variable predictora continua se distribuye según una distribución normal, la dicotomi-
zación empleando el valor mediana hace perder un 35% del poder estadístico.
■ Si se distribuye exponencialmente, la dicotomización en la mediana conlleva una pérdida de
poder delDescargado
50%. para Anonymous User (n/a) en National Autonomous University of Mexico de
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
8. Lectura crítica de estudios de reglas de predicción clínica 81
La búsqueda del punto de corte se hace siempre mediante procedimientos estadísticos univarian-
tes que no son corregidos para las múltiples pruebas de hipótesis que se realizan hasta encontrar el
punto «óptimo». Se ha demostrado empíricamente (7) que la dicotomización aumenta el riesgo de
que un resultado positivo sea un falso positivo. La consideración de solo dos grupos en una variable
predictora oculta la hipotética relación no lineal entre ella y la variable desenlace.
La recomendación, por lo tanto, es que no se deben dicotomizar variables predictoras categóricas
ni continuas. El uso de múltiples categorías (4 o 5) es siempre preferible a la dicotomización, pero
es aún mejor no categorizar las variables continuas.
Si la regla de predicción clínica va a ser implementada en una aplicación informática, la utili-
zación de variables continuas no es un obstáculo, incluso se debería probar la posible existencia de
términos no lineales, dado que en biología la relación entre la variable y el desenlace frecuentemente
no es lineal; por ejemplo, la relación que hay entre presión arterial (o IMC) y muerte es a menudo
en forma de J (tan perjudiciales son valores altos de IMC como bajos).
VARIABLES DESENLACE
La elección del desenlace es muy importante. En estudios diagnósticos debe definirse claramente cuál es
la enfermedad o condición y cuál será el método para evaluar su presencia. Nos referimos habitualmente
como patrón de referencia o patrón oro a aquel método que permite establecer con certeza la presencia
o no de una enfermedad o condición. El problema, en la práctica, puede ser la ausencia de tal patrón
oro, y la elección de un método subóptimo para el diagnóstico del verdadero estado del paciente.
En los estudios pronósticos necesitamos definir explícitamente el desenlace de interés. A veces,
debido a la dificultad logística o económica de medir el desenlace de interés prioritario para el
paciente, se recurre a la medición de desenlaces intermedios sin interés para el paciente, argumen-
tando que un desenlace intermedio (o subrogado) es una medida que se asocia o que incluso es un
paso intermedio en el desarrollo del desenlace de interés. El grado de asociación nunca es perfecto,
por lo que el desarrollo de una RPC pronóstica empleando desenlaces intermedios está sujeto a un
riesgo de sesgo que puede invalidar el estudio.
La variable desenlace, al igual que las variables predictoras, puede ser binaria (dicotómica),
categórica (ordenadas o no), continua o el tiempo en el que el evento se produce (datos de supervi-
vencia). La cantidad de información que aportan difiere, siendo máxima para las variables continuas
y mínima para las binarias. El tipo de variable desenlace condiciona también los modelos estadísticos
a emplear en la construcción de la RPC. El tipo de variable desenlace más frecuente es la variable
binaria o dicotómica (8). Además, como se ha señalado en el capítulo dedicado a pronóstico, es
posible que existan desenlaces competitivos que impidan medir el desenlace de interés.
MÉTODOS ESTADÍSTICOS
© Elsevier. Fotocopiar sin autorización es un delito.
Hay dos grandes categorías de análisis estadísticos tradicionales para desarrollar una RPC: modelos
de regresión y modelos de clasificación. Existe además un conjunto de técnicas modernas para
obtener una RPC que englobamos bajo el concepto de machine learning. ML utiliza diferentes
técnicas estadísticas de regresión (Lineal, Logística, Ridge, Lasso, GLM…) y de clasificación
(K-nearest neighbor, SVM, Random forest…) o un uso recursivo de las mismas (redes neuronales)
para obtener un algoritmo o ecuación predictiva (9). Los más habituales son los modelos tradicionales
de regresión, que dependiendo del tipo de variable desenlace se pueden clasificar en: modelos de regresión
lineal múltiple si el desenlace es una variable continua, modelos de regresión logística múltiple si el desenlace
es una variable binaria o dicotómica y modelos de regresión de Cox multivariantes si el desenlace es
la variable tiempo a un evento. Otros métodos para desenlaces dicotómicos son modelos bayesianos
multivariables incorporando dependencias entre variables predictoras y árboles de clasificación y
regresión.
En el caso más habitual de desenlaces dicotómicos, y por lo tanto modelos de regresión logística,
desde el punto de vista estadístico hay que tener en cuenta (10-12):
■ Que el tamaño muestral se ajuste a la regla de 10 casos por predictor en el subgrupo menor
de desenlace.
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
82 Lectura crítica de la evidencia clínica
■ Que se deben incluir inicialmente en el modelo logístico aquellas variables predictoras que
muestran una significación (valor p) menor a 0,25-0,30 en el análisis univariable y aquellas
con sentido clínico.
■ Que la reducción del número de variables del modelo debe hacerse con sentido estadístico
entero más próximo tras dividir su valor entre el menor coeficiente de todas las variables que
componen el modelo logístico final.
■ Que esos coeficientes componen un modelo aditivo (o sumatorio) que llamamos RPC.
■ Que el rendimiento (poder de discriminación) de la RPC puede mostrarse mediante una
curva ROC y cálculo (por estimación puntual y por intervalo de confianza al 95%) del área
bajo la curva ROC (AUC).
■ Que hay que describir claramente el método utilizado para determinar el punto de corte
MÉTODOS ESTADÍSTICOS
La validación debe presentar los resultados de rendimiento en cuanto a discriminación y calibración
en el nuevo grupo de pacientes. Ello nos dará una idea clara del verdadero valor clínico de la RPC.
Tendremos en cuenta:
■ Que el rendimiento (poder de discriminación) de la RPC debe mostrarse mediante una curva
ROC. Si el área bajo curva (AUC) o estadístico c es menor o igual a 0,70, la RPC carece de
valor clínico.
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
8. Lectura crítica de estudios de reglas de predicción clínica 83
■ Hay que esperar que los datos de rendimiento sean menores que en la validación interna.
■ Si han establecido un punto de corte óptimo, deben proporcionar sensibilidad y especificidad
para esos puntos de corte, la tabla 2 × 2 o los datos necesarios para obtenerla.
■ Deben ofrecer la estimación puntual y por intervalo de confianza al 95% del AUC.
■ Una gráfica de calibración debe también ser mostrada: probabilidades predichas frente a
probabilidades observadas (o reales).
Artículo
Theocharidou E, Pieri G, Mohammad AO, Cheung M, Cholongitas E, Agarwal B, et al. The
Royal Free Hospital score: a calibrated prognostic model for patients with cirrhosis admitted to
intensive care unit. Comparison with current models and CLIF-SOFA score. Am J Gastroenterol
2014;109(4):554-562. Disponible en: https://pubmed.ncbi.nlm.nih.gov/24492755/.
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de (Continúa)
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
84 Lectura crítica de la evidencia clínica
2. ¿La población Sí ✓ No sé No
a estudio de la que Se trata de pacientes consecutivos, por lo que entendemos que no hubo
se derivó la regla exclusiones, pero reclutados en un centro especializado de referencia
incluyó un espectro en enfermedades hepáticas y trasplante hepático.
adecuado Probablemente estamos tratando con una muestra de pacientes cirróticos
de pacientes? muy evolucionados o de mayor severidad de la que habitualmente
PISTAS: encontramos en nuestros hospitales.
• ¿Es adecuado el método No está claro si ingresan también los pacientes trasplantados. Por otra
de selección de pacientes? parte, los clínicos de este centro a buen seguro tienen más experiencia
• ¿Está adecuadamente y más medios que centros no especializados.
representado el espectro de
pacientes en los que tiene
sentido aplicar la regla?
3. ¿Se validó la regla Sí ✓ No sé No
en un grupo diferente Sí, pero…
de pacientes? Generan el modelo (o RPC) en un grupo de pacientes, aproximadamente
PISTAS: el 75% del total, y lo validan en el 25% restante.
• No basta con que La distribución de los 635 pacientes consecutivos al grupo de derivación
la regla «funcione» o de validación se hizo al azar empleando números aleatorios,
en la población a partir tratando de que los cuatro períodos de tiempo estuvieran igualmente
de la cual se ha derivado. representados en los dos grupos.
• ¿La validación se Este tipo de validación, llamada validación interna, no es la validación
realizó en pacientes más sólida que se puede ofrecer.
parecidos o distintos? Es preferible una validación externa amplia, o mejor aún, varias
validaciones externas. Serían estudios de validación llevados a cabo
en diferentes localizaciones geográficas y diferente marco temporal.
Preguntas de «matiz»
4. ¿Hubo una Sí No sé No ✓
evaluación ciega No, pero…
del desenlace y de las Siendo la variable desenlace la muerte, parece que la falta
variables predictoras? de una evaluación ciega tiene poco o ningún impacto.
PISTAS: La evaluación de las otras variables de laboratorio podemos asumir que
• ¿Las personas que son ciegas. Las variables que forman parte del modelo final son todas
valoraban el resultado de laboratorio (recogidas antes de que ocurra el desenlace) excepto
conocían los datos sangrado por varices como motivo de admisión en UCI.
clínicos?
• ¿Las personas que
medían las variables
predictoras conocían
el desenlace?
5. ¿Se midieron las Sí ✓ No sé No
variables predictoras Parece que sí…
y el desenlace en Es difícil saber si todos los pacientes tenían las determinaciones, dado
todos los pacientes? el período de inclusión tan largo. Sin embargo, no dicen que se pierda
PISTAS: ningún paciente ni que hayan imputado datos ausentes.
• ¿Están bien descritas Es curioso que pongan el n.o de días en UCI como característica basal.
las exclusiones?
• A veces el desenlace no
se puede medir de la
misma forma en todos
los pacientes.
6. ¿Se describen Sí ✓ No sé No
los métodos La regla la crean mediante un modelo de regresión logística múltiple
de derivación y con estrategia hacia atrás.
validación de la regla? La capacidad de discriminación se evalúa mediante el área bajo la curva
PISTAS: ROC.
¿Se incluyen las La calibración, mediante la χ2 de la prueba de Hosmer-Lemeshow.
variables importantes Los autores declaran que usan los coeficientes del modelo de regresión
y los criterios directamente, sin redondeo. Habría que notar que la regla obliga
de positividad? a hacer los cálculos con calculadora. Es más frecuente el redondeo
¿Se describe el método para que la regla se aplique más fácilmente.
estadístico empleado? Por otra parte, no ofrecen ninguna tabla con los coeficientes.
¿Se describe la El criterio de positividad (o punto de corte) se calcula mediante
reproducibilidad la puntuación del índice de Youden (suma de sensibilidad más
de las medidas? especificidad menos 1), que es lo mismo que elegir aquel valor
que maximiza la sensibilidad más especificidad.
Ello supone que los autores adoptan una postura ecléctica, dando igual
importancia al hecho de no predecir las muertes que ocurren
que al predecir falsamente muertes que no ocurren.
Esta postura ecléctica, basada en la cantidad de información sin tener en
cuenta el coste de los errores por exceso o por defecto, debe ser objeto
de una reflexión serena.
A veces no queremos elegir el valor de una RPC que ofrece mayor
cantidad de información, sino aquel valor que minimiza los errores
en uno o en otro sentido.
Por ejemplo, si lo que pretendemos al desarrollar, validar y, finalmente,
aplicar una RPC es descartar la presencia de una enfermedad (RPC
de propósito diagnóstico) o de un desenlace (RPC de propósito
predictivo), elegiremos un valor que maximice la sensibilidad
a un coste razonable de pérdida de especificidad, por supuesto.
B) ¿Cuáles son los resultados?
7. ¿Se puede calcular Desenlace + Desenlace –
el rendimiento Regla + 71 – a 31 – b
de la RPC? Regla – 12 – c 44 – d
PISTA: los resultados • Sensibilidad = a/(a + c).
pueden presentarse • Especificidad = d/(b + d).
como: S, Esp, LR+, • LR+ = sens/(1 – esp).
LR-, Curva ROC, • LR– = (1 – sens)/esp.
Curvas de calibración, Nos fijamos en los valores de la validación, no de la derivación.
© Elsevier. Fotocopiar sin autorización es un delito.
(Continúa)
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
86 Lectura crítica de la evidencia clínica
Bibliografía
1. Phillips B. Clinical Decision Rules: how to built them. Arch Dis Child Educ Pract Ed 2010;95:83-7.
2. Phillips B. Clinical Decision Rules: how to use them. Arch Dis Child Educ Pract Ed 2010;95:88-92.
3. Mann CJ. Observational research methods. Research design II: cohort, cross sectional, and case-control
studies. Emerg Med J 2003;20:54-60.
4. Riley RD, Ensor J, Snell KIE, et al. Calculating the sample size required for developing a clinical prediction
model. BMJ 2020;368:m441.
5. Van der Ploeg T, Austin PC, Steyerberg EW. Modern modelling techniques are data hungry: a simulation
study for predicting dichotomous endpoints. BMC 2014;14:137-50.
6. Collins GS, Ogundimu EO, Altman DG. Sample size considerations for the external validation of a
multivariable prognostic model: a resampling study. Stat Med 2016;35:214-26.
7. Royston P, Altman DG, Sauerbrei W. Dichotomizing continuous predictors in multiple regression: a bad
idea1. Stat Med 2006;25:127-41.
8. Siontis GC, Tzoulaki I, Ioannidis JP. Predicting death: an empirical evaluation of predictive tools for
mortality. Arch Intern Med 2011;171:1721-6.
9. Christodoulou E, Ma J, Collins GS, Steyerberg EW, Verbakel JY, Van Calster B. A systematic review
shows no performance benefit of machine learning over logistic regression for clinical prediction models.
J Clin Epidemiol 2019;110:12-22.
10. Harrell FE, Lee KL, Califf RM, Pryor DB, Rosati RA. Regression modelling strategies for improved
prognostic prediction. Stat Med 1984;3:143-52.
11. Harrell FE, Lee KL, Matchar DB, Reichert TA. Regression models for prognostic prediction: advantages,
problems, and suggested solutions. Cancer Treat Rep 1985;69:1071-7.
12. Harrell FE, Lee KL, Pollock BG. Regression models in clinical studies: determining relationships between
predictors and response. J Natl Cancer Inst 1988;80:1198-202.
13. Adams ST, Leveson SH. Clinical prediction rules. BMJ 2012;344:d8312.
14. Harrell FE, Lee KL, Mark DB. Multivariable prognostic models: issues in developing models, evaluating
assumptions and adequacy, and measuring and reducing errors. Stat Med 1996;15:361-87.
Introducción
En este capítulo nos centraremos en orientar a la lectura crítica de evidencia cualitativa durante
el proceso de búsqueda de respuestas a preguntas clínicas de experiencia o significado: ¿cuál es
el significado que nuestros pacientes/usuarios atribuyen a su experiencia de salud-enfermedad?,
¿cuál es su vivencia y cuáles son sus respuestas humanas ante dicho problema (actual o potencial)
de salud? (1).
Nos situamos así bajo el paraguas del paradigma constructivista, reconociendo que la realidad
de los procesos de salud-enfermedad no es única, sino que existen múltiples interpretaciones, tantas
como vivencias y experiencias subjetivas en torno a dicha realidad haya. Desde esta premisa, la única
forma posible de conocer en profundidad los problemas y las necesidades de nuestros pacientes/
usuarios es a través de su subjetividad, es decir, a través de sus discursos y sus narrativas en relación
con dicha experiencia (2).
Es, en este escenario, donde la metodología de la investigación cualitativa se ofrece como la
herramienta apropiada para dar respuesta a nuestras preguntas. La investigación cualitativa está
orientada al entendimiento de la complejidad de la realidad humana a través de un proceso inter-
subjetivo, esto es: la indagación sobre las experiencias de las personas desde su propia subjetividad
al mismo tiempo que desde la propia subjetividad del investigador (entendido este último como
herramienta de investigación) (3,4).
A la hora de leer críticamente un artículo original cualitativo, es necesario tener presentes algunas
de las características básicas de la investigación cualitativa (5):
■ La investigación cualitativa es humanista: trata de llegar al conocimiento y la comprensión
■ El investigador debe adoptar una perspectiva holística: no reduce a los participantes a varia-
bles, sino que los entiende como un todo de dimensiones interconectadas.
■ La investigación cualitativa es inductiva: comienza con interrogantes o preguntas muy
generales que se van reformulando y matizando según avanza el trabajo de campo y se va
conociendo en mayor profundidad el objeto de estudio.
■ La investigación cualitativa es naturalista y adopta una perspectiva «emic»: se desarrolla en
el contexto donde se da el fenómeno de estudio y se orienta desde la mirada de las personas
que participan de dicho fenómeno.
■ La investigación cualitativa es dinámica y flexible: Se centra en el proceso de investigación y
en las necesidades del campo, lo que implica una constante actitud de reflexividad (para tomar
decisiones metodológicas justificadas) y de creatividad (para responder a estas necesidades
de forma apropiada).
■ La investigación cualitativa da valor a lo cualitativo y presenta descripciones densas: Rescata
los significados dando valor a las metáforas y a la capacidad simbólica del ser humano para
interpretar la realidad y adaptarse a ella.
■ El investigador es sensible a los efectos que él mismo causa sobre el fenómeno de estudio:
es conocedor de sus prenociones, experiencias, creencias, predisposiciones y prejuicios y
reflexiona sobre cómo estas pueden influir en el proceso de investigación velando por la
máxima neutralidad.
Escenario
En el contexto del Programa de Envejecimiento Activo y Saludable, el Centro de Mayores de
nuestra zona básica de salud nos ha solicitado colaboración en una serie de talleres y actividades
centradas en la mejora de la calidad de vida y prevención de la dependencia para mayores de 65
años. En concreto, proponen que participemos en la planificación y el desarrollo de talleres de
carácter psicoeducativo para trabajar el fomento de la vida autónoma y el desarrollo personal. De
cara a priorizar los contenidos que se van a abordar, hemos realizado una búsqueda bibliográfica
en busca de evidencia que dé cuenta del proceso de adaptación de los mayores a las limitaciones
sobrevenidas por el envejecimiento y las estrategias que desarrollan para mantener una vida activa e
independiente en sus propios domicilios. Resultado de la consulta a las principales bases de datos
en ciencias de la salud obtenemos, entre otros, el siguiente artículo que procedemos a leer crítica
mente.
Hatcher D, Chang E, Schmied V, Garrido S. Holding momentum: a grounded theory study
of strategies for sustaining living at home in older persons. Int J Qual Stud Health Well-being
2019;14(1):1658333.
© Elsevier. Fotocopiar sin autorización es un delito.
serán exploratorios en un inicio para, a posteriori, surgir nuevos objetivos de un talante más des-
criptivo o explicativo. Así exploraremos fenómenos poco o nada conocidos, identificando elementos
básicos para su comprensión y entendimiento; documentaremos y describiremos fenómenos para
orientar en su abordaje; o trataremos de explicar las pautas, conductas, acciones, atribuciones, etc.,
relacionadas con el fenómeno en cuestión e identificar patrones relacionales que den significado
al fenómeno (7).
TABLA 9.1 ■ Congruencia entre pregunta de investigación, método, procedimientos de trabajo de campo y hallazgos cualitativos
Pregunta Preguntas Técnicas
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
realidad es interpretada basándose en símbolos construidos, que estos símbolos los construimos en
constante interacción con aquello y aquellos que nos rodean, y que los símbolos son dinámicos y
evolucionan-cambian en función del contexto en el que nos encontramos. Esta noción de dinamis-
mo y de cambio es la que caracteriza principalmente a este método, que resulta especialmente útil
cuando nos planteamos preguntas en las que está presente la noción de proceso: ¿cuáles son las
fases de un determinado proceso de salud y enfermedad desde la perspectiva de las personas que
viven dicha experiencia?, ¿qué estrategias de adaptación para ir avanzando a lo largo del proceso
se gestionan? (13,14). Es un abordaje abierto a múltiples procedimientos de obtención de datos.
Los resultados, por su parte, tienen una importante naturaleza interpretativa y se presentan como
categorías y subcategorías interrelacionadas bajo una categoría principal, que representa de forma
condensada el proceso social o proceso psicosocial sometido a estudio (8).
ESTRATEGIA DE MUESTREO
Cuando hablamos de población de estudio, hacemos referencia al total conglomerado de casos
que cumplen unos criterios de inclusión específicos. Así, los criterios de inclusión son aquellas
características que delimitan la población de estudio sobre la que nos planteamos una determinada
pregunta de investigación. En el caso de la investigación cualitativa, estos criterios se centran,
mayoritariamente, en que las personas hayan vivenciado un determinado fenómeno, aquel sobre
el que queremos explorar (15).
Sin embargo, a la hora de realizar el trabajo de campo, trabajar con el total conglomerado que
constituye la población de estudio es inviable, de modo que hemos de seleccionar una muestra con
la que trabajar para luego, basándonos en los resultados o hallazgos a los que hayamos llegado,
poder transferir los resultados.
En el caso de la investigación cualitativa, la muestra, sin embargo, no debe dar respuesta, como
en investigación cuantitativa, al criterio de representatividad para con la población de estudio, sino
que, más bien, se busca el criterio de significación. Es decir, no importa tanto que las características
de la muestra sean o no representativas de la población en general, sino que la información que
sean capaces de aportar o que hayan aportado de cara al conocimiento del fenómeno de estudio
sea rica en significado.
Teniendo esto último en cuenta, debemos matizar el término «transferir», diciendo que, efectiva-
mente, en investigación cualitativa no se puede hablar de «generalización» de los hallazgos en tanto
que la muestra sea representativa de la población total, sino de «transferencia de los resultados»,
siendo siempre muy críticos con las características de la muestra de estudio y el ámbito donde
se desarrolla el estudio en comparación con el ámbito asistencial y con la población con la que
trabajamos y con la que queremos hacer uso de la evidencia generada.
Si lo que se prioriza es la riqueza informativa que aporta la muestra para el conocimiento del
fenómeno de estudio, entonces queda justificada la intencionalidad de todo procedimiento de
muestreo en investigación cualitativa. Es decir, un investigador cualitativo elije a los sujetos que
formarán parte de su muestra de estudio de forma intencional (no aleatoria).
Ahora, la intencionalidad puede estar sujeta a diferentes criterios o justificaciones. Por ello se
definen diferentes tipos de procedimientos de muestreo, entre los que podemos destacar el muestreo
por conveniencia, el muestreo por bola de nieve, el muestreo por propósito, el muestreo teórico y el
muestreo por casos extremos o negativos entre otros descritos en la literatura (tabla 9.2).
Por otra parte, hay que reseñar que, teniendo en cuenta la flexibilidad de la investigación
cualitativa y la importancia que tiene el proceso de investigación en tanto que es ajustable a las
necesidades del trabajo de campo, puede ser útil el no trabajar exclusivamente con un tipo de
procedimiento de muestreo, sino ir combinándolos según el campo nos vaya exigiendo (recordad,
eso sí, que todo proceso flexible exige una reflexividad que justifique el rigor de cada decisión
metodológica que se realice) (16).
Por conveniencia El investigador selecciona a aquellos participantes a los que tiene acceso Accesibilidad de primer orden + +
directo (p. ej., por listado de pacientes). En la literatura médica a veces
existen matizaciones con respecto al muestreo por «conveniencia»,
haciendo referencia a criterios de comodidad (lo cual no sería muy
riguroso). Ideal en el primer acercamiento a los datos. La información
que probablemente recojamos será muy amplia y poco focalizada
(pero estamos comenzando con el trabajo de campo)
Por bola de nieve El investigador accede a nuevos posibles participantes a través de los Accesibilidad de segundo + +
contactos y redes personales de los participantes a los que ya ha orden
entrevistado previamente o de los actores con los que ha coincidido
en un contexto de observación participante
Por propósito El investigador selecciona pacientes basándose en criterios experienciales, es Emergencia teórica basada ++ ++
decir, circunstancias que puedan condicionar la vivencia de la experiencia en el conocimiento previo
de algún modo. Estos criterios experienciales emergen del propio bagaje que el investigador tiene
del investigador como clínico o como estudioso del tema de indagación del fenómeno de estudio
(revisión de la literatura médica). En algunas ocasiones veremos que
la documentación hace referencia a estos criterios experienciales
bajo el término «variables»; entended este término con cautela
Teórico El investigador selecciona a los participantes basándose en nuevos criterios Emergencia teórica a partir +++ +++
experienciales que vayan emergiendo del análisis de los datos. Ideal del propio proceso
según empezamos a trabajar con los primeros datos. Exige mucha de indagación y de las
capacidad crítica y de reflexión. La información que obtengamos a necesidades del mismo
partir de estos informantes será más focalizada, intentando comprender
matices concretos de la construcción teórica que vamos construyendo
Por casos Podría entenderse como parte del muestreo teórico en fases muy Necesidad de comparar ++++ ++++
negativos avanzadas del proceso de análisis. El investigador selecciona a y contrastar o cubrir un
o extremos participantes con características experienciales que pueden marcar área de conocimiento del
la diferencia en la interpretación que hacen de su vivencia con respecto fenómeno de estudio muy
al resto de los informantes concreto
93
94 Lectura crítica de la evidencia clínica
Para finalizar, cabe decir que el tamaño de la muestra cualitativa no se puede predeterminar
durante la planificación del estudio, sino que será el propio trabajo de campo el que nos vaya
sugiriendo ir incorporando más o menos sujetos a nuestra muestra. El tamaño de la muestra
(inferior a las muestras cuantitativas) está condicionado por la información aportada por la misma
para el conocimiento del fenómeno de estudio. Si esta es suficiente, también lo será la muestra; si
es insuficiente, por el contrario, tendremos que seguir incorporando nuevos sujetos que nos aporten
información nueva. El que necesitemos muestras más o menos grandes dependerá, por tanto, de
los objetivos de investigación (más o menos amplios), del abordaje (más o menos complejo), del
potencial de significación de la información recogida y de nuestra experiencia como investigadores
(tanto en la recogida como en el análisis de los datos).
El hecho de poder dar respuesta a las preguntas de investigación con la seguridad de que
la propuesta realizada sea fiel al fenómeno vivenciado por los sujetos (categorías de análisis
condensadas), junto con el hecho de que los nuevos datos recogidos ya no aporten nada nuevo
(apoyando las propuestas teóricas formuladas), es indicativo de haber llegado a la «saturación
de los datos» (17).
El grupo de discusión es una técnica de recogida de datos grupal cuya intención es la colisión
de los diferentes discursos de los participantes, siendo su producto final la puesta de manifiesto de
los efectos de colisión (discusión), de los discursos personales (convencimientos) y de los discursos
grupales (consenso o construcción colectiva).
Es un grupo artificial, es decir, el grupo no es tal ni antes ni después de la discusión (21). Esto
implica que los participantes no se conocen previamente, evitando interferencias previas en la
producción de su habla.
A la hora de constituir los grupos se deben combinar mínimos de homogeneidad y de heteroge-
neidad, asegurando de este modo la simetría de la relación de los componentes del grupo, al mismo
tiempo que preservamos la diferencia necesaria en todo proceso discursivo. El número de grupos de
discusión que se planifica dependerá de las diferentes posiciones discursivas que se quieran someter
a la escucha y de la mencionada saturación de los datos.
La versión anglosajona de esta técnica es el grupo focal, o focus group, que se diferencia del grupo
de discusión, entre otras cuestiones, en que el interés se focaliza en el discurso individual y no en
la construcción grupal de un discurso colectivo (22).
A modo de cierre, podemos añadir que combinar diferentes estrategias de recogida de datos puede
resultar de gran utilidad para acceder a diferentes tipos de datos y, en este sentido, triangular informa-
ción para llegar al conocimiento profundo del fenómeno de estudio desde diferentes «vías de acceso».
CONSIDERACIONES ÉTICAS
Los principios éticos que guían la investigación cualitativa están construidos basándose en la ética
médica. La aplicación de los mismos al contexto de la investigación cualitativa, sin embargo, resulta
en ocasiones algo complicada, incómoda y delicada. Así, basándonos en los principios de autonomía,
beneficencia/no maleficencia y justicia, podemos identificar diferentes problemas o situaciones
conflictivas a nivel ético en el contexto de la planificación y desarrollo de nuestros trabajos de inves-
tigación. Para cada uno de estos problemas podemos encontrar diferentes estrategias de abordaje
que, en ocasiones, más que seguir directrices estandarizadas, deberán ser gestionadas por el propio
investigador en función de las necesidades de campo. Esto último requiere una constante actitud
de alerta para la identificación de situaciones potencialmente conflictivas (27).
Algunas de las estrategias básicas para la salvaguardia de los principios éticos son: la aprobación
de la propuesta y el seguimiento del proceso por parte de un comité ético; la información clara
y completa a los informantes acerca de los objetivos de estudio, condiciones de participación y
Artículo
Hatcher D, Chang E, Schmied V, Garrido S. Holding momentum: a grounded theory study
of strategies for sustaining living at home in older persons. Int J Qual Stud Health Well-being
2019;14(1):1658333. Disponible en: https://www.tandfonline.com/doi/full/10.1080/17482631.2
019.1658333.
Preguntas detalladas
4. ¿La estrategia de selección Sí ✓ No sé No
de participantes es adecuada
Los criterios de inclusión para la población de estudio están claramente
para alcanzar los objetivos
enunciados: a) personas mayores de 65 años; b) angloparlantes; c) que hayan
de la investigación?
vivido al menos durante los últimos 12 meses en sus casas antes de ser
PISTAS: considera si:
reclutadas para el estudio, y d) que consientan voluntariamente participar
• Hay alguna explicación relativa
en el estudio.
a la selección de los participantes.
El reclutamiento de los participantes se hizo a través del listado de personas que
• Justifica por qué los participantes
participaban de diferentes actividades (danza, bolos, etc.) en un Centro de
seleccionados eran los más
Mayores, lo que condiciona un perfil de participante concreto y quizás algo
adecuados para acceder al tipo
homogéneo, lo cual puede considerarse una limitación, tal y como reconocen
de conocimiento que requería el
también los propios investigadores.
estudio.
Para comenzar con los grupos focales se realizó un muestreo de carácter
• El investigador explica quién,
intencional por propósito, es decir, que se incorporó a los grupos a todas
cómo, dónde se convocó a los
aquellas personas que, una vez contactadas e informadas, consintieron
participantes del estudio.
participar considerando algunas variables experienciales que pudieran haber
condicionado su vivencia y discurso buscando la máxima heterogeneidad
dentro de las posibilidades del trabajo de campo. Quizás hubiera sido
interesante matizar estos criterios o características experienciales.
De cara a la segunda fase del proceso de recogida de datos, y una vez analizada la
información recogida a través de los grupos focales, los investigadores llevaron
a cabo un muestreo teórico buscando perfiles específicos de participantes,
focalizando así la recogida de datos.
Los autores explican por qué no se entrevistó a algunos de los participantes en los
grupos de discusión que se prestaron voluntarios para participar en la segunda
fase de recogida de datos a través de entrevistas individuales. Esto resulta muy
interesante porque da cuenta de un proceso de muestreo pensado, justificado
y, por tanto, madurado. Así, los investigadores explican que, para las primeras
entrevistas, buscaron perfiles de participantes que, en relación con la teoría
emergente derivada del análisis de los grupos focales, hubieran realmente
vivido un proceso de adaptación a una serie de cambios sobrevenidos y
relacionados con el envejecimiento y la soledad no buscada. Para las últimas
entrevistas, la estrategia de muestreo se centró en captar a personas que se
habían cambiado de casa buscando un lugar alternativo adaptado a sus nuevas
necesidades o personas que vivían en casa con importante ayuda o soporte.
Se reconoce como limitación el no haber podido acceder a casos con perfiles más
divergentes. Quizás hubiera sido necesario ampliar la muestra avanzando en
el proceso de muestreo teórico hacia un muestreo de casos extremos o casos
negativos.
(Continúa)
(Continúa)
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
102 Lectura crítica de la evidencia clínica
Bibliografía
1. Cullum N, Ciliska D, Haynes RB, Marks S, editores. Evidence Based Nursing: An introduction. Oxford:
Blackwell Publishing, BMJ Publishing Group Limited and RCN Publishing Company; 2008.
2. Cano Arana A, González Gil T, Palmar Santos A, Luengo González R. Diferentes aproximaciones de
investigación en salud: metodología cuantitativa y cualitativa. Educare 21. 2008. [Fecha de último acceso:
15 de febrero de 2021. Disponible en: https://www.enfermeria21.com/revistas/educare/articulo/480251/
diferentes-aproximaciones-de-investigacion-en-salud-metodologia-cuantitativa-y-cualitativa/.
3. Munhall PL. Nursing Research. A qualitative Perspective. Toronto: Jones and Bartlett Publishers; 2001.
p. 67-68.
4. de la Cuesta Benjumea C. El Investigador Como Instrumento Flexible de la Indagación. Int J Qual Meth
2003;2(4):25-38.
5. Pedraz Marcos A, Zarco Colón J, Ramasco Gutierrez M, Palmar Santos AM. Investigación Cualitativa.
Colección Cuidados de Salud Avanzados. Barcelona: Elsevier; 2014.
6. Mayan MJ. Una introducción a los métodos cualitativos: módulo de entrenamiento para estudiantes y
profesores. Alberta: International Institute for Qualitative Methodology; 2001. [Fecha de último acceso:
15 de febrero de 2021]. Disponible en: https://sites.ualberta.ca/∼iiqm/pdfs/introduccion.pdf.
7. de la Cuesta Benjumea C. ¿Por dónde empezar?: la pregunta en investigación cualitativa [Where to begin?:
the qualitative research question]. Enferm Clin 2008;18(4):205-10.
8. Morse JM, Richards L. Selecting a Method. En: Morse JM, Richards L, editores. Read me first. Thousand
Oaks: SAGE; 2001. p. 43-64.
9. Hammersley M, Atkinson P. Etnografía. Métodos de investigación. Barcelona: Paidós; 2001.
10. Roper JM, Shapira J. Ethnography in Nursing Research. Methods in Nursing Research. Thousand Oaks:
SAGE; 2000. p. 3-9.
11. Cohen MZ, Kahn DL, Steeves RH. Hermeneutic Phenomenological Research. A Practical Guide for
Nurse Researchers. Methods in Nursing Research. Thousand Oaks: SAGE; 2000. p. 2-6.
12. Glaser B, Strauss A. The Discovery of grounded theory: Strategies for Qualitative Research. Chicago:
Aldine; 1967.
13. Morse JM, Stern PN, Corbin J, Bowers B, Charmaz K, Clarke AE. Developing Grounded Theory. The
second Generation. Walnut Creek: Left Coast Press; 2009. p. 13.
14. Schreiber RS, Stern PN, editores. Using Grounded Theory in Nursing. New York: Springer Publishing
Company; 2001.
15. Marshall M. Sampling for qualitative research. Fam Pract 1996;13(6):522-5.
16. Field PA, Morse JM. Nursing, Research. The Application of Qualitative Approaches. London: Chapman
& Hall; 1994. p. 93-96.
17. Morse JM. «Data Were Saturated…». Qual Health Res 2015;25(5):587-8.
18. Callejo Gallego J. Observación, entrevista y grupo de discusión: el silencio de tres prácticas de investigación.
Rev Esp Salud Pública 2002;76(5):409-22.
19. Alonso LE. Sujeto y discurso: el lugar de la entrevista abierta en las prácticas de la sociología cualitativa.
En: Delgado JM, Gutiérrez J, coordinadores. Métodos y técnicas cualitativas de investigación en ciencias
sociales. Madrid: Síntesis; 1999. p. 225-240.
20. Kvale S, Brinkmann S, Interviews. Learning the Craft of Qualitative Research Interviewing. 2nd ed.
Thousand Oaks: SAGE; 2009.
21. Canales M, Peinado A. Grupos de discusión. En: Delgado JM, Gutiérrez J, editores. Métodos y técnicas
cualitativas de investigación en Ciencias Sociales. Madrid: Síntesis; 1999. p. 288-316.
22. Krueger RA, Casey MA. Focus Groups: A Practical Guide for Applied Research. London: SAGE
Publications; 2000.
23. Morse JM. Emerger de los datos: los procesos cognitivos del análisis en la investigación cualitativa.
En: Morse JM, editor. Asuntos críticos en los métodos de investigación cualitativa. Medellín: Universidad
de Antioquía; 2003. p. 29-52.
24. Cooffey A, Atkinson P. Variedades de datos y variedades de análisis. En: Cooffey A, Atkinson P, editores.
Encontrar sentido a los datos cualitativos: estrategias complementarias de investigación. Medellín:
Universidad de Antioquia; 2003. p. 1-30.
25. Gibbs G. Analyzing Qualitative Data. Thousand Oaks: SAGE; 2007.
26. Castillo E, Vásquez LM. El rigor metodológico en la investigación cualitativa. Colomb Med 2003;34:164-7.
Introducción
Los registros constituyen una fuente de información muy importante y que se está utilizando cada
vez más en investigación clínica. La utilización de este tipo de fuentes en investigación clínica basada
en datos de la vida real se puede aplicar a distintos escenarios contemplados en otros capítulos, como
podrían ser la evaluación de un tratamiento o intervención, la estimación de la exactitud de una
prueba diagnóstica, la elaboración y validación de una regla de predicción clínica o la evaluación
de un factor pronóstico. En este capítulo nos vamos a centrar en la estimación del efecto de una
intervención mediante la utilización de registros (1,2).
En un capítulo anterior dedicado al ensayo clínico aleatorizado (ECA) se mostraba que cons-
tituye el mejor diseño de investigación primaria para cuantificar el efecto de una intervención o de un
tratamiento. La aleatorización, la ocultación de la secuencia de aleatorización y el ciego constituyen
características definitorias de los ECA, aunque no siempre es posible cumplir con estas exigencias
o, aun siendo posible, puede ser no recomendable dada la pregunta de investigación. La utilización
de datos proveniente de registros permite evaluar la efectividad y seguridad de un fármaco, evaluar
la incorporación de nuevas tecnologías o establecer una personalización más individual de los
tratamientos (1). Los datos del mundo real permiten identificar patrones a partir de datos, en lugar
de buscar datos que argumenten hipótesis, incorporando otras perspectivas complementarias al
estudio ideal que representa el ensayo clínico aleatorizado.
Los estudios no aleatorizados del efecto de una intervención son claves en distintas áreas de la
evaluación de la salud dado que se pueden realizar de forma más rápida que los ensayos clínicos
integrando la información de distintas fuentes. Tradicionalmente, y como alternativa a los ensayos
clínicos aleatorizados, los estudios de cohortes prospectivas o retrospectivas y los estudios de casos
y controles han constituido los diseños de investigación recomendados. En la actualidad y gracias
a la gran cantidad de información disponible en forma de registros, la información obtenida de
este tipo de estudios, lo que algunos autores han denominado Real World Evidence (RWE), aporta
aspectos complementarios o en algunos casos sustitutos de las evidencias obtenidas a través de
ensayos clínicos aleatorizados cuando los resultados no son concluyentes.
Las dificultades de la utilización de los datos de la vida real abarcan aspectos diversos.
Legales. La normativa necesita incorporar esta nueva realidad en la que se respeten datos
especialmente sensibles para un participante como son los datos de salud.
Metodológicos. Los diseños de investigación tradicionales: cohortes, casos y controles no se aplican
directamente en el caso de grandes registros. La interconexión entre distintas fuentes es un reto
debido a la no existencia de un identificador único o la inexistencia del mismo por confidencialidad.
Éticos. En investigación biomédica es habitual la necesidad de consentimiento informado por
parte del paciente, este consentimiento es muy complicado o muchas veces imposible de obtener
en el caso de grandes registros. Frecuentemente, si existe un consentimiento, es de tipo asistencial
y no considera el uso de los datos para investigación.
Entre las distintas fuentes que pueden ser consideradas para generar evidencias basadas en los
datos de la vida real se puede considerar:
■ Historias clínicas electrónicas.
■ Registros de pacientes con una determinada patología o que han recibido un cierto trata-
Escenario
Ves en la consulta del centro de salud a Alfredo, de 52 años, diagnosticado de colitis ulcerosa a
los 22 años; presenta buena evolución de su enfermedad inflamatoria intestinal, con dos ingresos
hospitalarios desde su diagnóstico.
Se asocia con anemia crónica estudiada tratada con hierro oral desde hace 5 años que en líneas
generales consigue mantener los niveles aceptables de hemoglobina. En la última revisión refiere
molestias, probablemente asociadas al hierro oral que se manifiesta en heces y dispepsia.
Ante esta mala tolerancia te preguntas la sustitución de hierro oral por hierro intravenoso.
Encuentras este interesante artículo realizado con los datos del registro alemán de enfermedad
inflamatoria intestinal.
© Elsevier. Fotocopiar sin autorización es un delito.
Stein J, Haas JS, Ong SH, Borchert K, Hardt T, Lechat E, et al. Oral versus intravenous iron
therapy in patients with inflammatory bowel disease and iron deficiency with and without anemia
in Germany-a real-world evidence analysis. Clinicoecon Outcomes Res 2018;10:93-103.
■ ¿Es eficaz el hierro intravenoso en pacientes con enfermedad inflamatoria intestinal y anemia
Causalidad
En el lenguaje cotidiano es frecuente utilizar el verbo causar como una relación entre una acción y
una consecuencia inequívoca de esa acción. Por ejemplo, se suele decir: «el alcohol me causa dolor de
cabeza» y esto indica para el sujeto que lo señala que después de que toma alcohol le aparece dolor
de cabeza. Conviene distinguir entre causalidad y asociación, asociación no indica causalidad (4,5); por
ejemplo, el consumo de helados correlaciona, se asocia, con las quemaduras solares, pero es improbable
que exista una relación causal entre estas dos variables, probablemente influya una tercera variable, que
en la jerga epidemiológica se denomina confusora o variable de confusión, que es el verano.
Hay que distinguir dos elementos en esa relación causal:
1. Elemento inicial o causa: se puede clasificar como causa intencional (p. ej., la administración
de un analgésico para quitar un dolor) o no intencional (p. ej., dieta rica en grasas o fumar
habitualmente en aparición de un cierto tumor en edad adulta).
2. Elemento final o consecuencia: se define en términos de cambio sobre la situación inicial,
el paciente tenía dolor intenso de cabeza y tras la administración del fármaco el dolor ha
disminuido. O el paciente no tenía un determinado cáncer y después de mucho tiempo en
el que ha estado expuesto al tabaco aparece un cáncer.
Características de la relación causal: siguiendo a Hume.
■ Temporalidad: la causa precede al efecto.
■ Dirección: la relación va de la causa al efecto.
■ Asociación: entendida como cuantificación de la constancia de la relación.
SESGO DE CONFUSIÓN
En los estudios observacionales la asignación al tratamiento no es al azar, el médico u otro profe-
sional sanitario prescribe un tratamiento basado en las características clínicas del paciente. Estas
características se denominan variables de confusión o confusores si están relacionadas con la
exposición (tratamiento) y con el evento de interés (outcome) y no son variables intermedias en
la ruta causal entre tratamiento y outcome.
La selección de confusores y su análisis estadístico mediante modelos de regresión multivariable
o mediante índice de propensión entre las técnicas más utilizadas habitualmente será expuesta
posteriormente.
Una complejidad añadida puede considerarse si estos confusores son medidos a lo largo del
tiempo y la prescripción del tratamiento depende de estos confusores, que además pueden estar
modificados por los tratamientos previos, lo que se ha denominado confusores tiempodependientes,
este tipo de confusores necesita de análisis estadístico más complejo que los modelos de regresión
multivariable. Un ejemplo sería la evaluación de nuevos fármacos antirretrovirales y los CD4. Los
CD4 basales modifican la probabilidad de indicación de un nuevo fármaco antirretroviral, y este
fármaco, a su vez, podría modificar los CD4 posteriores al momento basal (5).
SESGO DE SELECCIÓN
Este sesgo se produce cuando la selección de los sujetos de investigación, del tiempo de inicio
de seguimiento o de algunos eventos está relacionada con la intervención y con el outcome; por
p( X ) = P ( D = 1 X ) = E( D X )
donde D es un indicador de la exposición al tratamiento y X es un vector multidimensional que
resume las características basales de los pacientes.
El IP es un índice balanceado; por lo tanto, en un conjunto de sujetos que tienen el mismo IP, la
distribución de las variables observadas basales es la misma entre pacientes tratados y no tratados.
El IP se puede calcular en cualquier tipo de estudio, experimental u observacional. En un
estudio experimental la asignación es conocida y el IP es estimado fácilmente; en un estudio
aleatorizado con dos ramas equiprobables, el IP para cada paciente es 0,5. En los estudios
observacionales el verdadero valor del IP no es conocido, pero se puede estimar utilizando los
datos del estudio. Hay varias alternativas estadísticas en la estimación del índice de propensión,
la regresión logística en la que la variable dependiente es el tratamiento recibido y las variables
independientes las variables basales, es el método estadístico más utilizado en la generación de
un índice de propensión.
De forma parecida a la aleatorización, los métodos basados en el índice de propensión controlan
el efecto de la confusión mediante la comparación de sujetos tratados y no tratados con distribución
similares de las covariables iniciales.
En este mismo artículo Rosenbaum y Rubin demuestran que si se cumple estas condiciones
se puede obtener mediante el IP una estimación no sesgada del efecto medio del tratamiento con
un diseño observacional.
Rubin establecen que la estratificación en quintiles del IP elimina aproximadamente el 90% del
sesgo debido a los confusores cuando se estima un efecto lineal del tratamiento. Si se incrementa el
número de grupos resulta un incremento en la reducción del sesgo que cada vez menos importante.
Esta estratificación es similar a la que se realiza en un metaanálisis de ensayos clínicos.
sujetos tratados y no tratados mediante la comparación de las variables basales antes y después de
usar el índice de propensión como método de equilibrado. Antes del emparejamiento es asumible
que pacientes no tratados y tratados sean distintos, lo que podía reflejar un sesgo por indicación, des-
pués del emparejamiento la existencia de diferencias podía reflejar que el IP no ha sido correctamente
especificado o que las diferencias en la distribución de características basales en los grupos son tan
grandes que el equilibrado utilizando el IP no ha conseguido su función.
En el emparejamiento mediante el índice de propensión, esta comparación se realiza mediante
la estimación de las diferencias estandarizadas entre expuestos y no expuestos antes y después del
emparejamiento, mediante una comparación de medias para variables continuas o mediante la
diferencia de proporciones estandarizadas para variables categóricas. Los contrastes de hipótesis
no están recomendados para esta comparación dada su gran relación con el tamaño muestral, de
la misma forma que no se recomiendan para valorar la comparabilidad basal de los grupos tras la
aleatorización en un ECA. Si se cuenta con gran tamaño muestral, se podrían encontrar diferencias
estadísticamente significativas, pero de poca importancia clínica.
Si las diferencias estandarizadas, en valor absoluto, son mayores de un 10%, podría ser un indicio
de mala especificación del modelo con el que se construyó el índice de propensión. En este caso se
recomienda replantear el modelo, añadiendo o quitando variables, creando interacciones o términos
no lineales y generando un nuevo índice de propensión y realizando nuevamente la comparación de
las covariables basales. Si la diferencia se debe a una variable específica, se pueden utilizar técnicas
analíticas adicionales (utilizarla como variable de estratificación adicional, por ejemplo).
Figura 10.1 Asociación de un confusor (C) con la variable tratamiento (A) sin camino causal entre confusor
y variable resultado (Y).
Figura 10.2 Camino directo entre el tratamiento (A) y la variable resultado (Y), y camino por la puerta de atrás
que pasa por el confusor C.
En el DAG anterior se muestra que A potencialmente causa Y y que C «no causa» Y. El gráfico
se dice causal cuando este incluye todas las causas comunes.
Como se muestra en la figura 10.2, si se quiere evaluar el efecto de A en Y hay que tener en cuenta
que existe un camino causal entre A e Y y otro camino no causal entre A e Y que pasa por C, este último
camino se puede cortar si ajustamos por C. Un ejemplo clásico utilizado en epidemiología es evaluar el
efecto de tener los dedos amarillos (A) y cáncer de pulmón (Y), hay una variable, ser fumador (C), que
se asocia con la variable dedos amarillos y con cáncer de pulmón. Aunque no exista relación causal entre
dedos amarillos y cáncer de pulmón, si estudiamos la asociación entre estas dos variables se encontrará
asociación estadística entre ellas; esto es lo que se conoce como camino por la puerta de atrás, se puede
llegar de forma errónea de A a Y pasando por C, este camino se interrumpe cuando ajustamos por C.
En la figura 10.3 se muestra que hay variables (I) que se asocian con el tratamiento (A) y con
el resultado (Y ) y que no deben ser ajustadas dado que son variables intermedias (I). Ajustar por
una variable intermedia interrumpe el efecto causal de A en Y que pasa por la variable intermedia I
y lleva a estimaciones erróneas del efecto causal subyacente.
© Elsevier. Fotocopiar sin autorización es un delito.
Figura 10.3 Modelización de una variable intermedia (I) entre el tratamiento (A) y la variable resultado (Y). El
efecto de A en Y tiene un camino causal directo y un camino indirecto que pasa por la variable intermedia (I).
estudio observacional se deben identificar por los expertos que conocen el problema de investigación
cuáles son las variables que podrían estar relacionadas con el tratamiento, con el resultado y con
ambas, esta fase es previa al análisis de datos para evitar buscar asociaciones estadísticas espurias.
La plasmación de las relaciones causales en un gráfico causal es una tarea recomendada en el
caso de evaluación de exposiciones o tratamientos en estudios observacionales.
Dada una serie de variables basales podríamos distinguir tres grupos de variables:
1. Variables que se asocien solo con la exposición.
2. Variables que se asocien solo con el resultado.
3. Variables que se asocien con la exposición y con el resultado.
Brookhart sugiere que variables que se asocien con el tratamiento pero no con el desenlace no
se deben introducir, dado que incrementan la varianza de los estimadores y no reducen el sesgo. En
este mismo estudio se establece que variables que no afecten al tratamiento pero que sí afecten al
resultado deberían ser introducidas en el modelo. Variables que afecten a tratamiento y resultado
deberían siempre entrar.
Artículo
Stein J, Haas JS, Ong SH, Borchert K, Hardt T, Lechat E, et al. Oral versus intravenous iron
therapy in patients with inflammatory bowel disease and iron deficiency with and without anemia
in Germany-a real-world evidence analysis. Clinicoecon Outcomes Res 2018;10:93-103. Disponible
en: https://pubmed.ncbi.nlm.nih.gov/29440920/.
Conclusión
La evaluación del riesgo de sesgo en estudios que han utilizado datos observacionales con una
finalidad de evaluar causalidad, requiere de instrumentos adecuados cuyas recomendaciones tienen
que ser valoradas e incorporadas por los investigadores, preferentemente en una fase inicial, de
(Continúa)
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
118 Lectura crítica de la evidencia clínica
(Continúa)
diseño del estudio. Posteriormente, son útiles para que revisores, metodólogos y editores evalúen
sus procedimientos y resultados. La publicación de la herramienta ROBINS-I contempla los
principales aspectos que se deben considerar en el caso de estudios no aleatorizados de evaluación
del efecto de los tratamientos (6,12,13).
La utilización de datos procedentes de registros permite contestar preguntas de investigación
sobre los resultados de intervenciones preventivas o terapéuticas que no están contempladas en
ensayos clínicos. Otras preguntas de investigación, que se han desarrollado en otros capítulos de este
libro, de naturaleza pronóstica, sobre factores de riesgo, exactitud diagnóstica y valoración económica
son también susceptibles de ser abordadas a partir de datos observacionales y registros ya existentes.
Bibliografía
1. Schünemann HJ, Tugwell P, Reeves BC, Akl EA, Santesso N, Spencer FA, et al. Non-randomized studies
as a source of complementary, sequential or replacement evidence for randomized controlled trials in
systematic reviews on the effects of interventions. Res Synt Meth 2013;4(1):49-62.
2. https://www.fda.gov/regulatory-information/search-fda-guidance-documents/use-real-world-evidence-
support-regulatory-decision-making-medical-devices.
3. Murdoch T, Detsky A. The Inevitable Application of Big Data to Health Care. JAMA 2013;309(13):
1351-2.
4. Hernán MA. The C-Word: Scientific Euphemisms Do Not Improve Causal Inference From Observational
Data. Am J Public Health 2018;108(5):616-9.
5. Hernán MA, Brumback B, Robins JM. Marginal structural models to estimate the causal effect of
zidovudine on the survival of HIV-positive men. Epidemiol 2000;11(5):561-70.
6. Sterne Jonathan AC, Hernán Miguel A, Reeves Barnaby C, Savović Jelena, Berkman Nancy D, Viswanat-
han Meera, et al. ROBINS-I: a tool for assessing risk of bias in non-randomised studies of interventions.
BMJ 2016;355:i4919.
7. Rosenbaum P, Rubin D. The central role of the propensity score in observational studies for causal effects.
Biometrika 1983;70(3):41-55.
8. Austin PC. An Introduction to Propensity Score Methods for Reducing the Effects of Confounding in
Observational Studies. Multivariate Behav Res 2011;46(3):399-424.
9. Heinze G, Juni P. An overview of the objectives of and the approaches to propensity score analyses. Eur
Heart J 2011;32(14):1704-8.
10. Brookhart MA, Schneeweiss S, Rothman KJ, Glynn RJ, Avorn J, Sturmer T. Variable selection for
propensity score models. Am J Epidemiol 2006;163(12):1149-56.
11. Greenland S, Pearl J, Robins JM. Causal diagrams for epidemiologic research. Epidemiology 1999;10(1):
37-48.
12. von Elm E, Altman DG, Egger M, et al. The Strengthening the Reporting of Observational Stu-
dies in Epidemiology (STROBE) statement: guidelines for reporting observational studies. Lancet
2007;370(9596):1453-7.
13. Yao XI, Wang X, Speicher PJ, et al. Reporting and guidelines in propensity score analysis: a systematic
review of cancer and cancer surgical studies. J Natl Cancer Inst 2017;109(8):djw323.
Introducción
La «revisión» es un género tradicional de la literatura médica que trata de recopilar, organizar y
sintetizar estudios previos sobre un tema. Hay distintas formas de realizar estas revisiones, unas
tienen larga tradición clínica y otras se han desarrollado en los últimos decenios asociadas al
movimiento de la medicina basada en la evidencia. En cualquiera de sus formas, la revisión ocupa
un lugar preeminente entre el tipo de artículos más descargados y leídos de las revistas médicas (1).
En sus formas más tradicionales, la revisión es un resumen del conocimiento existente sobre un
tema, realizado desde la perspectiva de un experto o conocedor del área, habitualmente invitado por
los editores o grupos científicos. Son documentos que versan sobre asuntos clave para la clínica o
el conocimiento, y tienen importancia en la construcción de la opinión en los grupos clínicos. No
obstante, estas revisiones, pese a hablar de ciencia, no usan métodos científicos para identificar,
recopilar, ordenar, evaluar y sintetizar la información obtenida. Por ello Cynthia Mulrow (2) propuso
transformar las revisiones en estudios con arquitectura explícita y definida a priori, de modo que
permita construir síntesis de la evidencia consistentes y válidas que trasciendan las opiniones de
los autores. Bajo el influjo de esta visión se ha desarrollado en los últimos años una pléyade de
modernas técnicas de revisión (3).
Sea como fuere, todas las revisiones se enfrentan a la compleja tarea de identificar, ordenar
y condensar el conocimiento, y cada una de esas formas de revisión trata de aproximarse a su
objetivo desde diferentes visiones editoriales, diferentes marcos teóricos, distintos propósitos inves-
tigacionales, variadas estrategias de investigación, y necesidades de conocimiento específicas. En
consecuencia, cada tipo de revisión requerirá de diferentes aproximaciones lectoras. En este capítulo
trataremos sobre los aspectos esenciales de las distintas revisiones, como son sus ejes de clasificación,
su taxonomía, sus características diferenciales y sobre la lectura crítica de estos documentos, con
especial hincapié en las que son de más utilidad para la clínica.
previamente en forma de preguntas estructuradas PICO o equivalentes para otros tipos de estudios
clínicos (8). El objetivo es combinar estudios similares basados en esas preguntas, ponerlas a prueba
conjuntamente y generar un estimador global. Se diría que en estas revisiones lo anterior y lo pos-
terior a los datos ya está prefijado en el protocolo, solo falta añadir los datos.
Dado que el propósito final es combinar estudios para hacer estimadores conjuntos, esta lógica agre-
gativa se interesa por la homogeneidad de los estudios, puesto que lo esencial es «si esos estudios son
realmente agregables». Dicho de otro modo, esta lógica se preocupa por la gestión de la heterogeneidad.
Ejemplos de este tipo de lógica agregativa en revisiones serían: «Exactitud de la tomografía
computarizada en el diagnóstico de apendicitis aguda en adultos» (9), «Pronóstico del infarto de
miocardio silente identificado mediante resonancia magnética nuclear» (10), «Efectos de una inter-
vención psicosocial sobre la depresión en pacientes en diálisis» (11) o «Tratamientos farmacológicos
para fallo cardíaco en paciente en diálisis» (12).
El marco teórico de la revisión está condicionado por el tipo de pregunta de investigación que
se plantea. Las preguntas que se relacionan con las fases de construcción de hipótesis, reflexiones
estructurado PICO y sobre ella realizar un estudio agregativo con estimación combinada de un
efecto a partir de los diversos estudios.
También aquí la manera en que se formule la pregunta (modo amplio o estrecho) conduce a la
elección de una estrategia de extensión o de intensidad: en efecto, si incluimos en la pregunta muchas
poblaciones, o múltiples intervenciones o comparaciones, o desenlaces, estamos implícitamente
optando por estrategias extensivas.
Naturalmente, es posible combinar ambas estrategias en un plan de mayor nivel (4), sea agru-
pando diversos modos de revisión (revisiones anidadas) y realizando diferentes tipos de revisión en
el área: tras una primera extensiva focalizarse en aspectos determinados del área o en particulares
conglomerados de estudios, o también desarrollando una revisión de revisiones que mencionaremos
posteriormente.
El tiempo. La revisión usa estudios ya realizados y por tanto su eje temporal es retrospectivo
(salvo excepciones) aunque los estudios incluidos puedan ser prospectivos o no. Con respecto al
tiempo, es posible también tomar diferentes rutas. En unos casos se puede incluir todo un largo
período de tiempo con cierta visión histórica, aunque, más frecuentemente, procede acotar los
estudios al período en que es aceptable la vigencia de un determinado contexto científico o clínico.
A veces al analizar estas revisiones se opta por agregar las estimaciones en intervalos o secuencias
de tiempo, acumulativos o no, de manera que se aprecie la evolución en el tiempo de los estimadores de
la evidencia según cambia el contexto clínico, por ejemplo, según diferentes tratamientos esenciales
o contextuales han estado disponibles.
En ocasiones, el propósito de la revisión es ir solapando los períodos de estudio y planearlos
anticipadamente para mantener una continuidad en la actualización de un tema, es el caso habitual
de las revisiones Cochrane, en las que se planea renovar cada 2-3 años la evidencia, y en algunos
casos especiales, por su trascendencia, el objetivo es mantener «permanentemente» actualizada la
revisión (son las llamadas living reviews); esto se entiende muy bien en tiempos de COVID-19.
En algunas ocasiones, el interés de la revisión se centra específicamente en los últimos avances
sobre un área determinada, es decir, en la punta de lanza o frontera del conocimiento en el tema,
son las llamadas tradicionalmente «revisiones estado del arte».
Finalmente, casi siempre hay un conflicto entre amplitud del campo a revisar, la profundidad
de la tarea y la complejidad del problema, lo que obliga a multiplicar los recursos asignados, y
siempre es especialmente complejo el recurso «tiempo». Por ello a veces se sacrifican algunas de las
complejidades de las revisiones para realizar una «revisión rápida» que mantiene un compromiso
entre calidad metodológica y tiempo de realización, y son de gran utilidad cuando es imprescindible
obtener evidencia con urgencia.
hacer comprobaciones durante la lectura crítica de la revisión y también con fines de cooperación
y de evitar duplicidad de esfuerzos de investigación.
Para que sea posible valorar críticamente la revisión, reproducirla o incorporar su evidencia a
otros propósitos, existe una convención para la publicación de los resultados de las revisiones sis-
temáticas: PRISMA (http://www.prisma-statement.org/), que incorpora algunas variantes para
algunos tipos específicos de revisión.
Tipo de revisión Marco/pregunta Búsqueda de artículos de datos de estudios Análisis de datos Presentación final de escritura
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
Revisión clásica Configurativo/ No descrita. Solo No descrita No definida No hay lectura Alguna agregación Narrativa típicamente Generales ICMJE
Review Definida, pero excepcionalmente crítica formal de datos No estructura
no estructurada IMRAD
Revisión crítica Configurativo/ No descrita Criterios No definida Puede existir Cualitativo, reflexivo Narrativa típicamente Generales ICMJE
Critical review Definida no o descripción genéricos genérica aunque de o argumental No estructura
estructurada incompleta modo no formal IMRAD
Revisión Configurativo/ Descripción incompleta Criterio de No definida No explícita Cualitativo, Narrativa. Estructura Generales ICMJE
«estado Tópico o área pero temporalidad genérica agregaciones similar a textos No estructura
del arte» sin definición ocasionales clínicos IMRAD
State of art review de preguntas no agregativa
Revisión mapa Configurativo/ Bases diversas Predefinida, Prefijada No se realiza Descripciones, Estructura mixta: PRISMA-ScR
de evidencia Pregunta Estrategia exhaustiva, realizada en diseño tablas y mapas. narrativa (poco),
Mapping review sobre área de prefijada adaptada por 2 o más y realizada Ocasionales mapas +++,
conocimiento en el proceso por 2 o más agregaciones. gráficos y
amplia Sin narración esquemas +++
Revisión Configurativo/Única Bases amplias Predefinida, Predefinida, Ocasional, Tablas, mapas, algunas Estructura mixta: PRISMA-ScR
exploratoria sobre tema más Predefinida en diseño realizada realizada no profunda agregaciones y narrativa + algunas
Scoping review específico por 2 o más por 2 o más estructura narrativa agregaciones
RS cualitativa Configurativo/ BASES Predefinida, Predefinida, Formal con Diferentes modos Estructura PRISMA
Qualitative review Preguntas Preestablecida en realizada realizada métodos e RETREAT narrativa con SRQR
cualitativas diseño-adaptada por 2 o más por 2 o más instrumentos tablas, gráficos, COREQ
experienciales, etc. cualitativos metaagregaciones eMERGe
Revisión Agregativo/Preguntas Estrategia preconcebida Predefinida, Predefinida, Formal y por dos Agregativas Parte cualitativa, PRISMA
sistemática formato PICO en bases + búsqueda realizada realizada lectores Metaanálisis metaanálisis, PRISMA-DTA
Systematic o similares Exhaustiva por 2 o más por 2 o más Instrumentos con elementos gráficas o tablas PRISMA-NMA
review Criterios de Instrumentos específicos cualitativos y figuras
inclusión específicos para riesgo
y exclusión para la de sesgo
extracción
(v. gr. CHARM)
(Continúa)
TABLA 11.2 ■ Tipos de revisiones y sus características (cont.)
Estructura de la revisión
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
Tipo de revisión Marco/pregunta Búsqueda de artículos de datos de estudios Análisis de datos Presentación final de escritura
Revisión Agregativo/ Exhaustiva/o NO Predefinida, Predefinida, Formal/doble Agregativas, Estructura narrativa, PRISMA-R
sistemática PICO o variantes 1 o 1/1 1 o 1/1 o simple + cualitativo alguna agregación
rápida cualitativas supervisión
Rapid Systematic
Review
Revisiones Ambas visiones PICO Estrategia preconcebida Predefinida, Predefinida, Formal y por Agregativas + Estructura narrativa PRISMA
mixtas y cualitativas en bases + realizada realizada 2 lectores cualitativo + metaanálisis +
Mixed reviews búsqueda por 2 o más por 2 o más tablas + figuras
Exhaustiva
Revisión realista Preguntas múltiples Estrategia preconcebida Predefinida, Predefinida, Formal y por Agregativas + Estructura narrativa PRISMA
Realistic review (PICO o NO) con en bases + realizada realizada 2 lectores cualitativo + metaanálisis +
+ complejidad búsqueda por 2 o más por 2 o más tablas + figuras
Exhaustiva
Revisión Agregativo/PICO/s Estrategia preconcebida Predefinida, Predefinida, Contenida en RS Unidad de estudio, Estructura narrativa PRIOR
paraguas, en bases + realizada realizada la RS + metaanálisis +
«revisión de búsqueda por 2 o más por 2 o más A veces los estudios tablas + figuras
revisiones» Exhaustiva de las RS
Umbrella review Metaepidemiología
Revisiones Combinan revisiones de extensión con otras de profundidad o con aspectos particulares de otras revisiones: tres ejemplos serían «Revisión exploratoria de revisiones
anidadas rápidas» (21), «Revisión exploratoria de la conducción y análisis de la revisiones exploratorias» (22) o «Revisión exploratoria de análisis conceptual sobre resiliencia
de sistemas de salud (23).
COREQ, Consolidated criteria for reporting qualitative research; eMERGe, meta-ethnography reporting guidance; ICMJE, International Committee of Medical Journal Editors; IMRAD, Introduction,
Methods, Results and Discussion; PICO, Population, Intervention, Comparison, Outcome; PRIOR, Preferred Reporting Items for Overviews of Reviews; PRISMA, Preferred Reporting Items
for Systematic Reviews and Meta-Analyses; PRISMA-DTA, PRISMA for Diagnostic Test Accuracy; PRISMA-NMA, PRISMA meta-analyses network; PRISMA-R, PRISMA Rapid reviews;
PRISMA-ScR, PRISMA for Scoping Reviews; RETREAT, Review question - Epistemology - Time/Timescale - Resources - Expertise - Audience and purpose - Type of Data; SRQR, Standards
for reporting qualitative research.
11. Lectura crítica de revisiones de la evidencia clínica 129
METAANÁLISIS
Es una técnica matemática que permite la estimación conjunta de un efecto a partir de datos
procedentes de diferentes estudios. Realmente no es sensu stricto una revisión, se incluye en este
listado para remarcar su frecuente uso impropio como sinónimo de revisión sistemática.
REVISIÓN MIXTA
Es una revisión en la que la naturaleza de la/s pregunta/s tiene partes cualitativas y partes cuan-
titativas, por ejemplo «Adherencia a tratamiento retroviral en mujeres VIH+». Por ello ha de
incluir aproximaciones cuantitativas típicas junto con estudios de naturaleza experiencial sobre
su percepción personal y social del problema. Combina, por tanto, distintos tipos de revisión sis-
temática, cualitativas y cuantitativas, con diferentes presupuestos teóricos y sus diferentes métodos
y pasos adaptados, de modo paralelo o interactivo, a cada una de las partes de la pregunta (27,28).
REVISIONES ANIDADAS
Son también revisiones de revisiones, análogas a las anteriores, en las que sobre un esquema de
«revisiones en extensión» (mapping o scoping) se incorporan diferentes tipos de revisiones (como
unidad de estudio), o aspectos concretos de otras revisiones (21,22,32). Al igual que las umbrella,
aportan una visión que combina extensión con profundidad y que puede ser de gran utilidad en la
realización o actualización de la evidencia para las recomendaciones de las guías de práctica, y en
menor medida para orientar la investigación necesaria que se debe priorizar en sistemas de salud o
ámbitos académicos, y rara vez, para informar las decisiones clínicas directas.
GRUPO 1
Revisiones en las que los métodos no son explícitos, generalmente con formato editorial libre sin
la organización IMRAD (Introducción, Material y métodos, Resultados y Discusión) caracterís-
tica de los artículos originales. Este grupo incluiría a las tres primeras revisiones del listado y de la
tabla 11.2: «Revisiones clásicas», «Revisiones críticas» y «Revisiones estado del arte».
En estas revisiones posiblemente los autores hayan definido el objetivo de la revisión, hecho su
búsqueda bibliográfica, seleccionado los estudios pertinentes, organizado la información de acuerdo
a mapas mentales o a sus conocimientos previos, realizado algunas agregaciones y redactado el
documento según su saber y talento literario. Sin embargo, el proceso no es explícito, no sabemos si
es consistente, no es posible saber si los estudios incluidos son los que deberían ser, si la valoración
© Elsevier. Fotocopiar sin autorización es un delito.
GRUPO 2
Revisiones con métodos explícitos, consistentes, definidos a priori y expresados en formato IMRAD,
pero en las que no se realiza una apreciación crítica formal de los estudios obtenidos. Se incluirían
en este grupo las «revisiones mapas de evidencia» y las «revisiones exploratorias» y la mayoría de
la «revisiones anidadas». En ellas existe un proceso formal que atañe a los puntos del 1 al 5 des-
critos en el cuadro 11.1 y por ello cabe juzgar críticamente la adecuación y consistencia de cada
uno de esos procedimientos, así como de su impacto sobre el producto u objetivo de la revisión
(que es el catálogo o mapa de evidencias existentes sobre la pregunta o el tema). Cabe, asimismo,
hacer juicios sobre el modo elegido para su ordenación (temática, histórica, geográfica, etc.), sobre
el modo de presentación (gráficos simples o complejos, tablas, narración, etc.) y sobre la forma en
que eso facilita los objetivos de esas revisiones.
En todo caso estas revisiones son, como señalamos, piezas de evidencia relevantes para orga-
nización de la investigación, la planificación de la captura de la evidencia en las guías de práctica
clínica o para la planificación de revisiones sistemáticas, aunque tienen escasa relevancia directa en
el proceso de toma de decisiones clínicas por su evidente lejanía.
GRUPO 3
Revisiones con métodos explícitos y consistentes definidos a priori con formato IMRAD + con
valoración crítica de los estudios incluidos + con o sin agregación numérica. En este grupo se
incluirían el resto de las revisiones señaladas de la 9 a la 13 (revisión sistemática, revisión sistemática
rápida, revisión sistematizada, síntesis de evidencia cualitativa, revisión sistemática mixta, revisión
sistemática realista y revisión de revisiones), aunque por su trascendencia clínica en el libro nos
centraremos exclusivamente en las revisiones sistemáticas.
En este grupo vale lo comentado en el punto anterior respecto de los juicios de valor sobre las
fases 1-5 del proceso (v. cuadro 11.1) y sobre si los estudios incluidos son los que deben ser. Respecto
de la valoración crítica, los elementos que condicionan la validez de un estudio son dependientes
del diseño tanto en el caso de estudios cualitativos como cuantitativos. En el caso de las revisiones
sistemáticas agregativas, habituales en la clínica, al tratarse de un estimador conjunto del efecto
hablamos de sesgo o desviación de la auténtica estimación, y en estas revisiones nos referimos a
dos conceptos esencialmente distintos.
Riesgo de sesgo
Se refiere al riesgo de desviación de la estimación obtenida respecto de la correcta, es decir, al
juicio de valor sobre la validez de cada estudio de la revisión. Esto lo hemos estudiado en capítulos
precedentes con argumentos diversos, pero siempre es un juicio complejo y por tanto susceptible de
discrepancias. En el caso de las revisiones sistemáticas es particularmente crítico que los juicios de
valor sobre el riesgo de sesgo sean consistentes entre los diversos lectores. Por ello para juzgar ese
riesgo de sesgo se han desarrollado diferentes instrumentos según el tipo de estudios que incluya
la revisión sistemática, y que veremos en capítulos sucesivos.
En el caso de las revisiones sistemáticas este juicio ha de realizarse individualmente para cada
uno de los artículos incluidos, para el conjunto de los artículos de la revisión y para el método de
combinación de los estudios.
Abordaremos, en capítulos sucesivos, ese concepto para cada una de las revisiones que trataremos:
de ensayos clínicos aleatorios, revisiones con metaanálisis en red, de exactitud de los test diagnós-
ticos, de factores pronósticos. Mostraremos su uso práctico asociando los resultados estimados a
la certidumbre en la estimación en las llamadas «Tablas de sumario de evidencias de GRADE»
(Summary of Findings Table, SoF), y trataremos con más profundidad los detalles sobre cómo
se llega a esos juicios sobre la certidumbre en los cuerpos de evidencia y su valor para realizar
recomendaciones para guías o aplicación a la clínica en los capítulos 17 y 18.
Conclusión
En el mundo actual, con una enorme proliferación de los estudios y con un crecimiento exponencial
de las evidencias, los métodos para la colección, ordenación y síntesis de esas evidencias constituyen
un reto intelectual y tecnológico de primer orden. Por ello las técnicas de revisión de la evidencia
han evolucionado hacia formas definidas y más sofisticadas de revisión y están en continua trans-
formación y progreso.
Cada una de ellas responde a diferentes objetivos, los formatos del primer grupo tienen interés
clínico relativo y sobre todo tienen valor docente porque suelen incluir preguntas generales e
información preclínica. El segundo tipo de revisiones tiene una vocación de exploración extensiva
de un territorio de evidencia o de conocimiento, por ello son de gran valor para la planificación de
la investigación en sistemas de salud o en áreas académicas o para la planificación de la, necesaria,
renovación de la evidencia en guías de práctica clínica. El tercer tipo de revisiones está más enfocado
en preguntas específicas con formato PICO y tiene más cercanía con las necesidades clínicas de
evidencias para la acción.
Cada una de ellas precisa de una lectura crítica adecuada a sus objetivos y peculiaridades. En
adelante, en este libro abordaremos la lectura crítica de las revisiones sistemáticas de los estudios
relevantes para las decisiones clínicas y eludiremos otras formas de indudable interés para otros
ámbitos.
Bibliografía
1. Davies K. The information-seeking behaviour of doctors: a review of the evidence. Health Inf Libr J
2007;4:78-94.
2. Mulrow CD. The Medical Review Article: State of the Science. Ann Intern Med 1987;106(3):485-8.
3. Grant MJ, Booth A. A typology of reviews: an analysis of 14 review types and associated methodologies:
A typology of reviews. Health Inf Libr J 2009;26(2):91-108.
4. Gough D, Thomas J, Oliver S. Clarifying differences between review designs and methods. Syst Rev
2012;1(1):28.
5. Ream E, Richardson A. Fatigue: a concept analysis. Int J Nurs Stud 1996;33(5):519-29.
© Elsevier. Fotocopiar sin autorización es un delito.
6. Farragher JF, Polatajko HJ, Jassal SV. The Relationship Between Fatigue and Depression in Adults With
End-Stage Renal Disease on Chronic In-Hospital Hemodialysis: A Scoping Review. J Pain Symptom
Manage 2017;53(4):783-803. e1.
7. Jacobson J, et al. Patient Perspectives on the Meaning and Impact of Fatigue in Hemodialysis: A Systematic
Review and Thematic Analysis of Qualitative Studies. Am J Kidney Dis 2019;74(2):179-92.
8. Munn Z, Stern C, Aromataris E, Lockwood C, Jordan Z. What kind of systematic review should I
conduct? A proposed typology and guidance for systematic reviewers in the medical and health sciences.
BMC Med Res Methodol 2018;18(1):5.
9. Rud B, Vejborg TS, Rappeport ED, Reitsma JB, Wille-Jørgensen P. Computed tomography for diagnosis
of acute appendicitis in adults. Cochrane Database Syst Rev 2019;(11):CD009977.
10. Yang Y, et al. Prognosis of unrecognised myocardial infarction determined by electrocardiography or
cardiac magnetic resonance imaging: systematic review and meta-analysis. BMJ 2020;369:m1184.
11. Natale P, Palmer SC, Ruospo M, Saglimbene VM, Rabindranath KS, Strippoli GF. Psychosocial interven-
tions for preventing and treating depression in dialysis patients. Cochrane Database Syst. Rev 2019;12(12):
CD004542.
12. Lunney M, et al. Pharmacological interventions for heart failure in people with chronic kidney disease.
Cochrane Database Syst. Rev. Feb 2020;2(2):CD012466.
13. International committee of Medical Journal Editors. Recommendations for the Conduct, Reporting,
Editing, and Publication of Scholarly Work in Medical Journals. 2019. [Fecha de último acceso: 19 de
octubre de 2020]. Disponible en: http://www.icmje.org/recommendations/.
14. Krnic Martinic M, Pieper D, Glatt A, Puljak L. Definition of a systematic review used in overviews of
systematic reviews, meta-epidemiological studies and textbooks. BMC Med Res Methodol 2019;19(1):203.
15. de Cabo R, Mattson MP. Effects of Intermittent Fasting on Health, Aging, and Disease. N Engl J Med
2019;381(26):2541-51.
16. Lee A, Xie YL, Barry CE, Chen RY. Current and future treatments for tuberculosis. BMJ 2020;368:m216.
17. Soaita AM, Serin B, Preece J. A methodological quest for systematic literature mapping. Int J Hous Policy
2019;20(3):1-24.
18. Bush PL, García Bengoechea E. What do we know about how to promote physical activity to adolescents?
A mapping review. Health Educ Res 2015;30(5):756-72.
19. Arksey H, O’Malley L. Scoping studies: towards a methodological framework. Int J Soc Res Methodol
2005;8(1):19-32.
20. Levac D, Colquhoun H, O’Brien KK. Scoping studies: advancing the methodology. Implement Sci
2010;5(1):69.
21. Tricco AC, et al. A scoping review of rapid review methods. BMC Med 2015;13(1):224.
22. Tricco AC, et al. A scoping review on the conduct and reporting of scoping reviews. BMC Med Res
Methodol 2016;16(1):15.
23. Turenne CP, Gautier L, Degroote S, Guillard E, Chabrol F, Ridde V. Conceptual analysis of health systems
resilience: A scoping review. Soc Sci Med 2019;232:168-80.
24. Munn Z, Peters MDJ, Stern C, Tufanaru C, McArthur A, Aromataris E. Systematic review or scoping
review? Guidance for authors when choosing between a systematic or scoping review approach. BMC
Med Res Methodol 2018;18:143.
25. Barr-Walker J. Evidence-based information needs of public health workers: a systematized review. J Med
Libr Assoc 2017;105(1):69-79.
26. Booth A, et al. Structured methodology review identified seven (RETREAT) criteria for selecting
qualitative evidence synthesis approaches. J Clin Epidemiol 2018;99:41-52.
27. Voils CI, Sandelowski M, Barroso J, Hasselblad V. Making Sense of Qualitative and Quantitative Findings
in Mixed Research Synthesis Studies. Field Methods 2008;20(1):3-25.
28. Sandelowski M, Voils CI, Leeman J, Crandell JL. Mapping the Mixed Methods-Mixed Research Synthesis
Terrain. J Mix Methods Res 2012;6(4):317-31.
29. Minian N, et al. Identifying contexts and mechanisms in multiple behavior change interventions affecting
smoking cessation success: a rapid realist review. BMC Public Health 2020;20(1):918.
30. Hunt H, Pollock A, Campbell P, Estcourt L, Brunton G. An introduction to overviews of reviews: planning
a relevant research question and objective for an overview. Syst Rev 2018;7:159.
31. Lunny C, et al. Impact and use of reviews and ‘overviews of reviews’ to inform clinical practice guideline
recommendations: protocol for a methods study. BMJ Open 2020;10(1):e031442.
32. Timpel P, Oswald S, Schwarz PE, Harst L. Mapping the Evidence on the Effectiveness of Telemedicine
Interventions in Diabetes, Dyslipidemia, and Hypertension: An Umbrella Review of Systematic Reviews
and Meta-Analyses. J Med Internet Res 2020;22(3):e16791.
OB J ETIV OS D EL CA PÍ TULO
Introducción
La mejor evidencia sobre intervenciones de tratamiento o prevención (ITP) se obtiene de las revisiones
sistemáticas (RS) de ensayos aleatorios. Estas revisiones recopilan de modo estructurado, consistente y
prefijado toda la evidencia publicada o no sobre una pregunta PICO, extraen los datos de los estudios
y construyen estimaciones agregadas de los efectos de las intervenciones (metaanálisis). Por ello son de
enorme utilidad en la toma de decisiones sobre actividad clínica y en la elaboración de guías de práctica
clínica, de modo que constituyen la piedra angular en el uso de la evidencia en la clínica. Cuando
queremos saber si una intervención preventiva o una forma de tratar a los pacientes es mejor o peor
que otra, por ejemplo, mejorar los reingresos o la mortalidad en una enfermedad u otra, el diseño ideal
es una RS de ensayos clínicos que aborde la pregunta en cuestión. Fiarlo todo al resultado de un solo
ensayo si existen muchos ensayos, no parece una respuesta sensata, pues podría proporcionarnos una
respuesta que no represente la situación real y fuera más bien una situación particular. La gran cantidad
de ensayos de ITP que se generan y la necesidad de estar al día hace que necesitemos documentos
de síntesis que estén sujetos al menor sesgo posible y que representen una aproximación a «la verdad
sobre la cuestión». El crecimiento de RS a lo largo de la última década ha sido exponencial, duplicando
el número de las publicaciones cada 5 años. La proliferación de este tipo de RS hace que debamos
conocer la forma en las que están construidas y presentadas, para decidir sobre la validez de las mismas.
Escenario
Te encuentras en tu centro de salud pasando consulta. Acude una paciente de 17 años con un dolor
de garganta de intensidad considerable, que le impide concentrarse para estudiar las pruebas de
acceso a la Universidad, que tiene que hacer de forma inminente.
Sadeghirad B, et al. Corticosteroids for treatment of sore throat: systematic review and meta-
analysis of randomised trials. BMJ 2017;358:j3887.
través de la evaluación del riesgo de sesgo entre los ensayos y de la calidad o certeza de la
evidencia en cada resultado.
■ Una presentación sistemática y una síntesis, que incluya las características y los hallazgos de
Pregunta clínica
Habitualmente, la RS de ITP se construye para responder a una pregunta clínica claramente
formulada. La mejor forma de hacerlo es mediante el acrónimo PICO ya comentado al abordar el
ensayo clínico en el capítulo 5.
P (PARTICIPANTES). A diferencia de lo que ocurre en los ensayos, donde los participantes
son los pacientes o individuos, los participantes aquí son los propios ensayos clínicos (EC) realizados
sobre pacientes que presentan una determinada condición objeto de nuestro interés. A diferencia
del PICO de los ensayos, la incorporación de poblaciones diferentes a través de los estudios (edades,
comorbilidad, diferentes estadios evolutivos, etc.) introduce una fuente de heterogeneidad que no
aparece en los ensayos. Normalmente, en los textos se referencia que la unidad de análisis son los
estudios. Solo en los metaanálisis de pacientes individuales la unidad de análisis son los enfermos.
Estos se confeccionan con los datos crudos de los ensayos a los que acceden los investigadores, lo
que permite explorar más información relevante.
I (INTERVENCIÓN). La intervención objeto de la revisión es la prevención o el tratamiento
que se somete a prueba, ya sea un fármaco concreto, un grupo de ellos o cualquier otra actuación
terapéutica, preventiva, ruta clínica u organizativa que ha sido estudiada en los ensayos originales.
panoamérica, sería interesante que los autores incluyesen LILACS para buscar artículos de autores
latinoamericanos. En cualquier caso, la elección de las bases de datos dependerá de los problemas
clínicos que se aborden.
Los registros de EC como http://controlled-trials.com, http://clinicaltrials.gov y la World Health
Organization (WHO) trial portal son bases de datos internacionales que constituyen una de las
mayores fuentes de información sobre EC. Allí podemos encontrar: ensayos en sus diferentes fases sin
haber concluido y ensayos terminados, en ocasiones con resultados sin publicar. Identificar estos regis-
tros facilita en futuras actualizaciones que no se pierdan estos si no se llegaran a publicar los resultados.
El lector debe revisar si los autores de la revisión sistemática se pusieron en contacto con los
autores de los estudios individuales que se incluyeron en la revisión sistemática, ya que pueden ser
fuente de información adicional de otros estudios no publicados, así como si hubo contacto con
los patrocinadores de los estudios.
Asimismo, se debe chequear si se intentó encontrar en las referencias de los estudios localizados
otros estudios originales que no estuvieran localizados. Por último, se debe revisar si se abarcó la lite-
ratura gris que abarca los repertorios de congresos, o tesis doctorales, que pueden ayudar a localizar
pequeños ensayos clínicos que no se han llegado a publicar en revistas. La inclusión de literatura
gris parece que incrementa solo discretamente los resultados a favor de la revisión a estudio (3).
Estos cálculos producen una media ponderada de los efectos de los tratamientos. Estos efectos
dependen de los resultados estudiados. Si los valores son dicotómicos (por ejemplo, los pacientes
mueren o no), los resultados los podemos presentar como diferencia absoluta entre vivos y muertos,
también llamada diferencia absoluta de riesgos (DAR), proporción entre muertos y vivos, riesgo
relativo u odds ratio (RR u OR), que ya se han explicado en el capítulo de EC. Si los valores son
continuos, los resultados se presentan como diferencia de medias, bien de forma absoluta cuando están
medidas en las mismas unidades, o de forma ponderada, cuando la forma de medirlas es a través de
distintos instrumentos, como por ejemplo diferentes cambios en las escalas de depresión. El forest plot
es el gráfico que presenta los resultados de cada estudio con el valor final agregado de todos los estudios.
La estimación puntual de cada estudio individual se presenta como un cuadrado, cuyo tamaño es
proporcional al peso de dicho estudio en el resultado combinado y la precisión de dicha estimación,
es decir, los intervalos de confianza, se representan mediante una línea horizontal. En general los
estudios de menor tamaño tienen menos precisión y su contribución a la estimación global del
efecto recibe una menor ponderación.
El resultado combinado de todos los estudios se muestra como un rombo o diamante cuya
amplitud horizontal representa los intervalos de confianza de la estimación global, es decir, el
rango de valores entre los que el verdadero valor del efecto es probable que se sitúe. Su significación
estadística se valora observando si su amplitud incluye la línea de no significación (1 si se trata de
OR o RR y 0 si se trata de diferencia de riesgos o diferencia de medias). Cuando los resultados se
presentan en forma de OR o RR el forest plot utiliza una escala logarítmica.
El forest plot permite explorar visualmente la existencia de heterogeneidad, viendo si las estima-
ciones puntuales de cada estudio son muy diferentes entre sí y en qué grado se solapan los IC. Hay
diferentes estadísticos que miden heterogeneidad, pero el más frecuentemente usado es el I2. Un
valor de menos de 40% se considera indicativo de heterogeneidad baja. Entre 30-60% sugiere una
probabilidad moderada de heterogeneidad, entre 50-90% puede ser sustancial y entre 75 y 100%
considerable. Estos valores se solapan reafirmando la idea de que los intervalos se han establecido
de manera orientativa.
Grandes diferencias en las estimaciones puntuales de cada estudio e IC que no se solapan
sugieren heterogeneidad. En cualquier caso, la heterogeneidad es una cuestión del clínico más que
del estadístico. Las figuras 12.1 y 12.2 representan respectivamente un forest plot sin heterogeneidad
y con heterogeneidad estadística. En la primera, los intervalos de confianza se solapan, mientras que
en la segunda no todos los estudios se solapan y algunos claramente tienen resultados opuestos (C
y E). El estadístico de heterogeneidad es 0 en el primero mientras que llega al 68% en el segundo.
Las diferencias que existen en los ensayos siempre van a introducir un grado de heterogeneidad
en las revisiones: diferencias en fármacos, dosis, vías de administración, pacientes, estadio evolutivo,
seguimientos, calidad de los estudios, etc. Sin la plausibilidad de que los tratamientos afecten de
© Elsevier. Fotocopiar sin autorización es un delito.
forma similar, a pesar de estas diferencias, no se deberían combinar los resultados individuales para
extraer una conclusión global. Sin embargo, puede ser útil combinarlos para comprobar cómo afectan
Figura 12.1 Forest plot que mide el riesgo de mejorar en la cefalea con el nuevo tratamiento en relación con
el tratamiento control. El valor de I2 es de cero, no sugiriendo heterogeneidad estadística.
Figura 12.2 Forest plot que compara la mortalidad de un nuevo tratamiento para la cefalea. Los IC 95% de
todos los estudios no se solapan y la I2 es del 63%, sugiriendo heterogeneidad importante.
estas diferencias al resultado final. Podría incluso considerarse hacer recomendaciones específicas
para diferentes subgrupos de pacientes, grupos o tratamientos.
Los forest plot se realizan de acuerdo con dos asunciones: la del modelo de efectos fijos y la
del modelo de efectos aleatorios. El primero asume ausencia de diferencias entre los estudios por
poblaciones e intervenciones muy homogéneas, y el segundo, que estas diferencias pueden ser
importantes. El segundo es más conservador y produce intervalos de confianza más amplios. Aunque
en los protocolos se debe establecer qué modelo a priori se va a usar, lo habitual es confirmar la
consistencia de los resultados para valorar la heterogeneidad con los dos modelos.
ANÁLISIS DE SUBGRUPOS
El análisis de subgrupos o estratificado consiste en realizar metaanálisis para diferentes características o
categorías de los estudios y valorar si los resultados combinados son diferentes entre sí (por ejemplo, si
hay diferencias del efecto entre adultos y niños, entre dosis diferentes, lugares geográficos o calidad de
la evidencia). Para comprobar esto y descartar que esta variación se deba al azar es necesario realizar la
prueba de interacción, cuya significación inferior < 0,10 sugiere un diferente efecto de la intervención
en los subgrupos. Hay que recordar que los análisis de subgrupos son de tipo observacional y, salvo
que tengamos datos individuales de los pacientes dentro de los ensayos, pueden producir hallazgos que
en realidad no existan, pues los subgrupos pueden no estar balanceados al no derivarse de una
asignación al azar. En el ensayo ISIS-2 se demostró beneficio de la aspirina sobre el placebo en todos
los sujetos, pero en dos signos astrológicos de los pacientes, este no parecía existir (5). A más análisis
de subgrupos, más posibilidad de producir hallazgos, que en realidad pueden no existir.
La metarregresión es una extensión del análisis por subgrupos que permite investigar simultá-
neamente el efecto de características categóricas (vía de administración, sexo, calidad de los estudios)
y continuas (edad, dosis, tamaño muestral).
ANÁLISIS DE SENSIBILIDAD
El análisis de sensibilidad pretende medir la consistencia del estimador final. Para ello se repite
tantas veces el metaanálisis como estudios tenga la revisión, eliminándose en cada paso uno de
ellos y dejando el resto. Si los resultados de los distintos metaanálisis son similares en magnitud,
dirección y efecto, se puede concluir que los resultados son confiables o robustos. En caso contrario
no se tendría un estimador robusto, lo cual exigiría cierta precaución en la interpretación de los
resultados o podría ser motivo para generar nuevas hipótesis.
El análisis de sensibilidad también puede utilizarse para estudiar la influencia en los resultados
del metaanálisis de ciertos aspectos relacionados con la validez de los estudios, como por ejemplo
IMPRECISIÓN
Los estudios con pocos pacientes probablemente tendrán intervalos de confianza grandes, sobre todo
si los resultados son poco numerosos. En este caso se recomienda bajar un escalón por imprecisión.
Por regla general se sugiere bajar un escalón si los intervalos de confianza sobrepasan el 0,75 por
abajo o el 1,25 por arriba.
Otra forma de medir imprecisión, además de los intervalos de confianza, es considerar si el
número total de pacientes incluido en la revisión para el resultado estimado es inferior al del tamaño
de un ensayo clínico con un tamaño muestral con suficiente poder estadístico. En este caso habría
que bajar también un escalón por imprecisión.
Para estudios con pocos eventos y tamaños muestrales grandes en los grupos podría parecer
que los riesgos relativos son similares. En este caso se conseja usar medidas absolutas como las
diferencias de riesgo y disminuir la confianza por imprecisión, si esta es amplia.
INCONSISTENCIA
La inconsistencia se evalúa y se cuantifica a la baja cuando los valores promedios de los estudios
individuales son claramente diferentes entre sí, sus intervalos de confianza no se solapan o los
© Elsevier. Fotocopiar sin autorización es un delito.
estadísticos que miden la heterogeneidad general son menores de p < 0,1. Si se ha hecho análisis
de subgrupos, los análisis son creíbles y se muestran, no hay porque bajar la calidad por inconsis-
tencia. En caso de que los subgrupos sean plausibles, pero los resultados sean muy improbables
y se exprese solo una estimación final de un solo valor final agregado, debería bajar la calidad al
menos un escalón.
NATURALEZA INDIRECTA
Cuando existen comparaciones indirectas de un fármaco A contra placebo y de B contra placebo,
pero no existe comparación de A contra B, estamos ante una comparación indirecta. Otras formas
de comparación indirecta incluyen diferencias en el tipo de población, por ejemplo, diferentes
grados de enfermedad o diferentes cointervenciones, diferencias en la forma de medir el resultado
o la existencia de un resultado subrogado. En estos casos debería bajarse la calidad.
Figura 12.3 Funnel plot de una revisión sistemática. A. La distribución de los estudios a ambas partes del
verdadero efecto sugiere que no existe sesgo de publicación, pues los estudios de menor tamaño muestral
por azar se supone que se distribuirían a ambos lados del gráfico de forma parecida. B. La falta de estudios
a la derecha de la línea media sugiere un posible sesgo de publicación.
cuestión. Se deberían dejar fuera de este resumen de evidencia los resultados subrogados y no
centrados en los valores que resultan importantes para los pacientes. Idealmente no se deberían
presentar más de siete resultados. Se deben mostrar los efectos secundarios, si los hubiera, para
tener un balance riesgo/beneficio. En la tabla se expresan las unidades en que se mide cada
resultado y la interpretación de estas, así como el tiempo de seguimiento en cada uno de estos.
ALTA CALIDAD: es muy improbable que las investigaciones adicionales modifiquen la certidumbre
con respecto al cálculo del tamaño del efecto.
MODERADA: probablemente las investigaciones futuras tendrán una repercusión importante en la
certeza respecto al cálculo del efecto y pueden modificarlo.
BAJA: muy probablemente investigaciones adicionales tendrán una repercusión importante en la certeza
respecto al cálculo del efecto y es muy posible que lo modifiquen.
MUY BAJA: cualquier cálculo del efecto es muy poco fiable. Es muy necesaria más investigación para
estimar el efecto.
Se debe describir si existe riesgo de sesgo en cada una de las áreas de GRADE, etiquetándolo
como Ninguno/no; Serio/Muy serio. Si el resultado es cualquiera de los dos últimos, hay que
poner una llamada para explicar por qué se ha etiquetado de esta forma. Por último, se expresan
los resultados de los estudios, que incluyen: pacientes incorporados en cada rama para cada
resultado, número de ensayos incluidos para cada resultado, y el estimador relativo y/o absoluto.
Finalmente, la certeza que supone ese resultado y, en caso de los SoF, una interpretación literal
de la misma. La gradación va desde una certeza muy importante en los efectos que nos presentan
a una muy baja certeza en la estimación de estos (cuadro 12.1).
En el caso del SoF del artículo que es analizado en este capítulo, para el primer resultado
(resolución completa del dolor a las 24 h), se etiqueta como certidumbre MODERADA y se des-
cribe como: «los corticoides probablemente incrementan la posibilidad de una resolución completa
del dolor a las 24 h», mientras que el resultado de «la prescripción de antibióticos» o «tiempo medio
hasta la resolución completa del dolor» son etiquetados como certidumbre BAJA y se describen de
la siguiente manera: «los corticoides pueden disminuir la posibilidad de tomar antibióticos o pueden
acortar la duración del dolor».
PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses) es el
consenso de escritura para desarrollar una revisión sistemática en la actualidad. Seguir cada uno de
los apartados permite evaluar todos los apartados de una revisión sistemática (10).
Es habitual que los protocolos de las revisiones estén disponibles en registros como
PROSPERO, en la Universidad de York (https://www.crd.york.ac.uk/PROSPERO/) o en publi-
caciones como en la Colaboración Cochrane.
En la parte final de una RS, tras exponer los resultados, el lector debería encontrar una reflexión
en la que se hiciera un balance sobre lo completa o no que es la misma. No es infrecuente que los
tiempos de seguimiento para determinadas variables que son importantes en la revisión sean cortos
o los efectos secundarios se hayan medido en pocos ensayos.
Otra de las cuestiones para revisar es la certeza sobre los efectos de las intervenciones que se
ha examinado, pues en los etiquetados como bajos o muy bajos, cualquier nuevo estudio podría
cambiar el sentido del efecto, o en el último caso el estimador puede ser cualquier otro distinto
al reportado.
Debiera tomarse en consideración si existen comparaciones solo contra placebo y se han obviado
comparaciones contra otras alternativas igualmente eficaces. El lector debe revisar si se plantea un
balance riesgo/beneficio entre la mejora que produce el tratamiento que se pone a prueba y los
posibles efectos adversos. Así, otros actores emergen a la hora de decidir más allá de la calidad de
la evidencia: las preferencias de los pacientes y los efectos adversos (11).
EVIDENCIA EN CONTEXTO
Poner a la evidencia reportada en contexto con otras revisiones sistemáticas producidas sobre el
mismo tema permite comprobar si existen diferencias importantes sobre las conclusiones acerca de
la misma. Diferencias mínimas en la formulación de la pregunta de investigación pueden cambiar
los criterios de inclusión de los estudios, agregar diferentes comparadores o tiempo de seguimiento
y producir resultados distintos.
Artículo
Sadeghirad B, et al. Corticosteroids for treatment of sore throat: systematic review and meta-analysis
of randomised trials. BMJ 2017;358:j3887. Disponible en: http://dx.doi.org/10.1136/bmj.j3887.
(Continúa)
Preguntas detalladas
3. ¿Crees que estaban Sí ✓ No sé No
incluidos los estudios Sí. Esta revisión es una actualización de otra previa hecha para
importantes Cochrane. Aceptan por buena la búsqueda bibliográfica realizada en
y pertinentes? esa primera revisión, y actualizan la búsqueda desde el 1 de enero de
PISTAS 1: 2010. De ese modo se solapan 2 meses con lo buscado en la revisión
• ¿Qué bases de datos Cochrane. La búsqueda se llevó a cabo en Medline, Embase y en
bibliográficos se han el Cochrane Central Register of Controlled Trials (CENTRAL).
usado? ¿Qué estrategia Buscaron también en clinicaltrials.org, pero no en metarregistros
de búsqueda? o en la plataforma de registros internacionales de ensayos clínicos
• Seguimiento de las (ICTRP) de la OMS. No hubo restricción por idioma (es decir,
referencias. no se rechazaron ensayos clínicos que no estuviesen en inglés).
• Contacto personal No mencionaron la búsqueda de literatura gris. Tampoco se hizo
con autores. referencia a si se pusieron en contacto con los autores para recabar
• Búsqueda de estudios no información e indagar sobre otros estudios no publicados. Sí buscaron
publicados y de resultados en las referencias bibliográficas de los ensayos clínicos incluidos.
no publicados-control de
los protocolos originales.
• Idiomas distintos
del inglés.
PISTAS 2:
• Criterios de inclusión/
exclusión.
• Selección de estudios.
• Extracción de datos.
4. ¿Crees que los autores Sí ✓ No sé No
de la revisión han Sí. Cuatro revisores trabajando por pares extrajeron los datos y
hecho suficiente evaluaron de forma independiente (es decir, cada uno trabajando por
esfuerzo para valorar la su lado, no revisando a la vez los artículos) la calidad metodológica
calidad de los estudios de cada ensayo con la herramienta de medición del riesgo (Risk of
y de los resultados bias tool: RoB) de Cochrane, que evalúa aleatorización, cegamiento,
incluidos? reporting bias y otros riesgos. También evaluaron la certidumbre
PISTA 1: el «riesgo en cada resultado a través de GRADE. Seleccionan los estudios
de sesgo» depende de acuerdo a criterios de inclusión y exclusión definidos en los que
(Cochrane RoB1): añadieron un apartado para la exclusión de menos de 5 años por
• Secuencia RZ. lo difícil de valorar el dolor de forma creíble a esa edad. De forma
• Ocultación de la secuencia duplicada extrajeron los datos de acuerdo a: autores, año, localización,
de aleatorización. diagnóstico, tamaño de estudio, edad, etc.
• Cegamiento. En el apéndice 2 se describe el riesgo de sesgo para cada uno
• Pérdidas (atrición). de los estudios. Diez ensayos en los que en cuatro hay algún dominio
• Reporte selectivo con alto riesgo de sesgo, especialmente en el ensayo de Ahn.
de desenlaces. La figura 2 estudia la resolución completa del dolor a las 24 h. RR
• Otros. 2,24 (1,17-4,29). El dolor es una variable subjetiva que bien podría
PISTA 2: valorar para verse afectada por la ausencia de cegamiento. Revisemos el riesgo de
cada desenlace, en cada sesgo de los ensayos para este resultado de los estudios involucrados.
estudio y en el conjunto La descripción de estos está en el apéndice 2 como tabla adicional. La
de estudios. descripción que se ve es alto riesgo de sesgo por falta de ocultación
de la secuencia de la aleatorización en los artículos de Ahn y Marvez
Valls y falta de cegamiento del resultado en Ahn y O’Brien. El resto
está de color verde, lo que implica bajo riesgo de sesgo. Ninguno
de estos ensayos aparece para este resultado, lo que significa que la
valoración que debiera hacerse es bajo riesgo de sesgo.
(Continúa)
7. Para el conjunto de Sí ✓ No sé No
los estudios (en cada Sí.
desenlace concreto) Riesgo de sesgo en los desenlaces: para la resolución del dolor a las
• «Riesgo de sesgo en los 24 h ya ha sido comentado con anterioridad.
desenlaces». Inconsistencia: el material auxiliar del apéndice 3 explora si existe
• ¿Cuál es la precisión interacción entre los subgrupos y analiza los supuestos antes
de los resultados? comentados (adultos/niños, oral/parenteral, atención primaria/
• ¿Son consistentes los urgencias, etc.) y no la encuentra. Es evidente que existe
resultados de los estudios heterogeneidad clínica, de tratamientos, etc., hay una I2 en la figura
para cada desenlace? de 69%, pero no se degrada debido a que se ha hecho análisis de
• ¿Es indirecta la subgrupos, los análisis son creíbles y se muestran en la información
evidencia en algún adicional. De hecho, los autores declaran que no bajan la calidad
desenlace? por inconsistencia.
• Sesgo de publicación para Evidencia indirecta: hay diferencias en la población pues se incluye
ese desenlace incluido a niños al menos en esta variable, lo que implica bajar un escalón.
en el protocolo pero no También hay efectos indirectos derivados del hecho de que algunos
mostrado. de estos estudios para esta variable incluyen dexametasona (DXM)
IM y otros DXM oral, diferentes dosis de DXM oral y otros
corticoides como prednisona y betametasona, lo que debería llevar
asociado bajar otro escalón al menos. GRADE aconseja bajar al
menos dos escalones si hay más de una fuente de naturaleza indirecta
afectada. Los autores no bajaron la calidad ningún escalón por este
ítem.
Imprecisión: los autores bajan un escalón por imprecisión. Lo justifican
porque el límite inferior sugiere beneficio discreto, y el límite
superior, gran beneficio. Hemos calculado las diferencias absolutas,
como aconseja GRADE, y son de 0,19 (0,04-0,33). No nos parecen
tan imprecisos, ni los valores absolutos ni los relativos, por lo que
nuestra valoración no se degradaría en este apartado.
Sesgo de publicación: no se reporta.
Finalmente, por motivos distintos a los autores de la revisión, la
calificación quedaría en MODERADA para este resultado. Esto
sugiere que existe una certidumbre moderada para quedar sin dolor
a las 24 h.
C) ¿Son los resultados aplicables en tu medio?
8. ¿Se pueden aplicar Sí ✓ No sé No
los resultados en tu La enferma podría estar representada por cualquiera de los ensayos que
medio? aparecen en la revisión. Los corticoides son los mismos, los cuidados
PISTA: considera si: son similares, la prevalencia de comorbilidad podría ser similar, etc.
• Los pacientes cubiertos No hay nada diferente que nos sugiera que estamos alejados
por la revisión pueden ser del escenario propuesto.
suficientemente diferentes Es más, los resultados incluyen la representación de estudios que
de los de tu área. obtienen pacientes de atención primaria, no solo de situaciones
• Tu medio parece ser muy de mucha más severidad como podrían ser pacientes atendidos
diferente al del estudio. en urgencias.
Bibliografía
1. Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, et al. Cochrane Handbook for Systematic
Reviews of Interventions. 2nd ed. Chichester: John Wiley & Sons; 2019.
2. Knight SR, Ho A, Pius R, Buchan I, Carson G, Drake TM, et al. Risk stratification of patients admitted
to hospital with covid-19 using the ISARIC WHO Clinical Characterisation Protocol: development and
validation of the 4C Mortality Score. BMJ 2020;370:m3339.
3. Hopewell S, McDonald S, Clarke MJ, Egger M. Grey literature in meta-analyses of randomized trials of
health care interventions. Cochrane Database Syst Rev 2007;(2):MR000010.
4. Latour Pérez J, Cabello López JB. Interrupción precoz de los ensayos clínicos. ¿Demasiado bueno para
ser cierto? Med Int 2007;31(9):518-20.
5. Sleight P. Debate: Subgroup analyses in clinical trials: fun to look at - but don’t believe them! Curr Control
Trials Cardiovasc Med 2000;1(1):25-7.
6. Dwan K, Gamble C, Williamson PR, Kirkham JJ. The Reporting Bias Group. Systematic Review of the
© Elsevier. Fotocopiar sin autorización es un delito.
Empirical Evidence of Study Publication Bias and Outcome Reporting Bias — An Updated Review.
PLoS ONE 2013;8(7):e66844.
7. Turner EH, Tell RA. Selective Publication of Antidepressant Trials and Its Influence on Apparent Efficacy.
New Engl J Med 2008;358:252-60.
8. Doshi P, Jefferson T, Del Mar C. The Imperative to Share Clinical Study Reports: Recommendations
from the Tamiflu Experience. PLoS Med 2012;9(4):e1001201.
9. Garmendia CA, Nassar Gorra L, Rodriguez AL, Trepka MJ, Veledar E, Madhivanan P. Evaluation of
the Inclusion of Studies Identified by the FDA as Having Falsified Data in the Results of Meta-analyses:
The Example of the Apixaban Trials. JAMA Intern Med 2019;179(4):582-4.
10. PRISMA. [Fecha de última consulta: 20 de septiembre de 2020]. Disponible en: http://prisma-statement.
org/Extensions/.
11. Andrews JC, Schünemann HJ, Oxman AD, Pottie K, Meerpohl JJ, Coello PA, et al. GRADE guidelines:
15. Going from evidence to recommendation — determinants of a recommendation’s direction and strength.
J Clin Epidemiol 2013;66:726-35.
12. Murad MH, Montori VM, Ioannidis JPA, Jaeschke R, Devereaux PJ, Prasad K, et al. How to Read a
Systematic Review and Meta-analysis and Apply the Results to Patient Care: Users’ Guides to the Medical
Literature. JAMA 2014;312(2):171-9.
13. Andrews JC, Schünemann HJ, Oxman AD, Pottie K, Meerpohl JJ, Coello PA, et al. GRADE guidelines:
15. Going from evidence to recommendation — determinants of a recommendation’s direction and strength.
J Clin Epidemiol 2013;66(7):726-35.
14. Eisenberg JM. Globalize The Evidence, Localize The Decision: Evidence-Based Medicine And Inter-
national Diversity. Health Affairs 2002;21(3):166-8.
15. Khazanie P, Allen LA. Meta-Analysis of Medication Adherence Interventions Among Heart Failure
Patients: The Lumpers Make Their Case. J Am Heart Assoc 2016;5(6):e003827.
16. Ruppar TM, Cooper PS, Mehr DR, Delgado JM, Dunbar-Jacob JM. Medication Adherence Interventions
Improve Heart Failure Mortality and Readmission Rates: Systematic Review and Meta-Analysis of Con-
trolled Trials. Journal of the American Heart Association 2016;5(6):e002606.
17. Olsen MF, Bjerre E, Hansen MD, Tendal B, Hilden J, Hróbjartsson A. Minimum clinically important
differences in chronic pain vary considerably by baseline pain and methodological factors: systematic
review of empirical studies. J Clin Epidemiol 2018;101:87-106. e2. Disponible en: https://tinyurl.com/
y4nmhgpt.
18. Linder JA, Singer DE. Health-related quality of life of adults with upper respiratory tract infections.
J Gen Intern Med 2003;18(10):802-7.
OB J ETIV OS D EL CA PÍ TULO
Introducción
La mejor evidencia para estudiar los efectos y la seguridad de las intervenciones terapéuticas o preven-
tivas se obtiene de los ensayos clínicos aleatorios (ECA), y la mejor evidencia sobre el efecto de esas
intervenciones procede de las revisiones sistemáticas de ECA (RS-ECA). Tanto en unos como en otras
se compara una intervención frente a una alternativa, placebo o el estándar terapéutico del momento.
Con frecuencia, en la clínica, nos encontramos con situaciones en las que para una condición
clínica determinada hay múltiples opciones terapéuticas disponibles, cada una de ellas con sus
correspondientes evidencias de efectividad y seguridad procedentes de los ECA y RS-ECA de
esas comparaciones frente-a-frente.
Disponer de múltiples recursos es estupendo para la clínica, sin embargo, nos plantea un nuevo
escenario para la decisión. Esos diversos tratamientos suelen haber seguido rutas paralelas en su
investigación, desarrollo e implantación y, en ese proceso, han sido comparados frente a placebo en
los inicios o posteriormente frente a las otras opciones que van consolidándose como nuevo estándar
terapéutico. El resultado final es que nos encontramos con alternativas, para una determinada con-
dición clínica, que han sido probadas frente a diversos comparadores o algunas de ellas entre sí, pero
no disponemos de evidencia completa sobre comparaciones frente-a-frente de todos los tratamientos.
Ejemplos de esta situación clínica sin todas las comparaciones frente a frente podrían ser: el uso
de los nuevos anticoagulantes orales, unos frente a otros o frente a antivitaminas K, en pacientes
con fibrilación auricular no valvular (1). Las intervenciones para la prevención de sangrado de
estrés en pacientes críticos mediante inhibidores de la bomba de protones (IBP), antagonistas de
los receptores H2 (ARH2), sucralfato o antiácidos (2). La selección del anticoagulante preferible
(en combinación con antiagregantes) tras angioplastia transluminal percutánea + stent en pacientes
con indicación previa de anticoagulación (3), etc.
En esos casos, el interés clínico podría estar en tres focos: conocer la comparación de evidencias
entre determinadas opciones estudiadas frente-a-frente, obtener evidencias de comparaciones no
realizadas a partir de métodos directos o, también, saber cuál es la mejor opción de efectividad
(o de seguridad) entre todas las intervenciones de ese grupo.
Las revisiones sistemáticas con metaanálisis en red (RS-MER) ofrecen una respuesta a este
problema mediante la recopilación de toda la evidencia disponible para todas las comparaciones
realizadas en el grupo y la construcción de una «red de evidencia» que permite una estimación de
las comparaciones realizadas y no realizadas (directas, indirectas y en red) o la valoración del orden
de las mejores opciones en el grupo de intervenciones.
Escenario
Perteneces a la comisión de infecciones de tu hospital y en la última reunión se comentó el aumento
de la incidencia de neumonías nosocomiales en el centro, especialmente en pacientes críticos, y
se trató de enfocar a diferentes niveles. Uno de los comentarios que destacaron en la reunión fue
el de la descripción, en estudios observacionales, de una asociación entre la administración de
inhibidores de la bomba de protones (IBP) y la aparición de neumonía nosocomial (4) y de diarrea
por Clostridium difficile (5).
Se sugiere la conveniencia de revisar el protocolo de prevención del sangrado en pacientes
críticos, que incluye IBP, y se encarga a los documentalistas del centro una búsqueda de la evidencia.
Entre las evidencias halladas se encuentran una RS-MER que estudia la eficacia y la seguridad de
las posibles opciones terapéuticas para ese fin:
Wang Y, Ye Z, Ge L, Siemieniuk RAC, Wang X, et al. Efficacy and safety of gastrointestinal
bleeding prophylaxis in critically ill patients: systematic review and network meta-analysis. BMJ.
2020;368:l6744. doi/10.1136/bmj.l6744 (2).
El estudio es algo complejo y, como tú tienes habilidades en lectura crítica de revisiones sis-
temáticas, te encargan hacer de ponente de la próxima reunión de la comisión para aclarar la
evidencia existente al respecto.
Te preguntas sobre:
1. Efectividad:
a. ¿Cuál es el tratamiento más efectivo en general?
b. ¿Realmente los IBP aumentan el riesgo de neumonía nosocomial?
c. Entre IBP y la alternativa más usada (antagonistas de los receptores H2, ARH2), ¿cuál
es el balance entre riesgos y beneficios? (considera todos los efectos).
2. ¿Sugerirías en la comisión cambiar el protocolo con IBP?
FORMULACIÓN DE LA PREGUNTA
El formato de la pregunta en estos estudios responde al tradicional acrónimo PICO: Población,
Intervención, Comparación y Desenlaces (Outcomes). Sin embargo, en este caso la pregunta tiene
algunas peculiaridades:
■ En primer lugar, las intervenciones son múltiples, las comparaciones pueden también serlo y
las diversas intervenciones funcionan entre sí como comparaciones. Por su parte, los desenlaces
también serán múltiples, unos favorables y otros desfavorables (el acrónimo adaptado sería
algo así: PI*C*O*). Con esas intervenciones y esas comparaciones podemos construir un
diagrama de red o grafico en el que se representan las intervenciones o tratamientos mediante
círculos (nodos), cuyo tamaño es proporcional al número de pacientes asignados a un trata-
miento concreto en todos los estudios incluidos, y líneas que unen los nodos (tratamientos)
que han sido comparados directamente, y cuya anchura representa el número de estudios
analizados. Dentro de este particular gráfico podemos definir «bucles», constituidos por dos
o más comparaciones directas que contribuyen a una estimación indirecta. Los bucles de
primer orden solo afectan a una intervención adicional. Por ejemplo, si el interés se centra
en estimar A frente a B (lo representaremos por A–B), las comparaciones directas A–C y
C–B, constituyen un bucle de primer orden. Si se ven involucradas otras intervenciones del
tipo de C–D tendríamos un bucle de segundo orden, y así sucesivamente (fig. 13.1). En
ocasiones, las comparaciones indirectas se representan en el mismo gráfico mediante líneas
discontinuas.
■ En segundo lugar, es necesario que exista una conexión entre las poblaciones y las interven-
ciones a estudiar, porque de ello depende la asunción de transitividad para las comparaciones:
se asume que si A > B (la intervención A es mejor que la B) y B > C, entonces A > C.
Esta asunción es absolutamente crítica para realizar comparaciones indirectas y, por tanto,
el MER, es decir, B–D (indirecta) = B–C (directa) + C–D (directa). Por ejemplo: X es un
tratamiento quimioterápico adecuado para pacientes de un determinado cáncer en cualquier esta-
dio evolutivo, mientras que W lo es solo para estadios avanzados y el resto (Y, Z) solo para
estadios iniciales (fig. 13.2). Supongamos que W y X se compararon directamente en estadios
avanzados. Por otra parte, disponemos de comparaciones directas X–Y, X–Z, Y–Z, aunque
todas ellas se hicieron en estadios iniciales. No disponemos de comparaciones directas W–Y
o W–Z y desearíamos hacerlas indirectamente. Sin embargo, no es razonable estimar W–Z
mediante comparación indirecta a partir de W–X y X–Z, porque los estudios que incluyen
W serán poblaciones de pacientes diferentes del resto de comparaciones (más avanzados) y
los resultados de efectividad del tratamiento también lo serán. Por tanto, no podremos hacer
comparaciones indirectas ni usar la red de evidencia, porque se produciría una violación de
la asunción de transitividad (6). Por ello, para explorar la existencia de transitividad hay que
© Elsevier. Fotocopiar sin autorización es un delito.
Figura 13.1 Gráfico de la red de evidencia. Ejemplo: A: Tratamiento con mayor número de pacientes.
A–C: Comparación directa con mayor número de estudios. Bucles de primer orden: A–B–C (cerrado: hay estima
ciones directas para todas las comparaciones) y A–C–D (abierto: no hay estimación directa para A–D). Bucle
de segundo orden: A–B–C–D.
comprobar la relación entre las poblaciones y las intervenciones en todos los estudios incluidos
en la revisión. La regla general es que «cualquier paciente elegible para aleatorización en un
estudio debería haber sido elegible en otro estudio u otra comparación».
■ En tercer lugar, respecto del sentido clínico de las comparaciones, hay dos tipos esenciales:
unas constituyen el núcleo de la decisión clínica (son llamadas comparaciones de decisión);
otras, llamadas comparaciones complementarias, no son estrictamente las incluibles en la
decisión clínica habitual, pero sirven para construir la red de comparaciones general que
permite hacer nuevas comparaciones o mejorar la precisión de las estimaciones (todas ellas
en conjunto forman el grupo de comparación de la síntesis). Por ejemplo (2), si tratamos de
comparar intervenciones preventivas del sangrado por úlceras de estrés en pacientes críticos,
las comparaciones de sucralfato con placebo no son realmente objeto de duda en la decisión,
porque no están en uso, mientras que comparaciones de IBP o IH2 sí pueden ser elementos
de la decisión clínica.
■ En cuarto lugar, al estructurar las comparaciones, es crítico decidir, con sentido clínico, qué
estudios deben agruparse para formar los nodos de la red. Por ejemplo: dosis diferentes de
un fármaco, ¿deben formar parte del mismo nodo o no?, o fármacos de la misma clase, pero
con diferentes cinéticas hepáticas, ¿deberían ser del mismo nodo? Este asunto depende del
contexto clínico y de las necesidades del estudio.
■ Finalmente, una vez construida la red de comparaciones principal, es probable que, en algunos
estudios, ciertos desenlaces de interés estén ausentes o hayan sido medidos de otro modo y
no sean agregables. Esto significa que habrá estudios que no podrán contribuir a la red de
evidencia para un determinado desenlace, por carecer de él. De otro modo, podríamos hacer
una red de evidencia específica para cada desenlace y esas subredes tendrán una morfología
similar a la red, pero con diferentes pesos en los nodos y líneas en cada caso, ver ejemplo en
referencia (7).
BÚSQUEDA DE LA EVIDENCIA
En cuanto a la búsqueda de la evidencia, no hay diferencias con otras RS-ECA en lo que respecta
a las bases de datos, registros, autores, literatura gris y demás estrategias a usar. Sin embargo, como
la pregunta PI*C*O de estas revisiones es algo peculiar, la estrategia de búsqueda debe adaptarse y
añadir métodos específicos para buscar explícitamente todas las comparaciones (8).
Respecto del tipo de estudios que se deben incorporar en estas revisiones, es aconsejable res-
tringirlo a ECA siempre que ello sea posible. Obviamente hay situaciones en las que la evidencia
existente procede de estudios no aleatorios u observacionales y en esos casos será precisa una
ANÁLISIS DE DATOS
Para las comparaciones directas se realiza un metaanálisis normal. Para aquellas comparaciones
no directas es posible estimar los efectos mediante una comparación indirecta. Por ejemplo, en la
figura 13.1: la comparación B–D podría hacerse (asumiendo transitividad) mediante B–C y C–D;
o también, la comparación A–D, mediante A–C y D–C.
Pero las comparaciones directas pueden también ser estimadas indirectamente, por ejemplo,
la comparación A–B puede explorarse a partir de A–C y C–B. En consecuencia, hablaremos de
tres tipos de evidencias: evidencias directas (procedentes de las estimaciones directas), evidencias
indirectas (correspondientes comparaciones indirectas) y evidencias mixtas en las comparaciones
que son estimadas directa e indirectamente.
De este modo es posible construir la red de evidencia completa y realizar las estimaciones de
red incorporando todas las estimaciones (directas, indirectas y mixtas). El metaanálisis en red
analiza simultáneamente todas las comparaciones de tratamientos de la red considerando todas
las estimaciones (9-11).
A primera vista, las comparaciones indirectas parecerían necesarias solo cuando no hubiera
comparaciones directas. Sin embargo, ambas estimaciones contribuyen al cuerpo de evidencia para
cada comparación y las evidencias indirectas son interesantes, aun cuando existan comparaciones
© Elsevier. Fotocopiar sin autorización es un delito.
directas, porque mejoran la precisión de la estimación del efecto y constituyen un modo adicional de
reforzar la validez de la estimación de la comparación, en la medida en que maximiza la información
sobre poblaciones y efectos (12).
Desde el punto de vista estadístico, el MER puede realizarse mediante una aproximación
estadística tradicional (o frecuentista), sea con asunción de efectos fijos o de efectos aleatorios (12).
También puede realizarse mediante aproximaciones bayesianas, que tienen más parecido con el
marco decisional y permiten el cálculo de la probabilidad de que una intervención de las probadas
sea la mejor y, por tanto, posibilita una ordenación de las opciones de mejor a peor (ranking). Des-
cribir esas aproximaciones queda lejos de las intenciones de este capítulo.
Esta evaluación del riesgo de sesgo actualmente se evalúa mediante un nuevo instrumento (RoB2), que en vez de
1
en características se centra en áreas o dominios del estudio donde impactan esas características. Esos dominios
son: La aleatorización y sus consecuencias, desviaciones en el protocolo por problemas en la asignación o en
la observancia, pérdidas, problemas en la medición del resultado y reporte selectivo de resultados.
En la siguiente sección veremos cómo se expresan y presentan los diferentes resultados del MER,
pero antes hay algunos conceptos que atañen a la validez del análisis y que deben ser señalados; nos
referimos a la heterogeneidad y a la coherencia o consistencia.
Heterogeneidad
La heterogeneidad es la presencia de diferencias importantes en el efecto de la intervención entre
los estudios incluidos, más allá de lo que cabría esperar por azar. Es una consecuencia conjunta de la
variabilidad clínica (poblaciones participantes), metodológica (diseño de los estudios, intervenciones,
desenlaces y riesgo de sesgo) o heterogeneidad estadística genuina.
Dado que la RS-MER incluye múltiples metaanálisis convencionales de comparaciones directas,
es posible explorar las fuentes de heterogeneidad para cada uno de ellas valorando las diferencias
en las poblaciones y los diseños. La estimación total de la heterogeneidad para las comparaciones
directas puede explorarse en los correspondientes diagramas de bosque (forest plot), de manera visual
y mediante el cálculo de estimadores (Q, I2).
Coherencia o consistencia
Es la presencia de concordancia (o coherencia) entre los efectos estimados mediante las compara-
ciones directas y las indirectas. Supone, en realidad, la manifestación estadística de la asunción de
transitividad que comentamos previamente. La coherencia se puede evaluar de manera global para
toda la RS-MER o parcial para distintos grupos de comparaciones, siendo recomendable realizar
ambos tipos de análisis.
Hay cuatro posibles comparaciones directas entre los tratamientos: dos favoreciendo significativamente
al A vs. C (OR = 0,3, IC 95% = 0,2-0,5) y al A vs. B (OR = 0,5, IC 95% = 0,2-0,9); otras dos
diferencias no significativas en favor del C vs. B y del C vs. D. No existen comparaciones directas
A–D, ni B–D.
Estimaciones de la RS-MER (directas + indirectas): la que tiene mayor efecto relativo es la comparación
de A–C, siendo favorable al A y estadísticamente significativa: OR = 0,5 (IC 95% = 0,1-0,8). También
es la estimación más precisa (IC más estrecho).
Probabilidad de ser clasificado cada tratamiento en 1.a, 2.a, 3.a o 4.a posición (ranking) en relación
con la medida del efecto.
El tratamiento A es el que tiene mayor probabilidad de clasificarse en 1.a posición (48%), seguido
del C (36%) y el D de hacerlo en la 4.a y última posición (80%).
teniendo en cuenta que cada uno de ellos tiene distinta importancia para los pacientes. Una
forma de estimar la probabilidad de clasificación de los tratamientos analizados en la
© Elsevier. Fotocopiar sin autorización es un delito.
los ECA, aunque eso puede acompañarse de heterogeneidad y, sobre todo, obliga a tener especial
cuidado con la asunción de transitividad (12).
Finalmente, señalaremos que el objetivo fundamental de la RS-MER es la comparación de
múltiples intervenciones incorporando toda la información posible (directa e indirecta y de la
red de evidencia) para su uso clínico. Esas diferentes comparaciones deben expresarse para cada
uno de los desenlaces relevantes (favorables o desfavorables) y para los tres modos de estimación
(directa, indirecta y en red) en las tablas de «Sumario de Resultados GRADE». En esas tablas se
ofrecen las estimaciones de efecto relativo y absoluto, la precisión de cada comparación (medida
por el intervalo de confianza) y la certeza en la evidencia que la sustenta según GRADE, así como
las razones por las que la evidencia se ha modificado a la baja o al alza. Un ejemplo de esto puede
observarse en las tablas 2 y 3 del estudio de Wang (2).
Estas tablas-sumarios de resultados de la RS-MER son el instrumento capital para comprensión
de los efectos y la aplicación de la evidencia de la RS-MER a la práctica clínica.
Artículo
Wang Y, Ye Z, Ge L, Siemieniuk RAC, Wang X, et al. Efficacy and safety of gastrointestinal
bleeding prophylaxis in critically ill patients: systematic review and network meta-analysis.
BMJ. 2020;368:l6744. doi/10.1136/bmj.l6744. Disponible en: https://pubmed.ncbi.nlm.nih.
gov/31907166/.
(Continúa)
(Continúa)
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
164 Lectura crítica de la evidencia clínica
Agradecimientos
Nuestro agradecimiento a María Isabel Villanego Beltrán (Oncología Radioterápica H. Puerta del
Mar, Cádiz), Miguel de Mier Morales (ORL, H. Puerta del Mar, Cádiz), Irene Fajardo Paneque
(Oncología Radioterápica, Hospital de Jerez, Cádiz) y José Luis Antón Pascual (UCI Hospital
General Universitario de Alicante), por sus comentarios a versiones previas de este manuscrito.
Procede el eximente habitual.
Bibliografía
1. López-López JA, Sterne JAC, Thom HHZ, Higgins JPT, Hingorani AD, Okoli GN, et al. Oral anticoa-
gulants for prevention of stroke in atrial fibrillation: systematic review, network meta-analysis, and cost
effectiveness analysis. BMJ 2017;359:j5058.
2. Wang Y, Ye Z, Ge L, Siemieniuk RAC, Wang X, et al. Efficacy and safety of gastrointestinal bleeding
prophylaxis in critically ill patients: systematic review and network meta-analysis. BMJ 2020;368:l6744.
3. Said S, Alabed S, Kaier K, Tan AR, Bode C, Meerpohl JJ, et al. Non-vitamin K antagonist oral anticoa-
gulants (NOACs) post-percutaneous coronary intervention: a network meta-analysis. Cochrane Heart
Group, editor. Cochrane Database Syst Rev. 2019. Disponible en: http://doi.wiley.com/10.1002/14651858.
CD013252.pub2.
4. Herzig SJ, Howell MD, Ngo LH, Marcantonio ER. Acid-suppressive medication use and the risk for
hospital-acquired pneumonia. JAMA 2009;301(20):2120-8.
5. Buendgens L, Bruensing J, Matthes M, Dückers H, Luedde T, Trautwein C, et al. Administration of
proton pump inhibitors in critically ill medical patients is associated with increased risk of developing
Clostridium difficile-associated diarrhea. J Crit Care 2014;29(4):696.e11-5.
6. Chaimani A, Caldwell DM, Li T, Higgins JPT, Salanti G. Chapter 11: Undertaking network meta-
analyses. En: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, Welch VA, editores.
Cochrane Handbook for Systematic Reviews of Interventions. 2.ª ed. Chichester: John Wiley & Sons;
2019. p. 285-320.
7. Zhang Y, He D, Zhang W, Xing Y, Guo Y, Wang F, et al. ACE Inhibitor Benefit to Kidney and Cardiovas-
cular Outcomes for Patients with Non-Dialysis Chronic Kidney Disease Stages 3-5: A Network Meta-
Analysis of Randomised Clinical Trials. Drugs 2020;80(8):797-811.
8. Hoaglin DC, Hawkins N, Jansen JP, Scott DA, Itzler R, Cappelleri JC, et al. Conducting Indirect-Treat-
ment-Comparison and Network-Meta-Analysis Studies: Report of the ISPOR Task Force on Indirect
Treatment Comparisons Good Research Practices: Part 2. Value Health 2011;14(4):429-37.
9. Salanti G, Del Giovane C, Chaimani A, Caldwell DM, Higgins JPT. Evaluating the Quality of Evidence
from a Network Meta-Analysis. Tu YK, editor. PLoS ONE 2014;9(7):e99682.
10. Rouse B, Chaimani A, Li T. Network meta-analysis: an introduction for clinicians. Intern Emerg Med
2017;12(1):103-11.
11. Tonin FS, Rotta I, Mendes AM, Pontarolo R. Network meta-analysis: a technique to gather evidence
from direct and indirect comparisons. Pharm Pract 2017;15(1):943.
© Elsevier. Fotocopiar sin autorización es un delito.
12. Jansen JP, Fleurence R, Devine B, Itzler R, Barrett A, Hawkins N, et al. Interpreting Indirect Treat-
ment Comparisons and Network Meta-Analysis for Health-Care Decision Making: Report of the
ISPOR Task Force on Indirect Treatment Comparisons Good Research Practices: Part 1. Value Health
2011;14(4):417-28.
13. Chaimani A, Salanti G, Leucht S, et al. Common pitfalls and mistakes in the set-up, analysis and
interpretation of results in network meta-analysis: what clinicians should look for in a published article.
Evidence Based Mental Health 2017;20:88-94.
14. Puhan MA, Schunemann HJ, Murad MH, Li T, Brignardello-Petersen R, Singh JA, et al. A GRADE
Working Group approach for rating the quality of treatment effect estimates from network meta-analysis.
BMJ 2014;349(5):g5630.
Anexo ■ Glosario
Comparaciones indirectas: comparación de dos intervenciones/tratamientos, estimada a
partir de estudios frente-a-frente (head-to-head) con un comparador común (p. ej., placebo o un
tratamiento estándar).
Metaanálisis en red (Network meta-analysis): metaanálisis que evalúa simultáneamente tres o
más intervenciones, incorporando información proveniente tanto de estudios comparados direc-
tamente, como de comparaciones indirectas estimadas mediante técnicas estadísticas («evidencia
mixta»).
Transitividad: ausencia de otras diferencias sistemáticas entre las comparaciones disponibles,
diferentes a los tratamientos evaluados. Si se cumple esta asunción, todos los participantes de los
estudios de la RS-MER cumplirían criterios para ser asignados a cualquiera de los tratamientos
considerados. Otra forma de verlo: si el tratamiento A es mejor que el B y el B mejor que el C, A
tiene que ser mejor que el C.
Consistencia: concordancia estadística entre las comparaciones directas e indirectas.
Gráfico de la red (Network graph): gráfico que resume de forma sencilla la estructura de la
evidencia existente en la comparación de todos los tratamientos de interés (geometría de
la RS-MER). Informa de un vistazo sobre qué intervenciones han sido comparadas de manera directa,
así como de la magnitud de la evidencia disponible.
Tabla de clasificación (League table): tabla resumen de todas las posibles comparaciones entre
los pares de tratamientos evaluados. Las casillas muestran la estimación de eficacia relativa (odds
ratio, diferencia de medias, etc.) y su certidumbre (intervalos de confianza) para la comparación
entre dos tratamientos, uno definido en la columna y otro en la fila que comparten dicha casilla.
Probabilidades de clasificación (Ranking probabilities): clasificación ordenada basada en la
probabilidad de que cada tratamiento ocupe una determinada posición respecto a los demás (ranking)
en función de su efectividad estimada.
Área bajo la curva de la probabilidad acumulada (SUCRA: Surface Under the Cumulative
RAnking curves): es una forma de estimar la probabilidad de clasificación de los tratamientos
analizados en la RS-MER, susceptible de ser representada, tanto de manera gráfica como numérica,
definida por el porcentaje del área bajo la curva de la probabilidad acumulada, respecto a la total.
Grado de Recomendaciones, Evaluación, Desarrollo y Evaluación (GRADE): aproximación
para la evaluación de la evidencia basada en seis dominios: limitaciones de los estudios (riesgo de
sesgos), heterogeneidad, inconsistencia, imprecisión y sesgo de publicación.
OB J ETIV OS D EL CA PÍ TULO
Introducción
La utilidad de una prueba diagnóstica se fundamenta, entre otros aspectos, en su validez o exactitud,
es decir, en su capacidad para discriminar, en los pacientes con sospecha de una determinada
condición clínica, entre aquellos que realmente presentan dicha condición y los que no. Como ya se
ha visto en el capítulo 6 de esta obra, las evidencias acerca de esta exactitud diagnóstica provienen de
estudios con un diseño de investigación clínica particular y un análisis estadístico de los resultados
que proporciona los conocidos índices de exactitud diagnóstica de sensibilidad, especificidad, valores
predictivos y los cocientes de probabilidad junto con sus intervalos de confianza. Para poder abordar
la lectura de este capítulo, recomendamos la lectura previa del mencionado capítulo de estudios
primarios de exactitud diagnóstica, al igual que el capítulo relativo a las revisiones sistemáticas
en general y de ensayos clínicos aleatorios en particular (v. capítulos 11 y 12, respectivamente).
La lectura crítica de revisiones de diagnóstico comparte muchos aspectos con lo referido en esos
capítulos previos.
Las revisiones sistemáticas de exactitud diagnóstica se conciben como un instrumento para
integrar toda la evidencia disponible sobre la exactitud de una prueba diagnóstica. Los métodos
para realizar estas revisiones paralelizan los métodos empleados para realizar sus homónimas
revisiones de eficacia de intervenciones. Como lectores, deberíamos prestar atención a cómo los
autores de la revisión han realizado los procesos de búsqueda de literatura, la selección de estudios
para la revisión, la extracción de datos y el análisis de la calidad metodológica y el riesgo de sesgo
de los artículos incluidos. El análisis crítico de estos aspectos determinará la validez de la revisión
sistemática que estemos leyendo.
El presente capítulo pretende servir de guía para la realización de una lectura crítica de este
tipo de artículos. Abordaremos inicialmente los aspectos que permiten evaluar cuán válidos son
los resultados de la revisión. En segundo lugar, valoraremos críticamente la metodología estadís-
tica empleada para hacer el metaanálisis e interpretaremos los resultados. Por último, valoraremos
la aplicabilidad o validez externa de los resultados de la revisión. Para ilustrar estos apartados se
utilizará como ejemplo una revisión publicada recientemente en el ámbito de la salud mental (1).
Escenario
Estás discutiendo con tus compañeros del centro de salud acerca de los múltiples cuestionarios dis-
ponibles de cribado cognitivo para el diagnóstico precoz de demencia. Os estáis planteando poner en
marcha una estrategia de despistaje de demencia entre los pacientes de edad avanzada asintomáticos
que tenéis en cupo. Hay cierta controversia entre los profesionales sobre la conveniencia o no de
establecer una estrategia generalizada o ya dirigida a pacientes con quejas cognitivas y de cuál sería
la mejor herramienta para identificar deterioro cognitivo de manera temprana desde atención
primaria. Aunque algunos estáis familiarizados con el Mini-Mental State Examination (MMSE)
y su versión española normalizada, el Mini-Examen Cognoscitivo (MEC), pensáis que sería bueno
revisar en la literatura qué otros instrumentos de cribado podríais utilizar en el contexto de atención
primaria y cuáles tienen mejor rendimiento para detectar deterioro cognitivo en fases tempranas.
En la búsqueda encuentras la siguiente revisión: Tsoi KKF, Chan JYC, Hirai HW, Wong SYS,
Kwok TCY. Cognitive Tests to Detect Dementia: A Systematic Review and Meta-analysis. JAMA
Intern Med. 2015;175(9):1450-1458 (1).
Te planteas las siguientes preguntas:
■ ¿Cuál es el rendimiento diagnóstico del Mini-Examen Cognoscitivo (MEC) en población
asintomática?
■ ¿Aplicaría en mi medio el MEC para el cribado de deterioro cognitivo leve?
es un estudio observacional con diseño transversal donde, a una serie consecutiva de pacientes
con sospecha de la enfermedad que se diagnostica, de forma ciega e independiente, se les aplica
la prueba que se evalúa y una prueba de referencia o patrón de oro (gold standard) que diferencia
indiscutiblemente entre aquellos que tienen la enfermedad y los que no. A pesar de la aceptación
unánime de este diseño transversal como el óptimo para esta tarea, es frecuente encontrar en la
literatura estudios de casos y controles para responder a preguntas de exactitud diagnóstica. En ellos
se selecciona un grupo de sujetos con la enfermedad objeto de estudio y otro grupo de controles
sanos y a ambos se les aplica la prueba evaluada. Se ha demostrado empíricamente que este diseño
de casos y controles sobreestima enormemente el rendimiento diagnóstico de la prueba que se
evalúa y por tanto es práctica común, o debería serlo, que los autores de las revisiones sistemáticas
excluyan este tipo de estudios de sus revisiones (4,5).
Determinar con precisión la pregunta de investigación que se trata de contestar en la revisión sis-
temática que estamos leyendo es crucial para valorarla críticamente y para determinar la aplicabilidad
de sus resultados al escenario clínico en cuestión.
Esto se traduce en que normalmente la cantidad de títulos y resúmenes localizados en las bús-
quedas de las revisiones de diagnóstico sobrepasan con creces a los encontrados en las búsquedas
de las revisiones de ensayos clínicos, dado que estas últimas son más fácil de enfocar empleando
filtros metodológicos que restringen enormemente las búsquedas.
La estructura de una estrategia de búsqueda debe incluir términos referentes a la condición
clínica que se trata de diagnosticar y términos para identificar la prueba diagnóstica que se evalúa.
Esta estructura básica puede adaptarse y hacerse más específica incluyendo la prueba de referencia
definida en la pregunta estructurada.
Los criterios de elegibilidad de estudios que se van a incluir en la revisión deben haber sido
bien descritos en el artículo y se debe comprobar que efectivamente se ajustan a lo planteado en
la pregunta estructurada (PPPICOT). Dado que el proceso de selección de estudios tiene una
elevada carga de subjetividad, para evitar resultados sesgados es importante que los autores hayan
realizado el proceso por duplicado (por parejas de revisores), haber determinado un método para
resolver discordancias e idealmente haber valorado la reproducibilidad del proceso mediante un
análisis de concordancia.
Finalmente, el flujo de estudios desde la búsqueda inicial hasta la realización del metaanálisis
debería presentarse siguiendo las recomendaciones de las guías PRISMA (7); es decir, mediante
una figura o diagrama de flujo donde consten los estudios en las distintas fases del proceso, con las
exclusiones y los motivos de exclusión bien descritos (fig. 14.1). Este diagrama nos permite valorar
todo el proceso realizado y entender bien qué estudios han sido finalmente analizados.
Figura 14.1 Diagrama de flujo propuesto por la declaración PRISMA para ilustrar el proceso de búsqueda y
selección de estudios para la revisión. (Tomado de Moher D, Liberati A, Tetzlaff J, Altman DG, The PRISMA
Group. Preferred Reporting Items for Systematic Reviews and MetaAnalyses: The PRISMA Statement. PLoS
Med. 2009;6[7]:e1000097. Para más información visitar www.prisma-statement.org.)
EVALUACIÓN DE LA CALIDAD
¿Crees que los autores de la revisión han hecho suficiente esfuerzo para valorar la calidad de
los estudios incluidos?
Un aspecto clave en toda revisión sistemática es la evaluación de la calidad metodológica de
los estudios incluidos con la finalidad de identificar posibles riesgos de sesgo. El cuestionario
QUADAS-2 es una herramienta diseñada específicamente para la evaluación de la calidad
metodológica y el riesgo de sesgo de los estudios primarios incluidos en una revisión sistemática de
pruebas diagnósticas (8). El cuestionario se organiza en cuatro dominios: 1) selección de pacientes;
2) prueba en evaluación; 3) prueba de referencia, y 4) flujo de pacientes y tiempo entre pruebas.
Cada dominio se evalúa en términos del eventual riesgo de sesgo en el que se pudiera incurrir y
adicionalmente se evalúan problemas de aplicabilidad a la pregunta de revisión de acuerdo con
esos dominios. Este aspecto de aplicabilidad lo retomaremos más adelante en el último apartado
de este capítulo. Es importante atender a cómo los autores han personalizado y señalizado
las rúbricas específicas para cada dominio de la herramienta QUADAS-2 para así adaptarlo a las
peculiaridades de la revisión.
Este ejercicio de evaluación del riesgo de sesgo no es un mero ejercicio intelectual que conduce
a una gráfica más en el artículo para la descripción de esta calidad metodológica de los estudios
incluidos en la revisión (fig. 14.2). Los resultados de este análisis deben influir tanto en la realización
del metaanálisis como en la interpretación de los resultados del mismo. Para lo primero, los autores
pueden haber hecho análisis de sensibilidad comparando los resultados que se obtienen al excluir
determinados estudios en función de su riesgo de sesgo en determinados dominios del QUADAS-2
que se entienden críticos para la revisión en cuestión. Para lo segundo, es preciso entender los
resultados del metaanálisis en el contexto de la calidad de evidencia disponible y discutir bajo esta
óptica sus limitaciones y fortalezas.
EVALUACIÓN DE LA HETEROGENEIDAD
Si los resultados de los diferentes estudios han sido mezclados para obtener un resultado
«combinado», ¿era razonable hacer eso?
Una limitación inherente a cualquier metaanálisis es la presencia de variabilidad (heterogeneidad)
entre los resultados de los estudios primarios incluidos en la revisión. La heterogeneidad en las
revisiones de pruebas diagnósticas suele ser mayor que la encontrada en las revisiones de eficacia
de intervenciones y, también con frecuencia, mayor de lo que sería esperable por azar (variabilidad
aleatoria). Las fuentes habituales de heterogeneidad son las mismas que en otras revisiones sis-
temáticas. La heterogeneidad puede venir de los diferentes métodos empleados en los estudios
primarios (heterogeneidad metodológica) o de las diferencias en las poblaciones de pacientes o los
© Elsevier. Fotocopiar sin autorización es un delito.
ámbitos donde se han realizado los estudios (heterogeneidad clínica). Sin embargo, en el caso de
Figura 14.2 Representación gráfica del resultado de la evaluación del riesgo de sesgo de los estudios incluidos
en una revisión sistemática de pruebas diagnósticas.
las revisiones de pruebas diagnósticas existe una fuente adicional e importante de heterogeneidad.
Se trata de lo que se conoce como el efecto umbral. Esto es, el umbral para determinar cuándo un
resultado de una prueba es positivo o negativo puede haber variado en los estudios incluidos en la
revisión. Esta variación puede ser explícita (distintos puntos de corte para una medida cuantitativa,
como puede ser el antígeno prostático) o puede ser una variabilidad en umbrales implícitos (por
ejemplo, la que existiría entre radiólogos con distinto entrenamiento o experiencia y que se reflejaría
en que tendrían un distinto umbral de detección de anormalidad al interpretar una prueba de
imagen). Si los estudios emplean diferentes criterios de positividad, esto hace que la sensibilidad y
la especificidad cambien y lo hagan en direcciones opuestas: un menor umbral puede incrementar la
sensibilidad a expensas de perder especificidad. La presencia de este efecto umbral explicaría parte
de las diferencias que vemos entre los resultados de los estudios individuales. Se verá más adelante
que la presencia de este efecto umbral hace que el metaanálisis deba considerar simultáneamente
ambos índices y deba estimar la correlación entre ellos. Además, y muy importante como veremos
en el siguiente apartado, si los estudios incluidos han empleado umbrales de positividad diferentes,
el análisis estadístico deberá abordarse de una determinada manera, distinta a si todos los estudios
incluidos han empleado el mismo umbral de positividad.
Aparte de la heterogeneidad metodológica, la clínica y la debida al efecto umbral, existe también
la heterogeneidad que viene por el propio proceso de muestreo y medición. Esta heterogeneidad
viene como consecuencia de que los distintos estudios han reclutado distintos sujetos y también
del propio proceso de realizar las mediciones de la prueba diagnóstica (obtención de la muestra,
procesamiento, interpretación, etc.). Ambas fuentes de variabilidad se integran en lo que se conoce
como heterogeneidad estadística.
Para valorar la heterogeneidad estadística se deben explorar las estimaciones de los índices de
rendimiento diagnóstico de los estudios primarios incluidos (sensibilidad y la especificidad), viendo
los resultados numéricos o bien evaluando su representación gráfica en forma de forest plots empa-
rejados (9) (fig. 14.3). Estos forest plots idealmente pueden haber sido construidos presentando los
estudios ordenados de mayor a menor sensibilidad (o especificidad). Esta representación ordenada
puede ayudar a analizar la consistencia entre estudios y la eventual correlación entre sensibilidad y
especificidad como indicio de la presencia de efecto umbral. Sin embargo, la mejor forma de ilustrar
la correlación entre los índices es representar estas parejas estimadas en cada estudio individual en
un plano Receiver Operating Characteristic (ROC), en el que se representa en el eje de abscisas
la tasa de falsos positivos (1-especificidad) y en el eje de ordenadas la tasa de verdaderos positivos
(sensibilidad). Cuando existan indicios de efecto umbral y por tanto de correlación entre sensibilidad
y especificidad, esta representación gráfica resultará en un patrón característico con forma curvilínea
de hombro (fig. 14.4).
Se han propuesto pruebas estadísticas específicas para poner a prueba la homogeneidad de los
índices de validez diagnóstica por separado. También se ha propuesto cuantificar la proporción de
variación total entre los estudios que va más allá de lo esperable por azar mediante el índice I2 de
Higgins (10). Sin embargo, estas aproximaciones deben interpretarse con suma cautela, dado que
ignoran la correlación entre estos índices y están afectadas por el tamaño muestral. Las pruebas
estadísticas para determinar la significación estadística de esta heterogeneidad pueden carecer de
la potencia necesaria cuando en el metaanálisis se incluye un número reducido de pacientes. O de
forma contraria, si los estudios han incluido tamaños muestrales muy grandes, ligeras diferencias
interestudio pueden resultar en valores de estas pruebas altamente significativos. Por último, estos
test no son útiles para detectar la heterogeneidad proveniente de fenómenos como los vistos de
«efecto umbral».
Tan importante, o más, que identificar la heterogeneidad es la exploración de sus posibles
fuentes. Esta exploración debe planificarse a priori antes de iniciar el análisis de los datos para evitar
Figura 14.4 Representación en un plano ROC de los resultados de exactitud diagnóstica de los estudios
individuales en una revisión sistemática. Se representa el punto promedio de sensibilidad y especificidad junto
con las elipses de confianza y predicción y la curva SROC resumen.
hallazgos espurios. Se pueden hacer análisis de subgrupos o, más formalmente, emplear técnicas de
metarregresión para probar si la heterogeneidad disminuye de forma significativa cuando se separan
los estudios de acuerdo a características clínicas y/o metodológicas. Hay que mostrar cautela con las
conclusiones que se deriven a nivel causal de estos análisis, dado que están sujetas al mismo sesgo
de confusión como cualquier otro estudio observacional y están afectadas también por problemas
de potencia estadística cuando el número de estudios es reducido.
METAANÁLISIS
¿Cuál es el resultado global de la revisión?, ¿cuál es la precisión del resultado?
Como siempre, es importante recordar que el metaanálisis solo debería realizarse si los estudios
son clínica y metodológicamente homogéneos, si se han realizado con pacientes clínicamente
similares, han evaluado pruebas comparables y han usado pruebas de referencia (gold standard)
también comparables. Si existiera excesiva heterogeneidad entre los resultados de los estudios,
podría ser más adecuado, en lugar de calcular los índices combinados, investigar las causas de dichas
diferencias. En cualquier caso, la presencia de variabilidad, y concretamente del efecto umbral
comentado anteriormente, va a condicionar las distintas alternativas de análisis que los autores de
la revisión pudieran haber empleado.
En general, todo metaanálisis es un proceso en dos etapas. En un primer paso se estiman los
resultados de cada estudio, que, en el caso de la evaluación de pruebas diagnósticas, cada estudio
es resumido no por un índice, sino por la conocida pareja de índices sensibilidad y la especificidad,
aunque también pueden ser los valores predictivos positivo y negativo o los cocientes de probabilidad
positivo y negativo. También podemos encontrar resúmenes del rendimiento diagnóstico global de
una prueba en forma de un único índice, el Odds Ratio Diagnóstico (ORD) (11). Este índice es el
producto de las proporciones de aciertos de la prueba (verdaderos positivos y verdaderos negativos)
dividido por el producto de las proporciones de errores (falsos positivos y falsos negativos). Por lo
tanto, cuanto mayor sea este índice mejor es una prueba diagnóstica. Sin embargo, su utilidad es
limitada porque se pierde el carácter dual de las pruebas y no permite saber cuál es la probabilidad
de tener la enfermedad si el resultado es positivo o negativo, ni determinar si la prueba es más útil
para confirmar la presencia de una enfermedad o para descartarla.
Los métodos estadísticos empleados para sintetizar la revisión sistemática deben tener en
cuenta esta dualidad y, por lo tanto, en lugar de combinar uno solo deben combinar ambos índices
simultáneamente, teniendo en cuenta su correlación y la distinta precisión con la que se han estimado
dependiendo del número de enfermos y no enfermos en cada estudio.
La vía de realización del metaanálisis depende en primera instancia de si existe heterogeneidad
de umbrales de positividad entre los estudios (efecto umbral, sea este explícito o implícito). Si fuera
así, el análisis estadístico debería haberse orientado en la dirección de estimar la curva ROC resumen
que subyace entre los estudios incluidos (Summary Receiver Operating Characteristic [SROC]
curve). En esta situación, los autores deben haber evitado la tentación de sintetizar la exactitud
diagnóstica de los estudios incluidos proporcionando un valor de sensibilidad y especificidad
promedio, pues estos valores no serían interpretables porque no sabríamos a qué punto de corte
de la prueba diagnóstica corresponderían. Si el umbral de positividad es el mismo para todos los
estudios, entonces sí tiene sentido acometer el metaanálisis con el objetivo de obtener la sensibilidad
y la especificidad promedio. Empecemos por este último caso.
presente en los resultados y la correlación entre ambos parámetros. Es habitual representar los
resultados de estos análisis mediante un plano ROC con los puntos de los estudios individuales
generalmente representados con un tamaño proporcional al tamaño del estudio, junto con el
punto promedio de sensibilidad y especificidad calculado, que estará rodeado por una elipse
de confianza al 95%. Esta elipse de confianza representa la precisión de esta estimación. Es el
intervalo de confianza bivariante que contendría el verdadero valor de sensibilidad y especificidad
que se está estimando con una confianza del 95%. También se suele representar como medida de
heterogeneidad una elipse de predicción al 95% alrededor del summary point. Esta elipse representa
los posibles resultados de sensibilidad y especificidad que se podrían obtener en nuevos estudios
que se realizasen (v. fig. 14.4).
El cálculo de los promedios de los valores predictivos positivo y negativo no se recomienda,
pues es bien conocida su dependencia de la prevalencia de la condición que se diagnostica y,
presumiblemente, esta magnitud varía de estudio a estudio, constituyéndose en una fuente extra
de heterogeneidad.
pregunta restringida, aunque esto favorece que los resultados sean más homogéneos, la capacidad
de transferencia a otros escenarios distintos es más limitada.
El cuestionario QUADAS-2, del que hemos hablado anteriormente, incluye varias preguntas
concretas sobre la aplicabilidad de los resultados en tres ámbitos distintos: el ámbito de la selección
de pacientes, el ámbito de la realización de la prueba diagnóstica que se evalúa y por último en el
ámbito del estándar de referencia.
SELECCIÓN DE PACIENTES
Se sabe que el rendimiento diagnóstico de una prueba varía según el espectro clínico de los parti-
cipantes incluidos en el estudio (16). Por tanto, se debe valorar si el espectro de participantes de la
revisión es similar al de la población donde se aplicará la prueba. Pistas para analizar esta similitud
se deben buscar en las características demográficas, las comorbilidades, la gravedad de la enfermedad
que se pretende diagnosticar, su sintomatología y las pruebas previas realizadas en estos pacientes. Es
esperable que la sensibilidad de una prueba aumente ante la presencia de poblaciones con enfermedad
de mayor gravedad. Del mismo modo, la presencia de una gran variabilidad en los diagnósticos
diferenciales en las poblaciones no enfermas es esperable que disminuya la especificidad de la prueba.
PRUEBA EVALUADA
También se deben valorar eventuales diferencias que pudiera haber en las pruebas utilizadas en
los estudios incluidos en la revisión respecto a la prueba que se aplicará realmente en el escenario
de interés. Estas diferencias pueden ser fruto de versiones diferentes de la prueba, las muestras
evaluadas, los observadores y su entrenamiento, el umbral de positividad empleado, sea de forma
explícita o de forma implícita. Otro aspecto fundamental para la aplicabilidad ya mencionado
en el capítulo 6 es la consideración de la reproducibilidad de la prueba, su calibración y las necesida-
des técnicas y humanas para su correcta aplicación. Estos aspectos podrían penalizar la transferencia
de los resultados de la revisión a nuestro medio.
PRUEBA DE REFERENCIA
La aplicabilidad de los resultados de la revisión a nuestro medio puede verse penalizada si la
definición de enfermedad en los estudios incluidos difiere de la definición en nuestro escenario,
sea por diferencias de criterio (por ejemplo, qué se considera una cardiopatía congénita grave)
o sea por diferencias prácticas debidas por ejemplo a los umbrales empleados en el estándar de
referencia para considerar como patológica una función renal o una insuficiencia cardíaca. Además
© Elsevier. Fotocopiar sin autorización es un delito.
de las connotaciones que estas diferencias pudieran tener sobre el espectro de pacientes incluido
en la revisión, los cambios en las definiciones de la enfermedad pueden hacer que los resultados
de la revisión nos sean ajenos, dado que nuestro interés bien podría ser diagnosticar una entidad
nosológica distinta a la analizada en la revisión.
Artículo
Tsoi KKF, Chan JYC, Hirai HW, Wong SYS, Kwok TCY. Cognitive Tests to Detect Dementia:
A Systematic Review and Meta-analysis. JAMA Intern Med. 2015;175(9):1450-1458. Disponible
en: https://pubmed.ncbi.nlm.nih.gov/26052687/.
(por ejemplo, para el MMSE el punto de corte para demencia más común [44% estudios]
están claramente
fue de 23 a 24, mientras que un 20% utilizaron un punto de corte de 25 a 26).
presentados.
Solo en el caso del MMSE el número de estudios incluidos permitió realizar un análisis
• Están discutidos los
de subgrupos para identificar como posibles fuentes de heterogeneidad (v. información
motivos de cualquier
suplementaria del artículo y comentario en pregunta 6) la región del estudio y el ámbito
variación de los
de reclutamiento de pacientes, sin encontrar diferencias significativas.
resultados.
(Continúa)
Bibliografía
1. Tsoi KKF, Chan JYC, Hirai HW, Wong SYS, Kwok TCY. Cognitive Tests to Detect Dementia: A
Systematic Review and Meta-analysis. JAMA Intern Med 2015;175(9):1450-8.
2. Roqué M, Martínez-García L, Solà I, Alonso-Coello P, Bonfill X, Zamora J. Toolkit of methodological
resources to conduct systematic reviews. F1000Research 2020;9:82.
3. Bossuyt PM, Irwig L, Craig J, Glasziou P. Comparative accuracy: assessing new tests against existing
diagnostic pathways. BMJ 2006;332(7549):1089-92.
4. Lijmer JG, Mol BW, Heisterkamp S, Bonsel GJ, Prins MH, van der Meulen JH, et al. Empirical evidence
of design-related bias in studies of diagnostic tests. JAMA 1999;282(11):1061-6.
5. Rutjes AWS, Reitsma JB, Di Nisio M, Smidt N, van Rijn JC, Bossuyt PMM. Evidence of bias and
variation in diagnostic accuracy studies. CMAJ 2006;174(4):469-76.
6. Leeflang MMG, Scholten RJPM, Rutjes AWS, Reitsma JB, Bossuyt PMM. Use of methodological search
filters to identify diagnostic accuracy studies can lead to the omission of relevant studies. J Clin Epidemiol
2006;59(3):234-40.
7. McInnes MDF, Moher D, Thombs BD, McGrath TA, Bossuyt PM, the PRISMA-DTA Group, et al.
Preferred Reporting Items for a Systematic Review and Meta-analysis of Diagnostic Test Accuracy Studies:
The PRISMA-DTA Statement. JAMA 2018;319(4):388-96.
8. Whiting PF, Rutjes AW, Westwood ME, Mallett S, Deeks JJ, Reitsma JB, et al. QUADAS-2: a revised
tool for the quality assessment of diagnostic accuracy studies. Ann Intern Med 2011;155(8):529-36.
9. Whiting PF, Sterne JAC, Westwood ME, Bachmann LM, Harbord R, Egger M, et al. Graphical
presentation of diagnostic information. BMC Med Res Methodol 2008;8:20.
10. Higgins JPT, Thompson SG, Deeks JJ, Altman DG. Measuring inconsistency in meta-analyses. BMJ
2003;327(7414):557-60.
11. Glas AS, Lijmer JG, Prins MH, Bonsel GJ, Bossuyt PMM. The diagnostic odds ratio: a single indicator
of test performance. J Clin Epidemiol 2003;56(11):1129-35.
12. Reitsma JB, Glas AS, Rutjes AWS, Scholten RJPM, Bossuyt PM, Zwinderman AH. Bivariate analysis of
sensitivity and specificity produces informative summary measures in diagnostic reviews. J Clin Epidemiol
2005;58(10):982-90.
13. Rutter CM, Gatsonis CA. A hierarchical regression approach to meta-analysis of diagnostic test accuracy
evaluations. Stat Med 2001;20(19):2865-84.
14. Walter SD. The partial area under the summary ROC curve. Stat Med 2005;24(13):2025-40.
15. Deeks JJ, Macaskill P, Irwig L. The performance of tests of publication bias and other sample size effects
in systematic reviews of diagnostic test accuracy was assessed. J Clin Epidemiol 2005;58(9):882-93.
16. Mulherin SA, Miller WC. Spectrum bias or spectrum effect? Subgroup variation in diagnostic test
evaluation. Ann Intern Med 2002;137(7):598-602.
Introducción
Hacer un pronóstico consiste en conocer el futuro. Los estudios de pronóstico buscan averiguar qué le
sucederá a un paciente afectado por una determinada circunstancia como una enfermedad, un factor
de riesgo o un tratamiento. Este tipo de estudios son especialmente importantes para los pacientes y
sus familiares. No obstante, los estudios de pronóstico son especialmente complejos y difíciles de llevar
a cabo. La lectura crítica de revisiones sistemáticas de estudios pronósticos posee unas peculiaridades
respecto a otro tipo de revisiones sistemáticas. Se deberá tener en cuenta el tipo de estudio de pronós-
tico analizado. La pregunta clínica tiene un formato PICO-TA. Se emplean herramientas específicas
para la extracción de datos de los estudios individuales (CHARMS-PF) y para el estudio del riesgo
de sesgo (QUIPS). La certidumbre en la evidencia (calidad de la evidencia) depende del riesgo de
sesgo en cada estudio individual y, además, del riesgo de sesgo de la propia revisión por factores como
la imprecisión, el sesgo de publicación o la existencia de evidencia indirecta, entre otros. GRADE es
una herramienta que mide la certeza en la evidencia. La heterogeneidad entre estudios pronósticos
es frecuente, por lo que se recomienda usar un modelo de efectos aleatorios para el metaanálisis y
presentar intervalos de predicción para la estimación del efecto. Las revisiones de factores pronós-
tico son a menudo complejas, pues suelen presentar dificultades tales como sesgo de publicación
o reporte selectivo, diferencias en la elección de los puntos de corte o distintos factores de ajuste.
Escenario
Formas parte de la comisión de guías y protocolos de tu hospital y en las últimas reuniones se
ha planteado como objetivo actualizar los protocolos generales de reanimación cardiopulmonar
(RCP) que llevan algunos años sin actualizar. En realidad piensan que será un proceso complejo
con múltiples estratos que incluye desde la revisión de la infraestructura institucional, los protocolos
(pre-, intra- y posparada), la actualización del sistema de recogida de datos en coherencia con los
¿Qué es pronosticar?
Hacer un pronóstico consiste en conocer el futuro. Por lo menos, desde un punto de vista etimoló-
gico. A los efectos de este capítulo, los estudios pronósticos son aquellos que buscan averiguar qué
le sucederá a un paciente afectado por una determinada circunstancia (una enfermedad, un factor de
riesgo, un tratamiento). Los estudios pronósticos tienen interés tanto para profesionales de la salud
como para pacientes y sus familiares, políticos y encargados de tomar decisiones sobre salud (1).
El pronóstico forma parte de la tríada de la práctica clínica: diagnóstico-tratamiento-pronós-
tico. En la época hipocrática el pronóstico era el elemento más importante de los tres (se conocía
poco de los elementos diagnósticos de las enfermedades, y el tratamiento en muchos casos se
limitaba al conocido primum non nocere). En el siglo xx cobró importancia el diagnóstico (las
opciones de tratamiento aún estaban bastante limitadas). Hoy día, los avances en el conocimiento
de los mecanismos de las enfermedades permiten conocer más íntimamente los mecanismos de las
enfermedades en un paciente concreto. Esto hace posible establecer un pronóstico más afinado para
una determinada persona, con unas características particulares. Además, han surgido con fuerza
técnicas para extraer y analizar cantidades ingentes de datos de salud (big data).
© Elsevier. Fotocopiar sin autorización es un delito.
Los términos referentes a los estudios pronósticos eran tradicionalmente confusos. Para solucio-
nar este problema se creó la Estrategia en Investigación Pronóstica, en inglés PROGnosis RESearch
Strategy, conocida por su acrónimo PROGRESS (2). En esta Estrategia se propone clasificar los
estudios pronósticos en cuatro tipos distintos:
PROGRESS tipo I: estudios de pronóstico global. En estos estudios se analizan los resultados
reales en muestras de pacientes con una determinada enfermedad o situación de salud de
interés. Se llaman «globales» porque el resultado es una medida global, como los valores
medios de una medida de la enfermedad. Por ejemplo, «puntuación en el MINIMENTAL
test a los 12 meses» o «porcentaje que sigue sin poder trabajar a los 12 meses».
PROGRESS tipo II: estudios de factores pronósticos (3). Estudian qué características
(o factores) se asocian con cambios en resultados globales para los individuos del estudio.
PROGRESS tipo III: modelos pronósticos (4). Evaluación de modelos matemáticos
de predicción de riesgo que incorporan múltiples factores pronósticos.
PROGRESS tipo IV: predictores del efecto de un tratamiento (5). Estudian las características
que predicen si un individuo responderá o no a un determinado tratamiento.
En este capítulo nos ceñiremos a las revisiones sistemáticas de estudios pronóstico tipo II
(factores pronósticos). Un factor pronóstico puede definirse como una característica o variable del
paciente, que está asociada a una determinada probabilidad de sufrir un resultado relevante (por
ejemplo, sufrir un infarto). Para la estructura general de una revisión sistemática remitimos a los
lectores al capítulo 12 («Lectura crítica de revisiones sistemáticas sobre estudios de prevención o
tratamiento»). Muy resumidamente, los pasos de una revisión sistemática son (6):
■ Protocolo.
■ Búsqueda de los estudios individuales.
■ Evaluación del riesgo de sesgo en cada estudio individual seleccionado.
■ Extracción de los datos de cada estudio individual.
■ Síntesis de la «evidencia» (si es posible).
■ Diseminación de los resultados.
ESTRATEGIA DE BÚSQUEDA
La búsqueda de los estudios individuales es más compleja en las revisiones pronósticas por el hecho de
que los estudios no suelen estar etiquetados como «pronósticos» y, por lo tanto, existe el riesgo
de que no se detecten mediante una estrategia de búsqueda convencional. Otra dificultad añadida
es que no existen filtros metodológicos de búsqueda que hayan sido validados. Se han desarrollado
y validado filtros metodológicos para la identificación de estudios de modelos pronóstico (7), que
han mostrado relativa capacidad para identificar estudios de factores pronóstico.
Por lo tanto, por miedo a perder estudios primarios importantes, suele realizarse una estrategia
más amplia, con el inconveniente de que se obtienen muchos resultados que no son relevantes.
Cuando la pregunta de revisión se centra en un factor pronóstico, desenlace o población específica,
Origen de los datos • (Ensayo clínico, estudio de cohortes, casos y controles, etc.)
Desenlaces (outcomes) que serán • Definición del desenlace y método para su medición
medidos • ¿Se han usado la misma definición y método de medición
en todos los participantes?
• ¿Desenlace único o combinado?
• ¿Hubo enmascaramiento para el desenlace?
• Tiempo hasta la aparición del desenlace
Datos que faltan • Número de participantes en los que falta algún valor
(incluyendo factores pronósticos y desenlaces)
• Número de participantes en los que falta algún dato para cada
uno de los factores pronósticos
• Datos de atrición. En estudios de supervivencia, número
de observaciones censuradas
• Cómo se manejaron los datos que faltan (imputación de datos
faltantes, análisis de casos completos, etc.)
en el modelo multivariante
• Método de selección de factores durante el modelado
multivariante (selección retrógrada o anterógrada) y criterios
para la selección (valor de la p; criterio de información
de Akaike)
• Métodos para el manejo de factores continuos (dicotomización,
categorización, lineal, no lineal), incluyendo los puntos de corte
elegidos y su justificación
Figura 15.1 Dominios analizados por QUIPS. (Modificado de Hayden 2013 [9]).
PROTOCOLO
Al leer una revisión sistemática de estudios pronósticos se debería considerar si los autores han cum-
plido con sus objetivos iniciales. Si no lo han hecho, se podría estar incurriendo en algún tipo de
sesgo. El lector debería poder consultar dicha información en el protocolo. Este documento es un plan
detallado de lo que se va a hacer y cómo se va a llevar a cabo en la revisión sistemática. El protocolo
incluye el razonamiento y la justificación de la revisión (¿por qué hay que hacer esta revisión?); los
objetivos; los criterios de elegibilidad de los estudios; el método de extracción de datos; la evaluación
crítica; los métodos estadísticos para sintetizar la «evidencia» (el resultado global de la revisión); y la
redacción (report) clara y completa de los resultados. Se puede buscar el protocolo en PROSPERO,
un registro específico que depende de la Universidad de York (https://www.crd.york.ac.uk/prospero/),
o publicado en ciertas revistas científicas. Se trata, en cualquier caso, de ofrecer al lector de la revisión
la opción de contrastar los objetivos iniciales de los autores con lo que finalmente se presentó.
RIESGO DE SESGO
El siguiente paso en la revisión es comprobar cuán creíble es la información que hemos encon-
trado, es decir, cuál es el riesgo de sesgo de cada uno de los estudios. Es probable encontrarnos en
algunas publicaciones «riesgo de sesgo». Para medir el riesgo de sesgo existe la herramienta QUIPS,
acrónimo de QUality In Prognosis Studies (9), que evalúa los siguientes «dominios» reportados
según CHRAM-PF (fig. 15.1):
■ Participación en el estudio. En este ítem se comprueba si la relación entre el factor pronóstico
y el desenlace puede ser diferente en los participantes en el estudio que estamos analizando,
comparado con la «población elegible» que no está en ese estudio. Por eso se describe la fuente
de la muestra extraída, las características basales de esa muestra, cómo se ha obtenido y durante
cuánto tiempo, y cuáles son los criterios de inclusión y exclusión. En resumen: los participantes
del estudio ¿son «similares» a la población donde usaremos los factores pronósticos?
■ Sesgo de atrición en el estudio. Analizaremos si la relación entre factor pronóstico y desen-
lace es probablemente muy distinta entre los que han concluido el estudio y aquellos que no
han llegado al final (o «se han perdido» por el camino).
■ Medición del factor pronóstico. Investigaremos si la medición del factor pronóstico se ha
llevado a cabo de manera diferente en los distintos niveles del desenlace (outcome) estudiado.
Si se midiese de modo más exhaustivo el factor pronóstico en los que han desarrollado el
desenlace comparado con los que no lo han desarrollado, podríamos encontrar que el factor
se relaciona con el desenlace pero que este hallazgo no sea cierto.
■ Medición del resultado. La medición del resultado o desenlace (outcome), ¿se ha realizado
de modo distinto en los diferentes niveles del factor pronóstico (es decir, más en los que han
estado expuestos al factor que entre los que no han estado expuestos, por ejemplo)?
■ Ajuste por otros factores. Comprobaremos si la relación entre el factor pronóstico y el
desenlace es probable que esté afectada por otra variable o factor que esté relacionado con
el factor pronóstico estudiado y con el desenlace. Es decir, estudiaremos si es posible que
© Elsevier. Fotocopiar sin autorización es un delito.
que estamos analizando) sea espurio y realmente se deba a sesgos en el análisis estadístico o
en la publicación de resultados.
Yi ∼ N(µ,var(Yi) + τ2)
Esta simpática fórmula indica que, según el modelo de efectos aleatorios, se tienen en cuenta
dos fuentes de variabilidad: la propia dentro de cada estudio y la variabilidad entre estudios.
Común a otros tipos de revisiones, existen diferentes métodos para estimar el modelo. El
modelo de efectos fijos utiliza habitualmente el método de Mantel-Haenszel, mientras que para
el modelo de efectos aleatorios el más frecuentemente utilizado por los investigadores es el método
de DerSimonian y Laird (10), usual en metaanálisis de ensayos clínicos y de especial utilidad en el
caso de los estudios de factores pronósticos por la heterogeneidad arriba señalada. En el contexto
de heterogeneidad de los estudios de factores pronóstico se recomienda el método de Hartung-
Knapp (11) —y, cuando el número de estudios que se van a combinar es pequeño, el método de
Hartung-Knapp-Sidik-Jonkman (12)—, dado que ha demostrado ser más robusto.
Para llevar a cabo el metaanálisis se recomienda emplear la escala original solo cuando el
estadístico estimado es la diferencia media (desenlace de tipo cuantitativo); cuando el estadístico
que se desea agregar es un RR, OR o HR, la escala apropiada para el metaanálisis es el logaritmo
neperiano. En este caso, el estadístico promedio y sus intervalos de confianza son estimados en
escala logarítmica y, posteriormente, se deben transformar de nuevo a la escala original.
HETEROGENEIDAD
Cuando la heterogeneidad entre los estudios identificados en la revisión sistemática es substancial,
la estimación promedio resultante del metaanálisis es difícil de trasladar a la práctica clínica. En
tales situaciones el hallazgo principal de la revisión es la propia heterogeneidad identificada entre
los estudios y la necesidad de investigar las posibles causas. La variabilidad entre los estudios puede
ser mostrada mediante un forest plot, preferiblemente sin el resultado de la estimación promedio
del efecto pronóstico del factor bajo revisión.
La heterogeneidad, como ya se ha mencionado en el capítulo 12, se puede cuantificar mediante el
estadístico I2, el cual mide el porcentaje de la variabilidad total debida a las diferencias entre estudios,
y cuyo rango de valores oscila entre 0 y 100%. Valores próximos a 0% indican poca heterogeneidad,
y a medida que aumenta, se incrementa la sospecha de heterogeneidad.
Si el metaanálisis se realiza a pesar de la presencia de heterogeneidad, es recomendable presentar
el intervalo de predicción de la estimación del efecto pronóstico. Dicho intervalo de predicción
indica el potencial valor del verdadero efecto pronóstico del factor en una nueva población a partir
de los resultados de la revisión. Técnicas bayesianas también pueden ser empleadas para obtener
inferencias predictivas. Por ejemplo, tras el metaanálisis se podría obtener la probabilidad de que
el verdadero efecto pronóstico del factor sea superior a un valor dado (p. ej., un HR > 1,3 para un
factor binario, que indica un incremento del riesgo de al menos un 30%).
Como en revisiones sistemáticas de intervenciones, análisis de subgrupos y metarregresión
pueden ser empleados para explorar y examinar las potenciales causas de heterogeneidad.
ANÁLISIS DE SENSIBILIDAD
En ocasiones es preciso hacer un análisis a parte de algún subgrupo de estudios, que por algún moti-
vo nos interesan de forma especial. Por ejemplo, podemos querer hacer un análisis de los estudios
con poco riesgo de sesgo, excluyendo los que tienen un riesgo de sesgo elevado. O podemos querer
analizar estudios realizados exclusivamente en ancianos o en personas con o sin una determinada
característica, para comprobar qué resultado arroja el metaanálisis en ese caso.
los sesgos de publicación, la evidencia indirecta, etc. GRADE analiza de forma individualizada
cada desenlace y cada factor pronóstico.
Conclusión
La lectura crítica de revisiones sistemáticas de estudios pronósticos posee unas peculiaridades
respecto a otro tipo de revisiones sistemáticas. Se deberá tener en cuenta el tipo de estudio de
pronóstico analizado. La pregunta clínica tiene un formato PICO-TA. La herramienta CHARMS
(CHecklist for critical Appraisal and data extraction for systematic Reviews of prediction Modelling
Studies) es una lista con los ítems que deben extraerse de los estudios individuales que se incluyen
en una revisión sistemática de estudios pronósticos. La herramienta QUIPS (QUality In Prognosis
Studies) se emplea para evaluar el riesgo de sesgo en estas revisiones. GRADE es una herramienta
que mide de modo independiente la certidumbre en la evidencia y la fuerza de la evidencia. Las
revisiones de estudios pronósticos tipo II enlazan con otros estudios tipo III y tipo IV (modelos
Artículo
Fernando SM, Tran A, Wei Cheng, et al. Pre-arrest and intra-arrest prognostic factors asso-
ciated with survival after in-hospital cardiac arrest: systematic review and meta-analysis. BMJ.
2019;367:l6373. Disponible en: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6891802/.
(Continúa)
7. Para el conjunto En la revisión sistemática de ejemplo, dado que son varios los factores
de los estudios (en cada pronósticos bajo estudio, las siguientes cuestiones deben discutirse
desenlace concreto) para cada factor concreto.
• ¿Cuál es la precisión • ¿Cuál es la precisión de los resultados?
de los resultados? Para evaluar de forma crítica la precisión de los resultados debemos
• ¿Son consistentes los fijarnos en los intervalos de confianza de la estimación puntual del
resultados de los estudios efecto. Por ejemplo, para el factor pronóstico historia de malignidad
para cada desenlace? (preparada) la estimación puntual del pooled odds ratio es 0,57, con
• ¿Es indirecta la evidencia un intervalo de confianza al 95% relativamente ajustado (preciso),
en algún desenlace? entre 0,45 y 0,71. Sin embargo, para el factor edad ≥ 70 (preparada),
la estimación puntual del pooled odds ratio es 0,42, y su intervalo de
confianza mucho más holgado (impreciso), entre 0,18 y 0,99. Ver
tabla 2.
• ¿Son consistentes los resultados de los estudios para cada desenlace?
La consistencia de los resultados depende de la heterogeneidad entre
los estudios. Esta se puede valorar a partir de los valores del estadís-
tico I2, los test estadísticos de heterogeneidad u observando el grado
de solapamiento entre los intervalos de confianza de los estudios
identificados. En el caso de disponer de ellos, también podríamos
ayudarnos de los intervalos de predicción. El valor del estadístico
I2 en todos los factores pronóstico metaanalizados excede del 50%,
indicando un importante grado de heterogeneidad entre los estudios;
además, las potenciales causas de heterogeneidad no han sido
exploradas mediante análisis de subgrupos. Por tanto, la consistencia
de los resultados es moderada.
• ¿Es indirecta la evidencia en algún desenlace?
Cuando la definición del desenlace, el factor pronóstico o la
población bajo revisión diverge entre los estudios incluidos, podría
ser un síntoma de evidencia indirecta.
C) ¿Son los resultados aplicables en tu medio?
8. ¿Se pueden aplicar los Sí ✓ No sé No
resultados en tu medio? Los pacientes y el ámbito donde se ha elaborado la revisión sistemática
PISTA: considera si: son, en principio, similares a los que encontraríamos en otros
• Los pacientes cubiertos hospitales de nuestro entorno.
por la revisión pueden ser CONCLUSIÓN: parece que sí, aunque desconocemos elementos
suficientemente diferentes como infraestructura, protocolos o entrenamiento del personal
de los de tu área. de los centros.
• Tu medio es muy diferente
a los del estudio.
© Elsevier. Fotocopiar sin autorización es un delito.
(Continúa)
Explicaciones: *A pesar de altos valores de I2 hay alto grado de solapamiento entre las estimaciones puntuales
y los intervalos de confianza. **La mayor parte del peso en la estimación del efecto agrupado proviene
de estudios de bajo riesgo de sesgo, excepto para el factor «duración de la resucitación», que proviene de
estudios de moderado riesgo de sesgo. ***Tiempos de intubación variables y no están claras otras variables
de confusión que contribuyen a si el paciente está o no intubado.
La tabla (tomada del artículo) presenta algunas discrepancias respecto a la presentada por los autores
de la revisión en el material adicional (tabla suplementaria 9). Esto sugiere que se ha llevado a cabo un análisis
de sensibilidad o que por alguna otra razón se ha descartado algún estudio en el análisis final presentado en el
manuscrito. En cualquier caso, en ambas tablas la certeza en la evidencia de las estimaciones no cambia (es alta),
y aunque los OR difieren ligeramente (como es lógico con distinto número de estudios incluidos en el análisis),
la dirección del efecto es consistente en ambas tablas. Por lo tanto, no existen discrepancias esenciales.
No obstante, se ha escrito a los autores y editores para la justificación o corrección de estas inconsistencias.
Bibliografía
1. Riley RD, van der Windt DA, Croft P, Moons KGM. Prognosis Research in Health Care: Concepts,
Methods, and Impact. Oxford: Oxford University Press; 2019.
2. Hemingway H, Croft P, Perel P, Hayden JA, Abrams K, Timmis A, et al. PROGRESS Group. Prognosis
research strategy (PROGRESS) 1: a framework for researching clinical outcomes. BMJ 2013;346:e5595.
3. Riley RD, Hayden JA, Steyerberg EW, Moons KG, Abrams K, Kyzas PA, et al. PROGRESS Group. Prog-
nosis Research Strategy (PROGRESS) 2: prognostic factor research. PLoS Med 2013;10(2):e1001380.
4. Steyerberg EW, Moons KG, van der Windt DA, Hayden JA, Perel P, Schroter S, et al. PROGRESS
Group. Prognosis Research Strategy (PROGRESS) 3: prognostic model research. PLoS Med
2013;10(2):e1001381.
5. Hingorani AD, Windt DA, Riley RD, Abrams K, Moons KG, Steyerberg EW, et al. PROGRESS Group.
Prognosis research strategy (PROGRESS) 4: stratified medicine research. BMJ 2013;346:e5793.
6. Riley RD, Moons KGM, Snell KIE, Ensor J, Hooft L, Altman DG, et al. A guide to systematic review
and meta-analysis of prognostic factor studies. BMJ 2019;364:k4597.
7. Geersing GJ, Bouwmeester W, Zuithoff P, Spijker R, Leeflang M, Moons KG. Search filters for finding
prognostic and diagnostic prediction studies in Medline to enhance systematic reviews. PloS One
2012;7(2):e32844.
8. Moons KG, de Groot JA, Bouwmeester W, Vergouwe Y, Mallett S, Altman DG, et al. Critical appraisal
and data extraction for systematic reviews of prediction modelling studies: the CHARMS checklist. PLoS
Med 2014;11(10):e1001744.
9. Hayden JA, van der Windt DA, Cartwright JL, et al. Assessing bias in studies of prognostic factors. Ann
Intern Med 2013;158(4):280-6.
10. DerSimonian R, Laird N. Meta-analysis in clinical trials. Control Clin Trials 1986;7(3):177-88.
11. Hartung J, Knapp G. A refined method for the meta-analysis of controlled clinical trials with binary
outcome. Stat Med 2001;20(24):3875-89.
12. Röver C, Knapp G, Friede T. Hartung-Knapp-Sidik-Jonkman approach and its modification for random-
effects meta-analysis with few studies. BMC 2015;15:99.
13. Guyatt GH, Oxman AD, Vist GE, Kunz R, Falck-Ytter Y, Alonso-Coello P, et al. GRADE: an emerging
consensus on rating quality of evidence and strength of recommendations. BMJ 2008;336(7650):924-6.
Introducción
La evaluación económica de las intervenciones sanitarias puede ser definida como el análisis
comparativo de los cursos alternativos de acción en función de sus costes y de sus consecuencias para
la salud (1). Parece evidente por tanto que una evaluación económica completa incluye comparar
varias alternativas, aunque una de ellas sea no hacer nada, y comparar costes y efectos sobre la salud
de todas las consideradas. Aunque mirada con cierta suspicacia por los clínicos y por los ciudadanos
en general, la evaluación económica en salud proporciona extraordinarias herramientas para
comparar entre alternativas, para ser eficientes, es decir, para determinar cómo obtener el máximo
beneficio en salud de los recursos disponibles, con el objetivo último de maximizar la salud. Es un
reduccionismo tendencioso convertir el análisis de los programas de eficiencia de las intervenciones
sanitarias en sinónimo de recortes, y la evaluación económica debe ser vista como una forma
razonada y razonable de distribución de recursos que, por principio, son limitados. Claramente, y
aceptando esta limitación, hay que asumir que aquellos recursos empleados en una estrategia no
estarán disponibles para ser usados en otra, y se perderán los beneficios que se podían haber obtenido
destinando los recursos a esta última opción. A esto se lo conoce como coste de oportunidad, y los
clínicos tienen también la responsabilidad de hacer un uso eficiente de los recursos a su alcance.
Las raíces de la evaluación económica hay que buscarlas en la primera mitad del siglo xx de la
mano del economista italiano Pareto y de los británicos Kaldor y Hicks. Más tarde, hacia los años
sesenta y setenta, aparecen ya evaluaciones económicas desde la perspectiva del llamado «capital
humano» (o pérdida de productividad debida a la enfermedad), los análisis de coste-efectividad
y los trabajos pioneros de valoración de años de vida ajustados por calidad (AVAC) en los pro-
gramas de screening de la fenilcetonuria y del tratamiento de la hipertensión (2). Desde entonces,
la terminología y los métodos de la evaluación económica se han hecho muy familiares ya para la
toma de decisiones en el campo de la salud.
Es cierto que antes de poner en marcha los análisis de evaluación económica deben estar claras
otras cuestiones previas: ¿puede funcionar la intervención, es decir, es eficaz?, ¿funciona, es decir,
es efectiva?, ¿el balance beneficio-riesgo es adecuado?, ¿puede llegar a las personas a las que va
destinada, es decir, está disponible, o lo que es lo mismo, se dispone de los recursos estructurales,
humanos y logísticos para poner la intervención en marcha, por ejemplo en el caso de un sistema
de cirugía robótica? Tras la determinación de estos aspectos previos e imprescindibles entra en
juego la economía de la salud para analizar costes y consecuencias, y ofrecer a los decisores el valor
económico del programa, considerando en todo momento que las inversiones en un programa
supondrán dejar de hacer inversiones en otros (coste de oportunidad).
A pesar de que la legislación ha recogido en España desde hace ya algunos años la necesidad de
la evaluación económica de medicamentos y otras tecnologías (3), firmemente defendida por algunos
colectivos de profesionales sanitarios y de economistas de la salud, existe un margen de mejora
tanto en su implantación como en su metodología y transparencia. Otros países (principalmente
el Reino Unido) tienen más claramente incorporada la evaluación económica de las intervenciones
como un estándar más en la evaluación de medicamentos, y parece que esto es ya la tendencia
internacional consolidada.
Por ello, y aunque tradicionalmente no ha figurado en los currículos académicos formativos de
los profesionales de la salud, el análisis crítico de la evaluación económica debe formar parte de
las habilidades del clínico para tomar decisiones en su práctica clínica. En las líneas que siguen
intentaremos mostrar que, al igual que se puede analizar críticamente un ensayo clínico sin saber
calcular matemáticamente la ubicua «p», es posible sacar conclusiones válidas para nuestro ejercicio
diario con la lectura crítica de los cada vez más abundantes estudios de evaluación económica.
Escenario
Tú eres un neumólogo junior (como se dice ahora, un A-4) de un hospital de tercer nivel que
es de referencia en tu comunidad autónoma en fibrosis pulmonar idiopática (FPI). Desde
que hiciste la residencia siempre te ha interesado el tema y has visto cómo se ha pasado de no tener
prácticamente tratamientos eficaces a disponer de dos fármacos con la indicación aprobada
por la Agencia Española de Medicamentos y Productos Sanitarios y financiada con criterios
específicos, pirfenidona y nintedanib. En el hospital estáis tratando algunos pacientes con
FPI y el jefe de servicio ha reestructurado el servicio tras tu llegada, asignándotelos a ti por
tu interés en el tema.
Tú conoces los ensayos clínicos de ambos fármacos, y sabes bien de su eficacia y de su
seguridad, pero has leído en el Informe de Posicionamiento Terapéutico (el IPT) que en la
selección de uno u otro medicamento «se tendrán en cuenta criterios de eficiencia». Sabes que
© Elsevier. Fotocopiar sin autorización es un delito.
la eficiencia tiene que ver con aspectos de evaluación económica, y recuerdas que cuando eras
residente asististe a unos talleres con metodología CASPe acerca de la lectura crítica de estudios
de evaluación económica. Así que te decides a buscar un artículo sobre la eficiencia de nintedanib,
que encuentras fácilmente.
Rinciog C, Watkins M, Chang S, Maher TM, LeReun C, Esser D, et al. A Cost-Effectiveness
Analysis of Nintedanib in Idiopathic Pulmonary Fibrosis in the UK. PharmacoEconomics.
2017;35(4):479-491.
Desempolvas tus apuntes del taller y te decides a abordar la lectura crítica del artículo con el
fin de hacer una propuesta de protocolo, que considere criterios de eficiencia, que se deberá valorar
junto con otros profesionales en la comisión de farmacia y terapéutica en tu hospital.
Para ello, tras leer críticamente el artículo que has encontrado, responde a dos preguntas:
1. ¿Es eficiente utilizar nintedanib en lugar de pirfenidona o del mejor tratamiento de soporte
en el tratamiento de la FPI?
2. ¿Propondrás que nintedanib sea la primera elección de tratamiento de la FPI?
PERSPECTIVA
Es el punto de vista desde el que se realiza la evaluación económica. Las perspectivas más utilizadas son
la de la sociedad o la población, la del sistema sanitario, la del pagador del servicio, la de la institución
que provee el servicio (p. ej., el hospital), la del paciente, etc. Lógicamente, la perspectiva seleccionada
influye especialmente y de manera muy marcada en los costes que se incluyen en la evaluación.
En general, la perspectiva recomendada es la de la sociedad, ya que es la más amplia y la que
incluye mayor número de costes. Por ejemplo, incluye costes asociados con la pérdida de pro-
ductividad, costes asociados a la rehabilitación funcional (p. ej., los recursos dedicados al apoyo a
pacientes ciegos tras una enfermedad degenerativa) o los costes para el paciente (p. ej., cuidadores),
además de los costes para el sistema sanitario. Lo recomendable es dar diferenciados los resultados
desde el punto de vista de la sociedad y también desde la perspectiva del sistema sanitario. En la
práctica, lo más frecuente es utilizar la perspectiva del sistema sanitario (5), pero en las patologías
con unos costes elevados para el paciente, como en las enfermedades degenerativas, sería importante
considerar estos también, y realizar el análisis desde la perspectiva de la sociedad.
HORIZONTE TEMPORAL
El horizonte temporal del análisis se refiere al tiempo a lo largo del cual se van a incluir los efectos
de los tratamientos. Puede ser muy corto (por ejemplo, para procesos agudos sin consecuencias
posteriores) o toda la vida del paciente, como se hace en procesos crónicos y/o con consecuen-
cias mortales como el cáncer, la hepatitis, etc.
Es importante que el horizonte temporal escogido englobe todas las consecuencias importantes
y diferenciales entre las alternativas que se están comparando, aunque en ocasiones se limita por
la disponibilidad de los datos o la posibilidad de la estimación de los efectos futuros. Por ejemplo,
no sería adecuado utilizar el horizonte temporal de un ensayo clínico al evaluar medicamentos
para la degeneración macular, sino que habría que considerar toda la vida del paciente, ya que las
consecuencias, por ejemplo, la ceguera, perduran.
La elección de horizontes temporales diferentes puede llevar a resultados muy diferentes en la
evaluación económica.
influyen en los resultados que después se obtengan de la evaluación económica. Cuando existe
incertidumbre o se realizan asunciones hay que analizar el efecto de estas en los resultados, lo cual
veremos más adelante en el análisis de sensibilidad.
Si la variable de efectividad que se utiliza en el análisis no es una variable final, como son la
supervivencia o la supervivencia corregida por calidad de vida, y se utilizan variables intermedias o
subrogadas (como el porcentaje de pacientes que responden, la supervivencia libre de progresión,
etc.), es necesario conocer la relación entre estas y las variables finales.
Finalmente, si el grupo de población de interés corresponde con un subgrupo de pacientes
determinado, la efectividad tiene que haberse medido en ese subgrupo de forma adecuada, con un
ensayo independiente o con un análisis de subgrupos adecuado.
MODELOS
Un modelo es una representación de la realidad (v. capítulo 20). Los modelos en evaluación econó-
mica son una particularidad de los modelos de decisión y tratan de aproximarse a la evolución de
las enfermedades, las condiciones habituales de uso de las intervenciones (medicamentos, cirugía,
etc.) y sus alternativas en el mundo real, con objeto de determinar y evaluar las consecuencias del
empleo de los medicamentos o intervenciones diversas. Pueden servir para deducir datos esperados
de recursos o efectos sobre la salud (bajo condiciones de incertidumbre).
Existen diferentes tipos de modelos, pero entre los más utilizados figuran los árboles de deci-
sión y los modelos de Markov. Los modelos de Markov representan el curso de la enfermedad
mediante diferentes estados de salud (reversibles o no) entre los cuales «transicionan» los pacientes.
Son particularmente útiles en enfermedades crónicas o con estados recurrentes. Los diferentes
tratamientos se diferenciarán en la probabilidad de «transicionar» entre los diferentes estados de
salud, por ejemplo, en pasar de un estado menos grave a uno más grave o de fallecer. Cada estado
de salud, además, suele tener asociados unos costes y una calidad de vida diferentes.
Se dispone de diferentes listas-guía para valorar la calidad de los modelos en evaluación eco-
nómica (6). Cuando valoramos la calidad de un modelo es importante contrastar que representa
de la mejor forma posible la realidad, que las asunciones tomadas las compartimos y que los datos
introducidos en el mismo son adecuados.
TIPOS DE COSTES
Los costes que se deben incluir, como se ha comentado, dependen de la perspectiva del análisis
(tabla 16.2). En la evaluación económica deben estar incluidos todos los costes relevantes y diferen-
ciales entre las alternativas, recogiendo de forma separada la cantidad de recursos consumidos y los
© Elsevier. Fotocopiar sin autorización es un delito.
costes unitarios. Es importante que ambos se den de forma diferenciada, ya que es más frecuente la
similitud entre los recursos consumidos entre países con sistemas sanitarios similares que la de los
costes unitarios, de mucha mayor variabilidad. Por ello es importante conocer el desglose de estos
para poder aplicar una evaluación económica a nuestro entorno, valorando la similitud de ambos,
recursos consumidos y costes unitarios, con los datos de nuestro ámbito.
En la aplicación de la evaluación económica a un entorno es necesario conocer los costes reales
de las intervenciones, ya que en ocasiones los costes públicos de, por ejemplo, los medicamentos
(a precio notificado) no corresponden con los costes reales (a precio financiado), y estas diferencias,
muy notables a veces, pueden influir en la decisión de posicionamiento de los medicamentos.
TASAS DE DESCUENTO
La elección de un horizonte temporal superior a 1 año hace que sea necesario utilizar la llamada
tasa de descuento, medida que permite expresar los valores futuros en su valor equivalente del
Costes directos
Costes directos
no sanitarios
financiados Costes directos Pérdidas de
Costes directos sanitarios públicamente para el paciente productividad laboral
*Los subsidios por enfermedad se considerarán desde la perspectiva del financiador público.
momento actual. Desde un punto de vista más relacionado con la teoría de la toma de decisiones,
Tversky y Kahneman demostraron que las personas tienen preferencia por una ganancia actual
frente a otra mayor futura (7). Y, por otro lado, todos preferimos posponer los costes. Ambos
aspectos quedan reflejados mediante la aplicación de la tasa de descuento. La tasa de descuento
debe aplicarse tanto a costes como a resultados para poder comparar costes y efectos que ocurren
en diferentes momentos en el tiempo. Aunque no hay un consenso total, usualmente se emplea
una tasa comprendida en torno al 3 y el 5%, se recomienda revisar este valor cada 5 años por si se
hubieran producido cambios en la economía del país (8) y analizar en el análisis de sensibilidad el
efecto de elegir una u otra tasa de descuento o de no aplicarla.
Figura 16.1 Plano coste-efectividad y su interpretación según el cuadrante. RCEI, razón coste-efectividad
incremental.
El plano coste-efectividad proporciona una vía de representación gráfica de los efectos y costes
incrementales y sus incertidumbres (fig. 16.1). Está representado por cuatro cuadrantes. El origen
del plano representa los costes y la efectividad del comparador frente al que se va comparar la nueva
alternativa (intervención). Los valores de los ejes horizontal y vertical son incrementales. En el
eje horizontal se recogen las diferencias en efectividad y en el eje vertical las diferencias de costes.
En función de cada cuadrante, la toma de decisiones es diferente. Por ejemplo, la situación que
permite conseguir maximizar la salud de la población a un coste más bajo es la del cuadrante sureste
(SE), alternativa más efectiva y menos costosa que el comparador, por lo que es una alternativa que
llamamos «dominante» (9).
Para ayudar a tomar decisiones sobre si es eficiente usar un fármaco u otro es necesario tener
definido cuánto se está dispuesto a pagar por un AVAC, valor que conocemos como umbral de
coste-efectividad. La mayor parte de los países no lo tienen explícitamente reconocido, y únicamente
en el Reino Unido, con su agencia NICE, es posible identificar un umbral que de manera general
se sitúa en 20.000-30.000 £ por AVAC (10). En España no está oficialmente establecido, pero
se manejan cifras en torno a 25.000-60.000 € por AVAC o incluso más bajas (5,11). El sentido
que tiene este umbral de coste-efectividad viene dado por el coste de oportunidad: si utilizáramos
intervenciones sanitarias con un coste por AVAC superior al umbral, esos recursos no estarían dis-
ponibles para otras intervenciones que proporcionarían más AVAC a los pacientes por el mismo
coste y la ganancia en AVAC no se maximizaría.
Finalmente, y aunque se escapa de los fines de estas líneas, debe considerarse también a la hora
de la toma de decisiones el impacto presupuestario que la intervención sanitaria va a producir en
el sistema sanitario, y si este se lo puede permitir.
ANÁLISIS DE SENSIBILIDAD
Todas las evaluaciones económicas requieren utilizar datos, suposiciones, etc., que no conocemos
con absoluta seguridad y que, por lo tanto, están sujetos a incertidumbre. El análisis de sensibilidad
permite valorar el efecto de los supuestos iniciales en los resultados finales, haciendo variar estos
supuestos. Se debe decidir qué variables se analizarán, cuál será el grado de variación que puede
considerarse relevante y cómo de robustos o de sensibles a los cambios son los resultados finales.
Evidentemente, todas estas decisiones deben justificarse y apoyarse en datos objetivos (7).
El análisis de sensibilidad puede ser univariante (si se cambia el valor utilizado en la evaluación
económica para una única variable por otros posibles valores de esa variable, sin modificar los
valores de las demás variables, por ejemplo en lugar de utilizar un valor del 30% para la respuesta a
un tratamiento utilizar otros valores posibles, por ejemplo entre el 10 y el 40%; se pueden realizar
varios análisis de sensibilidad univariantes cambiando los valores de diferentes variables pero
de una en una, no varias variables a la vez) o multivariante (si se cambian los valores de varias
variables a la vez). Por otro lado, el análisis de sensibilidad puede ser determinístico (se cambia
el valor de las variables por valores puntuales, en el ejemplo anterior 30% por 10% o por 40%)
o probabilístico (se cambian los valores de las variables o parámetros por valores aleatorios, de
entre los posibles, de acuerdo a su probabilidad). Se recomienda en general realizar un análisis
multivariante probabilístico. El resultado de este análisis se suele representar en el plano coste-
efectividad como una nube de puntos de los posibles valores de diferencia de costes y diferencia
de efectividades entre alternativas (posibles valores de ratio coste-efectividad) calculados al
cambiar los valores de las diferentes variables o parámetros por sus posibles valores. Y se puede
ver y calcular qué probabilidad hay de que el resultado de coste-efectividad esté por debajo de
un valor, por ejemplo 30.000 €/AVAC, y por tanto qué probabilidad hay de que un tratamiento
sea coste-efectivo, lo que se puede representar mediante las curvas de aceptabilidad. Un ejemplo
de ambas representaciones del análisis de sensibilidad multivariante probabilístico y de curva de
aceptabilidad se puede ver en el artículo que se analiza a continuación. Pero no todas las variables
o escenarios de interés se pueden incluir siempre en el análisis de sensibilidad probabilístico. Es
importante analizar si los resultados o las decisiones cambian al cambiar los posibles valores de
las variables o parámetros, cuáles son las variables que hacen cambiar los resultados, que se valore
el efecto de todas las variables relevantes sobre las que hay incertidumbre y que se valore el efecto
de todos los escenarios relevantes.
Artículo
Rinciog C, Watkins M, Chang S, Maher TM, LeReun C, Esser D, et al. A Cost-Effectiveness
Analysis of Nintedanib in Idiopathic Pulmonary Fibrosis in the UK. PharmacoEconomics.
2017;35(4):479-491. Disponible en: https://link.springer.com/article/10.1007/s40273-016-0480-2.
CUADRO 16.2 ■ Evaluación crítica del artículo propuesto (plantillas CASPe) (12)
(Continúa)
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
206 Lectura crítica de la evidencia clínica
4. ¿Los efectos Sí ✓ No sé No
de la intervención Dado que se trata de un estudio de evaluación económica de coste-utilidad
(o intervenciones) se (o coste-efectividad, como se denomina en el título), los efectos de
identifican, se miden y la intervención se miden en términos de AVAC. Los autores recogen
se valoran o consideran (tabla 4 del artículo) las «utilidades» del modelo en función del %CVF
adecuadamente? predicho según el cuestionario EQ-5D, así como las «disutilidades»
PISTA: o decrementos de la calidad de vida por los EA, lo que en principio
• Los efectos pueden ser parece correcto.
simples (control adecuado de
la TA) o alternativamente
puede utilizarse lo que se
denomina el «constructo
efecto», que consiste en
agrupar varias medidas
del efecto en una sola;
posteriormente medirlo de
modo adecuado y realizar
un juicio de valor sobre su
calidad.
• Los efectos se miden en
unidades naturales (años
de vida), unidades más
complejas (años ajustados
por calidad, AVAC o QALY)
o traslaciones de estas
a unidades económicas.
5. ¿Los costes en Sí ✓ No sé No
que se incurre por Los costes considerados incluyeron los correspondientes a la adquisición
la intervención de los medicamentos, al tratamiento de los EA, a las pruebas de
(intervenciones) función hepática, al seguimiento convencional, al uso de oxígeno,
se identifican, se a los de la exacerbación aguda y a los cuidados paliativos en el final
miden y se valoran de la vida. Los costes unitarios fueron tomados del Servicio Nacional
adecuadamente? de Salud británico (tabla 4 del artículo).
PISTA: Consideraron los costes de nintedanib y pirfenidona como iguales (precio
• Habitualmente deben de lista 71,7 £/día; 79,6 €/día según cambio de agosto de 2020). En
identificarse los recursos España los precios son menores para ambos fármacos a precio de venta de
necesarios (medicamentos, laboratorio (PVL), con una diferencia de 1,69 €/día a favor de nintedanib.
personal, etc.), medirlos El resto de los costes considerados están descritos, referenciados y son
en unidades adecuadas y
© Elsevier. Fotocopiar sin autorización es un delito.
(Continúa)
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
208 Lectura crítica de la evidencia clínica
8. ¿Se realizó un Sí ✓ No sé No
análisis adecuado Se hizo un análisis de sensibilidad determinístico univariante de 14
de sensibilidad? escenarios diferentes con valores extremos definidos por los IC 95%
PISTA: de varios parámetros para comparar nintedanib con MCS (fig. 3).
• Es decir, cuánto cambiaría El modelo fue sensible a las probabilidades de mortalidad y a las
el resultado si en un exacerbaciones.
modelo cambiamos variables Además (online resource 8) se llevaron a cabo otros análisis adicionales.
relacionadas con los costes o Para la comparación de nintedanib con pirfenidona los resultados
con la efectividad o con otras fueron sensibles a la mortalidad, las exacerbaciones agudas, con
circunstancias de uso. resultados que variaban desde situación de nintedanib dominante
• ¿Cambiaron todas las hasta situación de valores de RCEI por encima de 100.000 £/AVAC.
variables sobre las que También al momento de suspensión del tratamiento con pirfenidona.
existe una incertidumbre Como se ha comentado en la pregunta 2, uno de los análisis de
importante? sensibilidad incluyó los costes y beneficios en términos de AVAC si la
población que se tratara fuera la que tuviera un %CVF predicho entre
80 y 50%, con interrupción del tratamiento por debajo de esta última
cifra. En ambos supuestos, nintedanib es dominante con respecto
a pirfenidona de acuerdo con los autores.
También realizaron un análisis de sensibilidad probabilístico
multivariante. El scatter plot hecho con 1.000 simulaciones (fig. 4)
muestra que las nubes de nintedanib y pirfenidona se solapan casi
completamente entre ellas, y se sitúan por encima de MCS en costes
incrementales para toda ganancia de AVAC. Y en la figura 5 se muestra
cómo la terapia más coste-efectiva si estamos dispuestos a pagar menos
de 140.000 €/AVAC es el MCS, y la probabilidad de nintedanib de ser
coste-efectivo, si estamos dispuestos a pagar más que esta cantidad,
es menor del 60%.
C) ¿Ayudarán los resultados a la compra o implantación de servicios para nuestra población
o nuestros pacientes?
9. ¿Sería el programa Sí No sé ✓ No
igualmente efectivo En principio, la efectividad del programa debería ser similar. En España
en tu medio? se restringió la indicación a la población de los ensayos clínicos donde
PISTA: considera si la se había mostrado mayor beneficio: «FPI leve-moderada, con solicitud
perspectiva utilizada para trasplante pulmonar o no candidatos al mismo, patrón no
es la adecuada y aplicable obstructivo ni borderline –con una razón FEV1/CVF superior a 0,8–,
a tu contexto. y DLCO predicho de 35-90%»2.
Puesto que el artículo hace la evaluación económica principalmente
de nintedanib frente a pirfenidona y MCS sobre el conjunto de la
© Elsevier. Fotocopiar sin autorización es un delito.
(Continúa)
1
Algunas guías (la de NICE para pirfenidona, por ejemplo https://www.nice.org.uk/guidance/TA504/
chapter/1-Recommendations) recomiendan interrumpir el tratamiento con el fármaco cuando el
%CVF predicho se reduce un 10% o más en períodos anuales.
2
Disponible en: https://www.aemps.gob.es/medicamentosUsoHumano/informesPublicos/docs/
IPT-nintedanib-Ofev.pdf.
comparan de manera indirecta es similar, en la práctica cabría pensar en un análisis económico del
tipo de minimización de costes para escoger la alternativa de menor coste, y no en un coste-utilidad
como el del artículo. En cuanto a la comparación frente al mejor cuidado de soporte (MCS), el
resultado indica que nintedanib proporcionaría más AVAC a los pacientes que este, pero a un
coste muy elevado, y no sería coste-efectivo con los datos del estudio y probablemente tampoco
si utilizáramos los costes en España. Además, el resultado es muy sensible a la estimación de la
supervivencia, sobre la que existe mucha incertidumbre. Por ello, para poder recomendar el uso
en nuestro entorno en lugar del MCS sería necesario disponer de más información respecto a los
resultados a largo plazo, en especial en mortalidad, elegir los pacientes que más se beneficien y
una reducción en el coste.
Aunque los clínicos están cada vez más familiarizados con la terminología y la metodología de
la evaluación económica de las intervenciones sanitarias, ciertos aspectos constituyen todavía (tal
vez deliberadamente) arcanos insondables para los profanos. Sin embargo, las principales cuestiones
necesarias para evaluar críticamente un artículo de este tipo pueden responderse con plantillas de
lectura crítica como la que aquí hemos propuesto.
Por tanto, y de acuerdo con la lectura crítica del artículo de Rinciog et al. que has hecho, no parece
muy claro que nintedanib sea más eficiente que pirfenidona en el tratamiento de la FPI, y el uso de
cualquiera de ellos frente al MCS vendrá condicionado por una reducción del coste, los resultados a
largo plazo y la selección de los pacientes que más se beneficien para que su uso sea coste-efectivo.
Bibliografía
1. Drummond MF, Stoddart GL, Torrance GW. Methods for the economic evaluation of health care pro-
grammes. Oxford: Oxford University Press; 1996.
2. Blumenschein K, Johannesson M. Economic evaluation in healthcare. A brief history and future direc-
tions. PharmacoEconomics 1996;10(2):114-22.
3. Ley 29/2006, de 26 de julio, de garantías y uso racional de los medicamentos y productos sanitarios. BOE
núm. 178 de 27 de julio de 2006.
4. Alegre del Rey EJ, Fénix Caballero S, Castaño Lara R, Sierra García F. Evaluación y posicionamiento de
medicamentos como alternativas terapéuticas equivalentes. Med Clin (Barc) 2014;143(2):85-90.
5. Ortega Eslava A, Marín Gil R, Fraga Fuentes MD, López-Briz E, Puigventós Latorre F (GENESIS-
SEFH). Guía de evaluación económica e impacto presupuestario en los informes de evaluación de
medicamentos. Guía práctica asociada al programa MADRE v4.0. Madrid: SEFH; 2016. Disponible en:
http://gruposdetrabajo.sefh.es/genesis.
6. Philips Z, Ginnelly L, Sculpher M, Claxton K, Golder S, Riemsma R, et al. Review guidelines for
good practice in decision-analytic modelling in health technology assessment. Health Technol Assess
2004;8(36):1-158.
7. Kahneman D, Tversky A. Prospect Theory: an analysis of decision under risk. Econometrica 1979;47(2):263-92.
8. Prieto L, Sacristán JA, Pinto JL, Badia X, Antoñanzas F. del Llano J por el grupo ECOMED. Análisis
© Elsevier. Fotocopiar sin autorización es un delito.
de costes y resultados en la evaluación económica de las intervenciones sanitarias. Med Clin (Barc)
2004;122(11):423-9.
9. Ortega Eslava A, Fraga Fuentes MD. Farmacia Hospitalaria y Farmacoeconomía. 100 preguntas más
frecuentes. Madrid: EDIMSA; 2014.
10. McCabe C, Claxton K, Culyer AJ. The NICE cost-effectiveness threshold: what it is and what that means.
Pharmacoeconomics 2008;26(9):733-44.
11. Sacristán JA, Oliva J, Campillo-Artero C, Puig-Junoy J, Pinto-Prades JL, Dilla T, et al. ¿Qué es una
intervención sanitaria eficiente en España en 2020? Gac Sanit 2020;34(2):189-93.
12. Cabello JB por CASPe. Plantilla para ayudarte a entender una Evaluación Económica. En: CASPe. Guías
CASPe de Lectura Crítica de la Literatura Médica. Alicante: CASPe; 2005.
13. Porte F, Cottin V, Catella L, Luciani L, Le Lay K, Bénard S. Health economic evaluation in idiopathic
pulmonary fibrosis in France. Curr Med Res Opin 2018;34(10):1731-40.
14. Rinciog C, Diamantopoulos A, Gentilini A, Bondue B, Dahlqvist C, Froidure A, et al. Cost-Effectiveness
Analysis of Nintedanib Versus Pirfenidone in Idiopathic Pulmonary Fibrosis in Belgium. Pharmacoecon
Open 2020;4(3):449-58.
OB J ETIV OS D EL CA PÍ TULO
Introducción
Las preguntas PICO son la unidad básica para estructurar el conocimiento clínico e inspiran la
estructura de los diferentes tipos de estudio que son adecuados para producir ese conocimiento.
La evidencia clínica puede presentarse en diferentes documentos de evidencia, como vimos en el
capítulo 4 a propósito de la pirámide 5.0. Estos documentos se organizan en torno a una estructura
de preguntas PICO en unos casos como pregunta única (estudios primarios, sinopsis o revisiones
sistemáticas) y en otros se organizan como un catálogo de múltiples preguntas PICO, relacionadas
con las diferentes situaciones (diagnóstico, pronóstico, tratamiento, etc.) que plantean una condición
clínica particular. Este modo de organización es el usado en las «recomendaciones basadas en la
evidencia» (guías de práctica clínica) que señalábamos como tercer piso de la pirámide 5.0. Otros
sumarios de evidencia (por ejemplo, los libros electrónicos) se organizan de modo análogo en torno
a grupo de preguntas PICO de una condición clínica, aunque incorporan conocimiento preclínico.
Los diferentes documentos de evidencia pueden ofrecer en unos casos evidencia cruda o sin
evaluar y en otros ofrecen la evidencia previamente evaluada, es decir, que incorporan juicios de
valor sobre la calidad de la evidencia para las correspondientes preguntas PICO que incluyen en
los documentos.
En los casos en los que se muestra la evidencia cruda (estudios primarios) es necesario realizar su
lectura crítica para juzgar el valor de esa evidencia y decidir, en su caso, si aplicarla a la acción clínica
o juzgarla e incluirla en una revisión sistemática (es lo que hemos tratado en los capítulos del 5 al
10). En los casos en los que se ofrece la evidencia ya evaluada, para poder confiar en la calidad de
la evidencia contenida en esos documentos necesitamos saber qué criterios y qué procedimientos
usan las personas que juzgan la calidad de la evidencia y qué escala o método emplean para expresar
ese juicio de valor. Hemos tratado de esta situación en los capítulos del 11 al 16, y dedicaremos este
capítulo 17 a esa escala, esos procedimientos y esos criterios de juicio.
© 2022. Elsevier España, S.L.U. Reservados todos los derechos 213
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
214 Lectura crítica de la evidencia clínica
De modo análogo, cuando los documentos incluyen «recomendaciones para la práctica basada
en la evidencia», necesitamos saber qué criterios y procedimientos usan los grupos de personas
(paneles) que las formulan, para combinar las evidencias con otros valores individuales y colectivos,
y decidir sobre la dirección y la fuerza de esas recomendaciones. A esos criterios y procedimientos
para formular las recomendaciones para la práctica dedicaremos el capítulo 18.
pecto de la correcta, es decir, al juicio de valor sobre la validez interna del estudio. Este juicio
ha de realizarse individualmente para cada uno de los desenlaces importantes, para cada uno de
los estudios incluidos en la revisión sistemática, para el conjunto de los estudios de la revisión
y para el método de combinación de los estudios. En el caso de las revisiones sistemáticas es
particularmente crítico que los juicios de valor sobre el riesgo de sesgo sean concordantes entre
los investigadores que juzgan los estudios. Por ello, para minimizar las discrepancias al juzgar
ese riesgo, se han desarrollado diferentes instrumentos según el tipo de estudios que incluya
la revisión sistemática, es decir, según el tipo de pregunta PICO que trate de contestar. Esos
instrumentos se han mencionado en capítulos previos y se resumirán más adelante.
■ Además de ese riesgo de sesgo de cada estudio y del grupo de estudios, el conjunto de
estudios nos ofrece una valiosa información grupal, sobre la que podemos juzgar la «certeza»
en ese cuerpo de evidencia entendida como la certeza que tenemos en que esa estimación
conjunta sea la realmente correcta (GRADE). Esa certeza en la evidencia tiene en cuenta el
riesgo de sesgo de los estudios de la revisión, y también valora otros aspectos del conjunto de
los estudios, tales como la «consistencia» de los resultados entre estudios, la «precisión»
de la estimación en los estudios y en el conjunto (medida por el intervalo de confianza), la
incorporación de «evidencias indirectas», o la posible existencia de «sesgo de publicación».
■ Elementos de contexto. Este concepto de certeza en la evidencia puede usarse, en un contexto
recomendaciones de una guía de práctica clínica, con escenarios para grupos amplios de
pacientes, o también en el contexto de la práctica clínica con los riesgos, valores y preferencias
del paciente en un escenario concreto y bien definido (2,3). Y hoy sabemos que la calidad de
la evidencia varía con el contexto. En estos casos la certeza nos parecerá alta, moderada, baja
o muy baja dependiendo de los factores antes mencionados y de las decisiones que debamos
tomar (riesgos, alternativas, costes, aceptabilidad, etc.). Habrá decisiones que por su contexto
no precisen de una seguridad o certeza en la evidencia muy alta, y otras, en cambio, que exijan
una alta certeza para tomarlas. Por ejemplo, un tratamiento que ofrece una reducción absoluta
de la mortalidad del 1% en una revisión sistemática con estudios adecuados y estimación
poco precisa pero consistente, con apenas efectos secundarios y precio relativamente barato,
en un país desarrollado, puede calificarse de certeza moderada en que ese efecto justifica esa
decisión. Sin embargo, la misma evidencia en un país en desarrollo podría no ser suficiente.
Otro ejemplo sería el caso de un paciente con fibrilación auricular no valvular en el que
podríamos generar con el paciente un umbral a partir del cual una decisión es preferible.
Exploraríamos las preferencias sobre cuánta protección (disminución del riesgo de ictus res-
pecto de su riesgo basal) necesitaría para aceptar los efectos desfavorables de la anticoagulación
(sangrados, cambio de vida, visitas analíticas, etc., también adaptado a sus riesgos basales
para estos eventos). Si la intensidad del efecto preventivo se encuentra por muy encima de
ese umbral, nos bastaría una certeza en la evidencia moderada para elegir anticoagulación;
en cambio, si se encuentra cerca del umbral, necesitaríamos una alta certeza para elegirla.
En suma, podemos decir que la certeza en la evidencia significa, en el caso de las revisiones
sistemáticas (escenario poco contextualizado), en qué medida estamos seguros de que un efecto
estimado es correcto considerando todo el conjunto de los aspectos del cuerpo de evidencia. En el
caso de las guías de práctica clínica o de la clínica (escenario claramente contextualizado) significa
en qué medida un efecto estimado en un cuerpo de evidencia ofrece certeza suficiente para justificar
una recomendación (en dirección y fuerza) o una decisión clínica determinada.
efecto estimado, es decir, confiamos bastante en esta estimación del efecto, es evidencia
prácticamente cerrada.
■ Moderada certeza, B o ⊕⊕⊕⊝ : aunque confiamos que nuestra estimación está cerca del
auténtico efecto, es posible que nuevos estudios puedan cambiar de modo sustancial la
estimación del efecto, es decir, aunque estamos relativamente seguros, aún es evidencia abierta.
■ Baja certeza, C o ⊕⊕⊝⊝: Creemos que el auténtico efecto puede ser muy distinto del que
hemos observado o, en términos de futuro, es probable que una nueva investigación tenga
gran impacto y cambie nuestra estimación de la evidencia.
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
216 Lectura crítica de la evidencia clínica
Certeza en la evidencia
■ Alta certeza (⊕⊕⊕⊕ o A). Estamos seguros de que el efecto mostrado en los estudios refleja el
estos estudios.
■ Muy baja certeza, D o ⊕⊝⊝⊝: estamos realmente inseguros sobre estos resultados o, de otro
modo, es casi seguro que una nueva investigación cambie por completo los resultados de la
estimación. Dicho en términos prácticos, carecemos de evidencia sólida.
FLEXIBLE
La metodología GRADE está orientada a elaborar documentos para ayudar a la decisión clínica
más que a jerarquizar epistemológicamente la evidencia. Como hemos comentado en capítulos
precedentes, las preguntas clínicas pueden ser de diferente naturaleza (pronóstico, diagnóstico,
tratamiento, organización, etc.), y ya sabemos que la naturaleza de la pregunta condiciona el tipo
de diseño de estudio necesario para su contestación óptima.
Los métodos de jerarquización de la evidencia tradicionales usan el diseño del estudio como el
criterio fundamental para calificar la evidencia (epistemológico), y por ello los ensayos aleatorios
(o revisiones sistemáticas de ECA) ocupan, en esos métodos, los puestos superiores de la jerarquía. Sin
embargo, es obvio que para preguntas de riesgo, pronóstico, exactitud de test diagnósticos, reglas de
predicción clínica, etc., ese diseño no es el adecuado y son preferibles los estudios observacionales.
Incluso algunos desenlaces que pueden estudiarse mediante ECA (por ejemplo, los efectos adversos
de una intervención con período de latencia largo) pueden ser estudiados más adecuadamente
mediante estrategias observacionales (estudio de cohortes) que a través de los ECA.
Aunque el método GRADE se desarrolló inicialmente para las comparaciones entre alterna-
tivas: terapéuticas, preventivas, o de rutas con diferentes estrategias, etc., es decir, para preguntas
contestables con diseños ECA, siempre consideró la necesidad de incluir evidencia de naturaleza
observacional porque ese abordaje es imprescindible para la construcción de conocimiento clínico.
Así pues, de manera progresiva se van desarrollando nuevas variaciones del método GRADE para
valorar la calidad de la evidencia para diagnóstico, pronóstico, riesgo y otras preguntas clínicas
genuinamente observacionales (7-10). Esta versatilidad, junto con la capacidad de modular la
calificación de la evidencia (al alza o a la baja) según otros criterios que abajo veremos, dota al
método GRADE de una flexibilidad extraordinaria.
Así, en el caso de los ECA se centra en los desenlaces clínicos (es outcome-céntrico) y considera tanto
los beneficiosos como los indeseados. Aunque de los tres tipos de desenlaces señalados en el capítulo 3
(críticos para la decisión, importantes, pero no críticos, y no importantes), GRADE incorpora solo los desen-
laces «críticos para la decisión» e «importantes-no críticos», y no toma en consideración los no importantes.
Por otra parte, la arquitectura de estudio en los ECA permite probar simultáneamente el efecto
de la intervención sobre varios desenlaces. Sin embargo, la influencia de los detalles del diseño y
la conducción sobre la validez del estudio es diferente para cada desenlace (p. ej., la ausencia de
cegamiento puede ser esencial si consideramos un desenlace subjetivo como un síntoma, pero será
menos relevante si analizamos un desenlace como mortalidad o infarto de miocardio). Por tanto,
la certeza en la evidencia no puede predicarse de un estudio determinado (y menos de un diseño
en general de estudio) sino que debe valorarse y juzgarse para cada desenlace específico.
En cuanto a los estudios de pronóstico, en las fases iniciales se explora uno o varios desenlaces,
y una serie de factores. En estos casos el juicio sobre la certeza en la evidencia debe realizarse para
cada desenlace y para cada uno de los factores estudiados en cada desenlace (9). Por ejemplo, el
desenlace puede ser mortalidad y la certeza de la evidencia se predicará sobre la estimación de ella
o sobre un factor concreto (según se trate de estudio tipo I o II de pronóstico). Para el caso de los
estudios pronósticos tipo III (reglas de predicción para pacientes individuales) la certeza se predica
sobre la regla en su derivación y las sucesivas validaciones internas y externas (11).
En cuanto a los estudios de diagnóstico, el asunto es algo más complejo, porque los estimadores
de exactitud son al menos dos (sensibilidad y especificidad), y no se relacionan directamente con
resultados de pacientes, sino que tienen un papel de variables subrogadas: en efecto, identificar
correctamente enfermos o sanos depende de las consecuencias que derivan de ello y de la estrategia
en la que se incluya la prueba. Por ejemplo, en la prueba genética del cromosoma 4 para el diagnós-
tico de la Corea de Huntington, con independencia de su exactitud, las consecuencias clínicas
dependen por una parte de que es incurable, pero también de que se transmite a la descendencia. Por
ello será distinto si se trata de pacientes con sospecha de enfermedad que si se trata de un estudio
familiar, o screening prenatal o preimplantación. Las diferentes opciones para calificar la certeza de
las estimaciones deberán tratar de orientarse a los resultados de paciente (12-15). Ello siempre es
complejo en los estudios de exactitud, es más factible en los de impacto o de consecuencias clínicas
del uso del test que adoptan típicamente un modelo de ensayo clínico aleatorio.
INTEGRADOR
La escala GRADE no se aplica habitualmente a estudios individuales (no es un modo de leer
críticamente un artículo sobre un estudio primario), sino que valora el cuerpo de evidencia sobre
una cuestión PICO para sus diversos desenlaces posibles tomados separadamente, y ello tiene dos
© Elsevier. Fotocopiar sin autorización es un delito.
TRANSPARENTE
El método, tras analizar la calidad de la evidencia para cada uno de los desenlaces, condensa el
proceso en una tabla llamada perfil de evidencia (evidence profile), que ofrece la información explícita
de la certeza en la evidencia para cada desenlace y los juicios sobre cada uno de los aspectos usados
para realizar esa clasificación (riesgo de sesgo, imprecisión, inconsistencia, evidencia indirecta y
sesgo de publicación), así como los criterios usados para degradar o elevar la certeza en la evidencia
(tabla 17.1). Asimismo, ofrece los estimadores del efecto absolutos y relativos. Un resumen de ese
perfil suele ofrecerse también (Summary of Findings [SoF]).
El acceso a ambas tablas se ofrece en las modernas guías como enlace directo, lo que permite
disponer, a golpe de click, de las estimaciones absolutas y relativas del efecto para cada desenlace
con la evidencia actualizada, ponderada y justificada mediante el sistema GRADE. Por ejemplo, en
la tabla 17.1 se muestra un perfil de evidencia sobre la recomendación n.o 4 de la guía de práctica
clínica sobre prevención de trombosis (16) en pacientes críticos, la tabla esta reelaborada a partir
del repositorio de GRADE, al que se llega con click directo desde la recomendación 4.a de la guía.
De este modo GRADE ofrece un sistema transparente y explícito que permite acceso directo
a la evidencia evaluada y faculta el discurso argumental clínico para deliberar sobre la certeza de
la evidencia asignada. Por tanto, es una herramienta de gran interés para su uso en la clínica, para
panelistas de las GPC, para grupos que traten de usar la evidencia para adaptar la guía a su ámbito
o para usar la evidencia contenida en la guía en el desarrollo de vías clínicas.
CALIFICACIÓN INICIAL
El primer paso consiste en asignar la certeza del desenlace o factor en estudio a una de las cuatro
categorías ordinales de GRADE descritas previamente (v. cuadro 17.1). Para esa calificación inicial
nos basamos en las evidencias existentes sobre la calidad epistemológica de cada uno de los diseños
de estudio según los diferentes tipos de preguntas clínicas PICO.
De este modo si se trata de estrategias de comparación entre alternativas terapéuticas, preventi-
vas, o de rutas clínicas con diferentes estrategias, etc., el diseño adecuado es el ECA. Por tanto, si la
pregunta es de esa naturaleza y se contesta con ECA (revisión sistemática de ECA), la calificación
inicial será de alta calidad (⊕⊕⊕⊕) A; si se contesta con un observacional, la calificación inicial que
ofreceremos será baja calidad (⊕⊕⊝⊝) B. Recuérdese que la unidad de valoración es el desenlace,
por tanto, enjuiciaremos la calidad del cuerpo de evidencia para cada desenlace, considerando las
características de los estudios de la revisión de ECA que contribuyen a él (fig. 17.1).
Si se trata de una pregunta sobre exactitud de un test diagnóstico, el diseño que se debe elegir
es el de estudio de corte transversal (llamado single gate) o «tipo cohorte», aunque carezca de
dimensión temporal. Por tanto, si para una pregunta de exactitud diagnóstica se usa ese diseño, la
calificación inicial será de alta calidad (⊕⊕⊕⊕). A veces un test diagnóstico es usado dentro de
una estrategia clínica y es posible compararla con otra estrategia que no lo contenga, en ese caso
se puede valorar el impacto clínico de la elección de ese test, el diseño correcto será el ECA y, en
su caso, lo consideraremos evidencia de alta calidad (⊕⊕⊕⊕). No obstante, las llamadas pruebas o
test diagnósticos en la clínica pueden tener multiplicidad de objetivos: así, el mismo test es usado
como marcador pronóstico y el diseño adecuado sería, entonces, un estudio de cohorte, y en otras
ocasiones puede ser utilizado el test como indicador de la efectividad del tratamiento y ser usado
como outcome subrogado de un ECA (p. ej., el pro-BNP).
Si se trata de estudios de pronóstico, estos estudios pueden tener finalidades distintas: en unos
casos tratan de estimar el riesgo o probabilidad de un desenlace determinado, y entonces el diseño
que se ha de elegir será un estudio de cohortes y la RS de estudios de cohorte será considerada ini-
cialmente como evidencia de alta calidad (⊕⊕⊕⊕). Otras veces se trata de identificar la importancia
TABLA 17.1 ■ Perfil de evidencia. Profilaxis de trombosis en pacientes críticos. Cualquier tipo de heparina frente a no prevención
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
ECA, 2 No serio No seria No seria Sí, seria NO RR 0,89 –32 × 1.000 ⊕⊕⊕⊝ CRÍTICA
(0,78-1,02) (–64 a +6) Moderada
Embolismo pulmonar
ECA, 3 Sí, serio No seria No seria No seria NO RR 0,53 –9 × 1.000 ⊕⊕⊕⊝ CRÍTICA
(0,28-0,98) (–14-0) Moderada
ECA, 1 No serio No seria No seria Sí, seria NO RR 0,86 –8 × 1.000 ⊕⊕⊕⊝ CRÍTICA
(0,59-1,25) (–14 a +15) Moderada
Sangrado mayor
ECA, 2 No serio No seria No seria Sí, seria NO RR 1,01 0 × 1.000 ⊕⊕⊕⊝ CRÍTICA
(0,40-2,54) (–24 a +76) Moderada
ECA, 1 Serio No seria No seria Sí, seria NO RR 1,49 30 ×10.000 ⊕⊕⊝⊝ CRÍTICA
(0,59-3,78) (–25 a +171) Baja
Perfil de evidencia en el que se muestran, para cada desenlace, el tipo y número de estudios incluidos, los elementos juzgados (columnas 2-6) y la certeza en la evidencia
(columna 9). En este caso ha sido degradada un escalón para mortalidad, embolismo pulmonar, trombosis venosa profunda proximal, sangrado mayor y dos escalones para
trombocitopenia inducida por heparina. Se muestran también el efecto relativo (columna 7), que es claro para embolismo pulmonar y al límite para mortalidad y trombosis venosa
profunda (en ambos casos, intervalo amplio: imprecisión), y los efectos absolutos (columna 8), expresando cuántos eventos se evitan, con su intervalo de confianza. Todos los
desenlaces son de importancia CRÍTICA para la toma de decisiones.
219
220 Lectura crítica de la evidencia clínica
Figura 17.1 Proceso de evaluación de la evidencia y realización de recomendaciones. ECA, ensayo clínico
aleatorio.
Ajustes a la baja
Hay cinco grandes factores que pueden restar la calidad de la evidencia estimada inicialmente, es
decir, degradar la calificación inicial en la escala.
Riesgo de sesgo. La existencia de defectos en el diseño, conducción o análisis de los estudios puede
comprometer su validez (clásicamente llamada validez interna) y según su importancia pueden
hacernos disminuir la certeza en la evidencia uno o dos grados en la escala ordinal respecto de la
calificación inicial.
Los sesgos son específicos de cada diseño de estudio, y en el contexto de las revisiones sis-
temáticas se valorarán mediante los instrumentos específicos de riesgo de sesgo (17-23) que hemos
mencionado y descrito en los sucesivos capítulos del 12 al 15 y se ofrecen en la tabla 17.2.
Evidencia indirecta. Puede adoptar diferentes formas: en unos casos, la evidencia proviene de
una comparación indirecta, es decir, A es mejor que B, y B mejor que C, luego A es mejor que C,
o alternativamente A y B comparadas con placebo, pero no entre sí.
En otros casos se trata de ligeros cambios en el PICO: las poblaciones son muy diferentes
(diferente gravedad de la enfermedad o distintos tratamientos asociados), o las intervenciones
TABLA 17.2 ■ Instrumentos para valorar el riesgo de sesgo en revisiones sistemáticas (RS)
© Elsevier. Fotocopiar sin autorización es un delito.
RS de estudio de pronóstico (estudio de factores II) QUIPS (Quality in prognosis studies) (21)
o comparaciones son algo diferentes (diferente dosis de una u otra droga) y, en ocasiones, son
diferentes modos de medir el desenlace, o se miden algunos a través de una variable subrogada.
Un caso especial de evidencia indirecta es el de los estudios de exactitud de test diagnósticos.
Como se mencionó, en esos estudios los desenlaces de exactitud (verdaderos positivos y falsos posi-
tivos, verdaderos negativos y falsos negativos, y sus variantes) no son, en sentido estricto, desenlaces
directos de pacientes (pueden considerarse subrogados) y desde la perspectiva de GRADE tienen
una relación distante con la decisión clínica en función del contexto: unas veces son importantes
para la decisión y otras no. Este aspecto debe ser considerado al evaluar la evidencia de este tipo
de preguntas.
Inconsistencia. La existencia de diferentes estimados del efecto entre los distintos estudios requiere
estudiar la heterogeneidad, especialmente si el o los estudios inconsistentes pueden cambiar la
dirección del efecto. Cuando no encontramos una explicación satisfactoria para ello, hay que poner
en duda la estimación y bajar uno o dos niveles la puntuación de calidad.
Ajustes al alza
También la calificación inicial de la evidencia puede ser elevada en razón de diferentes criterios,
relacionados con la contundencia, la estructura o la coherencia de los resultados con el marco de
conocimiento existente; en suma, son elementos argumentales adicionales que hacen más creíble
un resultado (aumenta nuestra certeza). Los tres casos que hay que señalar son:
■ Cuando el efecto estimado es muy grande y es consistente entre estudios, se puede aumentar
uno o dos grados la calidad la evidencia. Por ejemplo, en una RS observacional (25) de la
profilaxis del tromboembolismo con anticoagulantes orales en pacientes con sustitución
valvular, la OR fue de 0,17 (IC 95%: 0,13-0,24), que es tan intensa y plausible que debe
considerarse evidencia de alta calidad.
■ Existencia de relación dosis-respuesta. Por ejemplo, el riesgo de sangrado en pacientes con
efecto va en contra del efecto detectado hace más creíble el efecto detectado: es decir, su
hubiéramos sido capaces de eliminar la confusión el efecto observado sería aún mayor.
■ En estudios de pronóstico, una distribución temporal de eventos coherente con los modelos
Recapitulando
La comprensión e interpretación de la evidencia previamente evaluada es sin duda una habilidad
necesaria para la lectura de guías de práctica clínica y otros sumarios de evidencia, y por tanto una
habilidad esencial para el desempeño clínico.
El método GRADE permite graduar la certeza en la evidencia disponible sobre cada una de las
preguntas PICO contenidas en las guías y otros documentos de evidencia preevaluada usando una
escala ordinal con cuatro categorías: alta, moderada, baja y muy baja. La gradación de la calidad de la
evidencia se realiza en dos pasos, con una primera aproximación guiada por los diseños a priori ade-
cuados y una segunda fase en la que se ajusta la calidad: unas veces degradándola y otras elevándola.
Los elementos que se deben considerar que pueden degradar la calidad de la evidencia son: El
riesgo de sesgo (diferente para cada tipo de diseño), la inconsistencia del efecto, la medición indirecta
del efecto, la imprecisión de la estimación del efecto y la existencia o el riesgo de sesgo de publicación.
Los elementos que pueden elevar la calidad de la evidencia son: efectos muy notorios, relación
dosis-respuesta, plausibilidad en relación con los factores de confusión, o las secuencias temporales
coherentes en estudios de pronóstico.
El método GRADE para evaluar la calidad de la evidencia es un método flexible, centrado en
los desenlaces de paciente, integrador de la evidencia y transparente para la deliberación.
Bibliografía
1. Guyatt GH, Oxman AD, Vist GE, Kunz R, Falck-Ytter Y, Alonso-Coello P, et al. GRADE: an emerging
consensus on rating quality of evidence and strength of recommendations. BMJ 2008;336(7650):924-6.
2. Hultcrantz M, Rind D, Akl EA, Treweek S, Mustafa RA, Iorio A, et al. The GRADE Working Group
clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4-13.
3. Guyatt GH, Oxman AD, Kunz R, Vist GE, Falck-Ytter Y, Schünemann HJ. What is «quality of evidence»
and why is it important to clinicians? BMJ 2008;336(7651):995-8.
4. The periodic health examination. Canadian Task Force on the Periodic Health Examination. Can Med
Assoc J 1979;121(9):1193-254.
5. West S, King V, Carey TS, Lohr KN, McKoy N, Sutton SF, et al. Systems to rate the strength of scientific
evidence. Evid Rep Technol Assess (Summ) 2002;47:1-11.
6. Shukle V, Bai A, Milne S, Wells G. Systematic review of the evidence grading system for grading level
of evidence. Ger J Evid Qual Health Care 2008;102:43-56.
7. Shea BJ, Reeves BC, Wells G, Thuku M, Hamel C, Moran J, et al. AMSTAR 2: a critical appraisal tool
for systematic reviews that include randomised or non-randomised studies of healthcare interventions,
or both. BMJ 2017;358(j4008).
8. Gopalakrishna G, Mustafa RA, Davenport C, Scholten RJPM, Hyde C, Brozek J, et al. Applying Grading
of Recommendations Assessment, Development and Evaluation (GRADE) to diagnostic tests was cha-
llenging but doable. J Clin Epidemiol 2014;67(7):760-8.
© Elsevier. Fotocopiar sin autorización es un delito.
9. Huguet A, Hayden JA, Stinson J, McGrath PJ, Chambers CT, Tougas ME, et al. Judging the quality of
evidence in reviews of prognostic factor research: adapting the GRADE framework. Syst Rev 2013;2(1):71.
10. Iorio A, Spencer FA, Falavigna M, Alba C, Lang E, Burnand B, et al. Use of GRADE for assessment
of evidence about prognosis: rating confidence in estimates of event rates in broad categories of patients.
BMJ 2015;350:h870.
11. Khalifa M, Magrabi F, Gallego B. Developing a framework for evidence-based grading and assessment
of predictive tools for clinical decision support. BMC Med Inform Decis Mak 2019;19(1.). [Fecha de
última consulta: 7 de noviembre de 2020] Disponible en: https://bmcmedinformdecismak.biomedcentral.
com/articles/10.1186/s12911-019-0940-7.
12. Hultcrantz M, Mustafa RA, Leeflang MMG, Lavergne V, Estrada-Orozco K, Ansari MT, et al. Defi-
ning ranges for certainty ratings of diagnostic accuracy: a GRADE concept paper. J Clin Epidemiol
2020;117:138-48.
13. Schünemann HJ, Mustafa RA, Brozek J, Steingart KR, Leeflang M, Murad MH, et al. GRADE guidelines:
21 part 1. Study design, risk of bias, and indirectness in rating the certainty across a body of evidence for
test accuracy. J Clin Epidemiol 2020;122:129-41.
14. Schünemann HJ, Mustafa RA, Brozek J, Steingart KR, Leeflang M, Murad MH, et al. GRADE
guidelines: 21 part 2. Test accuracy: inconsistency, imprecision, publication bias, and other domains for
rating the certainty of evidence and presenting it in evidence profiles and summary of findings tables.
J Clin Epidemiol 2020;122:142-52.
15. Schünemann HJ, Mustafa RA, Brozek J, Santesso N, Bossuyt PM, Steingart KR, et al. GRADE guidelines:
22. The GRADE approach for tests and strategies-from test accuracy to patient-important outcomes and
recommendations. J Clin Epidemiol 2019;111:69-82.
16. Schünemann HJ, Cushman M, Burnett AE, Kahn SR, Beyer-Westendorf J, Spencer FA, et al. American
Society of Hematology 2018 guidelines for management of venous thromboembolism: prophylaxis for
hospitalized and nonhospitalized medical patients. Blood Adv 2018;2(22):3198-225.
17. Sterne JAC, Savović J, Page MJ, Elbers RG, Blencowe NS, Boutron I, et al. RoB 2: a revised tool for
assessing risk of bias in randomised trials. BMJ 2019;366:l4898.
18. Puhan MA, Schunemann HJ, Murad MH, Li T, Brignardello-Petersen R, Singh JA, et al. A GRADE
Working Group approach for rating the quality of treatment effect estimates from network meta-analysis.
BMJ 2014;349(5):g5630-g15630.
19. Salanti G, Del Giovane C, Chaimani A, Caldwell DM, Higgins JPT. Evaluating the Quality of Evidence
from a Network Meta-Analysis. Tu Y-K, editor. PLoS ONE. 2014;9(7):e99682.
20. Whiting PF, Rutjes AWS, Westwood ME, Mallett S, Deeks JJ, Reitsma JB, et al. QUADAS-2: a revised
tool for the quality assessment of diagnostic accuracy studies. Ann Intern Med 2011;155(8):529-36.
21. Hayden JA, van der Windt DA, Cartwright JL, Côté P, Bombardier C. Assessing bias in studies of
prognostic factors. Ann Intern Med 2013;158(4):280-6.
22. Moons KGM, Wolff RF, Riley RD, Whiting PF, Westwood M, Collins GS, et al. PROBAST: A Tool to
Assess Risk of Bias and Applicability of Prediction Model Studies: Explanation and Elaboration. Ann
Intern Med 2019;170(1):W1.
23. Sterne JA, Hernán MA, Reeves BC, Savović J, Berkman ND, Viswanathan M, et al. ROBINS-I: a tool
for assessing risk of bias in non-randomised studies of interventions. BMJ 2016;355:i4919.
24. Sterne JA. Why Cochrane risk of bias tool should not include funding source as a standard item. Cochrane
Datab Syst Rev 2013;12(ED000076).
25. Cannegieter SC, Rosendaal FR, Briët E. Thromboembolic and bleeding complications in patients with
mechanical heart valve prostheses. Circulation 1994;89(2):635-41.
26. Hellenbart E, Faulkenberg K, Finks S. Evaluation of bleeding in patients receiving direct oral anticoagu-
lants. Vasc Health Risk Manag 2017;13:325-42.
OB J ETIV OS D EL CA PÍ TULO
Aplicando la evidencia
En capítulos anteriores se ha comentado cómo se generan los perfiles de evidencia a partir de las
revisiones sistemáticas de la literatura. Estos perfiles de evidencia proporcionan información sintética
sobre la magnitud del efecto promedio de la intervención sobre los diversos desenlaces clínicos, así
como de la certeza (el grado de evidencia) que tenemos de que esos efectos se encuentran dentro
de ciertos límites. En este capítulo abordaremos el problema de cómo aplicar esa información para
formular recomendaciones basadas en la evidencia.
Los fundadores de la medicina basada en la evidencia (MBE) advertían que la evidencia promedio
obtenida a partir de la literatura científica no se debía aplicar de forma mecánica, sino que era
necesario particularizarla para el paciente individual mediante el buen juicio clínico, teniendo en
cuenta las circunstancias, los valores y las preferencias del paciente (1,2).
Estas advertencias han sido frecuentemente ignoradas por algunos redactores de guías de práctica
clínica que equiparaban un grado de evidencia alto con un grado de recomendación alto, mientras
que una calidad de la evidencia baja equivalía a un grado de recomendación bajo. Esta confusión
entre grado de evidencia y grado de recomendación ha llegado al extremo de negar la posibilidad
de hacer recomendaciones en ausencia de evidencia.
La aproximación GRADE (Grading of Recommendations Assessment, Development and
Evaluation) proporciona una estructura racional para pasar de la evidencia a las recomendaciones.
Esta aproximación se diferencia de otros sistemas de jerarquización de la evidencia en diversos
aspectos.
En primer lugar, GRADE establece una clara diferenciación entre grado de evidencia y fuerza de
la recomendación. Ello permite que existan recomendaciones fuertes con bajo soporte evidencial, así
como recomendaciones débiles (o en contra) a pesar de la existencia de pruebas claras de efectividad.
En segundo lugar, mientras que la mayoría de estos sistemas consideraban un solo desenlace
clínico, las recomendaciones en GRADE se toman sobre la base de todos los desenlaces clínicos
críticos (v. fig. 17.1), teniendo en cuenta el peso relativo de los efectos beneficiosos y de los efectos
adversos.
DIRECCIÓN DE LA RECOMENDACIÓN
Si los beneficios de la intervención considerados conjuntamente superan a los daños (beneficio
neto positivo) se establece una recomendación a favor; en caso contrario (beneficio neto negativo)
se establece una recomendación en contra (fig. 18.1).
FUERZA DE LA RECOMENDACIÓN
La fuerza de la recomendación depende de lo desequilibrada que esté la balanza entre beneficio y
daño. Si creemos que la balanza está claramente desplazada hacia uno de los lados (las consecuencias
favorables o las desfavorables), estableceremos una recomendación fuerte (a favor o en contra de la
intervención). Si la balanza solo está ligeramente desplazada hacia uno de los lados estableceremos
una recomendación débil (a favor o en contra de la intervención) (8) (fig. 18.2).
Este balance entre los efectos favorables y los desfavorables es un continuo; sin embargo,
GRADE categoriza este continuo en cuatro grupos:
1. Recomendación fuerte a favor de la intervención (↑ ↑) o 1.
2. Recomendación débil a favor de la intervención (↑?) o 2.
3. Recomendación débil en contra de la intervención (↓?) o 2.
4. Recomendación fuerte en contra de la intervención (↓↓) o 1.
Obsérvese que mientras que el grado de evidencia tiende a ser universal (los perfiles de evidencia
cambian poco dependiendo del ámbito de aplicación), la recomendación tiende a particularizarse.
Por ejemplo, una misma intervención puede tener una recomendación fuerte en un subgrupo de
pacientes de alto riesgo y una recomendación débil en pacientes de bajo riesgo, con gradiente
beneficio-riesgo más equilibrado.
teniendo en cuenta las estimaciones típicas de los valores y preferencias («Balance de efectos
deseable e indeseados» o trade-off o «beneficio neto» de la intervención). Una diferencia
© Elsevier. Fotocopiar sin autorización es un delito.
grande entre los efectos deseables y los indeseables favorece una recomendación fuerte, mien-
tras que un gradiente pequeño favorece una recomendación débil.
■ En segundo lugar, la fuerza de la recomendación depende del grado de certeza acerca del
efecto, es decir, la calidad de la evidencia: una calidad de la evidencia alta favorece una
recomendación fuerte, mientras que una calidad de evidencia baja indica mayor incertidumbre
sobre el trade-off, lo que favorece una recomendación débil. Así, un beneficio neto favorable
puede recibir una recomendación débil en caso de que la calidad de la evidencia sea baja.
■ Tercero, la fuerza de la recomendación depende de la confianza en la estimación de los
asociada a un bajo consumo de recursos es más fácil que reciba una recomendación fuerte
que una intervención que requiere un importante consumo de recursos.
Una de las críticas a la práctica basada en la evidencia más extendida es la de que conduce al
nihilismo terapéutico cuando no se dispone de evidencia de calidad (10,11). Esta crítica es ina-
propiada, por dos razones: 1) las recomendaciones pueden hacerse en ausencia de evidencia de alta
calidad, y 2) las recomendaciones no se basan solamente en el grado de evidencia.
Además de los cuatro anteriores, dependiendo del ámbito y perspectiva de la decisión, puede
ser necesario considerar otros determinantes, como la equidad, la aceptabilidad o la factibilidad.
Por ejemplo, la equidad es un factor importante que se debe considerar en las decisiones en
el ámbito de la salud pública; los costes que han de tenerse en cuenta en las decisiones de
salud pública o de cobertura sanitaria son diferentes a los costes en recomendaciones clínicas
individuales; etc. El grupo GRADE ha creado unas tablas detalladas (Evidence-to-Decision
frameworks) para facilitar a los panelistas la elaboración de recomendaciones transparentes en
diversos ámbitos (9).
RECOMENDACIÓN FUERTE
Las recomendaciones fuertes, en la medida que suponen un claro desequilibrio a favor (o en
contra) de los beneficios, son las que seguiría la inmensa mayoría (más del 90%) de los pacientes
que estuvieran bien informados. Esta situación exime al clínico de explorar minuciosamente las
preferencias del paciente, y por tanto no necesita recurrir a ayudas a la decisión. Habitualmente
estas recomendaciones se formulan mediante la expresión «recomendamos […]».
Para los gestores y decisores políticos, este claro desequilibrio entre beneficio y daño indica que
las variaciones observadas probablemente no están justificadas y, por tanto, estas recomendaciones
son candidatas a ser consideradas como criterio de calidad.
Una recomendación fuerte no indica, sin embargo, que se trate de una prioridad que debe ser
implantada. Por ejemplo, en decisiones sobre políticas de salud hay que considerar, además, la
prevalencia-carga de sufrimiento, el potencial de mejora (vulnerabilidad), las dificultades de su
implantación, los problemas asociados de equidad o el coste total.
RECOMENDACIÓN DÉBIL
En el caso de una recomendación débil, la relación beneficio-daño no está tan claramente desviada
hacia uno de los lados, lo que indica que es posible que no sea adecuada para todos los pacientes.
Por eso, aquí el término «recomendamos» se sustituye habitualmente por «sugerimos» y se aconseja
que las recomendaciones hagan referencia al entorno y al riesgo basal.
En condiciones de recomendaciones débiles se impone una decisión compartida con el paciente,
para asegurarnos de que la decisión es acorde con los valores y preferencias del paciente. El uso de
ayudas a la decisión en este caso puede ser muy útil. En la figura 18.3 se presenta un gráfico para
ilustrar al paciente el efecto de una dosis oral de corticoides sobre el outcome quedar libre de dolor
a las 24 h (12).
Desde el punto de vista del gestor o decisor político, una recomendación débil indica que las
variaciones observadas podrían estar justificadas y, por lo tanto, el cumplimiento de estas recomen-
daciones no debe usarse como criterio de calidad.
El término «recomendación débil» es a menudo malinterpretado. En efecto:
■ Recomendación débil no significa falta de evidencia: por ej. puede haber nivel de evidencia
alto, pero con gradiente beneficio-riesgo estrecho, y la balanza puede decantarse hacia uno
u otro lado dependiendo de las preferencias o el riesgo basal.
■ Recomendación débil no significa que se puede ignorar: son auténticas recomendaciones,
solo que requieren una aplicación más cuidadosa. Por ello se aconseja que el enunciado de la
recomendación utilice formas verbales activas («sugerimos») en vez de las pasivas («se puede
aplicar»).
Debido a estas dificultades, en lugar del término recomendación débil algunos prefieren utilizar
sinónimos como recomendación condicional, cualificada o discrecional.
calidad, el efecto de aspirina y paracetamol son similares. Por tanto, por precaución, se establece
una recomendación fuerte (1D) a favor del paracetamol (6).
El grupo GRADE ha enumerado otras cuatro situaciones paradigmáticas, que se pueden
consultar en la bibliografía de este capítulo (5). Fuera de estas situaciones, las recomendaciones 1D
suelen ser incorrectas, bien por mala clasificación de la fuerza de la recomendación (recomendaciones
débiles clasificadas como fuertes) o por mala clasificación del grado de evidencia (evidencia alta o
moderada clasificada como evidencia baja o muy baja).
Es frecuente que, ante la ausencia de ensayos aleatorizados sobre un tratamiento, se le asigne
automáticamente un nivel de evidencia bajo. Esta práctica supone una insuficiente comprensión
del concepto de evidencia en GRADE como grado de convicción. Por ejemplo, se ha comentado
repetidas veces que no existen ensayos aleatorizados sobre la efectividad del paracaídas para
prevenir la muerte por precipitación desde un aeroplano. ¿Significa esto que el grado de evidencia
de la efectividad de los paracaídas es bajo? Aunque no se haya hecho una búsqueda formal, los
panelistas están convencidos de que la evidencia indirecta confirma sobradamente el beneficio
neto del paracaídas. Y, además, el ejercicio de recoger toda la evidencia indirecta para soportar la
recomendación sería oneroso e improductivo.
Estas situaciones en las que el balance beneficio-daño es concluyente y no se justifica el esfuerzo
de un estudio cuantificar el nivel de evidencia, se conocen como «declaraciones de buena práctica
clínica». Muchas veces estas declaraciones de buena práctica se identifican al intentar formularlas
en negativo. Veamos dos ejemplos:
1. «We recommend starting prompt diagnostic assessment [of hyponatremia]. (GRADE 1D)»
(13) [Sería difícil recomendar no hacerlo].
2. «Patients [who are prescribed] oral bowel-cleansing agents should receive clear instructions
regarding oral fluid intake (including an appropriate volume) and these instructions should
also be provided in writing (evidence: GRADE 1D)» (14) [Un ensayo aleatorizado con un
grupo control sería inético].
En estos casos, GRADE recomienda no clasificar la evidencia (15).
Imaginemos ahora un paciente con aversión a la hemorragia, para el cual un ictus es equivalente
a 1 hemorragia. En este nuevo contexto el umbral cambia, y ya no es de 57 sino de solo 19 por
mil. Ahora el límite superior del riesgo hemorrágico se solapa con el umbral, por lo que debemos
degradar por imprecisión. Ahora no tenemos seguridad de que el beneficio sea mayor que el daño,
lo que aconsejaría probablemente una recomendación débil.
Obsérvese que la evidencia empírica es la misma. Sin embargo, al cambiar el contexto cambia
el grado de evidencia y, en este caso, también la fuerza de la recomendación. Este ejemplo ilustra
también que el grado de evidencia no mide la certeza en la estimación, sino la certeza de que el
efecto se encuentre dentro de un rango determinado.
En el ámbito de la práctica clínica individual y de las guías de práctica clínica se hace necesaria
esta aproximación «totalmente contextualizada», en la que los umbrales están determinados por todos
los desenlaces críticos. Para cada desenlace, las puntuaciones representan nuestra confianza en que
la dirección del efecto (positiva o negativa) no diferirá entre un lado del rango de certeza y el otro.
Otras veces, como ocurre en las revisiones sistemáticas o en estudios de evaluación de tecnologías,
no se requiere este grado de contextualización. Estos estudios pueden limitarse a proporcionar la
estimación del efecto y sus intervalos de confianza. Frecuentemente es útil definir unos umbrales
a priori para clasificar el efecto como ausente, trivial, pequeño, moderado, grande.
ESCENARIO
Acude a tu centro de salud una paciente de 17 años con un dolor de garganta de intensidad
considerable, que le impide concentrarse para estudiar las pruebas de acceso a la Universidad, que
tiene que hacer de forma inminente.
La paciente no tiene alergias medicamentosas ni otras patologías de interés. A la exploración no
encuentras signos de absceso periamigdalino y únicamente evidencia una orofaringe eritematosa.
Su madre, muy preocupada por la situación de la paciente, te pide algún tratamiento que mitigue
el dolor a la mayor brevedad, para que su hija pueda continuar con su estudio al máximo nivel. Una
amiga íntima le ha comentado que su hija mejoró muchísimo cuando «le administraron cortisona».
¿Darías una dosis de corticoide oral, para mejorar el dolor de garganta en la opositora adolescente?
Encuentras una nueva guía (12) (https://doi.org/10.1136/bmj.j4090) realizada con metodología
GRADE, que se apoya en una reciente revisión sistemática (18) (http://dx.doi.org/10.1136/bmj.
j3887).
RESULTADOS DE LA REVISIÓN
Contexto
La revisión sistemática incluyó tanto a pacientes atendidos en departamentos de urgencias (54%)
como en entornos de atención primaria (46%). La mayoría de los estudios se centraron en adultos
(60%); los estudios pediátricos (2% de los pacientes) no incluyeron niños menores de 5 años, por
lo que la recomendación no puede aplicarse a estas edades tempranas. También había adecuada
representación de pacientes con distintos grados de dolor, y de pacientes que habían recibido o no
antibioterapia, sin efecto de subgrupo.
No estaban bien representados en la revisión los pacientes con episodios recurrentes de dolor de
garganta, los pacientes con dolor de garganta tras cirugía o intubación, los pacientes con mononu-
cleosis infecciosa ni los pacientes inmunocomprometidos.
Podemos considerar por tanto que nuestra enferma está bien representada en la revisión sis-
temática.
El panel también consideró la evidencia de estudios observacionales que usaron dosis más
altas de esteroides. El panel estuvo de acuerdo en que tales eventos parecían poco probables con
esteroides de dosis única.
Preferencias y valores
El panel consideró que existía una gran variabilidad en la cantidad de reducción en la gravedad del
dolor o el tiempo para completar la resolución del dolor que cada paciente consideraría importante.
Los pacientes que valoran mucho la reducción de los síntomas en cualquier cantidad (como los
pacientes con menor tolerancia al dolor o con síntomas graves) son más propensos a aceptar recibir
corticoesteroides.
La recomendación débil para los corticoesteroides también refleja las preocupaciones que el panel
tenía con la aceptabilidad. Específicamente, ¿cuán aceptable es tratar una afección que generalmente
no es grave y es autolimitada con un medicamento que muchos pacientes, médicos y otras partes
interesadas saben que casi siempre se usa para enfermedades más graves?
Costes y recursos
El panel se centró en la perspectiva del paciente más que en la de la sociedad al formular la
recomendación. Dado el bajo coste de los corticoesteroides para tratar el dolor de garganta, es
poco probable que la implementación de esta recomendación tenga un impacto importante en los
costes para los financiadores de la salud. El tratamiento es barato y es probable que se ofrezca en
el contexto de una consulta que se habría realizado de todos modos. Sin embargo, sigue siendo
incierto si puede aumentar la proporción de pacientes que visitan a un médico para obtener una
prescripción de corticoesteroides.
paciente típico, pesan más las consecuencias deseables que las indeseables.
© Elsevier. Fotocopiar sin autorización es un delito.
■ La recomendación es débil porque existe una gran variabilidad en los valores, lo que obliga
a particularizar el beneficio-daño.
Finalmente, tras deliberar con la paciente con la ayuda de gráficos como el de la figura 18.3 (19)
y constatar que la enferma está preocupada por la interferencia que el dolor de garganta pueda tener
en la realización del examen de selectividad, se decide administrar una dosis única de dexametasona
oral de 10 mg en la consulta.
Bibliografía
1. Sackett DL, Rosenberg WM, Gray JA, Haynes RB, Richardson WS. Evidence based medicine: what it
is and what it isn’t. BMJ 1996;312(7023):71-2.
2. Eisenberg JM. Globalize the evidence, localize the decision: evidence-based medicine and international
diversity. Health Aff (Millwood) 2002;21(3):166-8.
3. Hultcrantz M, Rind D, Akl EA, Treweek S, Mustafa RA, Iorio A, et al. The GRADE Working Group
clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4-13.
4. Andrews J, Guyatt G, Oxman AD, Alderson P, Dahm P, Falck-Ytter Y, et al. GRADE guidelines: 14.
Going from evidence to recommendations: the significance and presentation of recommendations. J Clin
Epidemiol 2013;66(7):719-25.
5. Andrews JC, Schunemann HJ, Oxman AD, Pottie K, Meerpohl JJ, Coello PA, et al. GRADE guidelines:
15. Going from evidence to recommendation-determinants of a recommendation’s direction and strength.
J Clin Epidemiol 2013;66(7):726-35.
6. Guyatt GH, Oxman AD, Vist GE, Kunz R, Falck-Ytter Y, Alonso-Coello P, et al. GRADE: an emerging
consensus on rating quality of evidence and strength of recommendations. BMJ 2008;336(7650):924-6.
7. Neumann I, Santesso N, Akl EA, Rind DM, Vandvik PO, Alonso-Coello P, et al. A guide for health
professionals to interpret and use recommendations in guidelines developed with the GRADE approach.
J Clin Epidemiol 2016;72:45-55.
8. Cabello JB, Latour J. De la evidencia a la recomendación: GRADE. En: Cabello-López JB, editor. Lectura
crítica de la evidencia clínica. Barcelona: Elsevier; 2015.
9. Alonso-Coello P, Oxman AD, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, et al. GRADE
Evidence to Decision (EtD) frameworks: a systematic and transparent approach to making well informed
healthcare choices. 2: Clinical practice guidelines. Gac Sanit 2018;32(2):166.e1-166.e10.
10. Straus SE, McAlister FA. Evidence-based medicine: a commentary on common criticisms. CMAJ
2000;163(7):837-41.
11. Samarkos MG. The philosophy of Evidence-based medicine. Hospital Chronicles 2006;1(1):27-35.
12. Aertgeerts B, Agoritsas T, Siemieniuk RAC, Burgers J, Bekkering GE, Merglen A, et al. Corticosteroids
for sore throat: a clinical practice guideline. BMJ 2017;358:j4090.
13. Spasovski G, Vanholder R, Allolio B, Annane D, Ball S, Bichet D, et al. Clinical practice guideline on
diagnosis and treatment of hyponatraemia. Intensive Care Med 2014;40(3):320-31.
14. Connor A, Tolan D, Hughes S, Carr N, Tomson C. Consensus guidelines for the safe prescription and
administration of oral bowel-cleansing agents. Gut 2012;61(11):1525-32.
15. Guyatt GH, Schünemann HJ, Djulbegovic B, Akl EA. Guideline panels should not GRADE good practice
statements. J Clin Epidemiol 2015;68(5):597-600.
16. Balshem H, Helfand M, Schunemann HJ, Oxman AD, Kunz R, Brozek J, et al. GRADE guidelines: 3.
Rating the quality of evidence. J Clin Epidemiol 2011;64(4):401-6.
17. Guyatt GH, Oxman AD, Kunz R, Brozek J, Alonso-Coello P, Rind D, et al. GRADE guidelines 6. Rating
the quality of evidence--imprecision. J Clin Epidemiol 2011;64(12):1283-93.
18. Sadeghirad B, Siemieniuk RAC, Brignardello-Petersen R, Papola D, Lytvyn L, Vandvik PO, et al.
Corticosteroids for treatment of sore throat: systematic review and meta-analysis of randomised trials.
BMJ 2017;358:j3887.
19. Aertgeerts B, Brignardello-Petersen R, Agoritsas T. Corticosteroids for acute sore throat. MAGIC
Evidence Ecosystem Foundation 2017. [Fecha de última consulta: 6 de febrero de 2021] Disponible en:
https://app.magicapp.org/#/guideline/JjXYAL/section/j79pvn.
OB J ETIV OS D EL CA PÍ TULO
Introducción
Hace ya 25 años, sir Iain Chalmers, reputado investigador británico en servicios sanitarios y uno de
los fundadores de la colaboración Cochrane, reflexionó en un artículo sobre qué pediría, poniéndose
en la piel de un paciente, de la investigación en salud y de los investigadores. Razonaba que lo que
básicamente pedía y esperaba era que las decisiones que los profesionales tomaran respecto a su
problema clínico estuvieran fundamentadas en evidencias de buena calidad y fiables. Consideraba
que dichas evidencias deberían provenir mayoritariamente de revisiones sistemáticas actualizadas
del conocimiento existente, aun sabiendo de las frecuentes limitaciones y carencias existentes en el
cuerpo de conocimiento y de la necesidad de cierto «ejercicio de fe» para admitir sin ambigüedades
que un resultado en salud se debe indiscutiblemente a la intervención que hemos realizado o aplicado.
Adicionalmente consideraba que los profesionales asistenciales y los investigadores clínicos debían
enfocarse muy específicamente en los aspectos/resultados realmente relevantes para los pacientes (1).
La práctica clínica fundamentada en la mejor evidencia disponible (PBE) sobre los aspectos
relevantes para los pacientes representa un enfoque necesario desde una perspectiva profesional,
social y ética para satisfacer las necesidades y los deseos de los pacientes (al menos de un paciente
como Chalmers). La capacidad de lectura y evaluación crítica de la evidencia clínica disponible
es uno de sus pilares. Es evidente que los autores de este libro consideramos imprescindible el
desarrollo de habilidades profesionales en esta área e intentamos suministrar al lector motivación
y herramientas para su consecución.
Sin embargo, incluso adalides de la PBE consideran que es poco realista esperar que los clínicos
acudan preferentemente a las piezas básicas de evidencia (estudios primarios) y realicen un ejercicio
de lectura crítica de la misma. Postulan que en los currícula en PBE se enfatice la identificación de
fuentes de información con evidencias preprocesadas (sintetizadas y a veces presentadas en forma
de mensajes clave), la comprensión de la evidencia contenida en las mismas y su utilización (2).
La actual producción y diseminación masiva de información científica sobre la práctica clínica (de
calidad y aplicabilidad muy variable) también dificulta poner en práctica el ideal de buscar y valorar
preferentemente los estudios primarios, por un exceso claro de oferta. Se considera adicionalmente
que las síntesis rigurosas y transparentes de la evidencia clínica aportan estimaciones más consis-
tentes de los efectos de las intervenciones y que, por tanto, deben de ser utilizadas, si disponibles, de
forma habitual. Por todo ello se han ido generando y adaptando progresivamente nuevos formatos
de organización, presentación y comunicación de la evidencia científica sobre la práctica clínica
que pretenden, en cierta forma, ayudar a gestionar eficientemente ese exceso y facilitar el poder
encontrar la información más adecuada para cada situación.
Estos documentos utilizan para ello las siguientes estrategias:
■ Ante la sobreproducción de información, evalúan, filtran y resumen la información más
mentos adicionales que la pongan en valor y contexto (opiniones, preferencias y valores del
paciente y su entorno, valores sociales, disponibilidad y uso de recursos, etc.) incorporan en
el documento elementos de valoración del contexto y métodos de integración explícita
de los mismos con la síntesis del conocimiento seleccionada.
■ Ante la necesidad de facilitar directamente la toma de decisiones allá donde se necesita
enlaces inteligentes a otras fuentes naturales de información sobre la práctica clínica (generalmente,
la historia clínica electrónica, sistemas de petición de pruebas complementarias, de prescripción
electrónica, bancos de imágenes, etc.). El sistema suministra el conocimiento sintetizado en un
formato amigable (recomendaciones, avisos, recordatorios, enlaces a fuentes de evidencia adecuadas
al problema, etc.), a demanda del profesional o interactivamente en el momento en que el sistema
detecta la existencia de un contexto susceptible de utilización del mismo. Esto último, en general,
se produce a través de la identificación de operaciones rutinarias del usuario (identificar un síntoma,
declarar un diagnóstico, pedir una prueba complementaria, indicar un tratamiento, etc.), en las que
la presentación de esa evidencia sintetizada y adaptada es potencialmente pertinente para apoyar
una toma de decisiones y acciones mejor informadas.
Estos sistemas, por tanto, deben suministrar recomendaciones o sugerencias de decisión, basadas
en síntesis actualizadas de la evidencia de mayor calidad y adaptadas al contexto. Evidentemente,
un sistema de estas características que funcione en tiempo real y pueda usarse en el punto de
decisión de manera natural y fluida puede llegar a ser un gran aliado del profesional sanitario y
puede, potencialmente, favorecer una práctica más «científica», efectiva, segura y eficiente e incluso
favorecer la toma de decisiones compartida con los pacientes.
Este ideal no está todavía plenamente desarrollado, aunque hay avances parciales (v. más
adelante). Es evidente también que estos sistemas necesitan apoyarse en un desarrollo robusto de los
procedimientos necesarios para sintetizar, combinar, actualizar e integrar la información proveniente
de la investigación clínica. Es aquí donde entran en juego los niveles tres y cuatro del modelo 5S.
propuestas sobre cómo aplicar la información obtenida en el estudio. Pero el objetivo específico
primordial de las guías es influir directamente en la práctica, en las decisiones con el paciente, a
través de recomendaciones razonadas, basadas en contenidos y criterios explícitos y aplicables en
situaciones y contextos claramente identificables.
Dentro del escenario de sobreproducción y exceso comentado previamente, existen guías que
no ajustan global o parcialmente sus procedimientos en relación con los tres aspectos comentados o
que emiten recomendaciones y consejos basados exclusiva o principalmente en opiniones colegiadas,
consensos o en revisiones ad hoc, no sistemáticas de la evidencia (5).
Por lo tanto, debemos abordar el asunto de si se puede considerar que las recomendaciones
contenidas en una guía están basadas en la mejor evidencia disponible y son desarrolladas a través
de un proceso de elaboración transparente y fiable. Es decir, debemos tener algún criterio global
sobre la validez de la guía en su conjunto para posteriormente abordar la validez y aplicabilidad
de cada una de sus recomendaciones (o de aquellas que nos interesen). Para ello utilizaremos dos
perspectivas: por un lado, una presentación de los elementos clave componentes de las guías con
una referencia a los estándares considerados como deseables para cada uno de ellos, y por otro, una
identificación de algunos elementos e instrumentos valorativos sobre la adecuada construcción de
guías propuestos desde diversas instituciones y organizaciones.
CUADRO 19.1 ■ Resumen de requisitos que debe cumplir una guía fiable
■ Transparencia total en la descripción de los objetivos, procedimientos, métodos y sobre la existencia
y resolución de posibles conflictos de interés.
■ Equipos multidisciplinares que actúen de forma complementaria e integrada.
■ Uso de revisiones sistemáticas como fundamento para la síntesis de la evidencia disponible.
■ Gradación explícita de la calidad de las evidencias disponibles.
■ Identificación y descripción de los déficits de conocimiento y/o de la baja calidad de los mismos
en aspectos clave de cara al establecimiento y gradación de las recomendaciones.
■ Proceso explícito y participativo de descripción y evaluación de los riesgos y beneficios potenciales
de cada recomendación frente a sus alternativas. Consideración clara de los valores asignados a
dichos beneficios y riesgos por diversos perfiles implicados en las decisiones (pacientes, clínicos,
gestores, etc.). Gradación explícita de la fuerza que acompaña a cada recomendación.
■ Procesos rigurosos y transparentes de revisión externa multidisciplinar de cada paso crítico.
■ Declaración sobre el período de presunta validez de la guía y los mecanismos y plazos de actuali-
zación.
■ Establecimiento de sistemas de vigilancia y alerta ante la posible aparición de nuevos resultados
relevantes de la investigación clínica, realizando modificaciones adecuadas en la guía cuando haya
nuevas evidencias que cambien la situación.
Clearinghouse [NGC]) han elaborado documentos similares y establecido a partir de ellos criterios
para incluir o no una guía en sus repertorios web. En el ámbito español, GuíaSalud, fruto de un
acuerdo entre el Ministerio de Sanidad y las Comunidades Autónomas para apoyar la mejor asistencia
sanitaria a través de la promoción y la difusión de guías de práctica clínica y otros documentos de
evidencia entre los profesionales del Sistema Nacional de Salud (SNS) y los pacientes (https://portal.
guiasalud.es/), también ha elaborado diversos documentos metodológicos en relación con las GPC.
Al mismo tiempo, se han creado instrumentos para valorar la calidad de una guía, con la espe-
ranza de que los usuarios y decisores seleccionen aquellas de más alta posición en el ranking y de
estimular a su vez una mejora en la forma en que las guías se generan y comunican (v. cuadro 19.1).
Entre los instrumentos creados, los más utilizados son los desarrollados por la organización AGREE
(https://www.agreetrust.org/): AGREE II (23 ítems en 6 áreas o dominios) es el instrumento de
referencia, pero debido a su extensión se ha creado una versión reducida: AGREE-GRS (Global
Rating Scale), con cuatro preguntas de valoración de aspectos concretos de la calidad de la guía,
una valoración global de su calidad y dos preguntas al usuario sobre su acuerdo con usar la guía
en su práctica y recomendarla a sus pares. Los autores del instrumento consideran que, usada por
dos evaluadores de la guía y siguiendo sus instrucciones, permite discriminar de forma razonable
guías de mayor o menor calidad.
En realidad, utilizar estos instrumentos requiere, además de un cierto tiempo, conocimiento
metodológico, y raramente son utilizados fuera del ámbito de la epidemiología clínica, la inves-
tigación en servicios sanitarios o en calidad asistencial. AGREE-GRS puede ser utilizado en el
ámbito de un grupo con interés por identificar y utilizar las mejores recomendaciones basadas
en evidencias científicas y en el que haya al menos una persona con cierta experiencia en lectura
crítica y metodología epidemiológica (por ejemplo, en un centro de salud, servicio hospitalario,
club de lectura, etc.).
Recientemente, el instituto ECRI de EE. UU., continuador del desaparecido NGC, ha incorpo-
rado el TRUST (Transparency and Rigor Using Standards of Trustworthiness) scorecard (https://
guidelines.ecri.org/about-trust-scorecard). Es un sistema de puntuación basado en estrellas (hasta
5, como con los hoteles o las críticas cinematográficas) que considera los aspectos propuestos por
el IOM y es aplicado a todas las nuevas guías que incorpora a su repertorio, ayudando, al menos
teóricamente, a la selección de las guías más rigurosas (14).
Sin embargo, el mayor impacto sobre los procedimientos que actualmente se están utilizando
en el desarrollo, la valoración y la aplicación de las GPC procede probablemente del trabajo del
grupo GRADE. La metodología GRADE (https://gdt.gradepro.org/app/handbook/translations/
es/handbook.html) ha incidido sobre varios aspectos clave de las guías: i) la valoración de la calidad
de o la confianza en la evidencia científica disponible sobre el efecto de las decisiones alternativas
sobre resultados clínicos relevantes y en relación con problemas bien especificados; ii) la cons-
© Elsevier. Fotocopiar sin autorización es un delito.
trumentos clave de uso y adaptación de las recomendaciones de una o más GPC a contextos
asistenciales específicos.
de evidencia, sustrato de la guía. También pueden aparecer nuevos problemas o necesidades que
requieren de consejos y recomendaciones de generación rápida (como ejemplo, la miríada de
preguntas clínicas, organizativas y de salud pública planteadas por la emergencia generada por la
aparición de la gripe aviar [H5N1] o por la actual pandemia inducida por el SARS-Cov-2). En
estas circunstancias se necesitan las recomendaciones en un plazo corto, pero intentando mantener
el rigor de las mismas.
Existen diversas experiencias de elaboración y difusión de recomendaciones desarrolladas de
forma explícita y sistemática en plazos muy inferiores, generalmente de pocos meses desde el plan-
teamiento de la necesidad de información (16) y propuestas sobre procedimientos de elaboración
de las mismas (17). Son denominadas de varias formas: guías rápidas, guías provisionales (interim
guidelines), guías cortas, etc. Algunas de las estrategias adoptadas para conseguirlo son descritas
en el cuadro 19.2.
Es remarcable que estamos asistiendo en la última década a una verdadera explosión de pro-
puestas de estrategias alternativas de elaboración de síntesis de la evidencia dirigidas a: i) acortar
sensiblemente el plazo entre la expresión de la necesidad de conocimiento y la presentación de la
evidencia en forma apropiada para ser usada en guías u otros sumarios de evidencia; ii) dar rápida
respuesta a la aparición de nuevo conocimiento con potencial de influir en las recomendaciones
de práctica clínica, y/o iii) proporcionar consejo en situaciones de emergencia con niveles de
evidencia muy preliminares y cambiantes. Aunque no existe todavía un acuerdo total en torno
a su nomenclatura y a qué las define y diferencia, es un campo de gran actividad metodológica
por parte de diversos grupos y organizaciones y que sin duda va a afectar de forma sustancial
a los procedimientos de elaboración, difusión y uso de las futuras guías. Mencionaremos las
revisiones rápidas, las revisiones «vivas» o continuas (lively reviews), las revisiones de alcance o
perspectiva (scoping reviews: realizan una exploración amplia y mapeo de las evidencias sobre
un tema, buscando conceptos, términos, identificando carencias en el conocimiento, fuentes de
información, etc.) y las revisiones «en paraguas» (umbrella reviews: revisiones de revisiones y
metaanálisis existentes). Remitimos al lector interesado en conocer más sobre estos tipos de
revisiones al capítulo 11.
Existe una propuesta inicial, apoyada por el grupo GRADE, con los pasos necesarios o recomen-
dados en la elaboración de una guía que produzca recomendaciones en un tiempo más adecuado
a la necesidad que pretende satisfacer (18).
Repositorios de guías
Hay una serie de recursos de repositorios de GPC elaboradas con metodología MBE (27). Cada
vez más frecuentemente las guías pueden ser publicadas como artículos en revistas patrocinadas por
sociedades científicas, pero podemos localizarlas en estas bases de datos, pues en ellas han podido
ser evaluadas, referenciadas o resumidas.
■ ECRI Guidelines Trust es actualmente el repositorio en línea más importante de GPC. Es
de acceso libre y gratuito, aunque precisa registro. ECRI Guidelines Trust ha sido creado por
el mismo equipo que desarrolló y mantuvo la National Guideline Clearinghouse™ (NGC)
de la Agency for Healthcare Research and Quality durante más de 20 años. Las GPC son
previamente evaluadas para asegurar su rigor metodológico y transparencia, por lo que
contiene exclusivamente guías «basadas en la evidencia». Además de almacenarla y ofrecer
enlace directo a la guía original, tras la evaluación desarrollan una sinopsis o «guía breve» y
© Elsevier. Fotocopiar sin autorización es un delito.
das por la Asociación Médica Canadiense y producidas por distintas organizaciones médicas
nacionales y provinciales, sociedades profesionales, agencias gubernamentales y paneles de
expertos. Se accede desde https://joulecma.ca/cpg/homepage.
■ Australia’s Clinical Practice Guidelines Portal. Desarrollada por el National Institu-
te of Clinical Studies, dependiente del National Health and Medical Research Council
(NHMRC), recoge las guías elaboradas en Australia. Las guías son seleccionadas previa
una evaluación metodológica que utiliza criterios similares a los de ECRI. Se accede desde
http://www.clinicalguidelines.gov.au/.
■ Guideline Central. Resúmenes de guías actualizadas. Desde ella se accede a los antiguos
resúmenes de la NGC. Para acceder a otras guías exige suscripción de pago. Acceso en https://
www.guidelinecentral.com/summaries/.
■ GuíaSalud. Fruto de una alianza entre el Ministerio de Sanidad y las CC. AA., es un
repertorio mantenido por el Instituto Aragonés de la Salud. En 2003 fue adoptada por el
Consejo Interterritorial de Sanidad como instrumento de mejora de la calidad en el SNS.
Recopila y presenta un catálogo con las GPC elaboradas en el SNS. Se accede desde http://
www.guiasalud.es. La inclusión de las GPC del catálogo se realiza basándose en criterios
metodológicos. Contiene además otros productos basados en la evidencia, materiales para
pacientes, etc.
Sumarios
Los sumarios enlazan las recomendaciones de práctica con los documentos que contienen las
evidencias de soporte, muy especialmente con las GPC, presentando a su vez un apartado de
referencias de las guías revisadas que respaldan la información desarrollada en el tema y un enlace
directo a las guías clínicas originales. Destacan especialmente DynaMed (https://www.dynamed.
com/home), UpToDate (https://www.uptodate.com/home) y Best Practice (https://bestpractice.
bmj.com/info/) (28). De esta manera, el uso de los sumarios es una de las formas más eficientes de
localizar GPC. Sin embargo, hay que tener en cuenta que no todas las guías que encontraremos
en estos sumarios están basadas en la evidencia, a diferencia de las accesibles en la base de datos
ECRI Guidelines Trust.
Metabuscadores
Los metabuscadores desarrollan una búsqueda simultánea de los diferentes documentos de eviden-
cia, presentándonos mediante unos filtros o etiquetas los correspondientes a guías clínicas. Este tipo
de recurso se ha transformado en una de las mejores herramientas para localizar guías. ACCESSSS
(https://www.accessss.org/), TRIP Database (https://www.tripdatabase.com/), Evidencias en
Medicina (http://www.adimbe.org/evidenciasenmedicina/) y NICE Evidence Search (https://
www.evidence.nhs.uk/), te permiten localizarlas mediante filtros o etiquetas. Al igual que en los
sumarios, no todas las GPC que encontremos en los metabuscadores están basadas en la evidencia,
a diferencia de la base de datos ECRI Guidelines Trust.
definidos por diversos grupos de trabajo y organizaciones. Estas herramientas no son prácticas
para ser utilizadas por un profesional en su práctica asistencial individual, pues requieren tiempo y
conocimientos metodológicos importantes. Además, las GPC son generalmente documentos extensos
y complejos, con varios apéndices y elementos anexos que contienen recomendaciones y un soporte
de evidencias preevaluadas, no susceptibles por tanto de una lectura crítica al uso, similar a la de un
estudio original.
© Elsevier. Fotocopiar sin autorización es un delito.
Figura 19.1 Ejemplo de búsqueda de GPC en PubMed: A. Búsqueda del término de interés. B. Búsqueda
del tipo de documento requerido (si utilizamos el tipo en el título y como tipo de publicación, maximizamos
la eficacia de la búsqueda).
(Continúa)
Figura 19.1 (Cont.) C. Combinación de las dos búsquedas con AND. La búsqueda nos mostrará las GPC que
incluyan el término «dispepsia» en el título y/o resumen y estén descritas o clasificadas como guías. PubMed
ha identificado 66 documentos que, a priori, cumplen el perfil de búsqueda.
Lo importante, por tanto, es valorar si la guía ha seguido de forma global un proceso riguroso
de construcción, usando algunas de las claves que hemos comentado anteriormente, para decidir
si la guía parece, a priori, fiable. Esto puede ser especialmente útil si existen varias guías publicadas
y vigentes sobre el mismo tema, algo bastante frecuente en algunas patologías. Tras esta valoración
debemos proceder automáticamente a comprobar si nos parece válida y útil para la resolución de
nuestra pregunta clínica concreta, es decir, hacer una lectura con enfoque clínico. Para ello hay
varios pasos que debemos llevar a cabo:
1. Encontrar nuestra pregunta en la guía. Si está formulada en formato PICO, será fácil
ver hasta qué punto la pregunta de la guía corresponde a nuestra duda decisional y por tanto
hasta qué punto podremos utilizar la/s recomendaciones sobre la misma. Es clave en ese paso
valorar qué resultados clínicos se han seleccionado como relevantes en la guía y si alguno
o varios de esos resultados son relevantes para nuestra práctica y para nuestro paciente o
problema concreto.
2. Identificar el cuerpo de evidencia presentado y el procedimiento de búsqueda del mismo.
Habrá que decidir sobre si el proceso de búsqueda parece sistemático, exhaustivo y apropiado
para encontrar evidencias directamente relacionadas con el tipo de pregunta planteada.
Aunque lo ideal es una revisión sistemática rigurosa y actualizada de estudios de alto nivel,
eso frecuentemente no es factible y hay que valorar cómo han abordado aquellas áreas de
escasa evidencia o de evidencia de baja credibilidad. Considerar si es probable que hayan
aparecido posteriormente nuevas piezas de evidencia no incluidas por no ser una búsqueda
actualizada.
3. Valorar la evidencia presentada: para cada desenlace crítico o importante hay que considerar
el resultado (magnitud del efecto o asociación), su precisión y la calidad/certeza de dicha
evidencia, que nos informará sobre la estabilidad del resultado estimado y su «resistencia» a
nuevas investigaciones. Aquí saber interpretar las tablas de evidencia y los resúmenes de los
hallazgos es clave.
4. Ver cómo se han definido y valorado los efectos beneficiosos y los perjudiciales de las inter-
venciones alternativas y cómo se ha determinado el equilibrio entre ellos, para los diferentes
resultados clínicos relevantes. Hay que considerar si este proceso es similar al que nosotros
hubiéramos realizado o, por el contrario, han incluido (o dejado de incluir) elementos y
aspectos que crees que tú, tu entorno de trabajo y tu paciente no hubierais considerado
(o hubierais considerado con toda seguridad) y si los «pesos» dados a cada elemento parecen
razonables.
5. Por último, deberemos centrarnos en las recomendaciones y considerar: su claridad, grado
de conexión directa con la pregunta de inicio y énfasis (fuerza) de la misma. A partir de ello,
deberíamos pensar si podemos hacer nuestra esta recomendación (o planteársela al paciente)
y si creemos que seguir la misma maximiza las probabilidades de un resultado clínico satis-
factorio (beneficio superior a daño). Nuestra intervención dependerá de la respuesta a esta
reflexión. Puede ser útil la existencia de documentos y herramientas auxiliares que ayuden
a presentar la información sobre la recomendación en lenguaje asequible para el paciente y
su entorno y/o a intentar establecer un diálogo y una decisión discutida y compartida.
Sumarios de evidencia
Debido a la falta de tiempo, a las dificultades de localización de las evidencias y a su constante
actualización, los clínicos recurren cada vez más a las herramientas de información en línea, pero
necesitan información de buena calidad y fácil de usar. Para ser considerados sumarios (resúmenes
sintetizados para la consulta clínica) deben ofrecer la información resumida y clasificada por
condiciones clínicas y/o por especialidades clínicas, con evidencia previamente evaluada y a través
de procesos de selección, lectura y presentación consistentes (3). Los sumarios extraen la evidencia
de guías clínicas, revisiones sistemáticas y estudios originales (es decir, de todos los niveles de
documentos de evidencia), constituyen un recurso altamente eficiente para localizar la evidencia
de las revisiones sistemáticas y GPC, ya que son referenciadas en su elaboración constituyendo su
principal arquitectura. Los sumarios difunden las recomendaciones clínicas, de tal forma que el
clínico, ante una determinada condición clínica, obtiene de forma sencilla recomendaciones basadas
en la evidencia incluso de diferentes guías. También pueden incorporar búsquedas adicionales de
evidencias por sus equipos editores para completar áreas donde la evidencia encontrada es débil o
pueden también incorporar opiniones y consensos de clínicos expertos. Estos equipos pueden reali-
zar además una revisión periódica de un grupo seleccionado de revistas de diferentes especialidades.
El objetivo de los sumarios es responder a las preguntas que surgen en el punto de atención al
© Elsevier. Fotocopiar sin autorización es un delito.
paciente (28,29). Para ello deben ofrecer la información con una interfaz sencilla de utilizar y bien
estructurada, rápidamente accesible y completa, por lo que tienden a organizar la información del
modo tradicional en la enseñanza médica y en los textos clínicos (algunos pueden ser considerados
libros electrónicos con soporte multimedia y actualización frecuente).
Los textos en línea destinados a ser utilizados en el punto de atención se han ido desarrollando
en estos últimos años por diversas empresas editoriales, debido a que se va imponiendo su uso en
la cultura médica, favorecido por el desarrollo de los dispositivos móviles que permiten su consulta
en cualquier lugar y momento. No todos reúnen las mínimas condiciones necesarias para ser
considerados un recurso de «evidencia previamente evaluada», desconociéndose si la información
está basada en la evidencia y si está actualizada. El clínico desea obtener de forma inmediata la
información, pero sin comprometer su fiabilidad y calidad, lo que obliga a evaluar la validez de los
denominados recursos de información en el punto de atención.
Una revisión sistemática reciente sobre las herramientas para validar la confiabilidad de los
sumarios concluye que no existe una herramienta estándar validada (30). Otro trabajo (28) evaluó
Algunos de estos sumarios presentan también documentos auxiliares para ayudar a informar a
los pacientes en un lenguaje adaptado y herramientas de apoyo a la formación a nivel pre- o post
graduado. En general son productos comerciales bajo el formato de suscripción renovable, a nivel
individual o institucional. Constituyen hoy en día un mercado muy importante y competitivo,
lo cual hace que estos sumarios se adapten y evolucionen frecuentemente, en un afán de ser más
atractivos y demandados cada día. También hace que algunos de estos sumarios hayan maximizado
su usabilidad en todo tipo de plataformas tecnológicas y su facilidad de integración en las historias
clínicas electrónicas. Aunque algunas de ellas se autoproclamen sistemas computarizados de apoyo
a la decisión clínica, no cumplen actualmente todos los requisitos que hemos comentado al inicio
(v. apartado «Sistemas de apoyo a la decisión clínica basados en la evidencia como ideal de referencia»).
Recapitulando
La asistencia a los problemas de los pacientes y la organización, gestión y provisión de servicios
sanitarios es cada vez más compleja y sus necesidades de información cada vez mayores. La existencia
de un crecimiento exponencial, aparentemente sin límite, en el número de estudios y publicaciones,
lejos de ser una solución, puede haberse convertido en un problema. Para afrontarlo existe un
movimiento de creación de documentos que sinteticen la información más relevante (síntesis),
se están desarrollado métodos para ofrecer al profesional recomendaciones de decisión aplicables
en el lugar y momento donde se necesitan (GPC basadas en las síntesis de evidencias) y se están
generando documentos y plataformas de sumarios de las evidencias, que organizan, integran y
presentan las recomendaciones y las evidencias sintetizadas de soporte y las aproximan al punto de
atención a través de los soportes tecnológicos actuales. Ello favorece que la información relevante
y de calidad esté en el momento y lugar adecuados, promoviendo su uso.
Se están realizando también avances en la integración de todos estos recursos en los sis-
temas y procesos de trabajo rutinario: historias clínicas electrónicas, generación de diagnósticos,
petición de pruebas de imagen y complementarias, prescripción, etc., a través de lo que se llama, un
tanto vagamente, sistemas computarizados de apoyo a las decisiones clínicas. Aunque hay todavía
importantes barreras y limitaciones en su funcionalidad y utilidad (31), el próximo futuro va a ver,
sin duda, un aumento de su presencia en las tomas de decisión y las acciones de los profesionales
de la salud. No debemos de perder de vista, sin embargo, el hecho de que, sin una sólida base
en forma de investigación clínica de calidad, sobre preguntas relevantes y comunicada de forma
apropiada (la base de la pirámide), no será posible tampoco una sólida calidad científica y humana
de la atención al paciente.
Bibliografía
1. Chalmers I. What do I want from health research and researchers when I am a patient? BMJ
1995;310(6990):1315-8.
2. Lehane E, Leahy-Warren P, ÓRiordan C, Savage E, Drennan J, ÓTuathaigh C, et al. Evidence based
practice education for healthcare professions: an expert view. BMJ Evid Based Med 2019;24(3):103-8.
3. Alper BS, Haynes RB. EBHC pyramid 5.0 for accessing preappraised evidence and guidance. Evid Based
Med 2016;21(4):123-5.
4. Woolf SH, Grol R, Hutchinson A, Eccles M, Grimshaw J. Clinical guidelines: potential benefits,
limitations, and harms of clinical guidelines. BMJ 1999;318(7182):527-30.
5. Bruder E, Howes DW. rFVIIa in trauma: a review and opinion-based guidelines. Trauma 2007;9(4):237-43.
6. Whitlock EP, Lin JS, Chou R, Shekelle P, Robinson KA. Using Existing Systematic Reviews in Complex
Systematic Reviews. An Intern Med 2008;148:776-82.
7. Schünemann HJ, Zhang Y, Oxman AD. Distinguishing opinion from evidence in guidelines. BMJ
2019;366:l4606.
8. Balshema H, Helfanda M, Schünemann HJ, Oxman AD, Kunze R, Brozek J, et al. GRADE guidelines:
3. Rating the quality of evidence. J Clin Epidemiol 2011;64(4):401-6.
9. Hajjaj FM, Salek MS, Basra MKA, Finlay AY. Non-clinical influences on clinical decision-making: a
major challenge to evidence-based practice. J R Soc Med 2010;103(5):178-87.
10. Alonso Coello P, Oxman AD, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, et al. Marco
GRADE de la evidencia a la decisión (EtD): un enfoque sistemático y transparente para tomar decisiones
sanitarias bien informadas. 2: Guías de práctica clínica. Gac Sanit 2018;32(2):167.e1-167.e10.
11. Gaminde I, Hermosilla T. Los problemas de calidad de las guías de práctica clínica. Boletín de Información
Terapéutica de Navarra 2012;20(1). [Fecha de última consulta: 23 de octubre de 2020] Disponible en: http://
www.navarra.es/NR/rdonlyres/192A434C-D95A-494F-ACC8-F59516F12F0F/219802/Bit_v20n1.pdf ).
12. Eden J, Levit L, Berg A, Morton S, editors. Institute of Medicine (US) Committee on Standards for
Systematic Reviews of Comparative Effectiveness Research. Finding What Works in Health Care:
Standards for Systematic Reviews. Washington, D. C.: National Academies Press; 2011.
13. IOM (Institute of Medicine). Clinical Practice Guidelines We Can Trust. Washington, D. C.: National
Academies Press; 2011. [Fecha de última consulta: 22 de octubre de 2020] Disponible en: https://pubmed.
ncbi.nlm.nih.gov/24983062/.
14. Jane JJ, Cunningham S, Lohr K, Shekelle P, Shiffman R, Robbins C, et al. Developing and Testing the
Agency for Healthcare Research and Quality’s National Guideline Clearinghouse Extent of Adherence
to Trustworthy Standards (NEATS) Instrument. Ann Intern Med 2019;170(7):480-7.
15. Lefevre M. From Authority- to Evidence-Based Medicine: Are Clinical Practice Guidelines Moving us
Forward or Backward? Ann Fam Med 2017;15:410-2.
16. Agoritsas T, Farhoumand PD, Siemieniuk R, Heen AF, Lytvyn L, MacDonald H, et al. The BMJ Rapid
Recommendations: towards a new model for the production of clinical practice guidelines. Rev Med Suisse
2019;9(15):149-55.
17. Schünemann HJ, Hill SR, Kakad M, Vist GE, Bellamy R, Stockman L, et al. Transparent Development
of the WHO Rapid Advice Guidelines. PLoS Med 2007;4(5):787-93.
18. Morgan RL, Florez I, Falavigna M, Kowalski S, Akl EA, Thayer KA, et al. Development of rapid
guidelines: 3. GIN-McMaster Guideline Development Checklist extension for rapid recommendations.
Health Research Policy Syst 2018;16:63. Disponible en: https://doi.org/10.1186/s12961-018-0330-0.
19. Hughes LD, McMurdo MET, Guthrie B. Guidelines for people not for diseases: the challenges of applying
UK clinical guidelines to people with multimorbidity. Age and Ageing 2013;42:62-9.
20. Wilson KC, Gould MK, Krishnan JA, Boyd CM, Brozek JL, Cooke CR, et al. ATS Guideline Metho-
dology Working Group. An Official American Thoracic Society Workshop Report. A Framework for
© Elsevier. Fotocopiar sin autorización es un delito.
Addressing Multimorbidity in Clinical Practice Guidelines for Pulmonary Disease, Critical Illness, and
Sleep Disorders. Ann Am Thorac Soc 2016;13(3):S12-21.
21. Morris ZS, Wooding S, Grant J. The answer is 17 years, what is the question: understanding time lags in
translational research. J R Soc Med 2011;104:510-20.
22. Gené-Badia J, Gallo P, Cais J, Sánchez E, Carrión C, Arroyo L, et al. The use of clinical practice guidelines
in primary care: professional mindlines and control mechanisms. Gac Sanit 2016;30(5):345-51.
23. Reschovsky JD, Rich EC, Lake TK. Factors Contributing to Variations in Physicians’ Use of Evidence
at The Point of Care: A Conceptual Model. J Gen Intern Med 2015;30(Suppl. 3):S555-561.
24. Lugtenberg M, Burgers JS, Westert GP. Effects of evidence-based clinical practice guidelines on quality
of care: a systematic review. Qual Saf Health Care 2009;18:385-92.
25. Graham ID, Logan J, Margaret B, Harrison MB, Straus SE, Tetroe J, et al. Lost in Knowledge Translation:
Time for a Map? J Cont Educ Health Professions 2006;26(1):13-24.
26. Van der Weijden T, Pieterse AH, Koelewijn-van Loon MS, et al. How can clinical practice guidelines be
adapted to facilitate shared decision making? A qualitative key-informant study. BMJ Quality & Safety
2013;22:855-63.
27. Straus E, Glasziou P, Richardson WS, Haynes RB. Evidence-based medicine. How to Practice and Teach
EBM. 5th ed. Edinburgh: Elsevier; 2018.
28. Kwag KH, González-Lorenzo M, Banzi R, Bonovas S, Moja L. Providing Doctors With High-Quality
Information: An Updated Evaluation of Web-Based Point-of-Care Information Summaries. J Med
Internet Res 2016;18(1):e15.
29. Banzi R, Liberati A, Moschetti I, Tagliabue L, Moja L. A review of online evidence-based practice point-
of-care information summary providers. J Med Internet Res 2010;12(3):e26.
30. Lenaerts G, Bekkering GE, Goossens M, De Coninck L, Delvaux N, Cordyn S, et al. Tools to Assess the
Trustworthiness of Evidence-Based Point-of-Care Information for Health Care Professionals: Systematic
Review. J Med Internet Res 2020;22(1):e15415.
31. Sutton RT, Pincock D, Baumgart DC, et al. An overview of clinical decision support systems: benefits,
risks, and strategies for success. Digit Med 2020;3:17. Disponible en: https://doi.org/10.1038/s41746-
020-0221-y.
OB J ETIV OS D EL CA PÍ TULO
Introducción
Las respuestas a las preguntas clínicas se obtienen, como en los demás ámbitos de la ciencia,
mediante tres grandes tipos de estrategias: las observacionales, las experimentales y un grupo especial
de estudios a caballo entre las anteriores categorías.
La primera estrategia, la observacional, es el método más antiguo y tradicional tanto en la ciencia
como en la clínica, estos diseños despliegan su estructura de estudio para contestar, mediante la
observación (transversal, longitudinal o mixta) tipos de preguntas clínicas de diversa naturaleza,
la mayoría de las cuales son preguntas esenciales y solo abordables mediante la observación: por
ejemplo, preguntas de prevalencia, riesgo, pronóstico, exactitud diagnóstica, etc.
La estrategia experimental, por su parte, es algo más reciente y sin duda supone un enorme salto
epistemológico en la validez de los estudios clínicos; sin embargo, por su naturaleza de cambio
intencional en la naturaleza para observar el efecto, estos estudios solo son adecuados para preguntas
que comportan intervenciones, sean estas preventivas, terapéuticas, de impacto de diagnóstico,
organizativas, intervenciones complejas, etc. Por lo demás, es sabida la existencia de restricciones
éticas o fácticas a las intervenciones experimentales en la clínica.
El tercer grupo se encuentra entre lo observacional y lo experimental, toma elementos de ambos,
pero sin pertenecer a ninguno de los dos. Este grupo comprende los llamados «experimentos
naturales», en los que una conjunción de factores circunstanciales permite reordenar los datos y verlos
como un experimento no intencional, y la «investigación cualitativa», que, desde otras posiciones
paradigmáticas y usando diversos marcos teóricos, explora otro tipo de preguntas de naturaleza
experiencial. Ambos estilos tienen larga tradición en las ciencias sociales, en la enfermería, en la
epidemiología, en la investigación en servicios de salud y naturalmente en la clínica.
Estos tres grupos de diseños permiten la agrupación y síntesis de estudios en revisiones sis-
temáticas, que incorporan una visión amplia y global de la evidencia existente sobre las preguntas
clínicas determinadas, ofrecen un plus de validez al probar las hipótesis en diversos bancos de prueba,
y permiten hacer (si agregativas) estimaciones combinadas de los efectos de las intervenciones, de
las observaciones y síntesis de las experiencias cualitativas.
Más allá de esos tres grandes tipos de estrategias para la construcción de evidencia y de sus
correspondientes revisiones sistemáticas, se encuentra otro tipo de métodos que usan algunas de
las capacidades de la moderna computación y que van tomando una importancia creciente en
todos los ámbitos de la ciencia y en la clínica, son los «modelos o simulaciones» por computador.
Estos estudios generan un ámbito nuevo de investigación esencialmente distinto de los anteriores
por cuanto construyen un conocimiento con unos vínculos con la realidad que podríamos llamar
«especiales». Este grupo de estudios han sido llamados estudios in virtuo o in silico, para remedar
los clásicos modos in vitro e in vivo de los estudios en biología y ciencias médicas.
A esos estudios dedicaremos este capítulo: en una primera parte, trataremos la taxonomía y
definición general de los modelos, haremos una breve descripción de su papel en áreas biomédicas
preclínicas, para realizar después una definición y caracterización de los modelos in virtuo/in silico
en la clínica. En una segunda parte, más pragmática, abordaremos la aproximación a la lectura
crítica de esta forma emergente de evidencia clínica.
En Medline, el término in silico se incluye dentro del Medical Subject Headings (MeSH)
«computer simulation» (Computer-based representation of physical systems and phenomena) y aparece
en 1987. La primera aparición del in silico en palabras clave en un artículo biomédico fue en 1991
en el estudio que modelizaba la adquisición automática (mediante autoaprendizaje) de datos
de secuenciación de genoma de E. coli (2). En Embase, in silico se incluye en EMTREE como
«computer-based models»; fue incluido en 1978.
Por su parte, in virtuo no existe en MeSH, aunque sí su adjetivo «virtual», que no es MSH pero
se incluye en el MeSH «use interface computer» y aparece en 1991, en cambio «virtual reality»
aparece como MeSH en 2018.
En resumen, aunque tengan ciertas áreas de solapamiento y se usen con frecuencia de modo
indistinto (3) los términos no son superponibles y el más usado es in silico. En áreas de ingeniería,
como señalábamos, la diferencia esencial es que in virtuo alude a existencia de interacción entre
hombre y computador o al lugar donde el hombre interacciona con él (o entornos virtuales) mien-
tras que in silico se refiere al uso de computador exclusivamente; es decir, el ordenador también
sustituye al papel del hombre en las interacciones con la máquina y sería un concepto relativamente
más sofisticado. Sin embargo, es precisamente la capacidad de interacción con el modelo in silico
la que permite la realización de experimentos sobre el modelo en entorno virtual y también en
aprendizajes supervisados en algunos casos. Por ello usaremos indistintamente «estudios in virtuo/
in silico» conociendo sus diferencias y matices, pero sabiendo de su cercanía.
En las dos direcciones, la biología inspirando a la ingeniería y viceversa, subyace el problema de
la reducción de la realidad por la elección de los modelos, e implícitamente plantean la reflexión
sobre el problema de las traslaciones del conocimiento de un área a otra o dentro de cada área,
como veremos con la validación de los modelos.
En cuanto a su complejidad, los modelos tienen un amplio espectro: puede ser un esquema
simple, un dibujo, un modelo con alto nivel de concreción mecánica o con exquisita formulación
matemática, hasta modelos absolutamente abstractos como los modelos causales de Rothman (7)
o los modelos exposómicos de causalidad (3); los propios modelos de análisis matemático que
usamos en la investigación clínica contienen implícita una propuesta de estructura y de relación de
los datos de la realidad que analizamos.
En cualquier caso, los modelos guardan una relación de «compleja proximidad» e interrelación
con las teorías científicas con las que a veces se identifican. En cierto modo porque actúan como
entidades representacionales de la teoría. Es decir, desempeñan un papel como metáforas explicativas
que permiten la comprensión, la investigación, la enseñanza, ayudan a la difusión por su valor docen-
te y por el contenido simbólico y en cierto modo determinan el éxito social de las teorías. ¿Podríamos
entender igual la estructura del ADN sin la imagen de Watson & Crik? o ¿entenderíamos igual el
modelo de «causa componente-causa suficiente» sin los conocidos diagramas de tartas de Rothman?
Al margen de esta función representacional (semántica) y de comunicación, de aprendizaje y
enseñanza (epistémica) y de su función simbólica (semiótica), las funciones esenciales de los modelos
en ciencia son dos: la explicación y la predicción (5,8).
1. Explicación. Se refiere a que el modelo explica externamente el fenómeno que es parte del
mundo real y que trata de representar, e internamente explica la existencia y las relaciones
de los elementos o entidades constitutivas del modelo y su funcionamiento general. De ese
modo, porque comprendemos el modelo podemos comprender mejor lo modelizado.
2. Predicción. La segunda finalidad del modelo es la predicción de fenómenos a partir de
la información del modelo y de las respuestas a situaciones o cambios de las condiciones
iniciales o sobrevenidas.
Una característica esencial de un modelo, relacionada con las dos anteriores, es la capacidad de
control entendida en, al menos, dos sentidos. En un sentido permite el «control» de los elementos
(o variables) que pueden influir en la relación de otros elementos o variables entre sí (confusión). En
otro sentido, permite las intervenciones (experimentación), lo que supone un mejor conocimiento de
las relaciones del modelo y de sus mecanismos, simula posibles cambios en las condiciones internas
o externas del modelo, es decir, el control contribuye a la explicación y a la predicción.
Subyace en todo modelo un marco teórico implícito o explicito que afecta a los anteriores
aspectos y que se relaciona con las asunciones que hacemos para elaborar el modelo y para su
utilización, así como si estas son consistentes a través del modelo y para otros funcionamientos en
el exterior. Por ejemplo, aun cuando hay diversos modelos para predicciones meteorológicas a largo
plazo, las asunciones no son demasiado distintas, aunque puedan serlo los resultados. En cambio,
un caso clásico donde ese marco teórico es determinante es el de los modelos económicos, donde
las posiciones a priori influyen en la construcción del modelo y naturalmente en la interpretación
de sus predicciones.
simulaciones por computador. Esto supone delimitar cuál es el núcleo al que nos referimos, es
decir, que áreas consideramos incluibles como modelos clínicos relacionados con decisiones sobre
pacientes y que áreas consideramos que son excluibles, aunque el límite pueda ser difuso.
Consideramos excluibles los sistemas generales de ayuda a la decisión clínica por su carácter de
mosaico y excesiva amplitud de objetivos (25). Excluimos también los estudios de síntesis, aunque
puedan valerse de modelos computacionales para el manejo de las bases, la lectura y el análisis auto-
mático, así como los estudios sobre macro-registros tradicionales de diversa naturaleza pese a que
usen también modelos para el manejo de la información, que consideramos instrumentales, hacemos
salvedad de los que puedan incorporarse o relacionarse como big data (BD). Excluimos asimismo los
estudios sobre asociaciones genéticas basados en modelos (genética computacional), excepto cuando
sus resultados se incluyan en modelos predictivos o de riesgo. Descartamos también los estudios
que usen modelos como parte instrumental de otros estudios, por ejemplo, centrales automáticas de
randomización o de minimización o seguimiento inteligente de pacientes de un estudio o análisis
automáticos en línea, etc. También descartamos los estudios realizados íntegramente a través de
Internet, en sus diversas variantes, aunque los consideramos de enorme interés metodológico y ético
creemos que es también un uso instrumental (26). De análogo modo excluimos el uso de realidad
virtual (RV) como intervención en ensayos clínicos u otras arquitecturas de estudio, frecuentes en
psicología y psiquiatría (27), así como en estudios de entrenamiento en habilidades: quirúrgicas,
clínicas, docentes, etc. (28); en todos ellos consideramos la RV elemento del estudio, pero no del
núcleo del estudio. Finalmente consideramos en la frontera dos situaciones: en primer lugar, los
in silico trials, que mencionamos previamente en la medida en que, por el momento, son instrumento
de ayuda a partes del diseño del trial (en fases iniciales para simular tamaños, desenlaces, o de
extrapolación de dosis, poblaciones, fases, o de adaptación o simulación de desenlaces negativos)
y en todo caso precisan validación estándar en pacientes (21,23,29). Y en segundo los estudios
en los que en alguna rama (o algunas) se incluye la comparación de estrategias de IA o machine
learning. Es claro que muchas de estas exclusiones, en particular las dos últimas, son transitorias
por lo impredecible del devenir del conocimiento y la tecnología en esta área.
*No se incluyen aquí los modelos tradicionales predictivos (reglas de predicción), diagnósticos y pronósticos
que comparten objetivos, pero se diferencian en que el proceso de modelización clásico es planeado
y controlado por el investigador y en que se utilizan datos consistentes de predictores y desenlaces.
Modelos predictivos de diagnóstico, pronóstico o riesgo. Una buena parte de los modelos com-
putacionales clínicos se enfocan a la predicción, lo cual incluiría, en sentido amplio: el diagnóstico,
el pronóstico y el riesgo, que, en realidad, tienen todos ellos una estructura lógica similar, veamos.
Desde un punto de vista conceptual diagnóstico y pronóstico se enfrentan a un problema
análogo: identificar una condición (entidad nosológica) o un desenlace «B» a partir de un factor
«A» (test o un factor pronóstico o de riesgo. En el caso del diagnóstico test A y condición B son
concurrentes, mientras que, en el caso del pronóstico o riesgo, primero es el factor A (que suele
llamarse exposición) y pasado un tiempo t ocurre el desenlace B. A puede ser un grupo de factores
(diagnósticos o pronósticos) pero B ha de ser un desenlace o condición concreta.
© Elsevier. Fotocopiar sin autorización es un delito.
Pero A y B pueden ejercen diferentes funciones según el marco que escojamos. Por ejemplo,
A puede ser una condición genética que se asocia con un factor de riesgo B (que sería el desenlace
en ese caso). El factor de riesgo (B), por su parte, lo es porque se asocia con la aparición de una
enfermedad C, o B puede en caso de que la enfermedad ya esté desarrollada ejercer como factor
pronóstico de otro desenlace de la enfermedad. De este modo anidado la identificación de factores
de riesgo, a diferente nivel, diagnóstico, riesgo o pronóstico son en realidad un proceso similar.
Por ejemplo, una exposición puede ser un factor externo (dieta, tabaco o la contaminación),
pero también una condición fenotípica (hipercolesterolemia) o genotípica como BRCA1 o BRCA2
(Breast Cancer gene A) para el cáncer de mama, o β-MCH (beta Myosin Heavy Chain)
para miocardiopatía hipertrófica. Una exposición puede también ser una enfermedad ya declarada
miocardiopatía hipertrófica (fenotípica) o una condición concreta dentro de esa enfermedad (hiper-
trofia septal asimétrica severa) cuyo pronóstico queremos estudiar. En los primeros casos estamos
hablando de factores de riesgo clásicos (dieta, tabaco, colesterol); en los segundos, de factores de
riesgo genético (BRCA1 y BRCA2, β-MCH) que suelen actuar de modo complejo y precisar de
Como señalamos en capítulos previos, las evidencias para predicción se construyen a partir de
estudios de cohortes (prospectivos o retrospectivos) para los estudios de pronóstico, ocasionalmente
de casos y controles para riesgo y estudios transversales para los de diagnóstico. Este escenario de
predecir a partir de combinación de factores ya ha sido comentado a propósito de las reglas
de predicción clínica (v. capítulo 8). Como señalábamos al hablar de ellas, el desarrollo incluye la
derivación de la regla que se realiza mediante modelos matemáticos tradicionales (con entidades y
enunciados definidos) en grupos de derivación, posteriormente la validación interna en subgrupos
de la población de derivación dividiéndola mediante diversos modos (splitting, bootstrap, cross
validation) obteniendo indicadores de calibración (porcentaje de predichos frente a observados) y
de discriminación: curvas receiver operating characteristics (ROC) o área bajo curva [AUC]). Pos-
teriormente es preciso hacer la validación en otras poblaciones diferentes o validación externa, etc.
—ver detalles en capítulo 8 o en referencia (38)—.
Para la derivación y validación de estos instrumentos de predicción ha crecido exponencialmente
el uso de modelos de inteligencia artificial. Hablamos de IA cuando la máquina (modelo del
ordenador) intenta realizar funciones cognitivas similares a las del ser humano. La IA puede ser
estrecha o focal, cuando se orienta a una tarea definida; general, cuando se refiere a la capacidad
de realizar múltiples tareas diferentes, y superinteligencia artificial (SIA), cuando incluye, además
de las tareas citadas, capacidades artísticas, decisionales, emocionales, morales, etc. Una de las cua-
lidades esenciales del humano es aprender, y la parte de la IA que trata del aprendizaje de las
máquinas se llama machine learning (ML) y tiene la característica de que realiza el aprendizaje sin
la intervención «directa» del humano (39,40), el término ML ha tenido fortuna y es el más usado
en la literatura clínica desplazando incluso al de IA.
El aprendizaje de la máquina puede ser «aprendizaje supervisado»: en el que el modelo recibe
información sobre los inputs y outputs correctos y va adaptando iterativamente su desempeño según
esos resultados, para los análisis usan modelos de regresión, árboles de decisión simples o múltiples
o redes neurales. Es un modo muy usado en medicina, aunque no siempre, superan al análisis por
humanos porque en ocasiones los sesgos de etiquetado (por humanos) se trasladan al modelo.
También puede ser «aprendizaje no supervisado» en el que el modelo identifica patrones dentro de
los datos, sin guía externa, y de acuerdo con modelos de análisis matemático generalmente clúster,
componentes principales, factorial, etc. En este modo el algoritmo puede identificar diversos
patrones de agrupamiento de los datos, el significado de esas agrupaciones no siempre está claro y
elegir cuál es el adecuado puede ser difícil. Un tercer modo es el aprendizaje con refuerzos (positivos
o negativos), en el que la máquina va identificando las rutas más adecuadas según reciba premios
o castigos tras múltiples iteraciones (39).
El algoritmo de IA engloba en su conjunto el procedimiento descrito de derivación y validación
de las reglas y obtiene hiperparámetros del proceso que le permiten ir modificando el modelo para
ajustarlo adecuadamente al objeto de maximizar la capacidad predictiva y discriminante (39,40).
El algoritmo se basa, a su vez, en modelos matemáticos diversos ordenados de diferentes modos,
pero el proceso desde los datos a la predicción está autogobernado; este es un elemento disruptivo
que lo diferencia de los modelos de predicción clásicos (fig. 20.2). Aquí las entidades y enunciados
del modelo no son del todo transparentes.
También datos de comportamientos como visitas a la web u otras y también datos del Internet de
las cosas (movilidad, frecuencia cardíaca, electrocardiograma, oximetría del reloj o de otros dis-
positivos portables) obtenidos en un instante transversal pero también gradualmente en modos
más longitudinales, etc. (48-50).
Sus características esenciales se resumen con la regla de las 3 V: La primera V es el «volumen»:
son inmensamente grandes para su manejo por métodos normales; la segunda V es la «velocidad»
referida a la transmisión y a la capacidad creciente de generación de datos, y la tercera V es la
«variedad», que se refiere a la diversidad del tipo de datos, de su procedencia y de los modos de
medición de los mismos (40). Esa diversidad supone por ejemplo que coexistan datos de inves-
tigación muy básica (v. gr., de genéticos) o datos epidemiológicos de alta calidad (registros pobla-
cionales o específicos de enfermedades), con datos de naturaleza más fluida como las variaciones
de la frecuencia cardíaca o la temperatura obtenidas del reloj u otros dispositivos.
En resumen, los objetivos, pero sobre todo el modo de funcionamiento y los datos de estos
modelos, están conformando un nuevo escenario de construcción de conocimiento clínico que
aunque centrado en los aspectos esenciales es algo diferente del escenario del clínico tradicional.
En efecto, la relación de este nuevo conocimiento con la realidad es más distante, y la aplicación
más compleja. Para los clínicos esto implica la necesidad de abordar la lectura de estos tipos de
estudio in virtuo o in silico que forman ya parte del presente de la clínica y sin duda van a configurar
su futuro.
De modo análogo, en áreas que planteamos como frontera, la de los silico trials, se han publicado
recientemente las guías para el reporte de ensayos que involucraran a IA: the CONSORT-AI
Extension (57) y ya existen documentos marcos de instituciones como European Medicines
Agency (EMA) o Food and Drug Administration (FDA) tratando de lograr una regulación de
esta área (58).
La lectura crítica de las reglas y modelos de predicción clínica tradicionales fue comentada en sus
aspectos esenciales en el capítulo 8 (que sugerimos releer). En el contexto de revisiones sistemáticas
de ese tipo de estudios y para la valoración del riesgo de sesgo de los estudios se usa un instrumento
específico, PROBAST, que mejora la consistencia entre evaluadoras y que el lector especialmente
interesado puede consultar (59). Ambos documentos son pertinentes en este contexto.
Aquí trataremos de reflexionar sobre los aspectos específicos de la lectura de modelos de
predicción realizados mediante modelos in silico (IA/Machine learning).
conocidas que le brinden verosimilitud, la hagan pertinente y aporten una red argumental para
explicar los hallazgos. Los modelos que estudian relaciones causales se orientan a la estimación de
asociaciones y el objetivo es hacer estimaciones del efecto de asociación, que deben complementar
con reflexiones causales en una red argumental. Los modelos predictivos son distintos por naturaleza:
su finalidad es predecir, no importa mucho cómo, y se evalúan por lo bien que predicen, no por su
capacidad explicativa.
A menudo necesitaremos disponer de más información, no siempre explícita, sobre los datos y
su estructura para responder de modo preciso a esta pregunta, probablemente las próximas normas
para el reporte de estos estudios ayuden en esto (56). Sea como fuere, es imprescindible valorar
cuidadosamente cada elemento de esa estructura de estudio y juzgar si esta arquitectura es coherente
con la pregunta que se formula, y en el caso de estudios anidados o con diversos objetivos valorar
cómo se adapta cada parte de la arquitectura a las correspondientes preguntas. Hay una general
prevención o un cierto vértigo en relacionar datos del genoma u otros «omics» con otros datos
demasiado fluidos como los procedentes de BD, en ese sentido enmarcar las preguntas en estructuras
de estudio epidemiológico clásicas puede ser de ayuda, como proponen Khoury y Ioannidis (50).
o desestructurada), pueden tener diversas asunciones para su medición y en buena parte son
datos observacionales; además, los procesos de medición pueden ser muy diferentes en las
distintas variables predictoras o en los desenlaces. Hay tener presente que mientras en la
investigación clásica se usan cohortes cuidadosamente construidas para mitigar los sesgos,
estos nuevos datos emergentes están habitualmente menos pulidos porque su finalidad era
distinta. Hay que reflexionar sobre la naturaleza de los datos, el proceso de medición y las
influencias del medidor u observador. Posiblemente este es un aspecto en el que los futuros
estándares de publicación también ayudarán.
■ Pero además los datos son almacenados en formas diversas y en múltiples bases de datos, no
siempre en epidemiología clínica, resulta esencial para cualquier tipo de diseño y especial-
mente si es longitudinal. Esta es una cuestión principal que necesita la máxima atención.
■ Una cuestión final es la caducidad de los datos. Aunque intuitivamente parece que disponer
de registros de actividad clínica de muchos años mejoraría las predicciones de los modelos,
hay estudios que sugieren que existe una caducidad en los datos (especialmente los de origen
clínico) y que su vida media es bastante corta (60,61), de modo que ampliar los períodos de
acúmulo de datos no mejora necesariamente las predicciones. Este es un asunto que merece
más investigación, pero debe ser considerado por el lector.
validación inicial. Pero sobre todo será crítico para juzgar sobre la aplicabilidad a una población o
grupo clínico determinado.
Las variables predictoras pueden ser muy diversas y cualquiera de ellas (o grupo de ellas) podría
ser incorporada en un modelo y esperar a ver si funciona. En la modelización tradicional, la elección
de candidatos a predictores o combinación de ellos se realiza de acuerdo con los conocimientos
disponibles y guiado por hipótesis, o argumentos estadísticos. Sin embargo, en los modelos machine
learning este proceso es en cierto modo autónomo (con argumentos estadísticos internos) y selec-
cionados por el modelo. Eso genera cierta perplejidad con algunos predictores que exige reflexión
final de contexto.
Finalmente, hay que evaluar los desenlaces, que en el caso del diagnóstico hay que plantearse
si se midieron de modo «cegado» y si la medición del desenlace depende en alguna medida de los
predictores (o de su conocimiento), y en el caso del pronóstico valen los comentarios sobre la calidad
de la medición, sobre su cegamiento y sobre todo la identificación de las pérdidas mencionada en
el punto anterior. Es fácil comprender que en este tipo de datos puede ser complejo disponer de
toda esa información que es capaz de afectar a la validez del estudio de diagnóstico o de pronóstico.
5. ¿CÓMO ES EL MODELO?
Es difícil para el clínico juzgar sensatamente cómo es la estructura del algoritmo, el modo de
aprendizaje y su sustrato matemático (regresión logística, Cox, cluster, componentes, etc.). Son
asuntos de naturaleza ingenieril en los que probablemente debamos ir mejorando o al menos
aprendiendo lo básico. Sí es esencial disponer de estándares para la descripción del modelo y sobre
la versión determinada del algoritmo reportado, para poder planear estrategias de validación externa
(ver su reproducibilidad en otras bases de datos o en otras poblaciones o en otros ámbitos) o para
compararlos con otros modelos con similar propósito.
En la modelización tradicional la elección del modelo depende de cómo los datos o la realidad
se adaptaban a las asunciones del mismo. Ajustar el modelo e incorporar o mantener un factor
predictor depende de argumentos matemáticos en el sentido de cuánta variabilidad del modelo
explicaba un factor determinado (estudiada paso a paso, hacia delante o hacia atrás), pero también
del sentido biológico y sentido clínico. Esto le daba al proceso una cierta validez que podríamos
llamar «aparente». Sin embargo, el machine learning hace opaco el proceso de modelización y eso
genera dudas: son realmente Black-box models. Así, estos modelos detectan asociaciones fuertes no
guiadas por hipótesis y ello hace que a veces sus interpretaciones sean unas veces incomprensibles
y otras absolutamente obvias para un clínico: por ejemplo, que la asistencia a consultas paliativas
es fuertemente predictora de mortalidad (61).
Probablemente este es uno de los temas que más incomoda al investigador clínico, acrecentado
© Elsevier. Fotocopiar sin autorización es un delito.
Con todo, la evidencia que ofrezca el modelo constituirá solo una pieza simple de evidencia, no
definitiva pero sí susceptible de ser incluida en revisiones sistemáticas de modelos para preguntas
análogas y modelos similares (59) que mejoren la información sobre la validez.
Esto vincula los dos tipos de modelos de los que hemos hablado en el capítulo: la evidencia de
los modelos predictivos in silico puede y debe ser incorporada en modelos de análisis de decisión.
Posteriormente, las decisiones óptimas podrán incorporarse a sistemas de ayuda que faciliten el
uso de la mejor evidencia en la clínica. Estos sistemas de ayuda a la decisión clínica a los que ahora
nos referimos (25,64), que en vez de reflexionar y pensar despacio como citábamos líneas arriba
(35), ayuden a pensar rápido y actuar, como es habitual en la clínica.
Conclusión
Los modelos clásicos en la ciencia y en la medicina han evolucionado vertiginosamente y hay
una explosión de conocimiento construida en el mundo computacional (in virtuo o in silico). Los
modelos clínicos in silico, de construcción o integración de conocimiento, también participan de
ese fenómeno que plantea un nuevo horizonte de progreso en la comprensión, en la predicción y
en la integración de evidencias clínicas para mejorar el cuidado de los pacientes.
Sin embargo, las posibilidades inmensas de estos nuevos métodos y el entusiasmo que a veces
generan necesitan de la reflexión atemperada y crítica que distinga bien lo que es solo innovación
de lo que es realmente progreso.
Si ya era necesario ser cautos al leer la evidencia tradicional sacada de la realidad clínica y escrita
negro sobre blanco, con los estudios in silico será preciso aprender a reportarlos adecuadamente, y
será aún más necesario leerlos críticamente e integrarlos en revisiones sistemáticas de esa evidencia
y, cuando proceda, incorporarlos en las decisiones clínicas.
Agradecimientos
Agradezco a Fernando Carballo Álvarez, Jaime Latour Pérez, Javier Jaén Olasolo, José Ignacio
Emparanza Knorr, Eduardo Lopez Briz, Miguel Maldonado Fernández, Borja Fernández Félix
y Juan Jerónimo Cabello Prieto sus comentarios a versiones previas de este manuscrito. Procede
el eximente habitual.
Bibliografía
1. Horta GT, Oliveira M. Contributions of In Virtuo and In Silico Experiments for the Future of Empirical
Studies in Software Engineering Contributions of In Virtuo and In Silico Experiments for the Future.
J Syst Software 2007;80(1):16-31.
2. Danchin A, Médigue C, Gascuel O, Soldano H, Hénaut A. From data banks to data bases. Res Microbiol
1991;142(7):913-6.
3. Phyllis Illari, Russo F. Causality. Oxford: Oxford University Press; 2014.
4. Adúriz-Bravo A. A ́Semantic’ View of Scientific Models for Science Education. Sci Educ 2013;22(7):1593-
611.
© Elsevier. Fotocopiar sin autorización es un delito.
5. Oh P, Oh SJ. What Teachers of Science Need to Know about Models: An overview. Int J Sci Educ
2011;33:1109-30.
6. Gutiérrez R. Lo que los profesores de ciencias conocen y necesitan conocer acerca de los modelos:
aproximaciones y alternativas. Rev Bio-Grafía Escr Sobre Biol Su Enseñ 2014;7(13):37-66.
7. Rothman KJ. Causes. Am J Epidemiol 1976;104(6):587-92.
8. Mario Bunge. Method, model and matter. Dordecht/Boston: D Reidel Publishing Company; 1972.
9. Wang RS, Maron BA, Loscalzo J. Systems medicine: evolution of systems biology from bench to bedside:
Clinical implications of systems biology. Wiley Interdiscip Rev Syst Biol Med 2015;7(4):141-61.
10. Ho DSW, Schierding W, Wake M, Saffery R, O’Sullivan J. Machine Learning SNP Based Prediction for
Precision Medicine. Front Genet 2019;10. [Fecha de última consulta: 12 de octubre de 2020]. Disponible
en: https://www.frontiersin.org/article/10.3389/fgene.2019.00267/full.
11. Khoury MJ, Bedrosian SR, Gwin M, Higgins JPT, Ioanidis JPA, Litle J. Human Genome Epidemiology.
Oxford: Oxford University Press; 2010.
12. Ioannidis JP, Boffetta P, Little J, O’Brien TR, Uitterlinden AG, Vineis P, et al. Assessment of cumulative
evidence on genetic associations: interim guidelines. Int J Epidemiol 2008;37(1):120-32.
13. Wainberg M, Sinnott-Armstrong N, Mancuso N, Barbeira AN, Knowles DA, Golan D, et al. Opportu-
nities and challenges for transcriptome-wide association studies. Nat Genet 2019;51(4):592-9.
14. Brandes N, Linial N, Linial M. PWAS: proteome-wide association study—linking genes and phenotypes
by functional variation in proteins. Genome Biol 2020;21(1.). [Fecha de última consulta: 12 de octubre de
2020]. Disponible en: https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02089-x.
15. Birney E, Smith GD, Greally JM. Epigenome-wide Association Studies and the Interpretation of Disease-
Omics. PLOS Genet 2016;12(6):e1006105.
16. Yap IKS, Brown IJ, Chan Q, Wijeyesekera A, Garcia-Perez I, Bictash M, et al. Metabolome-Wide
Association Study Identifies Multiple Biomarkers that Discriminate North and South Chinese Populations
at Differing Risks of Cardiovascular Disease: INTERMAP Study. J Proteome Res 2010;9(12):6647-54.
17. Loscalzo J, Kohane I, Barabasi A. Human disease classification in the postgenomic era: A complex systems
approach to human pathobiology. Mol Syst Biol 2007;3(1):124.
18. Insigneo Institute for in silico Medicine. In Silico Medicine: Definition, History, Institutions, Main
Achievements. [Fecha de última consulta: 10 de agosto de 2020]. Disponible en: https://insigneo.org/
in-silico-medicine-definition-history-institutions-main-achievements/.
19. STEP Consortium. Siported by the European comission. Seeding the EuroPhysiome: A Roadmap to
the Virtual Physiological Human. 2007. [Fecha de última consulta: 10 de agosto de 2020]. Disponible
en: https://www.vph-institute.org/upload/step-vph-roadmap-printed-3_5192459539f3c.pdf.
20. The Epsilon Group-TEG. T1DMS. (Type I Diabetes Mellitus Simulator). A Groundbreaking tool for
type 1 diabetes treatment R&D. [Fecha de última consulta: 10 de agosto de 2020]. Disponible en: https://
tegvirginia.com/software/t1dms/.
21. Viceconti M, Henney A, Morley-Fletcher E. In silico clinical trials: how computer simulation will trans-
form the biomedical industry. Int J Clin Trials 2016;3(2):37.
22. Pricewaterhouse Coopers. Pharma 2020: Virtual R&D Which path will you take? 2020. [Fecha de última
consulta: 10 de agosto de 2020]. Disponible en: https://www.vph-institute.org/upload/pwc-pharma2020-
virtualrd-final_519245021a53a.pdf.
23. Viceconti M, Pappalardo F, Rodriguez B, Horner M, Bischoff J, Musuamba Tshinanu F. In silico trials:
Verification, validation and uncertainty quantification of predictive models used in the regulatory evaluation
of biomedical products. Methods 2020. Disponible en: http://www.sciencedirect.com/science/article/pii/
S1046202319302452.
24. Natsiavas P, Malousi A, Bousquet C, Jaulent MC, Koutkias V. Computational Advances in Drug Safety:
Systematic and Mapping Review of Knowledge Engineering Based Approaches. Front Pharmacol
2019;10. [Fecha de última consulta: 8 de octubre de 2020]. Disponible en: https://www.frontiersin.org/
article/10.3389/fphar.2019.00415/full.
25. Greenes RA, Bates DW, Kawamoto K, Middleton B, Osheroff J, Shahar Y. Clinical decision support
models and frameworks: Seeking to address research issues underlying implementation successes and
failures. J Biomed Inform 2018;78:134-43.
26. Brice A, Price A, Burls A. Creating a database of internet-based clinical trials to support a public-led
research programme: A descriptive analysis. Digit Health 2015;1. 2055207615617854.
27. Dascal J, Reid M, IsHak WW, Spiegel B, Recacho J, Rosen B, et al. Virtual Reality and Medical Inpatients:
A Systematic Review of Randomized, Controlled Trials. Innov Clin Neurosci 2017;14(1–2):14-21.
28. Alaker M, Wynn GR, Arulampalam T. Virtual reality training in laparoscopic surgery: A systematic review
& meta-analysis. Int J Surg Lond Engl 2016;29:85-94.
29. Pappalardo F, Russo G, Tshinanu FM, Viceconti M. In silico clinical trials: concepts and early adoptions.
Brief Bioinform 2019;20(5):1699-708.
30. Riley RD, Hayden JA, Steyerberg EW, Moons KGM, Abrams K, Kyzas PA, et al. Prognosis Research
Strategy (PROGRESS) 2: Prognostic Factor Research. PLoS Med 2013;10(2):e1001380.
31. Steyerberg EW, Moons KGM, van der Windt DA, Hayden JA, Perel P, Schroter S, et al. Prognosis
Research Strategy (PROGRESS) 3: Prognostic Model Research. PLoS Med 2013;10(2):e1001381.
32. Hingorani AD, Windt DA, Riley RD, Abrams K, Moons KGM, Steyerberg EW, et al. Prognosis research
strategy (PROGRESS) 4: Stratified medicine research. BMJ 2013;346(1):e5793.
33. Ginsburg GS, Phillips KA. Precision Medicine: From Science To Value. Health Aff (Millwood)
2018;37(5):694-701.
34. Hamburg MA, Collins FS. The path to personalized medicine. N Engl J Med 2010;363(4):301-4.
35. Daniel Kahneman. Pensar rápido, pensar despacio. Barcelona: Random House; 2012.
36. Djulbegovic B, Elqayam S. Many faces of rationality: Implications of the great rationality debate for
clinical decision-making. J Eval Clin Pract 2017;23(5):915-22.
37. Reyna VF. Theories of Medical Decision Making and Health: An Evidence-Based Approach. Med Decis
Making 2008;28(6):829-33.
38. Waljee AK, Higgins PDR, Singal AG. A Primer on Predictive Models. Clin Transl Gastroenterol
2014;5(1):e44.
39. Beunza JJ, Puertas E, Condes E. Inteligencia artificial en entornos sanitarios. Barcelona: Elsevier; 2020.
40. Muthalaly RG, Evans RM. Applications of Machine Learning in Cardiac Electrophysiology. Arrhythmia
Electrophysiol Rev 2020;9(2):71-7.
41. Chang HY, Jung CK, Woo JI, Lee S, Cho J, Kim SW, et al. Artificial Intelligence in Pathology. J Pathol
Transl Med 2019;53(1):1-12.
42. Hueman MT, Wang H, Yang CQ, Sheng L, Henson DE, Schwartz AM, et al. Creating prognostic systems
for cancer patients: A demonstration using breast cancer. Cancer Med 2018;7(8):3611-21.
43. Kawakami E, Tabata J, Yanaihara N, Ishikawa T, Koseki K, Iida Y, et al. Application of Artificial Inte-
lligence for Preoperative Diagnostic and Prognostic Prediction in Epithelial Ovarian Cancer Based on
Blood Biomarkers. Clin Cancer Res 2019;25(10):3006-15.
44. Christodoulou E, Ma J, Collins GS, Steyerberg EW, Verbakel JY, Van Calster B. A systematic review
shows no performance benefit of machine learning over logistic regression for clinical prediction models.
J Clin Epidemiol 2019;110:12-22.
45. Nagendran M, Chen Y, Lovejoy CA, Gordon AC, Komorowski M, Harvey H, et al. Artificial intelligence
versus clinicians: systematic review of design, reporting standards, and claims of deep learning studies.
BMJ 2020;368:m689.
46. Sox HC, Higgins MC, Owens DH. Medical Decision Making. 2nd ed. Chichester: John Wiley & Sons;
2013.
47. Sonnenberg FA, Beck JR. Markov Models in Medical Decision Making: A Practical Guide. Med Decis
Making 1993;13(4):322-38.
48. Hong L, Luo M, Wang R, Lu P, Lu W, Lu L. Big Data in Health Care: Applications and Challenges.
Data Inf Manag 2018;2(3):175-97.
49. Snyder M, Zhou W. Big data and health. Lancet Digit Heath 2019;1(E252–E254).
50. Khoury MJ, Ioannidis JPA. Big data meets public health. Science 201428;346(6213):1054-1055.
51. Weinstein MC, O’Brien B, Hornberger J, Jackson J, Johannesson M, McCabe C, et al. Principles of Good
Practice for Decision Analytic Modeling in Health-Care Evaluation: Report of the ISPOR Task Force
on Good Research Practices—Modeling Studies. Value Health 2003;6(1):9-17.
52. Husereau D, Drummond M, Petrou S, Carswell C, Moher D, Greenberg D, et al. Consolidated Health
Economic Evaluation Reporting Standards (CHEERS) statement. Int J Technol Assess Health Care
2013;29(2):117-22.
53. Richardson WS, Detsky AS. Users’ guides to the medical literature. VII. How to use a clinical decision
analysis. A. Are the results of the study valid? Evidence-Based Medicine Working Group. JAMA
1995;273(16):1292-5.
54. Richardson WS, Detsky AS. Users’ guides to the medical literature. VII. How to use a clinical decision
© Elsevier. Fotocopiar sin autorización es un delito.
analysis. B. What are the results and will they help me in caring for my patients? Evidence Based Medicine
Working Group. JAMA 1995;273(20):1610-3.
55. Collins GS, Reitsma JB, Altman DG, Moons KGM. Transparent reporting of a multivariable prediction
model for individual prognosis or diagnosis (TRIPOD): the TRIPOD statement. BMJ 2015;350(4):g7594.
56. Collins GS, Moons KGM. Reporting of artificial intelligence prediction models. The Lancet
2019;393(10181):1577-9.
57. Liu X, Rivera SC, Moher D, Calvert MJ, Denniston AK. Reporting guidelines for clinical trial reports
for interventions involving artificial intelligence: the CONSORT-AI Extension. BMJ 2020;370:m3164.
58. Schwalbe N, Wahl B. Artificial intelligence and the future of global health. Lancet Lond Engl
2020;395(10236):1579-86.
59. Moons KGM, Wolff RF, Riley RD, Whiting PF, Westwood M, Collins GS, et al. PROBAST: A Tool to
Assess Risk of Bias and Applicability of Prediction Model Studies: Explanation and Elaboration. Ann
Intern Med 2019;170(1):W1.
60. Chen JH, Alagappan M, Goldstein MK, Asch SM, Altman RB. Decaying relevance of clinical data
towards future decisions in data-driven inpatient clinical order sets. Int J Med Inf 2017;102:71-9.
61. Machine Learning. Prediction in Medicine — Beyond the Peak of Inflated Expectations. Machine
Learning and Prediction in Medicine — Beyond the Peak of Inflated Expectations. N Engl J Med
2017;376:2507-9.
62. Benke K, Benke G. Artificial Intelligence and Big Data in Public Health. Int J Environ Res Public Health
2018;15(12):2796.
63. Fleuren LM, Klausch TLT, Zwager CL, Schoonmade LJ, Guo T, Roggeveen LF, et al. Machine learning
for the prediction of sepsis: a systematic review and meta-analysis of diagnostic test accuracy. Intensive
Care Med 2020;46(3):383-400.
64. Peiffer-Smadja N, Rawson TM, Ahmad R, Buchard A, Georgiou P, Lescure FX, et al. Machine learning
for clinical decision support in infectious diseases: a narrative review of current applications. Clin Microbiol
Infect 2020;26(5):584-95.