Lectura Crítica de La Evidencia Clínica, 2. Edición

2.
ª E D I C I Ó N
Lectura crítica
B978-413.026/Elsevirpañ,SLU
de la evidencia
clínica
JUAN BAUTISTA CABELLO LÓPEZ
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de

ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten
otros usos sin autorización. Copyright ©2022. Elsevier Inc. Todos los derechos reservados.
Avda. Josep Tarradellas, 20-30, 1.°, 08029, Barcelona, España
Lectura crítica de la evidencia clínica, 2.ª ed., de Juan Bautista Cabello López
© 2022 Elsevier España, S.L.U., 2015
ISBN: 978-84-9113-883-9
eISBN: 978-84-1382-125-2
Todos los derechos reservados.
Reserva de derechos de libros

Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta
obra solo puede ser realizada con la autorización de sus titulares, salvo excepción prevista por la ley.
Diríjase a CEDRO (Centro Español de Derechos Reprográficos) si necesita fotocopiar o escanear
algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70/93 272 04 45).
Advertencia
La medicina es un área en constante evolución. Aunque deben seguirse unas precauciones de
seguridad estándar, a medida que aumenten nuestros conocimientos gracias a la investigación básica
y clínica habrá que introducir cambios en los tratamientos y en los fármacos. En consecuencia, se
recomienda a los lectores que analicen los últimos datos aportados por los fabricantes sobre cada
fármaco para comprobar la dosis recomendada, la vía y la duración de la administración, y las con-
traindicaciones. Es responsabilidad ineludible del médico determinar la dosis y el tratamiento más
indicados para cada paciente en función de su experiencia y del conocimiento de cada caso concreto.
Ni los editores ni los directores asumen responsabilidad alguna por los daños que pudieran generarse
a personas o propiedades como consecuencia del contenido de esta obra.
Servicios editoriales: Gea Consultoría Editorial, S.L.

Depósito legal: B. 12.554-2021
Impreso en España
Cómo citar este libro:

Juan B Cabello por CASPe. Lectura crítica de la evidencia clínica, 2.ª ed. Barcelona: Elsevier; 2022.

In memoriam
A Casti, mi amante y amada esposa, compañera del alma, compañera.

Juan B. Cabello
A Casti, quien desde la discreción fue esencial en cada una de las actividades de CASPe.
Su excelente competencia y su capacidad de organización nos facilitaron enormemente
el buen funcionamiento de los proyectos. Su calidez, bondad y accesibilidad hacían que todos,
a pesar de nuestra enorme dispersión geográfica, nos sintiéramos siempre cohesionados
y bien coordinados. Siempre estarás en nuestro recuerdo y en nuestro corazón.
Marisa Montes por todos los miembros de CASPe

PRÓLOGO A LA PRIMERA EDICIÓN
Permitidme que presente este libro recordando una experiencia personal. En 1969, cuando era un
joven médico, viajé a Gaza para trabajar en un campo de refugiados palestino. Era joven, entusiasta
y tenía las mejores intenciones, pero, durante mi estancia en la Franja, aprendí una dura lección: aun
cuando actuamos con la mejor de las intenciones, médicos y enfermeras causamos, en ocasiones,
más daño que bien. Un ejemplo propio: ¿debería haber dado antibióticos como medida profiláctica
a niños con sarampión? Siguiendo las enseñanzas de mis profesores en la Facultad de Medicina,
no lo hice. Como consecuencia, con casi total certeza, algunos niños con sarampión de la Franja de
Gaza sufrieron y, posiblemente, murieron innecesariamente porque les negué el acceso a antibióticos
profilácticos en 1969 y 1970, pese a que ya existían seis ensayos, todos publicados antes de mi viaje
a Gaza, que mostraban que prescribir antibióticos a niños con sarampión puede reducir el riesgo
de que desarrollen neumonía.
Estoy lejos de ser el único profesional sanitario que ha perjudicado a sus pacientes al seguir las
prácticas estándar o las enseñanzas de los expertos. Tal y como Antman y sus colegas (1) demos-
traron de manera dramática: «El uso del conocimiento sobre terapias que pueden salvar vidas se
ha retrasado, a veces más de una década, al tiempo que ciertos tratamientos han seguido siendo
recomendados mucho después de que hubiera ensayos que mostraban que eran perjudiciales».
En los últimos años, para los clínicos se ha vuelto algo más sencillo encontrar y actuar sobre la
base de la evidencia recogida, organizada y revisada sistemáticamente. Aun así, sigue existiendo
una enorme brecha entre la evidencia disponible y la práctica clínica, lo cual representa un gran
desperdicio de los ya de por sí escasos recursos destinados a la sanidad y la investigación, y ello
priva a los pacientes de recibir los mejores cuidados posibles. La educación tradicional de médicos,
enfermeras y otros profesionales sanitarios ha fracasado en la tarea de enseñar las habilidades
necesarias para la práctica clínica basada en la evidencia, pese a que hay pruebas de que esta produce
mejores resultados en los pacientes que los cuidados médicos estándar (2).
Este libro enseña las habilidades necesarias para incorporar a la práctica clínica los mejores
conocimientos disponibles sobre procedimientos clínicos esenciales como diagnóstico, pronóstico y
tratamiento. Ha sido escrito pensando especialmente en los clínicos, quienes, con los pacientes, son
los usuarios más importantes de la investigación en salud. Este libro es también una herramienta
de valor incalculable para profesores, tutores de residentes e investigadores, y ayudará a los jóvenes
clínicos a comprobar si el tratamiento o la prueba diagnóstica que se les ha enseñado es realmente
lo mejor para su paciente.
La obra ha sido escrita por médicos, enfermeras y documentalistas involucrados en la enseñanza de
habilidades de lectura crítica a clínicos desde hace más de una década a través del Critical Appraisal
Skills Programme España (CASPe). Los autores lo son también de varias revisiones sistemáticas
para The Cochrane Collaboration, y han participado en el desarrollo y la actualización de métodos
como la aproximación GRADE para evaluar la evidencia y hacer recomendaciones en las guías, y la
valoración de las reglas de predicción clínica y los métodos adecuados para estudios de pronóstico.
La intención primordial del libro es la de ayudar a quienes tienen que tomar decisiones clínicas
o de salud a adquirir las habilidades necesarias para asegurarse de que las decisiones se toman
usando la mejor evidencia disponible. A mí me hubiera gustado tener un libro así al principio de
mi ejercicio clínico. Con las habilidades que hubiera podido adquirir gracias a él, quizás hubiera
hecho menos daño y más bien a mis pacientes.
Forgive me if I introduce this book with a personal story. In 1969 as a young doctor I went to work in a
Palestinian refugee camp in Gaza. I was young, keen and had the very best of intentions. However, during
my time in Gaza I learnt a very hard lesson: even when we are acting with the very best of intentions,
doctors and nurses sometimes do more harm than good. Here is one personal example: should I have given
VII
VIII PRÓLOGO A LA PRIMERA EDICIÓN
antibiotics prophylactically to children with measles? In accordance with what my teachers at medical school
had told me, I did not. As a result some children developing measles in the Gaza Strip in 1969 and 1970
almost certainly suffered and possibly died unnecessarily because I withheld prophylactic antibiotics. Yet
there were six controlled trials, all reported before I went to Gaza, that showed that prescribing antibiotics
for children with measles can reduce their risk of developing pneumonia.
I am far from the only health professional who has misguidedly followed standard practice or expert
teaching to the detriment of my patients. As Antman and his colleagues (1) demonstrated so dramatically:
“Advice on some life-saving therapies has been delayed for more than a decade, while other treatments have
been recommended long after controlled research has shown them to be harmful.”
Over recent years it has become somewhat easier for clinicians to find and act on systematically collected,
collated and appraised research evidence. Yet there remain large gaps between research evidence and practice.
This wastes scarce research and health care resources and deprives patients of good care. Traditional medical,
nursing and other health care professionals’ training has failed to teach clinicians the skills needed for
evidence-informed practice, despite the fact that there is evidence that evidence-based practice is associated
with better patient outcomes than standard hospital care (2).
This book covers the skills needed to incorporate in clinical practice clinical knowledge about essential
clinical procedures, such as diagnosis, prognosis and treatment. It has been designed particularly for clini-
cians, who, together with patients, are one of the two most important users of health research. However,
the book will also be an invaluable tool for teachers, clinical trainers and producers of health research.
It will help young clinicians check whether what they have been taught is in fact the best treatment or
diagnostic test for their patient.
The book has been written by doctors, nurses and information specialists involved in teaching critical
appraisal skills to clinicians for over a decade through the Spanish Critical Appraisal Skills Programme.
The authors are producers of systematic reviews for The Cochrane Collaboration and contributors to the
development and use of up-to-date best practice and methods, for example, the GRADE approach to asses-
sing evidence and making recommendations in guidelines, the appraisal of clinical prediction rules, and
methods recommended for prognostic studies.
The book is intended to help anyone who has to take decisions about health or health care to acquire
the skills needed to help make sure that their decisions are informed by the best available evidence. I wish
I had access to such a book in my early clinical career. With the skills I could have learnt from this book I
might have done less harm and more good for my patients.
Sir Ian Chalmers

Cofundador de The Cochrane Collaboration
(Traducción de Juan Jerónimo Cabello Prieto)
Bibliografía
1. Antman EM, Lau J, Kupelnick B, Mosteller F, Chalmers TC. A Comparison of Results of Meta-analyses
of Randomized Control Trials and Recommendations of Clinical Experts: Treatments for Myocardial
Infarction. JAMA 1992;268(2):240-8.
2. Emparanza JI, Cabello JB, Burls AJ. Does evidence-based practice improve patient outcomes? An analysis
of a natural experiment in a Spanish hospital. J Eval Clin Pract 2015;21(6):1059-65.

PRÓLOGO A LA SEGUNDA EDICIÓN
El movimiento de la epidemiología clínica española desde sus albores, en la década de los ochenta
del siglo xx, ha dado sucesivas y frecuentes muestras de su capacidad. Ahora nos ofrece en este
libro, dirigido por Juan Cabello, un nuevo fruto, maduro y denso, aún más dulce de lo que sus
propios autores creen.
La lectura crítica es, sin duda, la mejor herramienta de los clínicos para afrontar la optimización
de sus decisiones sobre los pacientes. Y lo es porque constituye el núcleo de la medicina basada
en la evidencia (MBE). El fundamento es la epidemiología clínica, sustantiva y sin adornos ni
apellidos, entendida como la aplicación de métodos epidemiológicos para responder las preguntas
clínicas importantes para los pacientes y pertinentes para los clínicos. Preguntas que versan sobre
diagnóstico, pronóstico, tratamiento, daño, prevención, valores, decisión, etc. Dada la complejidad
de las preguntas, la diversidad de los diseños y la dificultad de conducción de los estudios clínicos,
es fácil comprender que la interpretación de los resultados constituye el reto clínico crucial previo
a la decisión sobre si se han de aplicar los resultados al paciente o grupos de pacientes. Validez y
aplicabilidad son, justamente, las claves de la lectura crítica.
A lo largo y ancho de los capítulos que ofrece este texto, el lector puede avanzar en una plena
comprensión de lo que es la lectura crítica, sus fundamentos y sus variadas estrategias para abordar
los diferentes tipos de estudios, las revisiones sistemáticas, otras síntesis de evidencia y las reco-
mendaciones basadas en ellas (guías de práctica clínica). Quienes se decidan a aventurarse en sus
páginas obtendrán una visión sencilla, actualizada y estimulante del escalón de la evidencia clínica
más cercano a la decisión clínica cotidiana.
El núcleo de la epidemiología clínica en España nació gracias a un selecto elenco de clínicos
de alto nivel que cursaron las primeras ediciones de los cursos de Metodología de la Investigación,
promovidos desde el Instituto de Salud Carlos III. Cursos de los que Francisco Pozo fue alma máter,
y hacia el que todos los que tuvieron ocasión de participar en ellos guardan un profundo sentimiento
de deuda y gratitud. Este grupo de clínicos epidemiólogos (y viceversa), así forjados en este crisol,
se afanaron durante años en la traslación de esa visión clínica y aplicada a la investigación clínica
española, y contribuyeron de modo determinante a la implantación y el desarrollo de los diferentes
nodos de la Red Española de Unidades de Investigación (REUNI). La REUNI sembró y cosechó,
logrando llevar la metodología de la investigación a la inmensa mayoría de las áreas sanitarias de
nuestro país. Y en su corazón, esa REUNI llevaba el valor de la promoción de la investigación
clínico-epidemiológica como motor de cambio para una práctica clínica basada en el conocimiento
científico y no solo basada en la experiencia y el estudio. Ese fue el logro esencial de la REUNI.
En algunos momentos y ambientes, se ha considerado que la MBE no ha podido aportar
evidencias sólidas sobre su utilidad. Pero la MBE es una herramienta, no una creencia, y aún menos
una forma alternativa de medicina. Lo que ha aportado, sobre todo, es la posibilidad de ampliar
de manera extraordinaria la base de conocimiento para las decisiones sanitarias, tanto en pacientes
como en grupos de pacientes, y aun en modelos asistenciales. De hecho, hoy ya no es necesario
explicar a nadie que las decisiones deben estar objetivamente fundamentadas. Tampoco hay
que explicar ya que el juicio sobre la validez de las evidencias es complejo, sutil e implica continuo
entrenamiento. Pero nos enfrentamos ahora a un nuevo reto, que es la integración del conocimiento
que procede de fuentes alternativas a las académicas. De ahí que, lejos de la complacencia por el
éxito del modelo de la MBE, aunque ya no sea necesario llamarlo así, se deba seguir trabajando
duro y continuadamente por la adaptación constante de la epidemiología clínica a lo que ya es la
etapa de una medicina aumentada.
El éxito de aquel grupo de clínicos que impregnaron la REUNI y que alientan este libro es haber
contribuido de manera decisiva e irreversible a la mejora de la clínica y de la investigación en España.
No importa que los más jóvenes ya no sepan lo que fue la REUNI, no importa que estos clínicos,
IX
X PRÓLOGO A LA SEGUNDA EDICIÓN
de pura cepa, no hayan constituido un lobby con el que poder gozar de mayores cuotas de influencia
política, profesional o académica. De hecho, su influencia real es mucho más trascendente porque
han conseguido ser el factor determinante de esa transformación. El espíritu de estos pioneros que
imaginaron y habitaron nuevos territorios de pensamiento, incómodos para la tradición clínica y
para la ortodoxia académica, tendrá sin duda continuadores que de nuevo pensarán en la nueva
clínica y construirán moradas intelectuales arriesgadas y no acomodaticias. Algunos de esos nuevos
exploradores ya escriben en este libro y otros nuevos se irán asomando a él poco a poco.
Fernando Carballo Álvarez

Catedrático de Medicina (retirado), Universidad de Murcia
Expresidente de la Sociedad Española de Patología Digestiva
Expresidente de la Federación de Asociaciones Científico-Médicas Españolas

TA B L E R O D E D I R E C C I Ó N
En cierto modo, este libro es varios libros, pero sobre todo es dos libros. El lector queda invitado
a elegir una de las dos posibilidades que señalamos en estas letras, a las que llamamos tablero de
dirección, alusión que el lector sin duda entenderá.
El primer libro se puede leer como un libro de métodos de investigación clínica, aunque visto
desde la perspectiva del lector del estudio y no desde la del diseñador. Ese libro está constituido
por el texto de los capítulos del primero al vigésimo. El orden del libro, desde la perspectiva de
los autores, se despliega en cuatro bloques: un primer bloque introductorio (capítulos 1-4); un
segundo bloque (capítulos 5-10), que se dedica a la lectura crítica de estudios clínicos primarios;
el tercer bloque (capítulos 11-15) se centra en la lectura de los diferentes tipos de revisiones sis-
temáticas usados en clínica, y el bloque final (capítulos 16-20) aborda los estudios que implican la
integración de conocimientos diversos para la construcción de decisiones. El lector puede escoger
también el orden de lectura, pero conviene saber que algunos capítulos contienen, a modo de
muñeca rusa, otros precedentes. Por ejemplo, para leer el capítulo 8 es preciso haber leído el 6
y el 7, y es preciso haber leído los tres y el capítulo 16 para comprender el capítulo 20. De modo
análogo, para leer cada uno de los capítulos de revisiones (12, 13, 14 y 15), conviene haber leído
su correspondiente capítulo de estudio primario, que serían los capítulos 5 (para los capítulos 12
y 13), 6 (para el capítulo 14) y 7 (para el capítulo 15), y además haber leído el capítulo general de
revisiones y síntesis de la evidencia, el 11, que es imprescindible. En otro orden de cosas, la lectura
del capítulo 3 es esencial para dar sentido a todos los capítulos posteriores, y los capítulos 1 y 2
pueden funcionar como piezas individuales, pero leídas al inicio le dan otra dimensión a lo restante.
En cuanto a los capítulos de integración (del 16 al 20), aunque pueden leerse directamente, su
utilidad será mayor si se han leído los tres bloques precedentes. Un caso singular es el capítulo 9,
que trata de la lectura de la investigación cualitativa y que por sustentarse en un paradigma diferente
no depende de otros capítulos.
El segundo libro se puede ver como un libro de trabajo sobre habilidades de lectura crítica de
los diferentes tipos de estudios clínicos. Este segundo libro se encuentra en parte en este texto
y en parte en la nube, y por ello el procedimiento de lectura es un poco más complejo. Veamos:
en primer lugar, será necesario leer el texto del capítulo correspondiente, incluido el escenario
clínico; a continuación, será preciso bajar de Internet el artículo elegido para ese escenario y de
ese artículo se realizará la lectura crítica. En este sentido, hemos elegido artículos de revistas de
acceso abierto. En consecuencia, si se maneja una versión electrónica de este libro, se accederá
al artículo por el hipertexto, y si se usa una versión en soporte tradicional, será preciso acceder
desde un navegador a la dirección web correspondiente por la referencia o el DOI del artículo.
Asimismo, se necesitará el material CASPe de lectura para los diferentes tipos de estudios; son las
llamadas plantillas, que facilitarán la lectura crítica del estudio correspondiente. Estas plantillas
pueden bajarse libremente desde el sitio web de CASPe: http://www.redcaspe.org/herramientas/
instrumentos. Con esos tres componentes, el lector podrá hacer su propia lectura crítica, sea de
modo individual, sea en un grupo o en un club de lectura presencial o virtual. Una vez realizada
esta, el lector puede consultar en el libro las notas de lectura crítica sobre el artículo elegido en
cada capítulo. Estas notas han sido elaboradas y debatidas por los autores correspondientes, lo
cual permitirá al lector comparar su lectura con la de los autores. Para este segundo uso, como
libro de trabajo, valen las reflexiones sobre el orden de lectura comentadas para el primer libro. Es
asimismo posible elegir practicar sobre itinerarios específicos de lectura crítica: sobre tratamiento
o prevención (capítulos 3, 5, 11, 12, 13, 17, 18 y 19), sobre diagnóstico (capítulos 3, 6, 8, 14, 17
y 18), sobre pronóstico (capítulos 3, 7, 8, 15, 17 y 20) o sobre síntesis de la evidencia (capítulos
11, 12, 13, 14, 15, 17, 18 y 19).
XI
XII TABLERO DE DIRECCIÓN
Abierto este abanico de posibilidades, invitamos al lector a elegir el mejor modo de usar este
libro; porque entendemos la lectura como un proceso activo, sugerimos empezar a decidir desde
este mismo instante.
Juan B. Cabello

COLABORADORES
Víctor Abraira Santos M.ª Teresa González Gil

Unidad de Bioestadística Clínica, Hospital Profesora contratada doctora. Departamento
Universitario Ramón y Cajal. Madrid, de Enfermería, Facultad de Medicina,
España. Universidad Autónoma de Madrid. Madrid,
Miembro de CASPe. España. España.
Eukene Ansuategi Zengotitabengoa Javier Jaén Olasolo
Bibliotecaria-documentalista. Biblioteca, Jefe del Servicio de Oncología Radioterápica.
Hospital Universitario Donostia. Hospitales Universitarios Puerta del Mar,
San Sebastián, España. Cádiz y Jerez de la Frontera. Cádiz, España.
Coordinadora de BusCASPe. España. Miembro de CASPe. España.
Amanda Burls Jaime Latour Pérez
Emeritus Professor of Public Health. Health Coordinación de CASPe. España.
Services Research and Management
Eduardo López Briz
Division, School of Health Sciences, City
Jefe de la Sección de Farmacia. Hospital
University London. Londres, Reino Unido.
Universitario La Fe. Valencia, España.
Juan Bautista Cabello López Profesor asociado asistencial. Departamento
Servicio de Cardiología, Hospital General de Farmacia y Tecnología Farmacéutica,
Universitario de Alicante. Alicante, España. Facultad de Farmacia, Universidad
Senior fellow. Centre for Evidence Based de Valencia. Valencia, España.
Medicine, Oxford University. Oxford, Coordinador de CASPe-Farmacia. España.
Reino Unido.
Miguel Maldonado Fernández
Director de CASPe. España.
Servicio de Otorrinolaringología, Hospital
Alejandra Cano Arana Vital Álvarez-Buylla. Mieres, Asturias,
Miembro de CASPe. España. España.
Profesor. Curso Intensivo MIR Asturias.
José Ignacio Emparanza Knörr
Oviedo, Asturias, España.
Unidad de Epidemiología Clínica, Hospital
Miembro de CASPe. España.
de Donostia. San Sebastián, España.
Senior fellow. Centre for Evidence Based Antonio Jesús Martín Mateos
Medicine, Oxford University. Oxford, Servicio de Otorrinolaringología, Hospital
Reino Unido. Puerta del Mar. Cádiz, España.
Coordinador de CASPe-País Vasco. España. Coordinador de e-CASPe y CASPe. España.
Borja Manuel Fernández Félix Juan Maza Solano
Unidad de Bioestadística Clínica, Hospital Servicio de Otorrinolaringología, Hospital
Universitario Ramón y Cajal. Madrid, Universitario Virgen Macarena. Sevilla,
España. España.
Profesor asociado. Departamento de Cirugía,
M.ª Dolores Fraga Fuentes
Facultad de Medicina, Universidad
Servicio de Farmacia Hospitalaria, Hospital
de Sevilla. Sevilla, España.
General La Mancha Centro. Alcázar
de San Juan, Ciudad Real, España.
Subdirección General de Farmacia, Dirección
General de Cartera Común de Servicios,
Sistema Nacional de Salud y Farmacia,
Ministerio de Sanidad. España.
XIII
XIV COLABORADORES
M.ª Luisa Montes Ramírez Ana Royuela Vicente

Servicio de Medicina Interna, Unidad de VIH, Jefa de la Unidad de Bioestadística. Hospital
Hospital Universitario La Paz. Madrid, Puerta de Hierro-Instituto de Investigación
España. Sanitaria Puerta de Hierro-Segovia
Miembro de CASPe. España. de Arana. Majadahonda, Madrid, España.
Alfonso Muriel García
Unidad de Bioestadística Clínica, Hospital Vicente Ruiz García
Universitario Ramón y Cajal. Madrid, Jefe de sección. Unidad de Hospitalización
España. a Domicilio, Hospital Universitario La Fe.
Profesor asociado. Departamento de Enfermería Valencia, España.
y Fisioterapia, Facultad de Medicina Coordinación de CASPe. España.
y Ciencias de la Salud, Universidad
M.ª del Mar Úbeda Carrillo
de Alcalá de Henares. Madrid, España.
Bibliotecaria-documentalista. Biblioteca,
Coordinador de CASPe-Madrid. España.
Hospital Universitario Donostia.
Ana Ortega Eslava San Sebastián, España.
Consultora, especialista en Farmacia Coordinadora BusCASPe. España.
Hospitalaria. Servicio de Farmacia
Javier Zamora Romero
Hospitalaria, Universidad de Navarra.
Jefe de la Unidad Bioestadística Clínica.
Pamplona, España.
Hospital Universitario Ramón y Cajal.
Profesora titular. Departamento de Tecnología
Madrid, España.
y Química Farmacéuticas. Facultad
Professor of Biostatistics in Maternal
de Farmacia y Nutrición, Universidad
and Perinatal Health. Institute
de Navarra. Pamplona, España.
of Metabolism and System Research,
José Ignacio Pijoan Zubizarreta College of Medical and Dental Sciences,
Jefe de sección. Unidad de Epidemiología University of Birmingham. Birmingham,
Clínica, Hospital Universitario de Cruces. Reino Unido.
Barakaldo, Vizcaya, España.
Miembro de CASPe-País Vasco. España.
M.ª Nieves Plana Farrás
Responsable de la Unidad de Evaluación
de Tecnologías Sanitarias. Hospital
Universitario Ramón y Cajal. Madrid,
España.
Facultad de Estudios Estadísticos,
Universidad Complutense de Madrid.
Madrid, España.

C A P Í T U L O 1
¿Por qué hacer lectura crítica?
Amanda Burls ■ José Ignacio Emparanza Knörr ■ Juan Bautista Cabello López
Parece no haber ningún estudio tan fragmentado, ninguna hipótesis tan trivial,
ninguna lista de referencias tan sesgada o tan egoísta, ningún diseño tan retorcido,
ninguna metodología tan mala, ninguna presentación de resultados tan imprecisa,
oscura o contradictoria, ningún análisis tan autocomplaciente, ningún argumento
tan circular, ninguna conclusión tan insignificante o injustificada, y ninguna
gramática ni sintaxis tan ofensiva o molesta que evite que un artículo termine
siendo publicado.
Drummond Rennie (1)
Una historia clínica

Los trabajos de John E. Wennberg, en la década de los ochenta, sacaron a la luz importantes
variaciones sistemáticas en la práctica clínica que no eran explicables por las diferencias en las
características de los pacientes, las necesidades, los valores y preferencias o la disponibilidad de los
recursos. La conclusión, inevitable, era que se debían a que no todos los profesionales de la salud
estaban proporcionando los mejores cuidados a sus pacientes. En algunos casos, simplemente
no había evidencias concluyentes con las que informar la práctica clínica, pero en muchos otros,
inquietantemente, la evidencia simplemente no era trasladada a la práctica. Este fracaso, colectivo,
en la obligación intelectual de identificar la mejor evidencia y en el imperativo ético de asegurar que
la práctica sea informada por la mejor evidencia disponible está en el nacimiento del movimiento
de Cuidados de Salud Basados en la Evidencia (EBHC).
Uno de los problemas identificados era que las personas que tomaban decisiones no eran capaces
de interpretar la evidencia de las publicaciones científicas. En tal sentido, en la Universidad de
McMaster (Canadá), desde principios de los ochenta se afanaban en la búsqueda de cauces para
la aplicación de la evidencia a la práctica clínica y habían desarrollado un programa sistemático
sobre cómo leer las publicaciones científicas. Por ello, un grupo de Oxford fue hasta McMaster y
a la vuelta, tomando la experiencia, combinándola con tradiciones locales y con la ayuda de Larry
Chalmers, diseñaron el Critical Appraisal Skills Programme (CASP).
En paralelo, con el empuje de Muir Gray e Iain Chalmers, nacieron en Oxford múltiples
iniciativas para promover los cuidados basados en la evidencia, entre las que cabe destacar el Centre
for Evidence Based Medicine (CEBM), dirigido por David Sackett, y la Cochrane Collaboration
(quizás la más exitosa de las iniciativas). Ambas actuaron como instituciones referentes para la
implantación de la práctica basada en la evidencia a este lado del Atlántico.
Entre tanto, en España, desde 1987 el Fondo de Investigación Sanitaria del Instituto de Salud
Carlos III afrontó la tarea de formar una cohorte de epidemiólogos clínicos. Estos epidemiólogos
clínicos empezaron a desarrollar su labor en la mayoría de los hospitales españoles; en ellos se crearon
© 2022. Elsevier España, S.L.U. Reservados todos los derechos 1

2 Lectura crítica de la evidencia clínica
las unidades de investigación clínica agrupadas en la Red Española de Unidades de Investigación

(REUNI). Uno de los epidemiólogos clínicos ( Juan Cabello) fue comisionado y financiado por el
Carlos III para una estancia en Oxford, con el fin de estudiar cómo se priorizaba la investigación
para su mejor uso clínico. En Oxford, Muir Gray encargó a Amanda Burls (entonces directora del
CASP) ser mentora de Juan Cabello, y así fue como en 1996 se inició la colaboración.
Tras ese contacto surgió CASP España (CASPe) en 1997, que desde entonces ha enseñado
en más de 600 talleres en el sistema de salud español y ha contribuido a la creación del CASP
International, que ha vehiculado la extensión de CASPe por numerosos países (México, Perú,
Argentina, Polonia, Hungría, etc.).
En paralelo, en 1997, Juan Cabello y Amanda Burls organizaron un grupo en español en los cursos
«How to teach Evidence Based Medicine» de Oxford, que se han venido celebrando durante 15
años y en los que se han formado más de una centena de colegas españoles e hispanoamericanos. La
mayoría de los autores de este libro participaron en esos talleres y aprendieron a enseñar en Oxford.
En 2008, invitada por Paul Glasziou, Amanda Burls asumió el puesto de directora del programa
de posgrado en EBHC de la Universidad de Oxford, al que añadió una dimensión internacional,
impulsando la revitalización del máster en EBHC, tarea en la que hasta 2013 participaron con
entusiasmo los autores de este capítulo. Visto en perspectiva, no hay duda de que fue la auténtica
época de oro del máster en cuanto a densidad relacional, crecimiento académico e innovación
educativa.
Había que mencionar todo esto, porque este libro es una obra colectiva que recoge el saber de
los autores, pero, sobre todo, los matices, las experiencias, los debates y las reflexiones surgidas
en las discusiones con los participantes en los talleres CASPe, en los grupos hispanoparlantes de
los cursos «How to teach EBM» y en las sucesivas ediciones del máster de Oxford. A todos ellos
agradecemos su tiempo, su talento, su generosidad, su ardor en la discusión y sus desvelos por la
búsqueda de soluciones a los problemas de aplicar el conocimiento a la clínica.
Como sabemos que este trayecto marca nuestra perspectiva de análisis, y como queremos
ser explícitos, hemos de declarar que vemos el conocimiento, tanto en su aplicación como en su
generación y priorización, desde una perspectiva clínica.
Pero, contado así, esto parecería una historia de viejos guerreros recordando sus batallas. Por ello
debemos preguntarnos si 20 años después aún vale la pena hacer lectura crítica. Veamos.
¿Hay que leer críticamente en el siglo xxi?

Los clínicos somos tradicionalmente unos grandes productores y consumidores de literatura. Se
estima que existen actualmente más de 40.000 revistas médicas en circulación en el mundo. Los
artículos publicados en las revistas más prestigiosas se registran en bases de datos, siendo la más
empleada la base de datos Medline, de la US National Library of Medicine. Cuenta actualmente
con más de 20 millones de registros, que aumentan a un ritmo de más de 700.000 artículos por
año, a partir de las 5.235 revistas que indexa (julio de 2020).
Además de las revistas biomédicas, los clínicos acuden con frecuencia a los libros, que, si bien
pueden no estar «a la última», pueden resolver las dudas quizás de un modo parcial pero eficiente.
Es el modo clásico, al menos de las generaciones pasadas, en el que hemos aprendido: leyendo en
los libros. Sin embargo, es poco probable que sirvan para satisfacer la necesidad de conocimiento
más allá de lo básico. En efecto, los libros están poco actualizados y habitualmente no bajan al
detalle de los estudios que tratan de preguntas específicas.
Volvamos, pues, a las revistas. Las principales revistas reciben un volumen de artículos para ser
publicados muy superior al espacio editorial disponible, haciendo por ello que la selección sea una
tarea inexcusable. Para ello utilizan tanto el criterio del editor (pertinencia, originalidad y novedad
del estudio, etc.) como el criterio de otros médicos que evalúan los artículos. Es lo que conocemos
como el proceso de revisión por pares o peer review. Naturalmente, una pregunta inmediata que

1. ¿Por qué hacer lectura crítica? 3
surge es: si ya existe el proceso del peer review, ¿por qué es necesario saber (y sobre todo practicar)
la lectura crítica?
Una primera razón, muy importante, es que los estudios (2) para evaluar la bondad del sistema
peer review no han sido capaces de demostrar su efecto en la mejora de la calidad de los artículos
seleccionados.
En análogo sentido, la Unidad de Información e Investigación en Salud (HIRU) del Departa-
mento de Epidemiología Clínica de la Universidad de McMaster publica varias revistas secundarias:
ACP Journal Club, EBM Journal, EB Nursing y EB Mental Health. Su trabajo consiste en propor-
cionar al clínico artículos importantes, de utilidad en su práctica diaria. Escrutan sistemáticamente
170 revistas, seleccionan artículos, los evalúan críticamente y los resumen (sinopsis) y publican en
las cuatro revistas citadas. En el año 2000, las 170 revistas escrutadas publicaron 60.352 artículos. El
número total de artículos que fueron ofrecidos tras el proceso sistemático descrito fue de 4.132, lo
que supone que solo el 6,85% de los publicados aprobó. Considerando solo las 20 revistas con mayor
factor de impacto, aprobó el 7,3% de los artículos. Ni que decir tiene que todas ellas cuentan con
un proceso de peer review, que, sin embargo, no fue capaz de discriminar suficientemente la calidad
de los artículos (3). La situación ha llevado a Drummond Rennie, ex editor de la revista JAMA, a
declarar: «Si el peer review fuera un fármaco, nunca se hubiera autorizado su salida al mercado».
Parece obvio que no podemos fiarnos del nombre de la revista o del proceso del peer review
para admitir como válidos y aplicables los resultados publicados. Necesitamos ser capaces de dis-
cernir qué artículo ofrece una respuesta válida, con resultados importantes y aplicables a nuestra
necesidad de conocimiento.
A simple vista, parecería que el progreso en el mundo editorial de la evidencia y su nueva
estructura del conocimiento, con las mencionadas revistas de resúmenes (sinopsis), mejores sistemas
de evidencia previamente evaluada, guías de práctica clínica (GPC) cada vez mejor elaboradas,
etc., podría reducir la necesidad de la lectura crítica. Sin embargo, el horizonte para el desarrollo
completo de esos sistemas de ayuda aún está lejos y, en todo caso, hay dos argumentos para seguir
aprendiendo lectura crítica.
Uno es que la producción de esos sumarios, guías y sistemas de ayuda precisa, justamente, la
cooperación de clínicos con habilidades de lectura crítica; quizás en el futuro colaborar en compartir
el conocimiento con otros sea tan apreciado como otras actividades de la clínica. El otro es que la
interpretación con profundidad y hondura de las GPC no es posible sin, al menos, un nivel medio
de lectura crítica. Por tanto, parece que el desarrollo de los sistemas de apoyo a la decisión basada
en la evidencia, lejos de alejar la necesidad de la lectura crítica, la hace aún más necesaria, tanto a
nivel sistémico como para el desempeño clínico personal o grupal.
Una preocupación creciente

© Elsevier. Fotocopiar sin autorización es un delito.
Pero hay algunas amenazas que inciden sobre este escenario, en efecto.
En 2004, Marcia Angell, ex editora del New England Journal of Medicine, tras dejar el puesto,
escribió el libro The truth about drug companies (4). En él describía la disolución de los límites entre
facultades de Medicina, hospitales docentes y otras instituciones con la industria farmacéutica que
infiltraba todos los procesos, y que generaba conflictos de intereses cruzados con repercusiones
sobre la validez y la transparencia de la investigación.
Angell escribe: «Los condescendientes arguyen que esas transgresiones legales de las farmacéu-
ticas podrían estar justificadas porque su objetivo primario es cuidar los intereses de sus inversores,
simplemente es que han llegado demasiado lejos. Sin embargo, clínicos, facultades y organizaciones
profesionales son depositarios de la confianza de pacientes y ciudadanos, a quienes se deben».
En 2006, Richard Smith (editor de BMJ de 1979 a 2004, uno de los impulsores de las publi-
caciones open access, creador de la base de datos de case reports y de la revista Open-access Cases
Journal) escribió otro libro esencial, The trouble with medical journals (5). En él relata en primera

persona cómo el sistema peer review no es realmente capaz de mejorar la calidad de lo publicado y,
asimismo, describe cómo los intereses industriales enajenan la investigación y corrompen el sistema
de autorías utilizando escritores fantasmas (los llamados «negros» en el argot o ghost writer) y
reflexiona con profundidad sobre la compleja relación de las revistas médicas con los ciudadanos
y los medios de comunicación.
En esa última dirección, Ben Goldacre, doctor y columnista de The Guardian, publicó en 2009
el libro Bad Science (6), que recoge muchos de los errores y creencias injustificadas sobre salud, y,
más recientemente, en 2013, publicó Bad Pharma (7), en el que insiste, en lenguaje ciudadano,
en los problemas que los intereses de la industria producen sobre la validez y la transparencia de
la investigación clínica o, como él escribe, «los efectos secundarios de la industria farmacéutica».
Aún más recientemente, Peter Gotzsche (director del centro Cochrane Nórdico, bien conocido
por las controversias sobre el cribado con mamografía) escribió en 2013 Deadly medicines and
organised crime (8). El libro (prologado por Richard Smith y por Drummond Rennie) incide con
especial dureza en los conflictos de la industria con los investigadores, la academia y las revistas
médicas, y es, realmente, un catálogo de errores y malas conductas frecuentemente con resultados
fatales en términos de salud.
Esta enumeración de casos es exponente de la creciente preocupación de estas personas (proba-
blemente, las más influyentes en el mundo de la edición médica de los últimos años) y refleja los
conflictos de valores implícitos en las diferentes formas de ver el conocimiento en salud. Todo parece
indicar que uno de los actores del escenario de la salud (la industria) está en situación de clara
dominancia respecto de los otros tres (sistemas de salud, clínicos y pacientes-ciudadanos), e impone
sus valores sin contemplación. Parece que el mundo editorial se incomoda, los clínicos dudan, los
ciudadanos desconfían. Hay, en suma, una crisis de confianza en todo este mundo, que no parece
capaz de dar con la tecla para garantizar la validez, la difusión y el acceso al conocimiento en salud.
Para ese nuevo escenario, la lectura crítica constituye un elemento de transformación intelectual
para los clínicos, pero también para ciudadanos, pacientes y gestores, porque, en esencia, propone una
reconquista de la libertad de pensamiento y una vía de emancipación a través del empoderamiento
individual, profesional y social.
Por ello, realmente la pregunta adecuada a nuestro tiempo no es si hay aún que leer críticamente,
sino ¿realmente es posible en el siglo xxi leer de otro modo? ¿Es prudente leer crédulamente la evidencia
clínica?
Bibliografía
1. Rennie D. Editorial Peer Review in Biomedical Publication. The First International Congress. JAMA
1990;263(10):1317.
2. Jeferson T, Rudin M, Brodney S, Davidoff F. Editorial peer review for improving the quality of reports
of biomedical studies. Cochran Database Syst Rev 2007;(2):MR000016.
3. McKibbon KA, Wilczynski NL, Haynes RB. What do evidence-based secondary journals tell us about
the publication of clinically important articles in primary healthcare journals? BMC Medicine 2004;2:33.
4. Angels M. The truth about drug companies. How They Deceive Us and What to Do About It. New York:
Random House; 2004.
5. Smith R. The trouble with medical journals. London: The Royal Society of Medicine Press; 2011.
6. Goldacre B. Bad Science. London: Fourth State; 2009.
7. Goldacre B. Bad Pharma. London: Fourth State; 2012.
8. Gotzsche PC. Deadly medicines and organized crime. How the Big pharma has corrupted healthcare.
London: Radcliffe Publishing; 2013.
Cómo citar este capítulo:

Burls A, Emparanza JI, Cabello JB. ¿Por qué hacer lectura crítica? En: Cabello Juan B, editor. Lectura crítica
de la evidencia clínica, 2.ª ed. Barcelona: Elsevier; 2022. p. 1-4.

C A P Í T U L O 2
Lectura crítica para la práctica clínica
basada en la evidencia
Juan Bautista Cabello López ■ José Ignacio Emparanza Knörr
OB J ETIV OS D EL CA PÍ TULO
• Reflexionar sobre la lectura y sus peculiaridades en el contexto de la investigación

biomédica.
• Definir y caracterizar la «lectura crítica de la evidencia clínica».
• Tratar el aprendizaje de la lectura crítica y los diferentes instrumentos para hacer lectura
crítica.
• Reunir en una tabla las diferentes utilidades de las habilidades de lectura crítica.
Introducción
El modo de transmitir el saber fue objeto de discusión desde la antigüedad clásica. Sócrates defendía
la transmisión oral y Platón también defendía las ventajas de la oralidad, aunque nos informaba
de ello por escrito en Fedro. Para rizar el rizo, lo hacía usando un esquema literario de diálogo que
recuerda la agilidad del debate entre personas y tiene, por ello, evidentes connotaciones orales. Sea
como fuere, existe una larga tradición en la transmisión del saber por escrito y, desde luego, es la
forma usual en la transmisión del conocimiento científico y médico. En consecuencia, si deseamos
usar las evidencias científicas para el mejor cuidado de los pacientes, hemos de acceder a ese
conocimiento que se transmite a través de la literatura médica.
También señalaba Platón que el texto no elige a su lector y debe ser interpretado; esa inter-
pretación de los textos (hermenéutica) era, hasta hace poco, un saber reservado a los iniciados
(escribas, sabios, sacerdotes, etc.), en contraste, al menos aparente, con la situación actual. Lo
cierto es que, aunque tenga presunción de veracidad («lo escrito, escrito está»; San Juan, XIX, 22),
la clave siempre estuvo y está en la interpretación de lo escrito y, puesto que la interpretación es
cosa de humanos, el debate sobre las interpretaciones es la esencia de la auténtica comprensión
de los textos.
De la interpretación de los textos que contienen la evidencia para la práctica clínica trata esta
obra en general, y este capítulo trata de fijar el marco para leer el resto del libro.
Lectura y sus especificidades en el contexto

de la literatura biomédica
La lectura es un proceso de gran complejidad cognitiva (1), y existen muchas maneras de leer tanto
en la vida común como en la actividad clínica (mecánica, literal, comprensiva, etc.). Por otra parte,
hay diversos modos de enfocar conceptualmente la lectura (aproximaciones lingüística, cognitiva

o social, etc.). En cualquiera de esos enfoques teóricos es posible reconocer varias dimensiones
(2) en el proceso lector. Revisaremos esas dimensiones de la lectura y reflexionaremos sobre sus
equivalentes en la lectura de documentos de la literatura científico-médica y, en especial, en algunas
de las convenciones que configuran el marco social en el que se produce el fenómeno lector. Tales
dimensiones son las que se indican a continuación.
DIMENSIÓN TEXTUAL SIMPLE

Se refiere a la interpretación de lo escrito (directamente o tras la pronunciación). Se trata de procesar
el sentido primario del texto a partir de las palabras contenidas y también de otros elementos, como
la puntuación, el título, las anotaciones, etc. En esta dimensión, para la literatura biomédica valen
las convenciones de escritura generales del idioma que se trate.
DIMENSIÓN RELACIONAL (INTRA- E INTERTEXTUAL)

Esta dimensión comprende las relaciones sintácticas o semánticas que existen dentro del texto.
Por ejemplo, las relaciones sintácticas del interior del texto serían las frases, párrafos, pronom-
bres, paréntesis, etc. En cuanto a las relaciones semánticas, cabe destacar el reconocimiento
de estructuras y estrategias que hacen explícita la relación del texto y las informaciones que
lo acompañan (tablas, figuras, referencias, hipertextos, links, etc.). Es decir, el lector reconoce
las partes de un texto, y reconoce su parecido con otros textos en el modo de estructurar los
significados.
En las revistas médicas, el equivalente lector sería la identificación de las diferentes estructuras
según tipos de artículos (editoriales, cartas, originales). Destaca, por su coherencia organizativa y
semántica, el modelo tradicional del artículo original: IMRAD (Introducción, Material y métodos,
Resultados y Discusión). Otros aspectos de esta dimensión serían el reconocimiento de las tablas,
las figuras, la correspondencia de citas, los vídeos u otros contenidos multimedia, los hipertextos o
los enlaces a webs que contienen datos o tablas especiales.
Todos estos aspectos están estandarizados y fueron objeto de la convención de editores de revistas
médicas (Vancouver, 1978) (3), que elaboró las normas para la uniformidad de los documentos
biomédicos, y que se actualizan periódicamente. Tales normas, aunque generadas para la escritura,
son conocidas e implícitamente asumidas por el lector en el proceso de lectura (condicionan al
texto y al lector).
DIMENSIÓN ENUNCIATIVA
En ella se profundiza en la actitud del que escribe y se intuye lo que desea lograr del lector a partir
de la forma en que se usa el lenguaje para contar hechos, datos, ideas, emociones o creencias, y
especialmente a partir del énfasis de sus juicios sobre certidumbre, importancia, confianza, etc.
Esta dimensión es claramente diferente en los documentos biomédicos respecto de los de
otros ámbitos (literario, periodístico, etc.). En el ámbito médico se prefiere un estilo neutro de
escritura, que será expositivo o reflexivo (dependiendo de las secciones) y que trata de trans-
mitir ideas, hechos o interpretaciones, y raramente énfasis. Además de ese equilibrio expositivo,
se ofrecen indicaciones de estilo, como el uso de algunas convenciones para tiempos verbales
(futuro para los protocolos, pasado para las revisiones y la preferencia por la forma activa frente
a la pasiva) y otras sugerencias de estilo que se mencionan en sucesivas versiones de Vancouver,
aunque hay publicaciones y organizaciones —p. ej., BMJ (4) o Cochrane Collaboration (5)—
que tienen sus propios manuales de estilo literario para sus autores e incluso repositorios de
frases preconstruidas (Manchester Academic Phrasebank, http://www.phrasebank.manchester.
ac.uk/).

2. Lectura crítica para la práctica clínica basada en la evidencia 7
DIMENSIÓN VALORATIVA
Trasciende lo estrictamente escrito en las líneas y trata de identificar lo que hay entre líneas, es decir,
los elementos intelectuales que subyacen en el texto. En esta dimensión se hace uso de los recursos
señalados de las anteriores dimensiones, y se incorporan otros recursos propios que permiten al
lector adentrarse en una visión crítica del texto.
En definitiva, un texto ofrece siempre un punto de encuentro para una negociación comunicativa
con el lector (6). Pero esa negociación no siempre se produce: un lector podría comprender el
contenido del texto y su significado sin reconocer la dimensión valorativa que hay detrás, es decir,
sin juzgar el texto. En efecto, esa negociación implica una actitud lectora especial (crítica) y la
existencia de conocimiento previo, es decir, siempre nos aproximamos a un texto con nuestras
propias preconcepciones; a esas preconcepciones o prejuicios de los lectores de la literatura médica
dedicaremos parte del próximo apartado; digamos, por ahora, que son determinantes del resultado
de la valoración y, por tanto, elemento esencial de la lectura crítica.
DIMENSIÓN SOCIAL Y CULTURAL

En la dimensión valorativa se reconoce que en la profundidad del texto hay un conjunto de valores
(intelectuales, científicos, éticos y estéticos) que se muestran implícita o explícitamente y que
interactúan con los del lector. Pero esos valores, que forman parte del bagaje con el que el lector
afronta el texto, no son un producto estrictamente individual, sino que reflejan contextos y visiones
sociales que afectan al lector y también al resto de los actores: autor del texto, editor y colectividad.
Producto de esos valores son una serie de convenciones y acuerdos para escritura que cambian
según lo hacen aquellos y que constituyen elementos de regulación de un fenómeno que tiene una
evidente dimensión social y que deben ser incorporados por el lector.
En ambos sentidos, se han desarrollado múltiples convenciones que, generadas inicialmente
por grupos de científicos y clínicos, se han ido gradualmente incorporando por los editores a
las sucesivas versiones del International Committee of Medical Journal Editors (ICMJE), unas
como requisitos, otras como sugerencias, y otras como reglas para la solución de conflictos. De
ellas procede destacar:
■ Relacionadas con autor-editor-comunidad (criterios de autoría, responsabilidades de autoría,
mala conducta científica, retractación, réplica, superposición y duplicidad de publicaciones,

plagio, etc.).
■ Cuestiones de relación del editor con la colectividad (relaciones con los medios de comuni-
cación, con la industria, anuncios y publicidad, etc.).

■ Aspectos bioéticos, como la protección de los sujetos participantes en la investigación en
animales o en seres humanos. Este último, obviamente, afecta de manera específica a la

investigación clínica (sea observacional o experimental) que, a partir de aquí, llamaremos
evidencia para la clínica.
■ Aspectos de importancia metodológica, que están orientados a mejorar la escritura de los
estudios, a facilitar su lectura y la valoración crítica de su validez, o a propiciar su aplicación a

la práctica clínica o a la investigación de síntesis. En tal sentido, cabe destacar, por una parte,
las guías para la escritura de estudios que se muestran en el cuadro 2.1, que han sido recogidas
en la iniciativa Enhanced the QUAlity and Transparency Of health Research (EQUATOR;
www.equator-network.org) y que son elementos esenciales para poder realizar una buena
lectura crítica; y, por otra, los registros previos de ensayos clínicos (EC) (cuadro 2.2), cuya
importancia bioética es notoria y cuya utilidad para el control del sesgo de publicación se
comentará más adelante, o el registro prospectivo de revisiones sistemáticas (RS) PROSPERO
(http://www.crd.york.ac.uk/PROSPERO/), también de gran interés metodológico
y para la gestión de la agenda de investigación.

CUADRO 2.1 ■ Guías para la escritura de estudios clínicos*

■ ECA: CONSORT y extensiones de CONSORT.
■ RS y metaanálisis: PRISMA y extensiones de PRISMA para diferentes tipos de RS.
■ Estudios observacionales: STROBE y extensiones de STROBE.
■ RS de estudios observacionales: MOOSE.
■ Estudios de exactitud de las pruebas diagnósticas: STARD.
■ Estudios de modelos para diagnóstico o pronóstico individual: TRIPODE.
■ Descripción de casos: CARE.
■ Descripción de los apartados de estadística: SAMPL.
■ Descripción de protocolos de ECA: SPIRIT y PRISMA-P para los protocolos de RS.
■ Estudios cualitativos: COREQ, SRQR.
■ RS cualitativas: ENTREQ.
*Recopiladas en EQUATOR (http://www.equator-network.org/).

ECA, ensayo clínico aleatorio; RS, revisión sistemática.
CUADRO 2.2 ■ Registros de ensayos clínicos aleatorios

■ WHO International Clinical Trials Registry Platform Search Portal: http://apps.who.int/trial-
search/.
■ EU Clinical Trials Register: https://www.clinicaltrialsregister.eu.
■ CCT Current Controlled Trials: http://www.controlled-trials.com/.
■ ClinicalTrials.gov: http://clinicaltrials.gov/.
Lectura crítica en el contexto clínico

(lectura crítica de la evidencia clínica)
Las convenciones mencionadas configuran un marco de valores que brinda el contexto en que
se produce la lectura de estudios de evidencia clínica. Sin embargo, en la lectura crítica la parte
esencial es el lector, que es quien entabla diálogo con el texto, comprende sus significados simples,
descubre significados no explícitos, desafía al texto con hipótesis, razonamientos y saberes que él ya
poseía, relee y repiensa los textos, y realiza juicios de valor sobre diversos aspectos, que, en el caso
de la lectura crítica de la evidencia clínica, serán sobre calidad metodológica (validez), pertinencia
clínica o aplicabilidad.
Por tanto, las características definitorias de la lectura crítica son:
■ Es un tipo complejo de lectura, que exige los niveles más altos de comprensión lectora.
■ Requiere superar los planos previos de comprensión literal o de inferencias sencillas (dimen-
siones 1.a-3.a) para adentrarse en la realización de juicios de valor (dimensión 4.a).

■ Precisa una actitud específica del lector frente al texto.
■ Necesita algunos saberes previos del lector, preconcepciones o prejuicios, y un contexto de
valores (dimensión 5.a).

En la lectura crítica de la evidencia clínica asumimos, por obvia, la existencia de las dos primeras
características. Asumida también la actitud crítica del lector y comentado previamente el marco
o contexto de lectura clínica, veamos ahora cuáles son las preconcepciones de los lectores clínicos
al afrontar un texto.
Es posible diferenciar, al menos, cinco tipos de preconcepciones o prejuicios (en sentido literal):
1. El primero son algunas visiones culturales. Por tales entendemos valores relacionados con la
salud y que son aceptados sin discusión por las comunidades; por ejemplo, la bondad de una

sopita de pollo, o las sopitas con vino, o beber un dedito de whisky, que, en Escocia, todo el
mundo sabe que es estupendo para la salud.
2. El segundo tipo de prejuicios son las leyendas y tradiciones clínicas, por ejemplo, maniobras
en la reanimación muy consolidadas sobre las que no hay evidencias, pero que se practican
y se recomiendan (p. ej., el golpe en el pecho en el inicio de la reanimación cardiopulmonar,
hace tiempo retirado de las guías de práctica clínica [GPC]).
3. Un tipo especial de prejuicios son los vinculados a mecanismos y esquemas de funcionamiento
(homeostasis, poscarga, feedback, etc.), que tienen gran fuerza explicativa, tienen la ventaja de
que hacen comprensible los mecanismos fisiológicos o fisiopatológicos de un modo próximo
al sentido común y, por ello, son fácilmente internalizables.
4. El cuarto tipo es el conocimiento establecido, que incluye cosas no probadas, aunque
tradicionalmente asumidas como si fueran ciertas, y que por inercia se mantienen en
la mente y en la práctica (p. ej., la administración de oxígeno en el infarto agudo de
miocardio, que hasta hace pocos años era sugerida en todas las GPC). Incluye este grupo,
también, el conocimiento clínico probado, o lo que podríamos llamar cuerpo de evidencias
consolidadas, que antes considerábamos inmutable y ahora sabemos que tiene caducidad,
y que obviamente es un saber que el lector clínico formado ya posee antes de comenzar la
lectura.
5. Un quinto tipo son las «preconcepciones» metodológicas o epistemológicas sobre la calidad
de los estudios usados en la construcción de evidencias clínicas. Ejemplos de estas precon-
cepciones son la fascinación común por los ensayos clínicos aleatorios (ECA) como diseño
óptimo de estudio, sin considerar el tipo de pregunta que debe responderse o sin percatarse
de la limitada capacidad probatoria de un solo estudio, o las impresionantes coreografías
usadas para hacer ciegos, doble ciegos, triple ciegos, n ciegos, doble enmascaramiento, etc.,
sin reflexionar sobre el tipo de desenlace que estamos estimando.
De todas estas preconcepciones, el primer tipo tiene carácter general y los tres siguientes están
relacionados con la formación básica y/o el entrenamiento profesional del clínico, y forman parte
de su bagaje (naturalmente con profundidad variable). Respecto de los conocimientos sobre la
calidad metodológica, es obvia la necesidad de disponer de elementos de juicio sobre la calidad
del diseño correspondiente para poder evaluar lo leído (7). Este es, sin duda, un punto crítico en el
aprendizaje de la lectura crítica, tenido en cuenta en la mayoría de las estrategias docentes (8). Por
ello, en los capítulos de este libro dedicados a la lectura de diseños específicos se ofrece una breve
introducción sobre aquellos conceptos claves que definen la validez del diseño correspondiente y
que se concretan en los instrumentos de lectura crítica.
Pero leer críticamente es, en realidad, una habilidad intelectual (como tomar decisiones bajo
incertidumbre o hacer cálculos complejos) y, al igual que todas las habilidades, se desarrolla
mediante la práctica y la reiteración, no bastan los saberes teóricos o metodológicos (9). Para
reflexionar sobre el desarrollo de esa habilidad, esencial para el currículo clínico (7), dedicaremos
los siguientes apartados.
Aprendiendo a leer críticamente

Como señalábamos, una parte crucial de la enseñanza de la lectura crítica consiste en despertar y
estimular la reflexión sobre esos citados conceptos metodológicos en aquellos lectores con actitud
crítica (dispuestos a interactuar con el texto). Es decir, una vez configurada la visión de esas claves
metodológicas, hay que afrontar la interacción con el texto.
Pero esta interacción es difícil, porque hay que priorizar entre los múltiples abordajes posibles
y los diversos aspectos que hay que atender. Por ello, es útil una cierta organización del proceso en
el sentido de: 1) diseñar una estrategia eficiente de lectura; 2) disponer de instrumentos de ayuda,
y 3) confrontar interpretaciones mediante discusión.

ESTRATEGIA DE LECTURA
Las piezas elementales de evidencia (los estudios) muestran un tradicional esquema IMRAD,
donde la introducción define el marco de lo ya conocido; el material y los métodos muestran los
detalles necesarios para su comprensión, reproducción o posterior aplicación de la investigación;
los resultados son la información nuclear del estudio, y la discusión ofrece explicaciones para los
hallazgos, define de nuevo el marco de conocimiento y propone nuevas hipótesis.
En realidad, la información nueva (y sustancial) está contenida en los resultados, pero la validez
de ellos dependerá del material y los métodos. Por ello, tradicionalmente, la lectura crítica se cen-
tra primeramente en la validez (y, por tanto, en el material y los métodos), a continuación, en los
resultados y, posteriormente, en la aplicabilidad, ya sea a pacientes, a grupos o a la investigación
de síntesis.
Sin embargo, la validez depende de las preguntas en un doble sentido: la pregunta formulada
condiciona la selección del diseño de investigación adecuado y, sobre todo, la pregunta incorpora los
diferentes desenlaces de investigación; ello nos permite valorar si los desenlaces son importantes para
la decisión clínica o para la investigación en curso. Abordaremos esto con detalle en el capítulo 3;
por ahora, señalemos que:
■ La primera reflexión de cualquier lectura crítica será sobre la pregunta de investigación y,
lógicamente, el primer punto de los instrumentos de lectura.

■ La pregunta generalmente ocupa el título y/o el último párrafo de la introducción, que, como
señalábamos, se dedica a justificar el marco de conocimiento que da sentido a esa pregunta.

■ La identificación de la pregunta y de sus diferentes desenlaces nos permitirá saber si este
estudio contiene realmente la evidencia que necesitamos para nuestra clínica o para nuestra
investigación de síntesis.
■ Los siguientes elementos de validez, resultados y, en su caso, aplicabilidad se incorporan
por ese orden en los instrumentos de lectura (que describimos en el siguiente apartado). Por
tanto, la secuencia lógica de lectura será: Pregunta – Validez – Resultados – Aplicación.
■ En el contexto de aplicación clínica, si los resultados son poco importantes para tomar
decisiones, y también si la pregunta está lejos de tus decisiones clínicas, debes plantearte si
te compensa seguir con la lectura crítica. Si estás haciendo investigación de síntesis, sim-
plemente sigue el protocolo del estudio.
INSTRUMENTOS PARA LA LECTURA CRÍTICA

Se trata de instrumentos diseñados para ayudar a realizar una «valoración crítica» de los estudios
de evidencia clínica, es decir, para enjuiciar su «calidad metodológica», su pertinencia clínica y, en
ocasiones, incluyen valoraciones sobre aplicabilidad. En realidad, su función es ayudar a ordenar la
interacción con el texto y su uso puede incluirse en un marco de investigación-desarrollo (RS o de las
GPC) o en un marco práctico de aplicación de la evidencia (cuadro 2.3). De manera general, pueden
adoptar tres formas básicas: listados de revisión (check-list), puntuaciones (scores) o guías de lectura.
Un asunto crucial es definir qué entendemos por calidad metodológica, por pertinencia clínica y
por aplicabilidad. Por «calidad metodológica» entendemos en qué medida el diseño, la conducción
y el análisis minimizan los sesgos de selección, medición y confusión, es decir, en qué medida
son válidos (entendido como validez interna). Por pertinencia clínica entendemos que se trate de
preguntas y desenlaces de investigación útiles para la decisión clínica (v. capítulo 3). Por aplicabi-
lidad entendemos la transferibilidad del resultado a un paciente concreto (o grupo de pacientes) y
también qué otros elementos hay que considerar en la aplicación de esa evidencia (otros efectos,
molestias, costes, etc.).
Los instrumentos de lectura pueden clasificarse en «generales» y «diseño-específicos» (10). Los
primeros se orientan a la lectura de cualquier tipo de diseño o estudio, e incluyen ítems suficien-

CUADRO 2.3 ■ Utilidad de la lectura crítica
Saber hacer lectura crítica te permitirá:

■ Tomar decisiones basadas en la evidencia en tu práctica cotidiana. Para ello te será preciso
formular la pregunta clave del escenario clínico, buscar «eficientemente» la evidencia, leerla
críticamente y, si es buena, aplicarla. A veces encontrarás la evidencia preevaluada (v. capítulo 10),
¡estupendo!, pero otras veces no lo estará y tendrás que decidir con el estudio, tu habilidad para
leerlo y tus otras habilidades de buen clínico.
■ Organizar sesiones basadas en la evidencia, sesiones bibliográficas o participar en clubes de
lectura (recuerda que leer era históricamente un acto social, se leía en alto y se comentaba). Piensa
siempre que el aprendizaje solo «madura» con la deliberación y la discusión de visiones diversas.
■ Plantear y diseñar un estudio. Si ya tienes tu pregunta de investigación, será preciso que leas
críticamente los estudios previos que hayas encontrado sobre el tema, para saber si:
■ La evidencia existente es adecuada. En ese caso, si la evidencia es suficientemente buena, deberás
considerar si es realmente razonable seguir con tu estudio.

■ Existen aspectos mejorables en la evidencia actual. Es el caso más común, porque, en general,
un tema difícilmente se agota y siempre hay algún matiz de interés.

■ No existe evidencia adecuada sobre el asunto, en cuyo caso lo que procede es que te remangues
y te pongas a la tarea de diseñar tu propio estudio primario.

■ Sintetizar la evidencia (RS). Enlazando con el punto anterior, puede que, en vez de diseñar un
estudio «primario», sea más interesante sintetizar el cuerpo de evidencia y hacer una RS; en ese
caso, recuerda que para diseñar y conducir una RS necesitarás un muy buen nivel de lectura crítica.
■ Hacer resúmenes (sinopsis), tanto de estudios primarios como de RS:
■ Puede que lo que desees sea contribuir a ayudar a otros colegas a leer críticamente la evidencia
(ellos podrán verla en publicaciones de resúmenes o revistas secundarias).

■ Puede que simplemente desees compartir tu esfuerzo de lectura crítica, ese que realizaste para
tomar algunas decisiones en tu práctica y elaborar un critically appraised topic (CAT) que puedes
compartir en internet. Para ambas cosas, disponer de habilidades de lectura crítica te será de gran
utilidad.
■ Contribuir a la realización de sumarios de evidencia, guías de práctica clínica, etc. Si lo que deseas
es participar en alguna de esas estrategias, en el caso de los sumarios de evidencia, para seleccionar,
leer críticamente, resumir y catalogar las evidencias desde perspectivas clínicas para propiciar su
utilización, sin duda esta es una habilidad que necesitarás.
RS, revisión sistemática.
temente versátiles para ese propósito, que, en ocasiones, son de validez y en otras de calidad en
general. Por ejemplo, pueden incluir preguntas sobre los requisitos formales de eticidad del estudio
o sobre la calidad de la escritura de la investigación, que son, sin duda, aspectos importantes para
la calidad concebida en un sentido global (distinto del que hemos propuesto), pero no lo son tanto
para evaluar la validez. Los segundos, o «diseño-específicos», se orientan a la validez del estudio y
asumen que los elementos clave de la validez son distintos para cada tipo de diseño de estudio. Es
decir, los ítems que hay que responder serán distintos si estamos ante un ECA, ante un estudio de
cohortes, ante un estudio de exactitud diagnóstica, etc.
Los instrumentos generales se dirigen a aspectos troncales de los estudios y tienen la peculiaridad
de que permiten comparar diseños diferentes. Por ello, pueden ser de utilidad para propósitos gene-
rales; por ejemplo, para la evaluación de proyectos para financiación, para algunas RS especiales que
precisan combinar diferentes tipos de estudios, o para su uso en grupos de pacientes o ciudadanos.
Sin embargo, para la investigación y la práctica basada en la evidencia, el interés se centra en la
validez de los resultados, como paso previo a decidir sobre su aplicabilidad. Por ello, para la lectura
de la evidencia clínica nos referiremos exclusivamente a instrumentos diseño-específicos.

Una reciente RS (11), que incluye los instrumentos publicados en revistas peer review (excluyendo
los estudios de exactitud diagnóstica), encuentra que el 57% de ellos son generales o multipropósito,
el 25% se orientan a diseños experimentales y el 18% se dedican a otros diseños. Asimismo, señala
algunas dificultades observadas en la construcción y evaluación formal de los instrumentos: selección
de ítems, consistencia interna y externa, validez en sus diferentes formas, contenido, constructo, etc.
No profundizaremos aquí en este asunto, pero sí mencionaremos algunos aspectos importantes.
En primer lugar, el modo de seleccionar los ítems que se van a incluir en un instrumento es
frecuentemente objeto de discusión y controversia, y de manera particular si debe usarse un método
formal de generación de ítems (al estilo psicométrico) o usar criterios racionales o intuitivos (al
modo de los índices clinimétricos). Ciertamente, hay características metodológicas cuyo impacto
sobre la validez es bien conocido, porque disponemos de evidencias empíricas al respecto y, por
tanto, deben ser incorporadas (p. ej., la ausencia de ocultación de la secuencia de aleatorización o
el cegamiento en un ECA). Hay otras características metodológicas sobre cuyo impacto aún no
tenemos evidencias sólidas, pero la racionalidad indica que así es, y probablemente también deban
incluirse. En cualquier caso, este es un apartado en continuo movimiento por los progresos en el
diseño, la conducción, el análisis y la comunicación de la evidencia clínica, y hay que tener siempre
presente que la validez de un instrumento es siempre contextual (del conocimiento existente y de
la función del instrumento).
En segundo lugar, durante un tiempo pareció interesante el desarrollo de scores o puntuaciones
que expresaran numéricamente la validez del estudio; así adquirieron relevancia algunas escalas,
como la de Jadad para ECA (12) o la Newcastle-Otawa Scale (NOS) (13) para estudios de cohortes
o estudios de casos y controles, en parte por influencias psicométricas y en parte por el atractivo
que tenía poder incorporar la validez del estudio expresada en un número, como elemento de
ponderación de ese estudio, a la hora de calcular un estimador global en el contexto de estudios
de síntesis (metaanálisis).
Sin embargo, estudios y reflexiones posteriores (14) mostraron que lo realmente importante
no son solo los elementos de valoración metodológica, reflejados en los ítems, sino su relación
con los desenlaces concretos, es decir, el impacto de una característica concreta sobre un desenlace
determinado. Por ejemplo, la importancia del cegamiento del paciente en un ECA será menor si el
desenlace es mortalidad que si el desenlace es la valoración subjetiva de síntomas. En consecuencia, la
calidad no puede predicarse exclusivamente del diseño sin considerar los desenlaces específicos. Por
ello, actualmente los scores son formalmente desaconsejados y se proponen reflexiones duales: juicios
sobre cada uno de los dominios metodológicamente importantes y juicios sobre sus consecuencias o
el riesgo de sesgo que pueden producir en la estimación del efecto para cada desenlace (trataremos
esto en los capítulos 5, 11 y 17).
Hay que destacar la ausencia, en la citada revisión, de la mayoría de los instrumentos usados
para la enseñanza de las habilidades de lectura crítica, como los CASPe, GATE, PICO-RAMbo y
otros muchos accesibles en la mayoría de las webs docentes de medicina basada en la evidencia y en
revisiones enfocadas a catálogos de instrumentos para medir el riesgo de sesgo (15). Sin duda, ello
se debe a los restrictivos criterios de inclusión, pero también a que estos instrumentos constituyen
un subgrupo especial en dos sentidos.
Por una parte, la finalidad de estos instrumentos es esencialmente docente y en el contexto
de práctica basada en la evidencia, mientras que los primeros son instrumentos de investigación-
desarrollo, y su contexto, el de realización de RS o evaluación de cuerpo de evidencia para el
caso de las GPC. Esta diferente finalidad debe ser considerada a efectos de validez formal de
los instrumentos.
Por otra parte, los instrumentos docentes incluyen la validez, los resultados (estimadores y
pertinencia) y también un grupo de ítems sobre la aplicabilidad de los resultados, aunque es obvio
que unas breves preguntas en modo alguno pueden representar todo el universo de factores que
influyen en una decisión clínica real. Aprender a decidir es ciertamente un asunto más amplio

que la lectura clínica o que la valoración de la calidad de la evidencia, y precisa otras habilidades
adicionales.
En nuestro caso, y durante todos los ejercicios del libro, usaremos los instrumentos CASPe, que
describimos sucintamente y que pueden descargarse de http://www.redcaspe.org/herramientas/
instrumentos.
Se trata de instrumentos (diseño-específicos) organizados en tres secciones sucesivas (validez,
resultados y aplicabilidad), diseñados para ser usados asociados a un escenario de decisión (real o
docente) y que requieren una sesión de formación metodológica previa. El formato del instrumento
es de listado de preguntas (10 u 11 preguntas), cada una de ellas con tres posibles respuestas (Sí, No
se puede saber y No). En realidad, lo relevante es que incluye una pequeña guía de uso en forma
de pistas para abordar cada una de las preguntas y conducir el debate grupal.
CONFRONTANDO INTERPRETACIONES, DELIBERANDO

Al comienzo del capítulo señalábamos la elección por Platón del «diálogo» como vehículo de con-
frontación de interpretaciones y, en efecto, la discusión sobre las posibles interpretaciones de la
lectura es absolutamente esencial tanto en procedimientos de investigación de síntesis como en la
aplicación a la práctica, y aún más en el aprendizaje de la lectura crítica.
Desde el punto de vista de la investigación, el proceso la lectura puede verse como un modelo
en el que el texto (input) es leído con instrumentos adecuados y de forma explícita y preestablecida
(procedimiento), e interpretado por el lector (user) de acuerdo con sus conocimientos y posiciones
previas. El texto es obviamente idéntico, pero incluso con criterios de lectura preestablecidos para
cualquier eventualidad es posible observar variabilidad atribuible al lector; esa variabilidad debe
ser reducida mediante discusión, eventual acuerdo, cambios en el procedimiento o con un nuevo
observador. Por ello se usan varios lectores-investigadores en la investigación de síntesis y para
reducir la variabilidad se han desarrollado instrumentos específicos que se describen en los capítulos
correspondientes y se resumen en el capítulo 17.
En cuanto al aprendizaje, la discusión y el debate son particularmente importantes, porque
el auténtico aprendizaje no es solo un fenómeno individual, sino que es también, en su esencia,
un fenómeno social, en la medida en que el proceso cognitivo se conforma y consolida mediante
la deliberación y discusión abierta. Por ello, compartir las interpretaciones es crucial tanto para
el desarrollo de la habilidad de lectura crítica (en el seno de diversas estrategias docentes) como
para el mantenimiento en el tiempo de esa pericia en clubes de lectura o en otras acciones
similares (16).
Bibliografía
1. Rayner K, Reichle ED. Models of the Reading Process. Wiley Interdiscip Rev Cogn Sci 2010;1(6):
787-99.
2. Módulo de lectura crítica. SABER-PRO-2013-1. [Fecha de última consulta: 24 de marzo de 2021].
Disponible en: https://www.unitecnar.edu.co/sites/default/files/pdfs/M%C3%B3dulo-LECTURA%20
CRITICA.pdf.
3. International Committee of Medical Journal Editors (ICMJE). Recommendations for the Conduct,
Reporting, Editing, and Publication of Scholarly Work in Medical Journals [Fecha de última consulta:
22 de marzo de 2021]. Disponible en: http://www.icmje.org/recommendations/.
4. BMJ. House style [Fecha de última consulta: 22 de marzo de 2021]. Disponible en: http://www.bmj.com/
about-bmj/resources-authors/house-style.
5. Cochrane Style Guide. 4.1 edition [Fecha de última consulta: 22 de marzo de 2021]. Disponible en: http://
www.cochrane.org/training/cochrane-style-resource/cochrane-style-guide.
6. Gadamer HG. Truth and Method. 2nd ed. Kansas City: Sheed & Ward; 2004.
7. Cabello JB, Emparanza JI, Burls AJ. Una educación para la clínica del siglo xxi: el currículo para la
práctica basada en la evidencia. Med Clin (Barc) 2013;141(5):221-6.

8. Horsley T, Hyde C, Santesso N, Parkes J, Milne R, Stewart R. Teaching critical appraisal skills in health-
care settings. Cochrane Database Syst Rev 2011;(11):CD001270.
9. Norman G, Eva K, Brooks L, Hamstra S. Expertise in medicine and surgery. En: Ericsson KA, Charness
N, Feltovich PJ, Hoffman RR, editores. The Cambridge handbook of expertise and expert performance.
New York: Cambridge University Press; 2006. p. 339-54.
10. Katrak P, Bialocerkowski AE, Massy-Westropp M, Kumar S, Grimmer GA. A systematic review of the
content of critical appraisal tools. BMC Med Res Methodol 2004;4:22.
11. Crowe M, Sheppard L. A review of critical appraisal tools show they lack rigor: Alternative tool structure
is proposed. J Clin Epidemiol 2011;64(1):79-89.
12. Jadad AR, Moore RA, Carroll D, Jenkinson C, Reynolds DJM, Gavaghan DJ, et al. Assessing the quality
of reports of randomized clinical trials: is blinding necessary? Control Clin Trials 1996;17(1):1-12.
13. Wells GA, Shea B, O’Connell D, Peterson J, Welch V, Losos M, et al. The Newcastle-Ottawa Scale
(NOS) for assessing the quality if nonrandomized studies in meta-analyses. Disponible en: http://www.
ohri.ca/programs/clinical_epidemiology/oxford.asp.
14. Boutron I, Page MJ, Higgins JPT, Althman DG, Lundh A, Hrobjartsson A. Chapter 7. Considering bias
and conflicts of interest among the included studies. En: Higgins JPT, Thomas J, Chanler J, Cumpston M,
Li T, Page MJ, editores. Cochrane handbook for systematic reviews of interventions. 2.ª ed. Chichester:
John Wiley & Sons; 2019. p. 177-204.
15. Ma LL, et al. Methodological quality (risk of bias) assessment tools for primary and secondary medical
studies: what are they and which is better? Military Medical Research 2020;7:7. Disponible en: https://
doi.org/10.1186/s40779-020-00238-8.
16. Ruíz García V, Cabello JB. Journal clubs at XXIth century. Med Clin (Barc) 2010;135(12):556-60.

Cabello JB, Emparanza JI. Lectura crítica para la práctica clínica basada en la evidencia. En: Cabello Juan B,
editor. Lectura crítica de la evidencia clínica, 2.ª ed. Barcelona: Elsevier; 2022. p. 5-14.

C A P Í T U L O 3
Formulando preguntas
para la práctica clínica
Juan Bautista Cabello López ■ José Ignacio Emparanza Knörr
• Definir y reflexionar sobre «preguntas clínicas».

• Clasificar los diferentes tipos de preguntas clínicas y su correspondencia con los tipos
de estudios adecuados para responderlas.
• Profundizar en la sintaxis de las preguntas clínicas.
• Tratar los criterios de valoración de la importancia de las preguntas en función
de los desenlaces.
• Practicar con ejercicios la formulación de esas preguntas sobre escenarios clínicos.
Introducción
La formulación de preguntas clínicas es el paso inicial en el esquema clásico de «cinco pasos
para práctica basada en la evidencia» (1) (formulación de preguntas, búsqueda, lectura crítica,
aplicación y evaluación de la práctica) y, por ello, es considerado un pilar básico del currículo
clínico (2).
Dada la actual naturaleza del conocimiento clínico, sujeto a permanente cambio y renovación,
la identificación de las lagunas de conocimiento emerge como un punto clave para mantener una
práctica clínica basada en la evidencia y también para identificar las necesidades del conocimiento
clínico que debería ser investigado.
Desde esa perspectiva, la formulación de preguntas es una habilidad clínica fundamental, al ser
un instrumento de conexión entre la práctica clínica y el conocimiento en los dos sentidos: aplicar
conocimiento a la práctica y generar desde la práctica preguntas para la investigación.
¿Qué es una «pregunta clínica»?

De manera habitual, en la actividad clínica se produce un intercambio de preguntas y respuestas
entre clínico y paciente. Así, preguntamos al paciente sobre sus antecedentes, sus síntomas, su
medicación, sus actitudes ante el problema, etc. Y, en el otro sentido, recibimos preguntas del
paciente sobre cuál es la causa de sus síntomas o su diagnóstico, o de los posibles efectos adversos,
sobre cuál es el pronóstico, etc. Otras veces nos preguntamos por la glucosa o por el colesterol del
paciente, por la causa de tal signo o hallazgo de exploración, o sobre si debemos plantearnos hacer
una prueba diagnóstica o elegir un determinado tratamiento frente a otro.

La cuestión clave es: ¿son todas ellas preguntas clínicas? Desde una perspectiva estricta lo son,
en la medida en que ocurren en ese ámbito clínico; sin embargo, no todas las preguntas que ocurren
en ese ámbito tienen el mismo significado y las mismas implicaciones.
En efecto, el proceso clínico es complejo desde el punto de vista cognitivo (3), y comienza con
una fase de adquisición de información seguida de un proceso de síntesis y combinación de datos
que permite formar hipótesis diagnósticas, hacer finos equilibrios entre beneficios y riesgos de los
test diagnósticos o de los diversos tratamientos y, finalmente, formular o evaluar planes de manejo
de los pacientes.
En ese proceso continuo e interactivo es posible diferenciar dos modelos de preguntas: unas
ocurren durante las primeras fases y responden simplemente a una necesidad de ganancia de
información, que es filtrada selectivamente y procesada para configurar un escenario clínico; otras
preguntas, en cambio, emergen en ese escenario conformado, pero como necesidad de disponer de
conocimiento para tomar las decisiones clínicas, generar o probar hipótesis diagnósticas, sopesar
tratamientos, fijar pronósticos, etc. A partir de ahora nos centraremos solo en estas últimas y
consideraremos preguntas clínicas exclusivamente aquellas que son la formulación de una
necesidad de conocimiento.
Cabe preguntarse: ¿de qué tipo de conocimiento hablamos?
En la práctica clínica se usan diversos tipos de conocimientos, unos generales, otros prudenciales
y, naturalmente, de conocimiento científico-médico, con mayor o menor proximidad a la clínica.
Veámoslo con dos preguntas que se refieren a dos tipos de conocimiento diferentes.
La primera es: ¿cuál es el efecto de la isquemia miocárdica transitoria y repetida sobre la ultraes-
tructura de los miocitos?
En tu opinión, ¿es esta una pregunta clínica? Piénsalo un instante.
Suponemos que has dudado un poco, porque su respuesta ofrece un tipo de conocimiento
de «indudable interés» para un clínico; acordarás, sin embargo, que está muy alejado de lo que
necesitamos para la toma de decisiones. Es, por así decirlo, una pregunta previa o preclínica.
Compárala con la segunda pregunta: en pacientes con sospecha de síndrome coronario agudo, ¿es
útil el uso de un protocolo especial (TIMI score + ECG + 2 valores de troponina) comparado con el manejo
tradicional para prevenir eventos cardíacos adversos e infarto agudo de miocardio?
Esta otra es, en cambio, una pregunta cuyo conocimiento está directamente relacionado con las
decisiones que se han de tomar en el manejo clínico de los pacientes mencionados (con sospecha
de síndrome coronario agudo). Estas preguntas son llamadas evidencias orientadas a los pacientes
(o patient-oriented evidence that matters [POEM]).
Así pues, la segunda característica de lo que entendemos por una pregunta clínica es «que tiene
relación directa con la toma de decisiones sobre el paciente». Naturalmente, esta «relación directa»
es un enunciado algo ambiguo; pero volveremos sobre ello al final del capítulo.
Cabe señalar que los dos ejemplos de preguntas mencionadas necesitarían diferentes procesos
para ser contestados. Así, aquellas preguntas que están alejadas de la clínica deberán investigarse
mediante métodos o técnicas diversas y generalmente en ámbitos alejados de la clínica. Por el con-
trario, las POEM deberán investigarse sobre pacientes y, lo que es más relevante, utilizando diseños
de investigación específicos según el tipo de pregunta, es decir, según el tipo de conocimiento que
se precise.
Abordaremos a continuación los tipos de preguntas clínicas posibles y comentaremos brevemente
los diseños de investigación adecuados.
Tipos de preguntas clínicas

Las «preguntas clínicas» (que implican una necesidad de conocimiento y que tienen relación directa
con la decisión clínica) pueden clasificarse según tres posibles criterios: el primero será según el
dominio clínico al que correspondan, el segundo según su amplitud, y el tercero según su sintaxis.

3. Formulando preguntas para la práctica clínica 17
SEGÚN EL DOMINIO CLÍNICO

De manera general, las necesidades de conocimiento para la decisión suelen relacionarse con
alguno (o algunos) de los dominios tradicionales de la clínica. Así pues, con independencia de los
otros ejes clasificatorios, cualquier pregunta clínica caerá en alguna (o algunas) de las categorías
que señalamos a continuación:
■ Tratamiento o preguntas relacionadas con el conocimiento sobre la elección del mejor
tratamiento para nuestro paciente, la consideración de alternativas o la valoración del balance

entre beneficios y perjuicios.
■ Diagnóstico o preguntas relacionadas con las diversas áreas del diagnóstico: evocación de
posibilidades diagnósticas, diagnóstico diferencial, sobre las características de un test diagnós-

tico, o sobre si conviene o no practicar un test diagnóstico según las consecuencias clínicas
de realizarlo o no.
■ Pronóstico o preguntas orientadas a conocer los posibles cursos de la enfermedad y sus
desenlaces con sus correspondientes probabilidades; o también en el sentido de estimar el

riesgo de algún desenlace en pacientes concretos.
■ Etiología, daño, perjuicio o necesidades de evidencias para identificar causas de la enfer-
medad, incluyendo, naturalmente, las causas yatrógenas.

■ Prevención o intervenciones sobre factores de riesgo para evitar enfermedades o para evitar
desenlaces indeseables de enfermedad.

■ Creencias o valores sobre la enfermedad o sus consecuencias.
■ Otras, como evaluación económica u organización de servicios.
La mayoría de los estudios (4-7) son consistentes respecto de la frecuencia relativa de cada uno
de los tipos de pregunta según dominio. La mayor frecuencia corresponde (en atención primaria y
en especialidades de medicina interna) a las preguntas de tratamiento, seguidas de las de diagnós-
tico, etiología, daño, pronóstico, prevención y otras. Naturalmente, existen variaciones dependientes
de las diferentes especialidades o ámbitos disciplinarios; así, los radiólogos hacen más preguntas
de diagnóstico, los farmacéuticos de daño o de efectos adversos, los enfermeros de investigación
cualitativa o los gestores de organización de servicios.
Hay que señalar ahora la estrecha relación entre estos dominios clínicos y los diseños de
investigación adecuados para producir conocimiento al respecto; tales diseños constituyen una de
las contribuciones esenciales de la epidemiología clínica en los últimos años y se comentarán en
sucesivos capítulos. En la tabla 3.1 se ofrece un resumen sumario de esa relación.
SEGÚN SU AMPLITUD
Hay preguntas clínicas que son muy genéricas y que guardan relación con las bases del conocimiento
clínico, son «saber establecido y aceptado»; un ejemplo de ellas sería: ¿cuáles son los síntomas y signos
de un infarto de miocardio? En cambio, otras son más específicas y aluden a un aspecto concreto de un
problema que está frecuentemente en el límite de lo conocido o en proceso de revisión o discusión, por
ejemplo, ¿es efectivo el ácido acetilsalicílico en dosis bajas en la disminución de la probabilidad de preeclampsia?
Las primeras serán llamadas preguntas fundamentales (8) (preguntas de background), y son
las que se aprenden en los libros de medicina tradicionales o en sus versiones electrónicas. Se
trata de conocimiento establecido y su búsqueda no precisa habilidad específica. Las segundas,
o preguntas de «primer plano» (preguntas de foreground), responden a la necesidad de disponer de
evidencia actualizada sobre un problema «actual». Esa evidencia deberá buscarse en bases de datos
o repositorios de documentos adecuados y su búsqueda requiere una formulación específica de la
pregunta y una exploración estructurada de esas fuentes.
Clásicamente, el uso de esos tipos de preguntas varía según la historia natural del aprendizaje de
los clínicos, de modo que en los períodos iniciales de formación y al comienzo de la actividad pro-

TABLA 3.1 ■ Relación entre tipo de pregunta (según dominio clínico) y diseños adecuados
de investigación
Tipo de pregunta clínica (por dominio clínico) Tipo de estudio adecuado (estudios primarios)
Tratamiento Ensayo clínico aleatorio
Diagnóstico
Exactitud del test (S, E, LR+, LR–, etc.) Estudios transversales, cohortes
Consecuencias clínicas de su uso Ensayo clínico aleatorio
Pronóstico
Cursos clínicos, desenlaces o factores de riesgo, Estudio de cohortes

con sus probabilidades
Predicción para un paciente individual Reglas de predicción clínicas
Etiología Estudio de cohortes

Daño o perjuicio Estudio de casos y controles
Prevención Ensayo clínico aleatorio
Creencias y valores Estudios cualitativos
Otras: organización, servicios Diversos
En todos los casos, la opción más deseable es la de contar con estudios de síntesis o revisiones sistemáticas
de estudios primarios (aleatorios, observacionales, de exactitud de test, etc.).
E, especificidad; LR+, cociente de probabilidad positivo; LR–, cociente de probabilidad negativo; S, sensibilidad.
fesional las preguntas «fundamentales» son mucho más frecuentes que las específicas. Sin embargo,
con el aumento de la experiencia y de las habilidades de decisión, las preguntas fundamentales se
van reduciendo gradualmente, en tanto que las preguntas específicas aumentan, siempre que exista
la actitud intelectual y el entrenamiento adecuado para ello.
SEGÚN LA SINTAXIS DE LA PREGUNTA

(INTUITIVA FRENTE A ESTRUCTURADA)
El tercer eje de clasificación es la construcción lingüística de la pregunta. En tal sentido, la cuestión
clave es ¿cómo formulan los clínicos sus necesidades de conocimiento?, o, dicho de otro modo,
¿cómo construyen sintácticamente sus preguntas? Este asunto ha merecido tradicionalmente
cierto interés, actualmente renovado por la idea de proveer de preguntas a los sistemas de ayuda a
la decisión basada en la evidencia.
Los estudios clásicos de Ely (6) (en 103 médicos de familia de Iowa) y de Gorman (5) (en 49
médicos generales, internistas y pediatras de Oregon) muestran que es posible identificar una cierta
estructura general en la construcción de preguntas:
1. Comienzan con una partícula interrogativa (cuál, cómo, qué, cuándo, etc.) o condicional.
2. Está seguida de un dominio clínico (de los citados en el apartado «Según el dominio clínico»),
explícito o implícito.
3. Finalmente, se enuncia una enfermedad o condición clínica concreta.
En la tabla 3.2 se muestran los 10 modos más usados en la construcción de preguntas obte-
nidos en los estudios citados y que se adaptan razonablemente a la estructura mencionada. Esta
forma (que podríamos llamar «sintaxis intuitiva») es la usada por los clínicos para formular su
necesidad del conocimiento, y responde a la visión pragmática de «conocimiento para la solución

TABLA 3.2 ■ Taxonomía de las preguntas genéricas (las 10 formas más frecuentes de formular
la pregunta por los clínicos)
Pregunta formulada Porcentaje
¿Cuál es el fármaco de elección para la enfermedad o condición clínica X? 11%
¿Cuál es la causa del síntoma X? 8%
¿Qué test está indicado en la situación X? 8%
¿Cuál es la dosis del fármaco X? 7%
¿Cómo debe ser tratada la condición clínica X (excluidos medicamentos)? 6%
¿Cómo debe manejarse la condición clínica X (sin especificar si se refiere 5%

a diagnóstico o tratamiento)?
¿Cuál es la causa de este hallazgo de exploración? 5%
¿Cuál es la causa de este resultado de test diagnóstico? 5%
¿Puede el medicamento X causar el efecto adverso Y? 4%
¿Podría este paciente tener la enfermedad X? 4%
Otras (diversas)… 37%
Tomado y modificado de Ely 2000 (6).
del problema». Sin embargo, y aunque ciertamente refleja las necesidades de conocimiento
percibidas por el clínico, no coincide con el modo en que se formulan y contestan las preguntas
cuando se realiza investigación clínica, y tampoco con el modo en que esa investigación es
indexada. Dicho de otro modo, estas preguntas de sintaxis intuitiva, si bien reflejan la necesidad
de conocimiento clínico, carecen de contenido empírico (no son contestables formalmente) y
se buscan con más dificultad.
La aproximación alternativa es el uso de una «sintaxis estructurada» propuesta por Richardson
(8) y llamada también «formato PICO» por la nemotecnia usada en inglés (Patient, Intervention,
Comparison, Outcome). Este formato tiene cuatro componentes, que se describen en el cuadro 3.1.
Hay ocasiones en que el formato hay que adaptarlo ligeramente en razón del dominio clínico;
por ello han sido propuestas otras nemotecnias, entre las que destacan las de PECO o PECOT
para estudios observacionales (Patient, Exposure/Comparison, Outcome/Time), y PIRTO para
estudios de exactitud de test diagnósticos (Population/Index, test/Reference test/Target condition/

Outcome). El lector interesado puede consultar otras reglas nemotécnicas propuestas en la
referencia de Kloda (7).
Es fácil identificar en este formato PICO los componentes del diseño de los estudios usados para
la construcción de conocimiento clínico (nos detendremos en los sucesivos capítulos en esos diseños
y en su formulación de preguntas). Por ello, en la medida en que se homogenizan los lenguajes clínico
CUADRO 3.1 ■ Pregunta estructurada o formato PICO
P Paciente o pacientes: tipo o características de un paciente como el nuestro.

I Intervención: intervención o exposición considerada.
C Comparación: intervención o exposición alternativa (si procede).
O Desenlaces (Outcomes): resultados o desenlaces.

CUADRO 3.2 ■ Beneficios de la redacción de las preguntas en formato PICO

■ Ayuda a hacerte una idea más clara y más estructurada de los problemas que sufre tu paciente. De
algún modo, puede ayudarte a clarificar el escenario clínico concreto.
■ Hacer explícitos, por escrito, todos los desenlaces (outcomes) de interés permite valorar cuál es el
más importante y priorizar tus acciones en consecuencia.
■ La formulación PICO facilita comprender qué tipo de estudio responderá óptimamente a tu
pregunta.
■ La redacción de las preguntas clínicas en formato PICO te ayuda a encontrar los mejores términos
de búsqueda.
y de investigación, esta forma PICO es particularmente adecuada si deseamos usar la evidencia para
informar nuestras decisiones. Otras ventajas de esta aproximación pueden verse en el cuadro 3.2.
La formulación de preguntas PICO es reconocida como una habilidad esencial para la práctica
basada en la evidencia (1,2); hay evidencias de que la sintaxis mejora con el entrenamiento orientado
(9) y debería formar parte del currículo clínico (1,2). Además, esta habilidad de formular preguntas
PICO es absolutamente crucial para el desarrollo, la comprensión y la interpretación de las guías
de práctica clínica (GPC) (10).
Finalmente, hay que señalar que existe un enorme interés en identificar las relaciones entre la
formulación intuitiva y la formulación estructurada, en razón de la importancia de esa traslación en
la generación de sistemas automáticos de ayuda a la decisión basada en la evidencia (los llamados
«sistemas» que veremos en el capítulo 4). Este es un fascinante asunto para la investigación que
trasciende los objetivos de este libro.
Formulando la pregunta completa

Desde el punto de vista práctico, y a la hora de formular la pregunta clínica completa, deben
considerarse los tres ejes de clasificación mencionados. Así, una buena pregunta clínica:
■ Versará sobre una cuestión específica (actual y clínicamente importante).
■ Estará escrita en formato PICO (o similares).
■ Asociará el tipo de estudio adecuado según el dominio clínico correspondiente.
En resumen, formular preguntas clínicas «es un proceso cognitivo que comienza con la identi-
ficación, en un escenario clínico, de una necesidad de conocimiento orientado a la decisión sobre el
paciente, y concluye con la traducción de esta a una frase con una sintaxis específica que la provea
de contenido empírico» (es decir, que sea contestable mediante investigación clínica).
Esta habilidad esencial para la práctica basada en la evidencia se desarrolla, como todas las
habilidades, practicando. A tal efecto, en el anexo incluimos un grupo de escenarios clínicos para
la práctica de la formulación de preguntas.
Importancia clínica de la pregunta.

La importancia de los desenlaces
La cercanía clínica (que mencionábamos en el apartado «¿Qué es una “pregunta clínica”?») y, por
tanto, la importancia clínica de una pregunta dependerá de lo útil que sea para la decisión, y en ello
influirán los cuatro componentes de la pregunta, pero de manera especial los desenlaces (outcomes).
En efecto, la población influye en la aplicabilidad y, junto con la intervención y la comparación,
define la arquitectura de estudio, pero con la misma estructura se valoran, de modo simultáneo,
diversos desenlaces, que pueden ser unos positivos y otros negativos. En suma, evaluar el «efecto» de
una intervención o exposición suele ofrecer múltiples dimensiones, y esto es bastante concordante

con el modo en que los clínicos sopesamos los múltiples efectos de un tratamiento o de una prueba.
Por lo demás, y como se verá en capítulos posteriores, la «validez» de la estructura del estudio debe
ser considerada independientemente para cada uno de esos desenlaces.
Algunos de esos desenlaces, como mortalidad, supervivencia, comorbilidad, complicaciones,
efectos adversos, síntomas o calidad de vida, etc., están claramente orientados a los pacientes
(patient-oriented outcomes) y son el objetivo final de las acciones clínicas. Otros, como la glucemia,
la presión arterial, la presencia de una placa coronaria o la histopatología, están más relacionados
con la enfermedad (disease-oriented outcomes), pero no constituyen el objetivo final de las acciones de
tratamiento o prevención, aunque puedan tener importancia en el diagnóstico o puedan ser usadas
como «desenlaces subrogados». En ocasiones se toma un conjunto de desenlaces para formar un
«desenlace combinado», que puede ofrecer una visión global de los efectos clínicos de una acción.
En cualquier caso, si hay múltiples dimensiones, es obvio que no todas serán igualmente
importantes y, por tanto, no todas tendrán la misma relevancia para la decisión. En tal sentido, el
Grading of Recommendations Assessment, Development and Evaluation (GRADE) Working
Group (10) propone clasificar los desenlaces (sean positivos o negativos) según su importancia
creciente, que puntúa del 1 al 9, pero que agrupa finalmente en tres categorías (tabla 3.3):
■ 7-9: Críticos para la toma de decisión.
■ 3-6: Importantes, aunque no críticos, para la decisión.
■ 1-3: No importantes para la decisión y de escasa importancia para el paciente.
TABLA 3.3 ■ Ejemplo de la importancia de los desenlaces clínicos en la artritis reumatoide

con el uso de un fármaco biológico
Desenlaces clínicos Importancia (1-9)
Críticos para la decisión (7-9)
Muerte 9
Efectos adversos graves (infecciones graves, tuberculosis, linfomas, anafilaxia, etc.) 8
Retiradas del estudio por efectos adversos 8
Mejoría del 50% (ACR 50) en un conjunto predefinido de síntomas y reactantes 8
Puntuación de actividad de la enfermedad (DAS) 8
Calidad de vida relacionada con la salud (HAQ) 7
Importantes, pero no críticos para la decisión (4-6)

Cambios radiológicos 4
No importantes para el paciente o la decisión (1-3)
Reactantes de fase aguda (solos) 3
Mejora del 20% (ACR 20) en el conjunto predefinido de síntomas y reactantes 2
Nota: El ACR 50 es una variable que significa que el paciente alcanza una mejoría de un 50% en la puntuación
de un desenlace «compuesto» que incluye el número de articulaciones sensibles o inflamadas y otros
resultados, como el dolor y la discapacidad. El ACR 20 produce una mejora del 20% con respecto a los
mismos ítems del ACR 50. El DAS es una variable «compuesta» por una medida de dolor articular, un índice
de inflamación en 44 articulaciones, la velocidad de sedimentación globular y la valoración de la actividad por
el paciente. El HAQ es un cuestionario estándar de calidad de vida que evalúa diferentes dimensiones, como
discapacidad, dolor, eventos adversos, costes y mortalidad.
Modificado de Ruiz García 2017 (11).

Generalmente, calificar la importancia de un desenlace, como mortalidad o infarto de miocardio

no fatal, no ofrece muchas dudas, pero a veces la perspectiva clínica y la del paciente pueden diferir
notablemente; por ejemplo, la importancia del sangrado por anticoagulación en el marco de un
riesgo de recurrencia de ictus. Por ello, es importante incluir la visión de los pacientes para ponderar
la importancia de los desenlaces.
El GRADE sugiere que los desenlaces «críticos» y los «importantes, aunque no críticos» deben
ser valorados todos, y los no importantes (entre los que suelen estar los subrogados) pueden ser
ignorados, aunque puedan ser interesantes para explicar o comprender otros desenlaces.
Bibliografía
1. Tilson JK, Kaplan SL, Harris JL, Hutchinson A, Ilic D, Niederman R, et al. Sicily statement on clas-
sification and development of evidence-based practice learning assessment tools. BMC Med Educ
2011;11:78.
2. Cabello JB, Emparanza JI, Burls A. Una educación para la clínica del siglo xxi: el currículo para la práctica
basada en la evidencia. Med Clin 2013;141(5):221-6.
3. Kassirer J, Wong J, Kopelman R. Learning Clinical reasoning. 2nd ed. Baltimore: Lippincott Williams
& Wilkins; 2010.
4. Allan MG, Ma V, Aaron S, Vandermeer B, Manca D, Korownyk C. Residents’ clinical-questions: how
are they answered and are the answers helpful? Can Fam Physician 2012;58:e344-51.
5. Gorman PN, Helfand M. Information seeking in primary care: how physicians choose which clinical
questions to pursue and which to leave unanswered. Med Decis Making 1995;15:113-9.
6. Ely JW, Osheroff A, Gorman P, Ebell MH, Chambliss ML, Pifer EA, et al. A taxonomy of generic clinical
questions: classification study. BMJ 2000;321:429-32.
7. Kloda LA, Bartlett J. Formulating Answerable Questions: Question. Negotiation in-Evidence-based
Practice. JCHLA/JABSC 2013;34:55-60.
8. Richardson SW, Wilson M, Nishikawa J, Hayward R. The well-built clinical question: a key to evidence-
based decisions. ACP J Club 1995;123(3):A12-3.
9. Horsley T, O’Neill J, McGowan J, Perrier L, Kane G, Campbell C. Interventions to improve question
formulation in professional practice and self-directed learning. Cochrane Database Syst Rev 2010;5:
CD007335.
10. Guyatt GH, Oxman AD, Kunz R, Vist GE, Falck-Ytter Y, Schünemann HJ. GRADE Working Group.
Rating quality of evidence and strength of recommendations: What is «quality of evidence» and why is it
important to clinicians? BMJ 2008;336:995-8.
11. Ruiz García V, Burls A, Cabello JB, Vela Casasempere P, Bort-Marti S, Bernal JA. Certolizumab pegol
(CDP870) for rheumatoid arthritis in adults. Cochrane Database Syst Rev 2017;9(9):CD007649.

Cabello JB, Emparanza JI. Formulando preguntas para la práctica clínica. En: Cabello Juan B, editor. Lectura
crítica de la evidencia clínica, 2.ª ed. Barcelona: Elsevier; 2022. p. 15-24.

Anexo ■ Practicando preguntas en escenarios clínicos
Ejemplos
Ejemplo 1
En tu condición de residente de segundo año y médico de guardia en el servicio de urgencias
de tu hospital, recibes una llamada sobre el traslado en ambulancia desde un restaurante del puerto
pesquero de una paciente de 34 años (Laura) con cefalea, enrojecimiento facial, urticaria en el tronco,
hipotensión arterial y broncoespasmo, sin antecedentes asmáticos ni alérgicos.
El médico de la ambulancia, que llegará en 10 min, sugiere que puede ser una intoxicación
escombroide.
Dado que no has oído nunca hablar de esta patología, te preguntas: ¿qué es una intoxicación
escombroide?
En este caso estamos planteando una pregunta sobre la etiología del cuadro clínico que presenta
Laura. Planteas la pregunta porque desconoces los términos a los que se refiere el médico de la
ambulancia. No está formulada en relación con una toma decisión clínica, sino con la necesidad de
conocimiento. Es, por lo tanto, una pregunta general, no específica.
Ejemplo 2
Has diagnosticado a Erenia, una mujer de 65 años, por lo demás sana, de una infección del tracto
urinario. Le explicas que el tratamiento que le vas a prescribir, amoxicilina-clavulánico, eliminará
probablemente en un par de días la sintomatología que ahora sufre, y que debe venir a realizar un
urocultivo de control más adelante, cuando la llamen de consultas. Erenia comenta que hace 3 años
le dieron ese mismo tratamiento y tuvo una diarrea considerable. Te pregunta si hay alguna forma
de prevenir que le suceda lo mismo esta vez.
Te planteas la posibilidad de recomendar yogures «bio» para prevenir la diarrea desencadenada
por amoxicilina-clavulánico en estos términos:
En una mujer sin patología crónica con infección del tracto urinario y antecedente de diarrea por
amoxicilina-clavulánico, ¿la adición de yogures bio a su dieta habitual puede prevenir la aparición
de la diarrea o su intensidad?
En este caso, la pregunta es de tratamiento preventivo, y está formulada en términos específicos.
La pregunta tiene por objeto obtener conocimiento sobre una decisión clínica de manejo, añadir
o no yogures bio a la dieta, y está estructurada en los cuatro componentes de la estructura PICO.
Ejemplo 3
Iñaki, de 13 años, ha sufrido un traumatismo en el pulgar derecho mientras jugaba al balonces-
to con abducción forzada, tras el que presenta dolor, hinchazón e impotencia funcional en la
articulación metacarpofalángica.
Trasladado por sus padres al servicio de urgencias del hospital, es visto por el traumatólogo de
guardia. En la exploración, el traumatólogo hace ver a los padres la laxitud de esa articulación, que
sugiere rotura del ligamento lateral. En la radiografía se observa una leve subluxación que sugiere el
mismo diagnóstico. El padre señala que la laxitud es similar a la que se observa en el pulgar izquierdo,
que no ha sufrido traumatismo alguno, y que una radiografía anterior de la mano izquierda realizada
hace 2 meses por rotura de la falange distal del 5.º dedo izquierdo mostraba una imagen similar en
la articulación metacarpofalángica del primer dedo izquierdo. Estas observaciones no son tenidas
en cuenta por el traumatólogo, que, con el diagnóstico de rotura del ligamento, propone la cirugía
reparadora urgente.
La cirugía, con anestesia regional, transcurre sin problemas, aunque el ligamento se observa
intacto y el único hallazgo patológico es un leve desgarro del aductor. El cirujano señala que ha
suturado este desgarro.
Tras la cirugía, Iñaki es trasladado al servicio de pediatría, donde le mantienen a dieta durante
6 h y establecen una pauta de probar la tolerancia progresiva a líquidos antes de darle el alta.
Algunas preguntas que surgen de este escenario son:
■ En un joven en edad de crecimiento con hiperlaxitud ligamentosa, ¿qué características
nosológicas (diagnósticas) tiene la exploración física que muestra laxitud de la articulación

metacarpofalángica del pulgar?
(Continúa)

■ En los desgarros del aductor del pulgar sin rotura del ligamento lateral producidos como
consecuencia de un traumatismo directo, ¿es necesaria la sutura del mismo para la total
recuperación de la función?
■ Tras una cirugía de 20 min con anestesia regional en un varón de 13 años, ¿es necesario el
ingreso?
■ ¿Es necesario mantener a dieta y probar la tolerancia progresiva tras una cirugía breve con
anestesia regional en un varón sano de 13 años?

Las cuatro preguntas planteadas (y podrían hacerse más) son de diversa índole y sirven de ejemplo
para mostrar que una situación clínica puede dar lugar a más de una pregunta clínica.
Escenarios de entrenamiento
Tras estos escenarios resueltos, proponemos los siguientes escenarios para que los resuelva el
lector. Trata de formular al menos una pregunta clínica específica estructurada en formato PICO
para cada escenario.
Escenario 1
Un hombre de 65 años acude a tu consulta para una visita de control por hipertensión arterial.
Es fumador de 20 cigarrillos al día y tuvo un infarto lagunar hace 1 año, del que se ha recuperado
totalmente. Está en tratamiento con un diurético que ya no toma, porque le molestan sus efectos
diuréticos en su actividad diaria. Tensión arterial: 160/100 mmHg.
Le explicas que es necesario que tome el tratamiento antihipertensivo, dado el riesgo que se
asocia con la tensión alta y sus antecedentes. El paciente está de acuerdo en recibir un tratamiento,
pero argumenta que a un vecino suyo, que también tiene hipertensión, su médico le ha recetado
un medicamento que no es diurético («algo que acaba en “-pril”») y que no aumenta la necesidad
de orinar.
Escenario 2
Llega un paciente a tu consulta que describe aumento del perímetro abdominal con un incre-
mento ponderal de 6 kg en la última semana. Ha sido diagnosticado previamente de cirrosis,
estadio C de Child. Ha sido ingresado dos veces por descompensación ascítica y varices esofágicas
sangrantes. Actualmente, está en tratamiento con laxantes, furosemidas, espironolactona y vitamina K.
Encuentras claros signos de ascitis en la exploración física. El líquido obtenido por paracentesis
muestra 280 neutrófilos/ml. Con el diagnóstico de peritonitis bacteriana espontánea, prescribes
2 g de cefotaxima cada 8 h. Te preguntas si se puede hacer algo para prevenir futuros episodios de
peritonitis.
Escenario 3
Un hombre de 66 años acude a urgencias por dolor torácico. Es fumador de un paquete al día,
hipertenso y tiene el colesterol alto. Ha estado asintomático hasta hace 4 días, cuando le empezó un
dolor torácico que apareció mientras caminaba, con irradiación al brazo izquierdo y disnea, y que
desaparecía cuando dejaba de caminar. El día del ingreso ha notado un dolor torácico retroesternal
durante 1 h. El dolor no se modifica con los movimientos respiratorios y no se irradia.
El electrocardiograma en urgencias muestra una onda T negativa en I, aVL, V5 y V6 compatible
con sobrecarga del ventrículo izquierdo. La radiografía muestra una ligera cardiomegalia. Las
enzimas cardíacas creatina fosfocinasa (CPK), CPK fracción MB, troponina y mioglobina son
normales. Tratas de trasladarlo a la unidad de vigilancia intensiva, pero ellos te sugieren que lo
ingreses en la planta de interna y que monitorices la evolución.
Escenario 4
Una mujer de 60 años que estaba previamente sana fue ingresada ayer por la noche debido a
un síndrome confusional agudo, fiebre y signos meníngeos. Se ha aislado Neisseria meningitidis
tanto en sangre como en el líquido cefalorraquídeo. Las enfermeras de urgencias te preguntan si es
necesario algún tratamiento profiláctico, porque estuvieron en contacto con esta mujer en urgencias
(y tienen niños pequeños en casa).

C A P Í T U L O 4
Documentos de evidencia.
El sistema 5.0
Antonio Jesús Martín Mateos ■ Eukene Ansuategi Zengotitabengoa
M.ª del Mar Úbeda Carrillo ■ Juan Bautista Cabello López
• Reflexionar sobre la traslación de la evidencia a la práctica.

• Describir los tipos de documentos de evidencia.
• Definir qué es la evidencia previamente evaluada.
• Ordenar los documentos: Pirámide 5.0.
• Explorar los accesos clínicos a la evidencia.
Introducción
En los últimos años se ha producido una evolución en la relación entre la evidencia y su aplicación.
Inicialmente producción y aplicación aparecían como procesos independientes y la incorporación
a las decisiones clínicas era una cuestión individual del buen clínico o decisor. Esta visión ha
evolucionado hacia una concepción sistémica del uso de la evidencia en los sistemas de salud
que afecta a la producción de evidencias, a su difusión e implementación y al interés estratégico
en propiciar su uso y aplicación (1). Todo ello ha producido el desarrollo de nuevos tipos de
documentos de evidencia, y una mayor facilidad de acceso a la evidencia. De esos nuevos tipos de docu
mentos, del modo de organizarlos y de esos nuevos accesos clínicos a la evidencia tratará este
capítulo.
Trasladando la evidencia a la práctica:

una visión evolutiva
Como mencionábamos (Scott), en los inicios de la práctica basada en la evidencia había una visión
ingenua de separación entre investigación y práctica, asumiendo que «la evidencia habla por sí
misma» (como el buen paño, que en el arca se vende). Por tanto, en la parte de la investigación el
objetivo era realizar buena investigación clínica, es decir, construir buena evidencia a partir estudios
clínicos tradicionales, mejorados por el extraordinario progreso de la epidemiología clínica y por el
desarrollo de potentes métodos de investigación de síntesis, y a continuación realizar su difusión
pasiva en revistas médicas clásicas, repositorios de evidencia y foros clínicos tradicionales (congresos,
reuniones, etc.). En la parte de la aplicación la necesidad era difundir las cinco habilidades básicas
para la práctica basada en la evidencia que señalamos en capítulos precedentes (formulación de
preguntas, búsqueda, lectura crítica, aplicación y evaluación del proceso) (2).

En suma, para incorporar la mejor evidencia a la práctica parecía suficiente generar evidencias
de calidad y esperar que los clínicos aprendieran a ir a por ellas y las usaran. Sin embargo, pronto
hubo pruebas de que esos métodos tradicionales de difusión apenas tenían de influencia sobre los
cambios en la práctica clínica (3) y que el camino de incorporación de la evidencia a la práctica era
algo más complejo (4,5).
Entre tanto, se multiplicaron los informes sobre las variaciones injustificadas en los
patrones de práctica clínica y sobre la existencia de asimetrías en la provisión de salud, con
procesos y áreas claramente por debajo de los estándares deseables (basados en evidencias).
Todo ello ha generado una presión social creciente sobre clínicos, sistemas de salud, ins
tituciones académicas, organizaciones profesionales, asociaciones de pacientes y sociedad
en general, que perciben en esa asimetría una forma de desigualdad. Como consecuencia de
este nuevo entorno de valores, el interés por potenciar de modo sistémico la aplicación de la
evidencia en la práctica ha alcanzado una nueva dimensión estratégica al tiempo que se ha
convertido en un lugar común.
En ese empeño estratégico se pueden distinguir al menos tres factores: el primero es la
aparición de una visión amplia ordenadora y sintetizadora del conocimiento clínico de modo que
esté orientado, dimensionado y preparado para su uso inmediato (ready to go). De este modo
emergen poderosas organizaciones y grupos multidisciplinares (metodólogos, clínicos, estadís
ticos, pacientes, etc.) que generan nuevos productos en los que la búsqueda de la evidencia es
adecuada y eficiente, la evidencia está ya críticamente evaluada (evidencia previamente evaluada)
y los resultados son ordenados (y en su caso sintetizados) para facilitar su uso clínico. Así, junto
a los estudios clásicos, aparecen nuevos tipos de documentos como las sinopsis, las síntesis, los
catálogos de recomendaciones basadas en evidencias, los diversos sumarios de evidencia de uso
clínico, que trataremos después.
El segundo factor es la explosión de internet y sus tecnologías asociadas, que faculta un acceso
fácil e inmediato a la evidencia, sea en sus formatos clásicos, sea en los nuevos tipos de documentos.
Esto permite reactivar el sueño de usar la evidencia en el lugar en que se interacciona con el
paciente; es la llamada evidencia en consulta o evidencia a pie de cama (evidence «point-of-care»)
que visionó D. Sackett el pasado siglo con su famoso «carrito de la evidencia» con el que recorría
el John Radcliffe Hospital de Oxford y que el capricho del tiempo nos trae de nuevo a primer
plano, esta vez por fin viable. Finamente, el desarrollo combinado de los dos factores mencionados,
unidos al desarrollo de las historias y los registros electrónicos de pacientes (Regs), permite diseñar
e imaginar una medicina digital con sistemas de ayuda a la decisión irrumpiendo en la consola del
clínico ayudando a las decisiones complejas.
El tercer factor tiene que ver con una visión industrial de la generación y aplicación de la eviden
cia. De ese modo, desde los estados mayores de los sistemas de salud se lanzan estrategias de calidad
global, se propician múltiples regulaciones administrativas, se implantan incentivos económicos o
administrativos, se estimulan programas definición de estándares y un amplio catálogo de estrategias
de persuasión, entre las que destaca especialmente la promoción de las guías de práctica clínica,
con involucración de los clínicos, sociedades científicas en el proceso, como actores esenciales. Sin
embargo, por razones diversas, que no procede analizar aquí, estas acciones orientadas a trasladar
la evidencia a los clínicos y decisores han tenido resultados solo discretos.
Para resumir la frustración que genera el proceso, la broma usada en la literatura (1) es
que «dado que el caballo no bebe solo» (fase inicial), «habrá que llevar al caballo al agua y allí hacer que
beba» (fase de las guías). Como eso tampoco funcionó del todo, la broma se va progresivamente
transformando en ¿cómo hacer más fácil y más agradable de beber el agua? Y en la actualidad,
en ¿cómo comprender mejor qué es lo que lleva al caballo a beber?» Damos por supuesto que los
gestores hablan siempre de «purasangres».
Veamos pues esos documentos y después nos detendremos a comentar cómo ordenar esos
documentos de un modo que favorezca los accesos de clínicos y decisores.

4. Documentos de evidencia. El sistema 5.0 27
Documentos de evidencia
Este nuevo panorama con nuevos productos de evidencia ha transformado el modo en que se
escriben los documentos de evidencia (6,7) y por ello es preciso describirlos. Así pues, hablaremos
sucesivamente de estudios originales, revisiones sistemáticas, guías clínicas, sumarios y sistemas.
ESTUDIOS ORIGINALES
Corresponden a los estudios tradicionales o piezas elementales de evidencia, versan sobre los
diferentes dominios clínicos mencionados en el capítulo 3 (tratamiento, pronóstico, diagnóstico,
etc.) y por tanto asumen alguno de los diseños señalados como adecuados para la construcción de
conocimiento en el dominio correspondiente (ensayos clínicos aleatorios, estudios de exactitud,
pruebas diagnósticas, estudios de cohortes, etc.) y, obviamente, utilizan un formato estructurado
«PICO» para la formulación de la pregunta (v. capítulo 3).
En cuanto a la arquitectura los documentos mantienen la tradicional estructura IMRAD
(Introducción, Material y métodos, Resultados y Discusión). Generalmente, los estudios aportan
un pequeño resumen (150-200 palabras) que mantiene la estructura del artículo y permite su ojeo
rápido en las bases de datos.
Estos documentos que constituyen la «evidencia cruda» deben, idealmente, aportar la informa
ción necesaria para realizar lectura crítica (y eventualmente aplicarla a la clínica) pero también la
información necesaria para la inclusión del estudio en procesos de investigación de síntesis.
REVISIONES SISTEMÁTICAS
Son documentos que reportan un estudio que realiza una «síntesis de la evidencia» y que, proce
diendo de un modo sistemático y prefijado, recopilan, valoran y sintetizan (cualitativa o/y cuan
titativamente) toda la evidencia existente en torno a una pregunta en formato PICO o análogos.
Incorporan toda la evidencia disponible sobre la pregunta, una visión global sobre ella y aportan,
además, un extra de validez respecto de los estudios individuales (incluidos grandes estudios), en
la medida en que implican que un efecto es puesto a prueba en diversos estudios o circunstancias
diferentes. Es decir, si el efecto existe, el modo de prueba es más robusto, más válido. La revisión
sistemática se ha convertido así en un diseño de investigación en sí misma en el que las unidades de
estudio son los estudios originales cuya síntesis ofrece la mejor evidencia sobre la pregunta planteada.
Podemos leer críticamente la revisión, pero la lectura crítica directa de los artículos incluidos en
ella no es posible, no obstante, por la propia dinámica de este tipo de investigación implica realizar
un análisis del riesgo de sesgo de los estudios incluidos usando instrumentos específicos.
Las revisiones sistemáticas son un instrumento capital en la aplicación de la evidencia a las
decisiones clínicas y para incorporar la evidencia a las guías de práctica clínica, informes de
evaluación de tecnologías de salud, programas preventivos o estrategias de screening.
RECOMENDACIONES BASADAS EN LA EVIDENCIA

(GUÍAS DE PRÁCTICA CLÍNICA)
Las guías de práctica clínica basadas en la evidencia (GPC) son recomendaciones desarrolladas sis
temáticamente para ayudar a los médicos y pacientes a tomar decisiones sobre la atención sanitaria
adecuada orientadas a una condición clínica o a un problema específico dentro de ella, incluyendo
todas las preguntas PICO pertinentes para una condición (6). Deben diferenciarse de las guías
basadas en la opinión de expertos y las basadas en el consenso.
Las recomendaciones de las guías clínicas deben citar la evidencia que las respalda, y la evaluación
de la certeza en esa evidencia. Además, por cada recomendación es necesario incluir la dirección y la

fuerza de la recomendación y la calidad o certeza de la evidencia en la que se apoya (8). El sistema

GRADE es el más aceptado en el momento actual, diferencia entre las recomendaciones a favor o
en contra y «fuerte» o «débil», y califica la calidad de la evidencia en alta, moderada, baja y muy baja
(v. detalles en los capítulos 17 y 18). Idealmente, las guías deben permitir el acceso a la evidencia
utilizada y al procedimiento desarrollado para las recomendaciones, de modo que también pueda
ser usada con fines de decisión sobre pacientes individuales.
RESÚMENES PARA USO EN CONSULTA O A PIE DE CAMA

(SUMARIOS)
Este es el grupo de documentos más polimorfo, y sus características más relevantes son:
■ Ofrecen la información resumida y clasificada por condiciones clínicas y/o por especialidades
clínicas.
■ Muestran la evidencia previamente evaluada a través de procesos de selección, lectura crítica
y presentación consistentes y explícitos.

■ Con frecuencia incluyen preguntas básicas y preguntas generales o de background.
El objetivo de los sumarios es responder a las preguntas que surgen en el punto de atención al
paciente (9,10), y que necesitan respuestas rápidas; son denominados resúmenes sintetizados para
uso en la consulta clínica (6). Las recomendaciones prácticas, las conclusiones clave y las sinopsis de
la evidencia al respecto deben brindar una respuesta rápida con la capacidad de profundizar según
sea necesario. Por tanto, lo realmente innovador de esas herramientas es que están específicamente
diseñadas para ser usadas el punto donde clínico y paciente interactúan.
Un aspecto esencial de los sumarios es que extraen la evidencia de todas las categorías inferiores
de documentos citados (guías clínicas, revisiones sistemáticas y estudios originales), y constituyen
en el momento actual un recurso altamente eficiente para localizar la evidencia de las revisiones
sistemáticas y guías clínicas, ya que son referenciados en su presentación constituyendo su principal
estructura. Un detalle interesante es que organizan la información del modo tradicional en la
enseñanza médica y en los textos clínicos, y quizás esa organización es, a la hora de leer, una ventaja
cognitiva que influye en su éxito.
SISTEMAS
En este epígrafe nos referimos a los sistemas de ayuda a la decisión basados en la evidencia. La
función ideal de un «sistema» es ofrecer acceso automático a la evidencia relativa al problema
específico del paciente. Se trata de sistemas computarizados que resumen de modo conciso la
evidencia actualizada sobre un problema clínico determinado dentro de una condición clínica y
conectan (a través de las historias clínicas electrónicas) con las circunstancias clínicas y problemas
clínicos de decisión. Usan algoritmos específicos y sistemas de análisis de decisión para ensamblar
la información con la evidencia y ofrecer las recomendaciones sobre las rutas a seguir. Aunque hay
tradición y progresos relevantes en áreas de este campo entendido como sistema, se trata aún de
una promesa de futuro.
SINOPSIS
La sinopsis es un resumen estructurado y comentado de un estudio original, revisión sistemática o
guía clínica, que incluye juicios de valor sobre la validez de la evidencia aportada por ese documento
y otras consideraciones relacionadas con el contexto de conocimiento o con la aplicación clínica, muy
especialmente comentarios orientados a resaltar su aplicabilidad clínica. Por tanto, tienen el valor
añadido de que esta criticado y resumido, y el inconveniente (relativo) de que no podemos hacer
lectura crítica personalmente o directa. Esto es lo denominado evidencia previamente evaluada.

Dado que son breves resúmenes comentados, no suelen aportar la información necesaria para
realizar lectura crítica directa, sin embargo, constituyen una pieza elemental de evidencia previa
mente evaluada siempre que los criterios de lectura crítica sean preespecificados y consistentes.
Las sinopsis ofrecen la oportunidad de ahorrar tiempo para el clínico o decisor ocupado; sin
embargo, en la medida en que realizan juicios de valor, deben ser evaluados con especial prudencia
(dependiendo de la fuente). Las ventajas de una sinopsis elaborada por fuentes fiables son la
brevedad del resumen, el valor añadido de los comentarios y su utilidad para la enseñanza de
habilidades de lectura crítica.
Los recursos de información que proporcionan sinopsis deben tener procedimientos definidos
y explícitos para recuperar. seleccionar y criticar los estudios resumidos. Muchas de esas sinopsis
se agrupaban clásicamente en revistas de resúmenes como ACP Journal Club, o Evidence Based
Medicine, que finalmente se han incluido en revistas generalistas.
Pirámide 5.0 de la evidencia

Los anteriores documentos se organizan en la pirámide o sistema 5.0, integrada por cinco niveles,
de abajo arriba: estudios originales, revisiones sistemáticas, recomendaciones basadas en la evidencia
(guías clínicas), resúmenes para uso en consulta o a pie de cama (sumarios) y sistemas (fig. 4.1).
En los tres primeros niveles se puede identificar dos subconjuntos: uno sería el constituido por
las sinopsis de estudios, de revisiones y de guías clínicas, todos ellos son documentos resumidos y
fácilmente usables para el clínico, y el otro subconjunto, también en los tres primeros niveles, sería
el de los documentos seleccionados y evaluados que trataremos en el siguiente apartado.
Otra manera de organizar los seis tipos de documentos mencionados sería, de abajo arriba:
estudios originales, sinopsis de estudios originales, revisiones sistemáticas, sinopsis de revisiones
sistemáticas, sumarios (que incluye guías clínicas) y sistemas. Este es el modo en que puede verse
organizada la evidencia en algunos textos (sistema 6S).
El objetivo de este sistema piramidal 5.0 es que pueda orientar al clínico sobre dónde iniciar y
continuar secuencialmente la búsqueda de la evidencia para orientar la toma de decisiones clínicas.
Por ello lo pertinente es comenzar en el nivel más alto posible del modelo, lo cual depende de la
accesibilidad que tengamos a los recursos. Las etapas más altas de la pirámide integran diferentes
aspectos de la atención a un paciente y por ello se organizan en torno a condiciones clínicas, y
Figura 4.1 Pirámide 5.0.

dentro de ellas a múltiples preguntas PICO, y ofrecen la evidencia ya evaluada (sistemas, sumarios
y guías). En cambio, revisiones sistemáticas y estudios originales abarcan un solo aspecto de la
condición clínica: el relativo a la pregunta PICO que contestan y ofrecen la evidencia cruda de
modo que es necesario su lectura crítica.
En el momento actual, la mayor parte de los clínicos acceden a la evidencia mediante los
sumarios, los cuales integran a los documentos de evidencia mencionados con anterioridad (estudios
originales, revisiones sistemáticas y guías clínicas), pero si el problema es muy específico o nuevo
(p. ej., COVID-19), hay evidencias muy novedosas o la actualización de los documentos de niveles
superiores se demora, será preciso usar la evidencia de niveles inferiores de la pirámide y hacer su
lectura crítica, lo cual convierte esa habilidad en un instrumento esencial para la clínica basada en
la evidencia.
Recuperando la evidencia: estudios filtrados

previamente y evaluados, metabuscadores
Sobre esa estructura piramidal se pueden seleccionar diferentes subconjuntos de documentos que
facilitan el acceso a la evidencia desde los ámbitos clínicos.
Los estudios filtrados previamente evaluados (EFPE) pueden verse como un subgrupo en
los tres niveles inferiores de la pirámide 5.0. Son un conjunto de estudios seleccionados por
determinados recursos de información previa evaluación metodológica. Se diferencian de las
sinopsis en que no son nuevos documentos elaborados con resúmenes estructurados con juicios
añadidos de valor.
Los EFPE se seleccionan mediante unos criterios básicos y otros adicionales. Los criterios
básicos para todo tipo de estudios, originales, revisiones sistemáticas y recomendaciones básicas
basadas en la evidencia, son principalmente investigación clínica en humanos, sobre temas que son
importantes para la práctica clínica, y que haya correspondencia del tipo de diseño de estudio con
la pregunta clínica planteada. Los criterios adicionales varían según el tipo de estudio (prevención
o tratamiento, diagnóstico, pronóstico, reglas de predicción clínica, etiología, económicos, etc.) o
bien se trate de revisiones sistemáticas o guías clínicas. Los criterios accesorios evalúan el diseño
correcto del estudio y un número mínimo de participantes seleccionados y evaluados (11). Por
ejemplo, en los estudios de prevención o tratamiento deben cumplir con estos criterios adicionales:
asignación aleatoria de participantes a grupos de comparación, ≥ 10 pacientes por grupo (evaluados
para el resultado), resultado (s) primario (s) evaluados en ≥ 80% de los asignados al azar, medida de
resultado de importancia clínica conocida o probable, los análisis de subgrupos deben planificarse
previamente, grupos analizados por intención de tratar, etc.
Una vez son seleccionados en las dos fases anteriores, se evalúan por la relevancia clínica y
«noticiabilidad» en los principales recursos. Estos recursos, habitualmente, proporcionan «alertas»
para los documentos recién publicados de acuerdo con la especialidad clínica del usuario. Este
subconjunto de documentos recuperados de este modo aúna cierta proximidad clínica y cierta
calidad genérica, aunque no ofrezcan lectura crítica específica del estudio.
Hay diferentes recursos en línea organizados según la especialidad clínica, entre los que
destacan los ofrecidos por McMaster PLUS (https://hiru.mcmaster.ca/hiru/HIRU_McMaster_
PLUS_projects.aspx), desarrollados por Health Information Research Unit de la Universidad
de McMaster.
Es necesario distinguir estos estudios filtrados mediante previa evaluación (EFPE) y aquel
conjunto de estudios que es el resultado de aplicar filtros metodológicos ofrecidos por algunas
bases de datos como PubMed (Clinical Queries: que realizan estrategias de búsquedas predise
ñadas combinando términos metodológicos y operadores booleanos). Estas búsquedas recuperan
documentos relativamente próximos a la clínica pero que no tienen filtrado y evaluación meto
dológica previa.

METABUSCADORES
La forma piramidal del modelo tiene una serie de desventajas, entre otras el tiempo necesario para
elaborar los documentos de los niveles superiores, agravada por la posible existencia de información
más reciente o ausencia de evidencia en los niveles inferiores (11).
La clásica búsqueda secuencial en diferentes bases de datos o recursos de información (saltando
de una a otra) puede hacer la búsqueda clínica tediosa e impracticable. Para solucionar el problema se
han desarrollado herramientas en línea que ofrecen desde un único punto de acceso la recuperación
de todo tipo de documentos basados en la evidencia. Son los denominados metabuscadores o sis
temas de búsquedas federadas.
Las características de un metabuscador son:
■ Ayuda a la formulación de la pregunta clínica PICO, o en su caso usa habilidades para su
interpretación.
■ Desde un único punto de acceso (cajetín de búsqueda) ejecuta la búsqueda de forma simul
tánea en múltiples recursos importantes para la práctica basada en la evidencia.

■ Los documentos recuperados se presentan organizados o etiquetados por los tipos de docu
mentos de evidencia.
■ En algunos casos ofrecen asimismo mapas de evidencia que informan sobre la investigación
existente en un área o sobre un tema (v. capítulo 11).

Los metabuscadores cobran especial importancia por su capacidad de resolver la búsqueda clínica
recuperando simultáneamente documentos en los distintos niveles de la pirámide. La ventaja para el
usuario consiste en que, al desconocer las fuentes de información donde están alojadas las mejores
evidencias sobre una pregunta específica, este podrá interrogar varias bases de datos a la vez desde
un único punto con una búsqueda sencilla.
De esta forma, los metabuscadores, junto a los sumarios, se presentan como las principales
opciones para la búsqueda eficiente de la información en el entorno clínico, muy especialmente si
el metabuscador realiza la búsqueda en sumarios. La diferencia esencial es que los sumarios ofrecen
la evidencia evaluada mientras los metabuscadores recuperan documentos que pueden no estar
evaluados previamente, siendo necesaria la lectura crítica.
Identificación de los documentos

Cabe preguntarse cómo reconocer los diferentes documentos que ofrecen los recursos de infor
mación si no han sido etiquetados. Tres criterios permiten reconocer (tabla 4.1) el documento y
ubicarlo en la pirámide: el primero es la perspectiva, es decir, si incluye toda la evidencia disponible
de múltiples estudios (revisiones sistemáticas, guías clínicas y sumarios) o fragmentos o piezas
de evidencia (un estudio); el segundo es si el documento utiliza una pregunta estructurada (tipo
PICO) o una condición clínica o/y especialidad (de modo análogo a como los clínicos formulan
intuitivamente sus necesidades de conocimiento que señalábamos en el capítulo 3), y, finalmente,
el tercero es la extensión o el tamaño del documento, que, obviamente, es el mayor condicionante
de su uso. Los tres criterios se relacionan con las grandes líneas o tendencias de la práctica basada
en la evidencia: una es la vocación de síntesis del conocimiento, otra la resolución de la brecha
entre preguntas de investigación y de aplicación, y la tercera es la usabilidad de la evidencia en un
entorno clínico donde el tiempo es demasiado valioso.
Dónde buscar
En la tabla 4.2 se muestran los múltiples enlaces para buscar y una breve descripción de los recursos.
Muchos de ellos obtienen evidencias de varios niveles del sistema 5.0; existen, además, excelentes
metabuscadores que obtienen la evidencia en varios estratos.

TABLA 4.1 ■ Clasificando los principales tipos de documentos

Tipo de pregunta Perspectiva Tamaño
Pregunta Condición Único Cuerpo
Sistema 5.0 PICO clínica estudio de evidencia Extenso Resumido
Sistemas
Sumarios
Guías clínicas ✓
Revisiones ✓
sistemáticas
Estudios ✓
Característica deseable por cuanto contribuye a la «facilidad de uso en la clínica».

Característica no deseable por cuanto no contribuye a la «facilidad de uso en la clínica».
✓ Las sinopsis de estudios, de revisiones sistemáticas y de guías son versiones abreviadas de tamaño
manejable para uso clínico.
TABLA 4.2 ■ Recursos de evidencia, búsqueda y revisiones sistemáticas

Recurso Contenido Acceso
Sumarios de evidencia (herramientas point-of-care)
BMJ Best Herramienta de apoyo a la decisión clínica, que Suscripción

Practice proporciona información concisa del estado actual (BMJ Publishing)
del conocimiento sobre el diagnóstico, tratamiento
y prevención de un amplio rango de condiciones
clínicas
DynaMed Herramienta de referencia para la toma de Suscripción (EBSCO)

decisiones clínicas, con sumarios de la evidencia
organizados por especialidad y condición clínica.
De actualización diaria, monitoriza más de 5.200
publicaciones, ofreciendo la mejor evidencia
médica disponible. Incluye referencias, imágenes,
interacciones de fármacos y calculadoras
UpToDate Herramienta point-of-care dirigida a clínicos que Suscripción (Wolters

ofrece información organizada por condiciones Kluwer Health).
clínicas. Describe la etiología, la fisiopatología y Actualmente, el
las manifestaciones clínicas de una gran variedad Ministerio de Sanidad,
de enfermedades, las opciones de diagnóstico, Servicios Sociales e
el manejo del paciente y su tratamiento. Incluye Igualdad proporciona
referencias de Medline, guías de sociedades una licencia institucional
científicas, imágenes, interacciones de fármacos para los centros
y calculadoras sanitarios

TABLA 4.2 ■ Recursos de evidencia, búsqueda y revisiones sistemáticas (cont.)

Buscadores en recursos de calidad
ACCESSSS Es una herramienta que proporciona la mejor Acceso libre (es necesario
(McMaster evidencia actual con el fin de ayudar en la toma de registrarse).
University’s decisiones clínicas. Ofrece información preevaluada https://www.accessss.
Health por su interés científico y relevancia clínica org/
Information También proporciona alertas (por correo electrónico
Research) o RSS) a la evidencia recientemente publicada
en el área de interés indicada
NHS Evidence Servicio web del NICE (National Institute for Health Acceso libre.
and Care Excellence), que ayuda a tomar rápidas https://www.evidence.
y mejores decisiones basadas en la evidencia. Es nhs.uk
un portal que busca en múltiples fuentes de alta
calidad, como British National Formulary, Clinical
Knowledge Summaries, SIGN, Cochrane Library
y Royal Colleges, Social Care Online and GOV.UK
TRIP-Database Es un metabuscador que busca entre una colección Acceso libre.

de títulos y enlaces a documentos de páginas http://www.tripdatabase.
web de alta calidad en información clínica. Rastrea com
recursos de medicina basada en la evidencia
disponibles en internet, como revisiones sistemáticas
de la Cochrane, bancos de CAT, etc., además
de guías de práctica clínica, libros e imágenes
Revisiones sistemáticas
Epistemonikos Es una base de datos colaborativa multilingüe Acceso libre.

de evidencia en salud. Ofrece acceso a revisiones https://www.
sistemáticas relevantes para la toma de decisiones epistemonikos.org/es
en salud y a otros tipos de evidencia científica
Joanna Briggs Esta base de datos facilita la búsqueda en diferentes Suscripción (Wolters
Institute EBP tipos de documentos que resumen de manera Kluwer Health)
Database crítica la evidencia sobre un tema clínico para ayudar
en la práctica de los cuidados. Incluye revisiones
sistemáticas y otro tipo de documentos como
Evidence Based Recommended Practices, Evidence
Summaries, Best Practice Information Sheets, etc.
PEDro Base de datos sobre fisioterapia basada en la Acceso libre.

evidencia. Contiene más de 48.000 ensayos https://pedro.org.au/

aleatorios controlados, revisiones sistemáticas spanish/
y guías de práctica clínica de fisioterapia
PROSPERO Registro internacional de revisiones sistemáticas, Acceso libre.

(International revisiones rápidas y revisiones paraguas en https://www.crd.york.
Prospective materia de salud y atención social, bienestar, salud ac.uk/PROSPERO/
Register of pública, educación, y además en crimen, justicia y
Systematic desarrollo internacional, cuando existe un resultado
Reviews) relacionado con la salud
Cochrane Engloba varias bases de datos de alta calidad, Suscripción (algunos

Library sobre atención sanitaria basada en la evidencia. contenidos de libre
Principalmente ofrece el acceso a la base de datos acceso).
de revisiones sistemáticas realizadas por los grupos https://www.
Cochrane, el Registro de ensayos clínicos y las cochranelibrary.com/
Respuestas clínicas Cochrane es/
(Continúa)
TABLA 4.2 ■ Recursos de evidencia, búsqueda y revisiones sistemáticas (cont.)

Revistas y resúmenes valorados críticamente (CAT)
ACP Journal Resume la última información clínica basada en la Suscripción.

Club evidencia publicada en 120 revistas de medicina https://www.acponline.
interna org/clinical-information/
journals-publications/
acp-journal-club
Evidence Based Publica investigaciones originales basadas en la Suscripción (algunos

Medicine evidencia, además de ideas y opiniones sobre contenidos de libre
aspectos importantes del cuidado de la salud. acceso).
Se centra en herramientas, métodos y conceptos https://ebm.bmj.com/
para practicar la medicina basada en la evidencia
POEMs (Patient Son sinopsis de artículos relevantes para la práctica Suscripción (bajo la base
Oriented clínica. Ofrecen alertas diarias por correo de datos Essential
Evidence electrónico que resumen la investigación más Evidence Plus)
that Matters) reciente y relevante de más de 100 revistas
Research con el fin de ayudar al clínico a mantenerse al día
Summaries
Systematic Revista open access que tiene como misión la Acceso libre.
Reviews publicación de revisiones sistemáticas, protocolos http://www.
y métodos de investigación relacionados con las systematicreviewsjournal.
revisiones sistemáticas com
Bases de datos bibliográficas
CINAHL Incluye referencias bibliográficas de libros, tesis Suscripción (Ebsco)

(Cumulative doctorales, actas de congresos, software
Index to educativo, audiovisuales y artículos desde 1981 de
Nursing and publicaciones de enfermería y áreas de salud afines
Allied Health
Literature)
Embase Ofrece referencias bibliográficas desde 1980 Suscripción (Elsevier)

de alrededor de 3.500 revistas internacionales
sobre literatura biomédica y farmacéutica. Incluye
entre otras disciplinas tales como: investigación
farmacológica, farmacología, toxicología, medicina
clínica y experimental, política y gestión sanitaria,
etc.
Medline Ofrece referencias bibliográficas desde 1946 Acceso libre.

(PubMed) (y anteriores en OldMedline) de más de 5.600 revistas https://pubmed.ncbi.nlm.
de todo el mundo sobre literatura biomédica, nih.gov/
además incluye disciplinas afines a la medicina
y salud: biología, humanidades, información, etc.
PsycINFO Ofrece referencias bibliográficas (desde principios Suscripción (American

de 1800 hasta el presente) de artículos de revistas, Psychological
libros, tesis, informes, ponencias, etc., en el ámbito Association)
de la psicología, psiquiatría, sociología, ciencias de
la salud
Tomado de Kwag 2016 (10).

Bibliografía
1. Scott I. The evolving science of translating research evidence into clinical Practice. EBM 2007;12(1):4-7.
2. Tilson JK, Kaplan SL, Harris JL, Hutchinson A, Ilic D, Niederman R, et al. Sicily statement on clas
sification and development of evidence-based practice learning assessment tools. BMC Med Educ
2011;11:78.
3. Thomson O’Brien MA, Freemantle N, Oxman AD, et al. Continuing education meetings and work
shops: effects on professional practice and health care outcomes. Cochrane Database Syst Rev 2001;(1):
CD003030.
4. Glasziou P, Haynes B. The paths from research to improved health outcomes. ACP Journal Club
2005;142:A8-9.
5. Smith R. What clinical information do doctors need? BMJ 1996;313(7064):1062-8.
6. Alper BS, Haynes RB. EBHC pyramid 5.0 for accessing preappraised evidence and guidance. Evid Based
Med 2016;21(4):123-5.
7. DiCenso A, Bayley L, Haynes RB. Accessing preappraised evidence: fine-tuning the 5S model into a 6S
model. Evid Based Nurs 2009;12(4):99-101.
8. Guyatt GH, Oxman AD, Vist GE, Kunz R, Falck-Ytter Y, Alonso-Coello P, et al. GRADE Working
Group. GRADE: an emerging consensus on rating quality of evidence and strength of recommendations.
BMJ 2008;336:24-6.
9. Banzi R, Liberati A, Moschetti I, Tagliabue L, Moja L. A review of online evidence-based practice point-
of-care information summary providers. J Med Internet Res 2010;12(3):e26.
10. Kwag KH, González-Lorenzo M, Banzi R, Bonovas S, Moja L. Providing Doctors With High-Quality
Information: An Updated Evaluation of Web-Based Point-of-Care Information Summaries. J Med
Internet Res 2016;18(1):e15.
11. Shaneyfelt T. Pyramids are guides not rules: the evolution of the Evidence pyramid. Evid Based Med
2016;21(4):121-2.

Martín AJ, Ansuategi E, Úbeda MM, Cabello JB. Documentos de evidencia. El sistema 5.0. En: Cabello Juan B,

C A P Í T U L O 5
Lectura crítica de estudios
de tratamiento. Ensayos clínicos
aleatorios
Juan Bautista Cabello López ■ Eduardo López Briz
José Ignacio Pijoan Zubizarreta
OB JE TIVOS DEL C A PÍ TULO
• Definir ensayo clínico aleatorio (ECA) y su importancia para evaluar intervenciones.

• Clarificar los términos y conceptos clave para juzgar la validez de un ECA.
• Describir las características metodológicas capaces de influir sobre la validez e identificar
sus consecuencias sobre diferentes dominios del estudio: riesgo de sesgo.
• Comprender las estrategias lectoras para identificar esos riesgos de sesgo.
• Interpretar los resultados de los ECA en términos del efecto de la intervención
y de su relevancia.
Introducción
La mayoría de las preguntas que se formulan en la clínica corresponden a preguntas sobre la
efectividad de los tratamientos o intervenciones, sean con finalidad preventiva o terapéutica
(v. capítulo 3). Para obtener respuestas a este tipo de preguntas el ensayo clínico aleatorio (ECA) es
considerado tradicionalmente el diseño de investigación clínica de referencia. Por tanto, saber leer
críticamente un ECA es de una importancia capital para la práctica basada en la evidencia.
El ECA es un diseño prospectivo de investigación clínica (en personas con un problema
específico de salud o en riesgo definido de desarrollarlo) en el que se evalúa el efecto de al
menos dos intervenciones alternativas por medio de la asignación explícita (por un mecanismo
aleatorio) a una de ellas de cada participante y la comparación de los desenlaces obtenidos en
cada grupo generado.
Este diseño incorpora una herramienta específica (la aleatorización) que potencia la validez
interna de sus resultados y justifica el alto nivel de credibilidad que se otorga a los mismos. En
efecto, la asignación aleatoria evita los subjetivismos conscientes o inconscientes en la creación de
los grupos de comparación (sesgos de selección) y genera grupos cuyo pronóstico inicial es similar,
creando, de ese modo, el escenario ideal para comparar (sin confusión) el efecto de dos o más
intervenciones. En suma, es un diseño que ofrece, junto a una muy alta solvencia epistemológica,
una apariencia de comparación sencilla e intuitiva.
Hay que señalar que los resultados de las intervenciones son generalmente múltiples (unos
positivos y otros negativos), y en tal sentido los ECA proporcionan información sobre ambos y
por tanto datos para estimar el balance beneficio/riesgo.
36 © 2022. Elsevier España, S.L.U. Reservados todos los derechos

5. Lectura crítica de estudios de tratamiento. Ensayos clínicos aleatorios 37
Sin embargo, los ECA están, fundamentalmente, diseñados para responder a cuestiones de
eficacia o efectividad, y aunque analizan la seguridad en el horizonte temporal del ensayo, pueden no
detectar efectos adversos relevantes que sean poco frecuentes o tardíos. Estas «otras» consecuencias
de las intervenciones se identifican a posteriori mediante estudios observacionales (estudios de
cohortes o casos y controles) o por el uso ulterior en la rutina o registros asistenciales (1). Finalmente,
tras enfatizar la importancia de estos diseños para este tipo de preguntas, conviene señalar, también,
que hay preguntas sobre la efectividad de algunas intervenciones para las que este diseño de estudio
resulta absolutamente superfluo (2).
En realidad, el ECA es toda una familia de diseños que comparten lo esencial: una estrategia
de comparación y la aleatorización. Aunque mencionaremos algunos de los subtipos de esa familia de
ECA, en este capítulo nos referiremos, por defecto, al diseño típico y más común: el ECA paralelo.
En cuanto a las convenciones de escritura de ECA, cuya importancia mencionábamos en capítulos
previos, para este diseño paralelo la convención al uso es CONSORT (Consolidated standards of
reporting trials, http://www.consort-statement.org/), y para las diferentes variantes de diseño, las
respectivas Extensiones de CONSORT.
Escenario
Ves en tu consulta a Manuela, una mujer de 46 años sin antecedentes de alergia a betalactámicos,
historia de hipertensión arterial de 5 años de evolución que controla con inhibidores de la
ARA II, mantiene reglas regulares y vida sexual activa y realiza ejercicio físico habitualmente. Ella
tiene historia de infecciones urinarias de repetición desde hace 3 años, que han sido tratadas con
cotrimoxazol forte. Hace 2 años, aconsejada por una amiga, siguió un régimen rico en frutos del
bosque con escaso resultado, y más recientemente intensificó ese plan tomando preparados con
extracto de arándanos y otros frutos del bosque con análogos resultados. Consulta actualmente
porque ha recibido un comentario en una red social de que la mayoría de las infecciones de orina
van muy bien con ibuprofeno.
Te pregunta tu opinión y le indicas que revisarás el asunto y en próxima consulta le informarás.
Buscas en las guías de práctica sin resultados y vas a las bases de datos de estudios primarios,
donde encuentras este estudio.
Vik I, Bollestad M, Grude N, Bærheim A, Damsgaard E, Neumark T, et al. Ibuprofen versus
pivmecillinam for uncomplicated urinary tract infection in women—A double-blind, randomized
non-inferiority trial. PLoS Med 2018;15(5):e1002569.
Te preguntas:
1. ¿Es efectivo el ibuprofeno frente a pivmecilinam para prevenir infecciones urinarias en
mujeres?
2. ¿Prescribirías ibuprofeno a Manuela?
Puntos clave de la lectura crítica de un ensayo clínico

aleatorio (ECA)
La «calidad» de un estudio de un ensayo clínico es un concepto o constructo complejo cuya defini-
ción incluye diferentes elementos (o componentes): relevancia de la pregunta de investigación, adecuación
y eficiencia del diseño, corrección bioética, excelencia en la ejecución y el análisis de los datos y rigor
en la interpretación de los mismos, validez de sus resultados, corrección en la escritura, adecuación
de la autoría, etc. Esta es, obviamente, una definición muy amplia que puede tener interés en algunos
ámbitos, pero para ámbitos clínicos importan especialmente tres de esos componentes citados.
El primero es la pertinencia clínica, entendiendo por tal que se trate de preguntas de investigación
que afecten a problemas de la clínica y, sobre todo, que incorporen desenlaces de investigación útiles
para la toma de decisión clínica.

El segundo es la «corrección metodológica» del ensayo o en qué medida el diseño, la conducción

y el análisis minimizan los sesgos (de selección, medición y confusión) en la estimación de efecto
de la intervención. Es decir, ¿cuál es el riesgo de sesgo del estudio? (3), o por decirlo de modo más
práctico, ¿en qué medida nos vamos a creer los resultados del estudio?
El tercero es la aplicabilidad o transferibilidad del resultado a un paciente concreto (o a un
grupo de pacientes) considerando los otros elementos que influyen en la aplicación de esa evidencia
(balance riesgos/beneficios, disponibilidad, valores del paciente, costes, etc.).
Abordaremos secuencialmente los tres aspectos citados, aunque en este capítulo pondremos
el acento en los dos primeros componentes y trataremos sobre aplicabilidad posteriormente, a
propósito del establecimiento de recomendaciones (v. capítulo 18).
LAS PREGUNTAS DEL ENSAYO

(PERTINENCIA Y UTILIDAD DECISIONAL)
En el capítulo 3 señalábamos cómo se construyen las preguntas clínicas en formato estructurado
o PICO (paciente, intervención, comparación y desenlace). Este formato contiene implícita la
arquitectura del estudio: en una población definida evaluaremos paralelamente los desenlaces de
una intervención comparada con otra definiendo un horizonte temporal. Se trata de un estudio
longitudinal, similar a un estudio de cohortes del que se diferencia en que la asignación a uno u otro
grupo se realizará de modo aleatorio, acorde con su carácter de experimento (fig. 5.1). Analicemos
por separado los elementos de esa pregunta.
Población
Cuando formulábamos preguntas clínicas hablábamos de pacientes (P). Ahora, en investigación,
la P corresponderá a la «población de estudio» y se define como el subgrupo de la población que
reúne los criterios de inclusión y carece de los de exclusión.
Idealmente, esta población debe parecerse a los pacientes en quienes se piensa aplicar la interven-
ción si fuera efectiva, y no es preciso ningún muestreo representativo. Frecuentemente, por razones
de índole práctica o regulatoria se selecciona un subgrupo en el que es más probable observar el
desenlace investigado y en ocasiones ingresan «a prueba» (run-in) en el estudio y solo son reclutados
definitivamente si cumplen ciertos criterios. Por todo ello la población estudiada suele reflejar solo
una parte del espectro habitual de la enfermedad o condición.
Concierne a la prudencia clínica valorar las diferencias entre las poblaciones de estudio y el
paciente concreto a quien debe aplicarse el resultado. En realidad, casi nunca encontraremos un
ensayo con una población exactamente igual a nuestro paciente; por ello la pregunta sería si nues-
Figura 5.1 Esquema de un ensayo clínico aleatorio. Los números representan los dominios del estudio donde
hay que valorar el riesgo de sesgo: 1, problemas en la aleatorización; 2, desviaciones de las intervenciones
previstas; 3, pérdidas; 4, medición de los desenlaces; 5, reporte selectivo de los resultados. A, aleatorización;
C, grupo de control; D1, desenlace en grupo de intervención; D2, desenlace en grupo de control; I, grupo de
intervención; p, perdidos; P, población de estudio.

tro paciente es tan distinto como para no poder aplicarle el resultado del ensayo. Este proceso de
aplicación es realmente, en sentido aristotélico, una cuestión prudencial.
Intervención
Se trata de la acción cuyo efecto se pretende estudiar y que puede ser de diferentes tipos: fármacos,
grupos de fármacos, dispositivos, intervenciones quirúrgicas, fisioterápicas, psicológicas, estrategias
de manejo clínico o estrategias de organización, intervenciones complejas, terapias combinadas y
un largo etcétera.
En cualquiera de los casos la intervención (y la comparación) debe ser estandarizada y descrita
con el detalle suficiente como para poder ser aplicada a la clínica, reproducida en investigación
o incorporada en investigación de síntesis. La estandarización es relativamente fácil cuando
hablamos de fármacos, pero las intervenciones más complejas exigen definiciones más elaboradas
y contextualizadas. Otras veces las intervenciones son críticamente dependientes de las habilidades
específicas de las personas que las realizan (por ejemplo: cirugía, hemodinámica, manipulaciones
vertebrales, psicoterapia, etc.) y la estandarización resulta más complicada. En tales casos el control
de las curvas de aprendizaje o la utilización de diseños especiales llamados «diseños de habilidad»
(expertise design) son alternativas disponibles.
En otras ocasiones la intervención no se puede realizar sobre un individuo, pues hay que
considerar su integración en una organización o colectividad. Por ejemplo, al estudiar estrategias
docentes entre grupos aleatorios de residentes del mismo hospital la contaminación entre grupos
es segura, o estudiar dos intervenciones dietéticas entre escolares de la misma escuela plantea
dificultades obvias. En esos casos puede ser de utilidad el diseño de ensayo en clusters o con-
glomerados, cuya complejidad excede los objetivos del capítulo. Finalmente, cuando el efecto de la
intervención es reversible en un plazo corto y se aplica a una enfermedad crónica estable es posible
probar sucesivamente intervención y comparación en la misma población tras un período de lavado:
se trata de los diseños cruzados (cross-over trials). Este diseño puede ser llevado al extremo en
algunas circunstancias (paciente no adecuadamente representado en la población de estudio de los
ensayos disponibles u otras situaciones en las que los resultados de los ensayos no sean directamente
aplicables a nuestro paciente) aplicándolo a un único paciente (ensayos de n = 1); en estos casos, la
conexión entre la investigación clínica y su aplicación es máxima y puede ser el único método de
valorar la mejor intervención para un individuo concreto (4).
Comparación
En este aspecto está, sin duda, la clave práctica y ética de los ECA. Desde el punto de vista del
clínico práctico solo tiene sentido comparar nuevas intervenciones con intervenciones con efectos
ya probados, o al menos que sean los tratamientos usuales; no usar tratamientos probados sería
maleficencia y además esa comparación reproduce el posible dilema decisional real (tratamiento
nuevo frente a tratamiento usual).
Desde el punto de vista ético, para proponer a un paciente la participación en un ensayo debe
existir un equilibrio entre los posibles beneficios y riesgos esperables del nuevo tratamiento con
los beneficios y riesgos de la intervención comparada (es la llamada equipoise). En realidad, este
concepto refleja el punto de fricción entre dos dialécticas diferentes: la de práctica clínica y la de
investigación clínica, y es, por tanto, un asunto crucial que condiciona el diseño en varios sentidos.
En primer lugar, exige un conocimiento explícito del estado del tratamiento para la condición
clínica en cuestión (preferiblemente mediante una revisión sistemática). En segundo lugar, la exis-
tencia de tratamientos efectivos limita el uso de placebo como técnica de investigación y obliga a
incluirlos en las comparaciones. En tercer lugar, la existencia de tratamientos efectivos condiciona,
cada vez más frecuentemente, la elección de unos de diseño especiales conocidos como estudios
de no inferioridad o de equivalencia. En cuarto lugar, hay ocasiones en las que se considera que
ese balance entre riesgos y beneficios que llamamos equipoise puede cambiar durante el ensayo

(como consecuencia de él); en tales casos tiene interés realizar diseños secuenciales (que tampoco
abordaremos) o programar análisis intermedios. Una posible consecuencia de ese cambio en el
balance riesgo/beneficio es que sea preciso suspender el ensayo.
En realidad, las razones para terminar de forma precoz un ensayo son fundamentalmente tres:
1) el beneficio observado del tratamiento experimental es muy superior a lo esperado a priori; 2) el
beneficio esperado de la nueva intervención, si existe, es inferior a lo esperado, poco relevante y es
altamente improbable que el ensayo, en su diseño y dimensión original, sea capaz de detectar las
diferencias esperadas (finalización por futilidad del efecto), y 3) los efectos adversos y la toxicidad
del nuevo tratamiento son superiores o más graves de lo esperado.
Existen distintos procedimientos para realizar análisis repetidos de los datos sin afectar a la
integridad estadística del análisis global, pero persiste un importante debate sobre cuándo se dis-
pone de suficiente evidencia para considerar que la incertidumbre sobre el riesgo/beneficio no se
mantiene, y ha de suspenderse el estudio. En cualquier caso, hay evidencias empíricas de que los
ensayos finalizados prematuramente por detección de un beneficio superior al esperado suelen
aumentar la incertidumbre en vez de disminuirla, ya sea por obtener estimaciones iniciales de
beneficio muy optimistas que no se confirman en estudios posteriores o porque se centraron en
variables subrogadas sin clara correspondencia con el desenlace clínico fundamental (5,6). Por
ello la presencia de detención precoz del estudio debe ser mirada con cautela por el lector clínico.
Desenlaces
Pueden ser orientados a los pacientes u orientados a la enfermedad (generalmente desenlaces
subrogados). El catálogo de desenlaces es tan amplio como la clínica: puede tratarse de condiciones
clínicas objetivas como, por ejemplo, mortalidad, eventos clínicos como accidente vascular cere-
bral o infarto de miocardio o curación, pero también pueden ser síntomas, signos, percepciones,
habilidades, calidad de vida, etc. En unos casos son valorados o medidos por médicos, sanitarios o
cuidadores, y en otras ocasiones pueden ser evaluados y/o comunicados directamente por el propio
paciente. Sea como fuere, será preciso evaluarlos con cuidadosa visión clinimétrica.
En otro sentido, la arquitectura del estudio permite comparar simultáneamente muchos desen-
laces clínicos, y por ello existen en los ECA dos jerarquías de desenlaces. Una es la investigacional,
en la cual los desenlaces (o variables de resultado) son clasificados en principal y secundarios según
condicionen o no el diseño del estudio (tamaño muestral, sistemas de medición, otros elementos
metodológicos, etc.). La otra jerarquía es la de la importancia clínica, que depende de su influencia
decisional y que, como señalamos en el capítulo 3, podía ser de tres tipos: desenlaces críticos para
la decisión, desenlaces importantes-no-críticos para la decisión y desenlaces no importantes.
Son dos visiones obligadas a coexistir, pero desde la perspectiva del lector hay que plantearse
dos aspectos: el primero es si son estos los desenlaces que necesito para mi decisión clínica o para
mi investigación (es decir, ¿es esta es mi pregunta?). El segundo es si están convenientemente
comunicadas todas las variables relevantes o, al menos, ¿están todas las prometidas en el protocolo?
A veces un grupo de síntomas, signos o variables, consideradas en conjunto, reflejan mejor el
estado de salud o el efecto del tratamiento que tomadas por separado; en esos casos hablamos de
variables compuestas (un ejemplo de ellas es la ACR50 del capítulo 3).
En otros casos el desenlace supone la terminación de la contribución de un paciente al ensayo
(por ejemplo, se produce su muerte), o se produce el evento que estamos estudiando (infarto de
miocardio, accidente vascular cerebral). Este tipo de desenlaces se denominan «punto final» (end
point). Un caso algo especial, frecuente en algunas áreas de investigación, es el de las variables punto
final compuestas (composite end point). Se trata de una variable que mide la ocurrencia de cualquiera
de los eventos punto final que la constituyen y puede hacerlo como ocurrencia de alguno de ellos en
el tiempo predefinido o como tiempo de ocurrencia hasta que acaece cualquiera de los elementos
de la variable punto final compuesta. Por ejemplo, en un estudio sobre estatinas la variable «punto
final compuesta» podría ser el tiempo hasta la ocurrencia de cualquiera de los eventos siguientes:

infarto de miocardio fatal, infarto no fatal, accidente vascular cerebral o accidente vascular periférico,
o la ocurrencia de cualquiera de ellas en 1 año.
Este abordaje puede tener cierto sentido biológico y/o clínico en la medida en que informa sobre
el progreso de la enfermedad vascular en su conjunto, y es usado frecuentemente porque aumenta
la probabilidad del desenlace y con ello hace más eficiente el estudio al precisar menos tamaño de
muestra. Pero a efectos de su lectura debe ser mirado con suma prudencia (7) y hemos de obtener
información de cada variable por separado y en su conjunto. En todo caso, a efectos de decidir
su importancia clínica puede haber dificultades, porque los diferentes componentes pueden ser
heterogéneos cualitativa y/o cuantitativamente.
En resumen, el lector debe decidir si estas son sus preguntas, si las comparaciones son las
adecuadas, si el diseño es pertinente, si los desenlaces son los realmente importantes para su
paciente o para su investigación, si la pregunta está formulada en términos de superioridad o de
no inferioridad y si la población es tan distinta de su caso (o de su población de interés) que no
podrá aplicar sus resultados.
RIESGO DE SESGO DEL ESTUDIO

Desde una perspectiva «lectora», validez significa realmente explorar de modo concienzudo aquellas
características metodológicas que son potencialmente capaces de producir errores sistemáticos
(o sesgos) en la estimación del efecto (3). Sin embargo, un estudio determinado puede producir
estimaciones correctas para algunos desenlaces y sesgadas para otros desenlaces del mismo estudio;
por ejemplo, un estudio, no ciego, sobre el efecto de la administración de oxígeno frente a aire en el
infarto agudo de miocardio puede estimar correctamente el efecto sobre la mortalidad, pero, al no
ser ciego, estimar sesgadamente su efecto sobre el alivio del dolor. Por tanto, la repercusión sobre
la validez del estudio de las características metodológicas debe realizarse independientemente para
cada desenlace. Este es un principio básico para la lectura de un ECA.
Esas características citadas son: la aleatorización, la ocultación de la secuencia de aleatorización,
el cegamiento en sus múltiples variantes, las pérdidas de pacientes del estudio, la medición del
desenlace y el reporte selectivo de los desenlaces (fig. 5.2).
Tales características pueden afectar de diferente modo a las diversas partes del estudio, o lo que
llamamos «dominios» de estudio que se muestran en la figura 5.1 y se describen a continuación.
En esencia, un ensayo clínico aleatorio es una estrategia de comparación que se basa en cinco
pilares: el primero es la construcción de grupos que se van a comparar tan iguales como sea posible,
mediante la aleatorización; los problemas con la aleatorización pueden afectar a esa construcción de
grupos y ser fuente de sesgo (Dominio 1). El segundo es el mantenimiento de la comparabilidad de
los grupos a lo largo de todo el estudio, por ello las desviaciones de las intervenciones previstas, sean
derivadas de la asignación efectiva a los grupos o de problemas en la adhesión de los pacientes a los
Figura 5.2 Características metodológicas que se han de explorar en los ensayos clínicos aleatorios y dominios
del estudio sobre los que puede producir sesgos cada característica. Las características son usadas en el
instrumento de Cochrane RoB1 (22), mientras que los dominios son usados en el Cochrane RoB2 (23).

TABLA 5.1 ■ Principales formas de aleatorización

Tipo de aleatorización Procedimiento
Aleatorización simple Cada paciente tiene una probabilidad (habitualmente la misma)

de ser asignado a uno u otro grupo, y ello no puede ser predicho.
Los métodos son moneda, tabla de números aleatorios o generación
por ordenador (números pseudoaleatorios)
Aleatorización restrictiva Se impone alguna restricción al proceso de aleatorización (p. ej., bloques)
para asegurar el equilibrio de pacientes entre los grupos
Aleatorización balanceada Frecuentemente se desea similar número en cada grupo, pero

por covariables también asegurarse de que los «factores pronósticos» importantes
sean similares en ambos grupos. Existen varios mecanismos:
estratificación, estratificación + bloques o algoritmos de minimización
Aleatorización adaptativa La probabilidad de asignación al tratamiento depende

según respuesta de las respuestas previas al mismo
Adaptado de McPherson 2012 (8).
grupos respectivos, pueden alterar la comparabilidad de los grupos (Dominio 2). Esas desviaciones
de las intervenciones (con cambios, abandonos, retiradas, etc.) implica que habrá diversos modos
de analizar estos datos y según el modo habrá más o menos riesgo de sesgo para la estimación del
efecto. El tercero es que, dado que el estudio tiene dimensión temporal, muy probablemente se
perderán algunos pacientes (y sus datos) y esas pérdidas pueden, también, amenazar la comparación
(Dominio 3). En cuarto lugar, la medición de los desenlaces debe ser adecuada y equilibrada; pro-
blemas en este apartado pueden, asimismo, amenazar la comparación (Dominio 4). En quinto y
último lugar, el reporte selectivo de los resultados puede romper el equilibrio de la comparación y
ser igualmente fuente de sesgo (Dominio 5).
A continuación, describimos esas características metodológicas mencionadas y el impacto que
cada una de ellas puede producir sobre los diferentes dominios del estudio.
Aleatorización
Consiste en la asignación de cada paciente a cada grupo en función de una secuencia aleatoria
generada de diversos modos posibles (tabla 5.1) (8). Esta es la manera que tenemos de intentar que
los dos grupos sean similares respecto de las variables que creemos importantes, pero también de
otras variables desconocidas. En teoría debe controlar el sesgo de selección y el sesgo de confusión.
Conceptualmente hay dos elementos distintos en la aleatorización, uno es la generación de la
secuencia de aleatorización y otro, más pragmático, es cómo se realiza el procedimiento de asignación
y especialmente si la secuencia se mantiene oculta para quien hace el reclutamiento (ocultación de
la secuencia de aleatorización, OSA).
Secuencia de aleatorización. Puede generarse de modo simple a través de una tabla o sistema
de números aleatorios (hasta con una moneda si hay solo dos grupos a comparar). El problema
de las secuencias generadas así es el desequilibrio de efectivos entre grupos, que es especialmente
frecuente para ensayos pequeños. El modo de resolver este problema es haciendo bloques de
permutaciones (aleatorización restrictiva por bloques); de ese modo la máxima diferencia posible
entre grupos en el número de individuos será igual a la mitad del tamaño del bloque. El segundo
problema posible es la distribución desigual en los grupos de los factores pronósticos importantes,
lo cual puede afectar al control del sesgo de confusión. Este problema suele abordarse mediante
la estratificación (con o sin bloques por estrato), o mediante algoritmos de minimización (9)

que resuelven el problema de manejar muchos estratos y cuyo uso se ha popularizado en los
últimos años (3).
En cualquiera de los casos la aleatorización genera una tendencia a la similitud entre los grupos,
pero solo a largo plazo (con tamaños muestrales grandes). Sin embargo, pese a las precauciones,
el azar puede producir desequilibrios en los factores pronósticos. Por tanto, la efectividad de la
aleatorización debe ser comprobada en todos los ensayos. El efecto de la aleatorización sobre las
variables conocidas suele mostrarse en la tabla 1 de todos los ensayos (es la llamada tabla 1 de
CONSORT) cuya exploración es obligada. En ella puede verse la distribución de características
en ambos grupos y suele realizarse test de significación estadística, de dudoso valor. La presencia
de diferencias importantes en la distribución de variables pronósticas en los grupos, aún sin
significación estadística, o la presencia de diferencias significativas en muchas características de los
pacientes puede sugerir que la randomización no ha sido eficaz.
Ocultación de la secuencia de aleatorización (OSA). El problema de la predictibilidad del grupo

de tratamiento se debe a que saber a qué grupo se asignará el próximo paciente puede condicionar
los comportamientos clínicos o de quien recluta (10). Imaginemos que sabemos que el próximo
paciente reclutado será asignado al grupo experimental, y tenemos una cierta preferencia, consciente
o no, por uno de los tratamientos (el tradicional). Supongamos que estamos ante un paciente con
criterios límite de inclusión (especialmente grave) y creemos que en realidad le beneficiaría más
el tratamiento clásico; es muy posible que forcemos la exclusión del paciente, y con ello estemos
generando un sesgo de selección al favorecer al nuevo tratamiento. En resumen, conocer la secuencia
puede generar sesgos de selección y eliminar en parte las ventajas de la aleatorización.
Esta OSA debe diferenciarse del cegamiento, que será comentado después. En efecto, se puede
mantener la secuencia de aleatorización oculta y sin embargo tratarse de un ensayo en el que se
compara un procedimiento quirúrgico con uno médico y por tanto es un ensayo abierto.
A efectos de lectura, la no comunicación explícita de la secuencia suele asociarse a otros déficits
metodológicos. En cuanto a la OSA, hay consistente evidencia empírica (10-13) de que su ausencia
provoca una sobreestimación del efecto de hasta el 40% y es, sin duda, una de las más importantes
causas de sesgo en los ECA.
Encargar la aleatorización a la farmacia del centro, el uso de sobres opacos ordenados y numera-
dos o, preferiblemente, usar una central de aleatorización son los métodos de afrontar el problema.
Un aspecto final que se debe señalar es que el uso de bloques y la minimización pueden en algunos
casos hacer predecible la siguiente asignación y con ello desocultar la secuencia de aleatorización;
esto debe ser también considerado en la lectura.
En cuanto al dominio donde impactan tanto el desbalance en los grupos por efecto del fracaso
en la aleatorización como la ausencia de OSA es en el DOMINIO 1, es decir, altera la construcción
de grupos comparables. Adicionalmente, la ausencia de OSA puede hacer que personal del estudio
conozca el grupo asignado al paciente, y ello puede afectar a los cuidados paralelos (DOMINIO 2)
o a la evaluación del desenlace (DOMINIO 4).
Cegado (enmascaramiento)
Entendemos por cegado o enmascaramiento en un ECA el procedimiento por el cual se asegura que
los participantes, los clínicos, los investigadores, los medidores de los desenlaces o los que analizan
el estudio desconozcan qué intervención se administra a cada participante. La figura 5.3 muestra
algunas definiciones relacionadas con los distintos tipos de cegado.
La ausencia de cegamiento en los pacientes puede producir disbalance en las intervenciones
porque los grupos asignados a la intervención experimental suelen ser más proclives a tener otros
comportamientos saludables, y la consciencia de la asignación a algunas intervenciones puede influir
en la solicitud de cuidados adicionales (DOMINIO 2). Por otra parte, la propia dinámica del ensayo
puede modificar el equilibrio de los grupos; por ejemplo, la consciencia de asignación al grupo

Figura 5.3 Algunas definiciones relacionadas con el cegado en los ensayos clínicos aleatorios. ECA, ensayo
clínico aleatorio.
control en un ensayo abierto puede inducir al paciente a buscar otras intervenciones adicionales
similares a la experimental (DOMINIO 2), o la ruptura de cegamiento por efectos colaterales puede
propiciar el abandono del estudio por el paciente (DOMINIO 3). La ausencia de cegamiento
puede también producir diferentes grados de adherencia a la intervención y/o pérdidas diferenciales
en los grupos en aquellos casos en los que mantenerse en el ensayo (o en algunos de sus brazos)
requiera de cierto entusiasmo del paciente (DOMINIO 3). Finalmente, la ausencia de cegamiento
en el paciente puede a afectar a la aparición diferencial de síntomas subjetivos o a la medición de
los mismos, especialmente si los desenlaces son medidos por el propio paciente (DOMINIO 4).
La ausencia de cegamiento en los clínicos y/o investigadores puede hacer que la administración
de cuidados extraprotocolarios sea diferencial en uno u otro grupo (DOMINIO 2) y también
puede provocar, en casos límite de efectos colaterales, retiradas del paciente por el clínico que serán
diferenciales en los grupos (DOMINIO 3). Otro efecto de la ausencia de cegamiento es su impacto

sobre el proceso de medición de los desenlaces al introducir preconcepciones en el observador o en

el procedimiento. El posible impacto del cegado sobre las mediciones depende del tipo de cegado,
pero también del tipo de variable a medir (DOMINIO 4).
Hay evidencia empírica que demuestra que la ausencia de cegado puede sobreestimar el efecto
en más del 20%, especialmente si los desenlaces son variables subjetivas o síntomas, aunque (11-13),
probablemente por variabilidad del cegamiento y la complejidad de sus efectos, no hay
consistencia total al respecto en todos los estudios (14). Es, por tanto, un tema que precisa
más aproximaciones.
El impacto del enmascaramiento es, como vemos, diverso y complejo, por lo que, desde la pers-
pectiva del lector, será preciso valorar cuidadosamente en cada estudio cómo los detalles concretos
del cegado pueden influir sobre cada uno de los dominios señalados.
Datos perdidos de desenlaces

Como el ECA tiene un cierto horizonte temporal, es bastante verosímil que se produzcan pérdi-
das en el seguimiento de los pacientes por distintas causas: no podemos localizar al paciente, pérdidas
simples, o no se puede medir el desenlace por agravamiento de su enfermedad, fallecimiento o
algún problema concomitante; puede también ocurrir que el paciente no abandone el estudio, pero
no se disponga de todos los datos requeridos. Estas pérdidas pueden en algunos casos producir
riesgo de sesgo (DOMINIO 3).
La importancia depende, obviamente, del valor clínico del desenlace en cuestión y, sobre todo, de
si la pérdida tiene (o puede tener) relación con el resultado de ese desenlace o/y con la pertenencia
al grupo experimental (3). Podemos sospechar que las pérdidas dependen del desenlace cuando el
número de ellas difiera en ambos grupos o en el caso de tiempo de fallo cuando los casos censurados
difieran en ambos grupos. Hay que reflexionar en cada caso porque hay áreas de estudio en las
que es conocido que la pérdida se relaciona con el valor del resultado; por ejemplo, en ensayos de
intervenciones sobre esquizofrenia la pérdida suele asociarse a la ausencia de efecto del tratamiento.
Respecto del número para decidir si son pocas o muchas pérdidas, tradicionalmente se considera
pocas por debajo del 5% para variables continuas y muchas por encima del 20%. Sin embargo, esos
umbrales tienen frágil fundamento; la importancia depende del tipo de desenlace, menos importante
en desenlaces continuos y más en dicotómicos (v.gr. mortalidad) y del riesgo basal de ocurrencia del
desenlace o evento: si el riesgo es muy bajo, los efectivos esperables serán pocos en ambos grupos y en
tal caso incluso pérdidas exiguas pueden penalizar mucho la estabilidad de la estimación del efecto.
El mecanismo de las pérdidas es frecuentemente descrito en el informe del estudio. Para su
detección pueden ser de ayuda las normas de CONSORT, y en particular el flujograma, que permite
ver lo acontecido en el tiempo a todos los pacientes seleccionados y aleatorizados. También puede
ser útil que la tabla 1 recomendada por CONSORT, que presenta las principales características
basales de los pacientes en cada grupo de tratamiento según la aleatorización inicial, se expanda
presentando para cada grupo las características de los pacientes que finalmente son incluidos en el
análisis seguido de las características de aquellos excluidos. De esta forma el lector podrá valorar
hasta qué punto hay diferencias en pérdidas entre ambos grupos y su posible repercusión (15).
Una vez detectada la presencia y calibrada la importancia de este sesgo, existen diferentes
estrategias a la hora de releer o reanalizar los datos. La más intuitiva es desarrollar ciertos escenarios
hipotéticos o simulaciones para asignar valores a los datos faltantes y evaluar hasta qué punto
cambian los resultados y las conclusiones fundamentales del ensayo. Es el llamado análisis de
sensibilidad, que admite dos escenarios extremos: el «análisis en el peor de los casos», en el que
se calculan los estimadores del efecto si todos los participantes perdidos del grupo experimental
tuvieran el evento negativo y los perdidos del grupo control no lo tuvieran, y el «análisis en el mejor
de los casos», en el que procederíamos justo al revés. De este modo veremos cuál es la sensibilidad
de nuestra estimación a los posibles cambios en las pérdidas. Entre estos dos escenarios extremos
se pueden plantear otros intermedios, más o menos plausibles, en función del problema clínico

de estudio, que pueden enriquecer la perspectiva sobre la robustez de los resultados y las posibles
relaciones entre las pérdidas y los resultados.
Otra alternativa es realizar análisis ajustados por una o más covariables que muestren desequili-
brios entre los grupos que se analizan o utilizar determinadas técnicas estadísticas que «imputan» o
asignan valores a los datos faltantes. Existe un número creciente de metodologías analíticas, algunas
muy sofisticadas, para aquellas situaciones en las que hay datos faltantes, pero no debemos perder
la perspectiva, pues bajo la maquinaria de los modelos estadísticos subyacen suposiciones teóricas
de difícil comprobación sobre los mecanismos que han originado la ausencia de los datos (16).
Medición adecuada de desenlaces

El catálogo de desenlaces medibles es sumamente diverso, como mencionábamos en el apartado
«Desenlaces», y los problemas en la medición se denominan error de medición para las variables
continuas, mala clasificación para las dicotómicas y no comprobación o verificación para los eventos.
En unos casos son valorados o medidos por médicos, sanitarios o cuidadores, o también por comités
externos independientes del estudio, y en otras ocasiones pueden ser evaluados y/o comunicados
directamente por el propio paciente.
Los problemas de medición en el ensayo pueden afectar por igual a ambos grupos (no dife-
renciales) o afectar de modo diferente a los grupos (diferenciales), en cuyo caso el riesgo de sesgo
sobre este dominio aumenta.
Este asunto cabe abordarlo de modo tradicional considerando el hecho que se va a medir en
el sujeto (input), el método de medición y el papel del observador. Lo más fácil es juzgar si el
procedimiento de medición es adecuado o no (por sus características clinimétricas, factibilidad,
momento, tolerabilidad, etc.). El segundo aspecto del juicio es si los efectos que se van a medir (el
input de la medición) pueden estar influenciados por el diseño del estudio, como puede ocurrir con
síntomas subjetivos si el paciente conoce el grupo al que fue asignado o el ciego fue roto.
El tercer aspecto es si el observador que realiza la medición es ciego respecto de la intervención
aplicada o si se han producido problemas en la OSA. Esta medición es particularmente difícil
cuando el desenlace implica algún juicio o decisión clínica, y en esos casos suele usarse un comité
externo para minimizar el riesgo de mala clasificación diferencial. Naturalmente, en los casos en
los que el paciente es quien desarrolla el síntoma y realiza la medición, la ausencia de ciego afecta
al input de la medición y al observador.
En cualquiera de los casos, estos problemas de medición afectarán al DOMINIO 4 y procede,
como citábamos, una aproximación clinimétrica y un análisis en cada caso y para cada desenlace
del impacto sobre la estimación del efecto.
Comunicación selectiva de desenlaces

Es un subtipo de sesgo de comunicación que consiste en la selección de un subgrupo de desenlaces
(o variables) para la publicación del ensayo. Cuando se compara las publicaciones del ensayo con
el protocolo del mismo se observa que en el 62% de los ensayos al menos un desenlace ha sido
cambiado, introducido u omitido (17,18).
La comunicación selectiva de desenlaces puede adoptar formas muy diversas: omitir un desenlace,
o publicarlo con insuficiente detalle para su aplicación, omitir parte de un desenlace compuesto, etc.
A veces lo que cambia es la importancia asignada a una variable. Generalmente ocurre cuando se presenta
como variable de desenlace principal una variable que en su momento se definió como secundaria.
Hay evidencias de que en diseños paralelos se publican solo el 50% de los desenlaces no signi-
ficativos frente al 72% de los significativos, lo que supone un odds ratio (OR) de 2,4. Esa asimetría
se mantiene tanto para los desenlaces de daño o perjuicio (OR 1,9 [IC 95% 1,1-3,5]) como para
los de efectividad (OR 2,0 [IC 95% 1,6-2-7]) (18). Al leer el ensayo, esta comunicación selectiva
puede hacer que veamos más fácilmente los efectos positivos y tengamos una sensación de beneficio
aparente; por otra parte, plantea problemas adicionales para las revisiones sistemáticas de ECA.

La manera más simple de explorarlo es comparar el listado de desenlaces en la sección de material

y métodos con los que luego son comunicados en resultados y tablas. Otro modo, más interesante
y eficaz, es comparar la publicación del ensayo con el protocolo previamente publicado. A este res-
pecto, los registros de ensayos, comentados en el capítulo 2, son de gran utilidad porque permiten
comprobar y contrastar las variables previstas en el protocolo. Aunque en ensayos antiguos pueden
no estar disponibles, en la actualidad no es posible publicar un ensayo no registrado, debido a que
es requisito exigido por el Comité Internacional de Editores de Revistas Médicas (ICMJE).
Entonces ¿cómo analizamos los datos?

Las desviaciones de la intervención prevista, sea por problemas en la asignación o por problemas en
la adherencia a la intervención (DOMINIO 2), plantean la cuestión de cómo analizar ese estudio
en el que se han producido esos movimientos en los grupos en diferentes sentidos.
El aspecto esencial del análisis está relacionado con ¿cuál es el efecto de interés del estudio?
En unos casos, el interés es estudiar el efecto de la asignación a la intervención (de la intención de
tratar); esta es la aproximación pertinente si se desea conocer si debe aplicarse la intervención o no
a una población determinada o en un sistema de salud. En otros casos, lo que interesa es estudiar
el efecto de adherirse, es decir, al recibir realmente la intervención (19-21). Esta aproximación
sería más adecuada para informar una decisión en un paciente concreto. En el primero de los casos
hablamos de análisis por intención de tratar (AIT), y en el otro, de análisis por protocolo (APP)
o de los tratados (AT) (19-21).
El análisis por intención de tratar consiste que cada paciente es analizado en el grupo al
que fue aleatoriamente asignado con independencia del tratamiento que finalmente recibió o de
otras circunstancias, e incluye a todos los pacientes en el análisis, lo que implica medir, al menos
teóricamente, el desenlace de todos. La expresión clásica para enunciarlo es (una vez aleatorizado,
siempre analizado; once randomized, always analyzed). Esta aproximación se centra en la población
aleatorizada (P-AIT), que es un subgrupo de la población de estudio definida en el ensayo y respeta
la aleatorización y sus efectos sobre el equilibrio de factores en los grupos.
Una variante de este es el AIT modificado (AITm), en el que se excluye del análisis a la subpo-
blación aleatorizada que tiene datos de desenlaces perdidos. En ocasiones se excluye a participantes
que nunca iniciaron el tratamiento, que tras iniciarlo no han acudido a ninguna visita y por tanto
no han aportado datos sobre los desenlaces o que tras la aleatorización eran no elegibles (por error
en la selección o por problemas sobrevenidos). El AIT modificado no ha sido claramente definido
y es usado con diferentes sentidos, por lo que en ocasiones se convierte en un instrumento para la
manipulación de los datos.
El análisis por protocolo (APP) estricto consiste en que se incluye en el análisis solo a los sujetos
que siguieron estrictamente el protocolo del estudio, y en consecuencia se excluye a los participan-
tes que no recibieron su intervención asignada o se desviaron del protocolo. Es por tanto una subpo-
blación de P-AIT cuyos grupos son escindidos de los iniciales, y a diferencia de los grupos del AIT
no son estrictamente comparables porque pueden ser afectados por sesgos de selección en el caso
de que factores pronósticos estén relacionados con la adherencia al tratamiento.
Una forma algo distinta es hacer el análisis de los tratados (AT, as treated), en la cual los
pacientes son analizados en el grupo de la intervención que realmente recibieron y completaron,
independientemente de si fueron aleatorizados a otro tratamiento. Este es otro subgrupo distinto
de la P-AIT con grupos reconstruidos en los que puede existir alto riesgo de sesgo si las razones
por las que se pasan de grupo se asocian a factores pronósticos.
Respecto de cuál es entonces el método más adecuado, como señalábamos al principio, depende
del interés de la pregunta del estudio.
Las ventajas que ofrece el de AIT son: que mantiene la aleatorización y por tanto controla
la confusión y mantiene la comparabilidad, y en cierto modo se aproxima a lo que ocurrirá en
general (los pacientes dejan de tomar el tratamiento y abandonan el estudio, etc.). Por otra parte,

es científicamente conservador en el sentido de que su uso produce sesgo hacia el no efecto (hacia
la hipótesis nula), lo cual es aceptable. Por ello ha sido sugerido tradicionalmente como el modo
más adecuado de análisis. Sin embargo, es obvio que el AIT implica ignorar deliberadamente todas
las circunstancias y vicisitudes del estudio que sean posteriores a la randomización y que, por lo
demás, son habituales en estos estudios clínicos.
Ese sesgo hacia la hipótesis nula no plantea mucho problema en los estudios de superioridad:
estimamos menos efecto del real, es decir, sesga en contra del investigador; sin embargo, en estudios
de no inferioridad, en los que formulación de la hipótesis es diferente, la dirección del sesgo será la
de aparecer como un efecto inferior (menor efecto) cuando realmente es «no inferior».
El APP, como señalábamos, rompe el equilibrio de la comparación y transforma el estudio en algo
más cercano a lo observacional, es decir, tiene más riesgo de sesgo. Sin embargo, es claro que responde
a otra pregunta diferente. Por ello, para considerar el efecto real de la adherencia a la intervención o
para ensayos pragmáticos, es adecuado el uso de APP, pero debe ser enunciado a priori, e idealmente
asociado a una previsión y una definición razonable de la adherencia al protocolo y un control de
sesgos mediante el uso de los instrumentos estadísticos de ajuste desarrollados al efecto (20,21).
Finalmente, para el caso de los ensayos de no inferioridad, lo aconsejable es usar los dos análisis
e interpretar el APP como un análisis de sensibilidad.
Instrumentos para medir el riesgo de sesgo

Hasta aquí hemos hecho una aproximación argumental a la valoración crítica del ensayo a través del
riesgo de sesgo. Este es un ejercicio de autonomía y empoderamiento clínico y se presta para propiciar
el debate y la deliberación y con ello una mejor aplicación y un mejor aprendizaje. Pero cuando los ECA
forman parte de un estudio de síntesis (revisión sistemática) es preciso que el proceso de medición
del riesgo de sesgo sea consistente. Por ello se han construido instrumentos de evaluación del riesgo
para esos estudios: actualmente se usa el Cochrane Risk of Bias 1 (RoB1) (22), que realiza para cada
desenlace un juicio en tres categorías (bajo riesgo, dudoso, alto riesgo) sobre cada una de las caracterís-
ticas de los ensayos capaces de producir sesgo. Ese instrumento se ha perfeccionado recientemente
(23) en el Cochrane (RoB2) con algunos cambios disruptivos: actualmente centra su interés y realiza
sus juicios (bajo riesgo, dudoso, alto riesgo) sobre los dominios de estudio mencionados que guardan
cierta correspondencia con las características (v. fig. 5.2) y para cada dominio del estudio incorpora
un algoritmo de ayuda que, guiado por preguntas específicas, conduce a una de las tres categorías.
Dado que ambos instrumentos van a coexistir durante un tiempo en las revisiones sistemáticas, hemos
tratado de mostrar en este libro esa correspondencia entre características y dominios típica de cada
uno de los instrumentos que puede ver el lector en el futuro.
RESULTADOS
Los ECA se llevan a cabo para determinar si una determinada intervención es efectiva y segura o
si proporciona alguna ventaja en términos de riesgo/beneficio sobre una intervención de referencia.
La decisión se basará en el análisis comparativo de los resultados obtenidos en cada grupo de
intervención. Todos los elementos de calidad en el diseño y ejecución del ensayo comentados hasta
ahora tienen como objetivo que esta comparación sea equilibrada (no artefactada).
Es importante determinar primero cuál es la escala de medida de la variable de desenlace
principal, pues esta a su vez condiciona la técnica de análisis estadístico y la forma de presentación
de los resultados. Si la variable principal se mide en una escala continua (por ejemplo, el nivel
sanguíneo de un parámetro bioquímico o la puntuación de calidad de vida relacionada con la salud
medida con el cuestionario SF-36), la forma habitual de expresar el resultado sería proporcionar la
diferencia media entre el resultado observado en el grupo experimental y el del grupo de referencia,
añadiendo información sobre la precisión de esta estimación en forma de error estándar de la misma
o suministrando su intervalo de confianza. Generalmente se aconseja utilizar variables de gran

relevancia clínica, y entre ellas destacamos aquellas de tipo dicotómico o binario (SÍ/NO), pues
se acomodan bien a la forma de trabajo del profesional asistencial (tiene/no tiene este problema,
le trato/no le trato, se cura/no se cura, etc.) En este caso, deberemos siempre buscar los números
«crudos» (es decir, en cuántos pacientes se evaluó el desenlace y en cuántos se detectó el desenlace
de interés). De esta forma se clarificará si se analizó a todos los pacientes aleatorizados o a un
subgrupo determinado. Además, con sencillas herramientas de cálculo epidemiológicas, el clínico
entrenado y con ganas podrá fácilmente obtener y valorar a partir de ellos algunos estimadores del
efecto quizá no presentados en el artículo y que pueden ser de utilidad interpretativa.
Con este tipo de variables dicotómicas podremos encontrar los siguientes descriptores de los
resultados:
■ El Riesgo o probabilidad de desarrollar el desenlace de interés (por ejemplo, curación) en
el grupo de intervención experimental o el del correspondiente grupo de referencia; este

riesgo podrá ser presentado en forma de una proporción (número decimal entre 0 y 1) o de
un porcentaje (en escala de 0 a 100). Aunque esta no es per se una medida comparativa de
resultado, es la base para la mayoría de las que describimos a continuación.
■ La Diferencia de Riesgos (DR), también llamada Reducción Absoluta del Riesgo (RAR), que
refleja la diferencia en la probabilidad de ocurrencia del desenlace entre los grupos. Una
reducción de 0 equivale a igualdad de riesgo en los grupos y por tanto a la ausencia de efectos
diferentes de las intervenciones que se comparan. Si se obtiene un resultado distinto de 0,
habrá que valorar la magnitud y el sentido de la diferencia.
■ El llamado Número Necesario de Pacientes a Tratar (NNT). Es el inverso de la DR (RAR) y
nos informa del efecto de una intervención calculando cuántos pacientes deberían cambiar
su tratamiento y recibir el tratamiento experimental EN VEZ del de referencia para (en el
tiempo de seguimiento utilizado en el ensayo) conseguir un desenlace de interés adicional al
que se obtendría si recibieran la intervención de referencia. Es fácil determinar que el inverso
de 0 es infinito (una magnitud inespecífica) y por lo tanto este NNT no estimable sería el
que nos hablaría de la no diferencia de efectos. El NNT es un estimador de la efectividad de
la intervención, entendida como consecución de más desenlaces favorables o reducción de
los desfavorables. Cuando queremos referirnos a los sucesos desfavorables, y específicamente
cuando nos referimos a efectos indeseados de una intervención (toxicidad, efectos secundarios,
etc.), se utiliza el llamado Número Necesario de Pacientes para causar Daño (NND, NNH en
inglés), que informa sobre cuántos pacientes tendrían que recibir el tratamiento experimental
en vez del de referencia para que observemos un daño o suceso desfavorable (generalmente
un efecto tóxico grave) adicional a los que se observarían con el tratamiento de referencia
o control. De esta forma, la relación NNT/NND nos permite una aproximación al balance
beneficio/riesgo entre las intervenciones comparadas.
■ El Riesgo Relativo (RR) de desarrollar el desenlace de interés en el grupo experimental
RESPECTO del grupo de referencia. Si el RR es 1 asumimos que la probabilidad (riesgo)

del desenlace es igual en los grupos y por tanto que NO hay un efecto diferente de una
intervención respecto a la otra. Cifras superiores al 1 hablan de mayor riesgo del desenlace
en el grupo experimental y cifras inferiores de menor probabilidad en dicho grupo. Existen
otras dos medidas con una interpretación similar al RR: a) el odds ratio (OR) en el que no
comparamos las probabilidades en la forma de manejo habitual en nuestro medio sino en una
escala diferente (comparamos los odds); aunque en el contexto de un ensayo es más coherente
la utilización del riesgo y sus estimadores derivados, el OR se utiliza básicamente porque
es la forma de obtener estimaciones del efecto en modelos de regresión multivariable que
tienen en cuenta el efecto añadido de otros factores y se usan frecuentemente en los análisis
ajustados que hemos comentado anteriormente.
■ El Hazard Ratio (HR) o razón de «riesgos», cuando la técnica estadística utilizada ha sido el
análisis de supervivencia (generalmente, el llamado modelo de regresión de Cox). En estos

casos el desenlace de interés ha sido el tiempo transcurrido desde el inicio de la intervención

hasta la aparición del evento.
No debemos olvidar que los pacientes reclutados en un ensayo son una muestra de los
pacientes existentes o de los que veremos en el futuro y que nuestros resultados son solo
estimaciones en esa muestra. Necesitamos información sobre el grado de reproducibilidad
de esas estimaciones (precisión). Esta información viene generalmente suministrada por los
intervalos de confianza. Para nuestra discusión baste comentar que nos dan una orientación
sobre el nivel de confianza que podemos depositar en que la verdadera magnitud del efecto de
la intervención se encuentre en los valores comprendidos entre los dos límites del intervalo.
Por costumbre se utilizan niveles de confianza del 95%, asumiendo que es razonable aceptar
una probabilidad de uno entre veinte (5%) de que dicho valor se escape de los límites del
intervalo, pero este nivel puede perfectamente modificarse y adaptarse a necesidades o pers-
pectivas particulares.
Tradicionalmente se han utilizado por los autores (y demandado por los editores y lectores) los
valores p como indicadores de la significación estadística de los resultados. Existe una tendencia
hacia una utilización creciente del estimador del efecto con su intervalo de confianza para informar
de forma simultánea sobre la magnitud del efecto observado, su precisión y la existencia o no de
significación estadística de los resultados. Como ejemplo ilustrativo presentamos los resultados del
análisis del desenlace principal de varios ECA hipotéticos (tabla 5.2).
APLICABILIDAD
Hasta el momento se han revisado los principales aspectos metodológicos que pueden condicionar
la validez interna de un ECA, es decir, aquellos aspectos que pueden llevar a cuestionar su calidad
desde el punto de vista epistemológico. Pero la lectura crítica, como herramienta básica de la práctica
TABLA 5.2 ■ Ejemplo de cuatro ensayos clínicos aleatorios hipotéticos

Ensayo Tratamiento (n) Desenlaces DR (IC 95%) RR (IC 95%)
1 Experimental (100) 60 0,2 (0,06-0,34) 1,5 (1,12-2,00)
Referencia (100) 40
2 Experimental (30) 18 0,2 (–0,05-0,45) 1,5 (0,89-2,54)
Referencia (30) 12
3 Experimental (100) 55 0,05 (–0,09-0,19) 1,11 (0,84-1,46)
Referencia (100) 50
4 Experimental (2.000) 1.100 0,05 (0,02-0,08) 1,11 (1,04-1,18)
Referencia (2.000) 1.000
El desenlace de interés es favorable. Los ensayos 1 y 2 muestran cómo un efecto importante (grande) puede
no ser detectado como estadísticamente significativo en un ensayo pequeño (ensayo 2). Los ensayos 3 y 4
muestran cómo un efecto moderado o pequeño puede alcanzar significación estadística si el ensayo tiene
el suficiente tamaño (ensayo 4). Todos los casos muestran cómo los IC proporcionan simultáneamente
información sobre la precisión de los resultados y sobre su (o la ausencia de) significación estadística.
Obsérvese la inexistencia de valores p en la tabla.
DR, diferencia de riesgos; IC 95%, intervalo de confianza al 95%; RR, riesgo relativo.
Modificado de Gardner MJ, Altman DG. Confidence intervals rather than P values: estimation rather than
hypothesis testing. BMJ. 1986;272:746-750.

basada en la evidencia, necesita ir un paso más allá para traspasar la frontera que separa el pensar del
hacer, y para ello es imprescindible que el lector analice la aplicabilidad de los ECA a su actividad
clínica real explorando la validez externa de sus hallazgos.
Entendemos por aplicabilidad la medida en que los efectos observados en los estudios publicados,
probablemente, reflejen los resultados esperados cuando una intervención específica se aplique a la
población de interés bajo condiciones de práctica real. Dicho de otra manera, la aplicabilidad debe
intentar responder a tres preguntas: ¿pueden los resultados del ensayo ser aplicados a mi paciente?;
o mejor ¿es mi paciente tan diferente de los pacientes del ECA que sus resultados no pueden serle
aplicados?; ¿es la intervención factible en mi medio?
Un elemento esencial de la aplicabilidad es que las poblaciones de los ensayos son en general
muy seleccionadas por razones metodológicas y regulatorias, de modo que son algo diferentes
de los pacientes «cotidianos», presentando, por ejemplo, mucha menos comorbilidad que los
pacientes habituales en la clínica. Adicionalmente, los entornos de investigación son más res-
trictivos en el manejo de los pacientes, más estrictos en las mediciones, y posiblemente más
complacientes en las visitas y cuidados, etc. En resumen, hay diferencias entre los ensayos y
la práctica real. Para rellenar ese hiato entre los ensayos y la aplicación práctica han surgido
estrategias que tratan de dar sentido real (y no solo investigacional) a los resultados de los ECA:
son los llamados estudios de mundo real (Real World Studies [RWS]). Este grupo de estudios
(24,25) incluye diseños experimentales, como los ensayos pragmáticos o los ensayos basados
en registros, y una serie de estudios observacionales basados en actividad o en registros de
diferente tipo (generales o específicos) con arquitecturas de cohortes retrospectivas, estudios no
aleatorizados, etc., y que constituyen un complemento interesante de la evidencia obtenida de
los ECA. Abordaremos algunos de estos aspectos en el capítulo 10 aunque el análisis de estos
estudios escapa a los límites de esta obra.
Un aspecto final de la aplicación a la práctica de los resultados de los ECA es la necesaria
corrección y adaptación de los estimadores del efecto (positivos o negativos) a los riesgos basales
de cada paciente, y la incorporación de los valores (colectivo e individuales) al proceso de decisión,
aspecto que trataremos a propósito de las recomendaciones (v. capítulo 18).
Artículo
Vik I, Bollestad M, Grude N, Bærheim A, Damsgaard E, Neumark T, et al. Ibuprofen versus
pivmecillinam for uncomplicated urinary tract infection in women—A double-blind, randomized
non-inferiority trial. PLoS Med 2018;15(5):e1002569. Disponible en: https://doi.org/10.1371/
journal.pmed.1002569.
Plantilla CASPe contestada para este artículo concreto

En el cuadro 5.1 se muestra la plantilla CASPe contestada para este artículo concreto.
Resolución del escenario

El estudio no muestra efectividad del ibuprofeno respecto del antibiótico, por el contrario, mues-
tra un aumento de las infecciones del tracto urinario en el grupo de ibuprofeno. La ausencia de
evidencia de efecto positivo en un solo ensayo no es evidencia de no efecto, pero existen datos
que sugieren efectos negativos graves, especialmente pielonefritis. No obstante, los eventos
observados para ese desenlace son pocos y por ello ese resultado es poco preciso y muy sensible
a pequeños cambios en la incidencia en los grupos. Necesitaríamos una revisión sistemática para
estar más seguros.
En cualquier caso, en este momento no prescribiríamos ibuprofeno a Manuela.

CUADRO 5.1 ■ Evaluación crítica del artículo propuesto (plantillas CASPe)
1. ¿Se orienta el ensayo a Sí ✓ No sé No

una pregunta claramente P → pacientes mujeres no embarazadas de 18-60 años con síntomas
definida? de infección del tracto urinario (ITU) no complicada, es decir,
Una pregunta debe definirse disuria combinada con aumento de la frecuencia urinaria o
en términos de la urgencia urinaria o ambas, con o sin hematuria visible. SE
población de estudio, la EXCLUYÓ a pacientes con duración de síntomas mayor de
intervención realizada, 7 días, alérgicas a penicilinas o ibuprofeno, lactantes, pacientes con
la comparación y los signos de ITU superior, infección vaginal, diabetes, enfermedad
desenlaces considerados renal, etc.
(positivos y negativos). La detección de anormales en orina (tira reactiva para leucocitos,
Escribe los desenlaces. nitritos, proteínas y sangre) y el cultivo se hicieron a todas las
Puntúa su importancia pacientes, pero NO fueron criterio de inclusión ni de exclusión.
según GRADE I → Ibuprofeno 600 mg/8 h/3 días.
(No relevantes: 1-3; C → Pivmecilinam 200 mg 3 veces al día × 3 días.
Importantes: 4-6, y O → El desenlace principal considerado fue la proporción de
Críticos para la decisión: pacientes que se sintieron curadas a los 4 días tal y como se
7-9). recogía en el cuaderno de la paciente (o en entrevista telefónica)
(importancia GRADE 6). Los desenlaces secundarios fueron:
duración de los síntomas (GRADE 5); puntuación de 0 a 6
según intensidad de disuria, urgencia urinaria y frecuencia
urinaria (rango 0-18) (GRADE 6); proporción de pacientes con
bacteriuria positiva en el segundo control (GRADE 4); proporción
de pacientes con necesidad de consulta médica en las 4 semanas
de seguimiento (GRADE 4); proporción de pacientes que
recibieron antibióticos en las 4 semanas de seguimiento (GRADE 5);
proporción de pacientes que desarrollaron ITU superior:
pielonefritis (GRADE 7); proporción de pacientes con efectos
adversos (GRADE 6).
El desenlace primario se evaluó como de no inferioridad y el resto
como de superioridad.
2. ¿Fue aleatoria la Sí ✓ No sé No
asignación a los La secuencia de aleatorización se generó mediante una lista obtenida
tratamientos? por ordenador creada por un estadístico independiente usando
¿Se generó adecuadamente bloques de tamaño de 2, 4, 6 u 8, estratificados por país.
la secuencia? La lista con los números de aleatorización correspondientes a cada
¿Se mantuvo oculta centro se mantuvo centralizada y se conoció únicamente al final
la secuencia de del estudio. Cada centro disponía de sobres opacos cerrados
aleatorización? por si hubiera sido necesario descubrir el enmascaramiento.
¿Son iguales en línea basal? Cada grupo de 9 cápsulas de pivmecilinam o ibuprofeno se identificó
con un número generado de acuerdo con la secuencia generada
por el ordenador. Tras la inclusión, cada paciente recibía un kit
numerado con las 9 dosis en el interior, de forma correlativa
en cada centro.
Los grupos (181 ibuprofeno y 178 pivmecilinam) estaban bastante
bien balanceados (tabla 1), sin diferencias apreciables entre grupos.

3. ¿Se mantuvo Sí ✓ No sé No
la comparabilidad Se aleatorizaron 383 pacientes, 194 al grupo ibuprofeno (IB)
de los grupos a través y 189 al grupo pivmecilinam (PIV). No hubo desviaciones
del estudio? en la intervención por problemas en la asignación.
Desviaciones de Los problemas de adherencia (< 80% de cumplimiento) fueron bajos,
la intervención por probablemente debido a la corta duración del tratamiento (3 días):
problemas en la 12 pacientes en el grupo IB y 7 en el grupo PIV.
asignación. Se declaró análisis por intención de tratar (AIT o ITT) en las tablas,
Desviaciones de no en el texto, pero se analizaron únicamente 181 de 194 pacientes
la intervención en el grupo IB y 178 de 189 en el grupo PIV. Podría considerarse
por problemas en un mITT (modified intention to treat analysis).
la adhesión al En realidad, y dado que el desenlace primario se analizó como de no
tratamiento. inferioridad, lo razonable hubiera sido un análisis por protocolo
¿Cómo se analizó el (APP), lo que hubiera incluido 150 pacientes en el grupo IB y
estudio: ITT mITT 154 en el grupo PIV (fig. 1). En realidad, así lo expresa (de modo
APP, AT? confuso) en el pie de la tabla 2.
4. ¿Son importantes Sí No sé No ✓
las pérdidas ocurridas Se perdió a 44 de 194 pacientes en el grupo IB (22,7%): 13 de los
durante el estudio? que no se recuperó información tras la basal, 19 perdidos para el
¿Difieren según el grupo? seguimiento y 12 que tuvieron baja adherencia.
¿Las pérdidas podrían En el grupo PIV se perdieron 35 (18,5%): 11 de los que no se recuperó
depender de su valor información tras la basal, 17 perdidos para el seguimiento y 7 que
o resultado? tuvieron baja adherencia. Puede considerarse que las pérdidas están
¿Se hace análisis balanceadas entre los grupos.
de sensibilidad? Las diferencias de pérdidas son relevantes y mayores en el grupo
IB, es posible que esos pacientes hayan buscado alternativa, y eso
podría tener relación con un resultado negativo.
No se hizo análisis de sensibilidad (worst case, best case).
5. ¿Fue adecuada la Sí No sé ✓ No
medición de los El desenlace primario medido fue la proporción de pacientes que
desenlaces? se sintieron curados en el día 4 tal y como recogieron en el diario
Tipo de desenlace del paciente o se decidió tras la consulta telefónica.
medido y método Los desenlaces secundarios incluyeron la duración de los síntomas y
usado. una puntuación de los síntomas del paciente reflejados en el diario
Cegamiento del paciente, según una escala ad hoc (mínimo 0, máximo 18). Otros desenlaces
clínico, evaluador, secundarios fueron proporción de pacientes con segundo cultivo
estadístico. positivo, proporción de pacientes con necesidad de consulta médica en
Si hay problema, ¿es
las 4 semanas de seguimiento, proporción de pacientes que recibieron

diferencial entre los antibióticos durante este período. También se evaluaron desenlaces de
grupos? seguridad: desarrollo de infección urinaria superior y efectos adversos.
No queda muy claro cómo se generó el ciego. Parece (¿?) que una
compañía farmacéutica «sobreencapsuló» el IB y el PIV, lo que
parece querer decir que se introdujeron los comprimidos dentro
de una cápsula igual para ambos. Se analizó que ambos preparados
tuvieran el mismo aspecto, peso y sabor. Nos queda la duda de si
hubiera podido averiguarse la intervención abriendo la cápsula,
ya que hubiera quedado al descubierto la forma farmacéutica
original de IB o PIV, que podría ser conocida de antemano
por los pacientes o los investigadores.
En todo caso, dado que la variable principal es mixta
autorreportada + teléfono, la posible ruptura del ciego podría
haber aumentado claramente el riesgo de sesgo.
Aunque es hipotético, esa ruptura podría haber condicionado
las pérdidas de la pregunta anterior.
ClinicalKey.es por Elsevier en junio 23, 2022. Para uso personal exclusivamente. No se permiten (Continúa)
6. ¿Se evitó la comunicación Sí ✓ No sé No

selectiva de resultados? El ensayo aparece en clinicaltrials.gov con el n.o de protocolo
(Mirar el registro NCT01849926 (https://clinicaltrials.gov/ct2/show/record/
de ensayos) NCT01849926).
¿Hay reporte selectivo Los desenlaces del punto anterior aparecen todos (excepto la carga
de desenlaces o reporte de síntomas), pero además en el protocolo aparecen otros no
selectivo de análisis? recogidos en el ensayo: proporción de pacientes que tuvieron
recaída en las 4 semanas de seguimiento y proporción de pacientes
con cultivo positivo al cabo de 4 semanas.
7. ¿Cuál es el efecto del Desenlace principal:
tratamiento para cada En el grupo IB 70 pacientes (38,7%) se sintieron curados
desenlace? el día 4, frente a 131 (73,6%) en el grupo PIV (RAR 35,3%;
¿Qué desenlaces se han IC 95% 25,7-44,9; NNT = 3; IC 95% 3-4). Este valor está fuera
medido? del margen de no inferioridad. Por tanto, IB no demostró
Detalla los positivos la no inferioridad frente a PIV.
y los negativos. Desenlaces secundarios:
Duración media de los síntomas tras la aleatorización → 6 días IB
vs. 3 días PIV.
Pacientes sin síntomas el día 7 → 114 (63%) en IB vs. 162 (91%)
en PIV (RAR 28; IC 95% 20-36).
Pacientes sin síntomas el día 14 → 141 (78%) en IB vs. 167 (94%)
en PIV (RAR 16; IC 95% 9-23).
Cultivo de orina positivo a los 14 días → 43 (28%) en IB vs. 16 (10%)
en PIV (RAR 16; IC 95% 7-26).
Tratamiento con antibióticos el día 14 → 73 (41%) en IB vs. 14 (8%)
en PIV (RAR 32; IC 95% 24-40).
Tratamiento con antibióticos el día 28 → 83 (46%) en IB vs. 18 (10%)
en PIV (RAR 36; IC 95% 27-44).
Pacientes con ITU febril → 5(3%) en IB vs. 0 (0%) en PIV (RAR 3;
IC 95% 0,1-6).
Pacientes con pielonefritis → 7(4%) en IB vs. 0 (0) en PIV (RAR 4;
IC 95% 1-8).
Efectos adversos graves → 6 (3%) en IB vs. 1 (1%) en PIV (RAR 3;
IC 95% 6 a –0,1).
En resumen: el IB es claramente inferior para control de síntomas
y claramente superior para producir ITU + fiebre o pielonefritis
(que son indeseables).
8. ¿Cuál es la precisión Ver apartado anterior. Dado que la diferencia de efecto es en general
de los estimadores grande y la muestra razonablemente amplia, los IC son estrechos,
del efecto? lo que concede fiabilidad a los resultados.
¿Cuáles son sus intervalos
de confianza?

9. ¿Pueden aplicarse estos Sí No sé ✓ No

resultados en tu medio Nuestra paciente del escenario hubiera cumplido criterios de
o población local? inclusión, pero no hubiera podido ser incluida en este ensayo por
¿Crees que los pacientes su alergia a betalactámicos. Tal vez pudiera haber sido incluida
incluidos en el ensayo en alguno de los ensayos similares llevados a cabo con quinolonas
son demasiado distintos y que tuvieron resultados parecidos al que nos ocupa (v. más
a tus pacientes? adelante).
¿Hay algún otro ensayo En la Introducción, los autores mencionan otros artículos similares:
parecido a este? un pequeño estudio piloto en Alemania (ref. 13 del artículo)
¿Es consistente con este? en el que IB fue no inferior a ciprofloxacino; otros dos más
amplios en Suiza y Alemania (ref. 14 y 15 del artículo) mostraron
que el tratamiento antibiótico (norfloxacino y fosfomicina
respectivamente) fue superior a los antiinflamatorios no
esteroideos (diclofenaco e IB, respectivamente). Por tanto, hay
consistencia con los hallazgos de este estudio.
10. ¿Se han tenido Sí No sé No ✓
en cuenta todos los Sí se tuvieron en cuenta las utilidades (beneficio clínico) y las
resultados y su disutilidades (efectos adversos graves), por otra parte nada
importancia clínica? frecuentes.
Utilidades y disutilidades El IB es claramente inferior para control de síntomas y claramente
de cada desenlace. superior para producir ITU + fiebre o pielonefritis (que son
Balance de efectos positivos/ indeseables).
negativos. Pero además hay diferencia entre la utilidad de quitar síntomas
Preferencias del paciente, menores, que es poca, y la disutilidad de ITU o pielonefritis,
costes, etc. que es mucha, y más si se valora a largo plazo.
Sin embargo, pensamos que la respuesta ha de ser negativa en este
punto porque, aunque se contemplaron aspectos clínicos, no se
tuvieron en cuenta los costes ni las preferencias de los pacientes.
11. ¿Los beneficios que se Sí No sé No ✓
espera obtener justifican Dado que IB no ha mostrado no inferioridad con respecto a PIV (lo
los riesgos y los costes? que puede entenderse a efectos prácticos como que ha demostrado
Es improbable que pueda inferioridad), es evidente que los beneficios con su uso no
deducirse solo de un justifican en absoluto los costes.
ensayo, pero ¿qué piensas CLARAMENTE NO.
tú al respecto? Discrepamos del comentario de los autores en la conclusión
del estudio, que insisten en las ventajas del IB con base
en argumentaciones colaterales.
Bibliografía
1. Frieden TR. Evidence for Health Decision Making – Beyond Randomized, Controlled Trials. N Engl J
Med 2017;377(5):465-75.
2. Glasziou P, Chalmers I, Rawlins M, McCulloch P. When are randomised trials unnecessary? Picking
signal from noise. BMJ 2007;334(7589):349-51.
3. Higgins JPT, Savovic J, Page MJ, Elbers RG, Sterne AC. Assessing risk of bias in a randomized trial.
En: Higgins JPT, Chandler J, Cumpston M, Li T, Page MJ, Welch VA, editores. Cochrane Handbook for
Systematic reviews of interventions. 2.ª ed. Hoboken: Wiley & Sons; 2019. p. 205-28.
4. Cabello JB, Abraira V, Gómez J. Ensayos clínicos para un solo paciente. Justificación, metodología y
aspectos bioéticos. Med Clin Barc 1997;109:592-602.
5. Montori VM, Devereaux PJ, Adhikari NKJ, Burns KEA, Eggert CH, Briel M, et al. Randomized trials
stopped early for benefit: a systematic review. JAMA 2005;294(17):2203-9.

6. Cannistra SA. The ethics of early stopping rules: who is protecting whom? J Clin Oncol Off J Am Soc
Clin Oncol 2004;22(9):1542-5.
7. Montori VM, Permanyer-Miralda G, Ferreira-González I, Busse JW, Pacheco-Huergo V, Bryant D, et al.
Validity of composite end points in clinical trials. BMJ 2005;330(7491):594-6.
8. McPherson GC, Campbell MK, Elbourne R. Use of randomization in clinical trials. Trials 2012;13:198.
9. Altman DG, Bland JM. Treatment allocation by minimisation. BMJ 2005;330(7495):843.
10. Schulz KF, Grimes DA. Allocation concealment in randomised trials: defending against deciphering.
Lancet Lond Engl 2002;359(9306):614-8.
11. Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical evidence of bias. Dimensions of methodological
quality associated with estimates of treatment effects in controlled trials. JAMA 1995;273(5):408-12.
12. Wood L, Egger M, Gluud LL, Schulz KF, Jüni P, Altman DG, et al. Empirical evidence of bias in treatment
effect estimates in controlled trials with different interventions and outcomes: meta-epidemiological study.
BMJ 2008;336(7644):601-5.
13. Page MJ, Higgins JPT, Clayton G, Sterne JAC, Hróbjartsson A, Savović J. Empirical Evidence of Study
Design Biases in Randomized Trials: Systematic Review of Meta-Epidemiological Studies. PLOS ONE
2016;11(7):e0159267.
14. Moustgaard H, Clayton GL, Jones HE, Boutron I, Jørgensen L, Laursen DRT, et al. Impact of blinding on
estimated treatment effects in randomised clinical trials: meta-epidemiological study. BMJ 2020;368:l6802.
15. Dumville JC, Torgerson DJ, Hewitt CE. Reporting attrition in randomised controlled trials. BMJ
2006;332(7547):969-71.
16. Thabane L, Mbuagbaw L, Zhang S, Samaan Z, Marcucci M, Ye C, et al. A tutorial on sensitivity analyses
in clinical trials: the what, why, when and how. BMC Med Res Methodol 2013;13:92.
17. Naci H, Davis C, Savović J, Higgins JPT, Sterne JAC, Gyawali B, et al. Design characteristics, risk of
bias, and reporting of randomised controlled trials supporting approvals of cancer drugs by European
Medicines Agency, 2014-16: cross sectional analysis. BMJ 2019;366:l5221.
18. Dwan K, Altman DG, Arnaiz JA, Bloom J, Chan AW, Cronin E, et al. Systematic Review of the Empirical
Evidence of Study Publication Bias and Outcome Reporting Bias. PLoS ONE 2008;3(8):e3081.
19. Hernán MA, Hernández-Díaz S. Beyond the intention-to-treat in comparative effectiveness research.
Clin Trials J Soc Clin Trials 2012;(1):48-55.
20. Hernán MA, Robins JM. Per-Protocol Analyses of Pragmatic Trials. N Engl J Med 2017;377(14):1391-8.
21. Hernán MA, Scharfstein D. Cautions as Regulators Move to End Exclusive Reliance on Intention to
Treat. Ann Intern Med 2018;168(7):515.
22. Higgins JPT, Altman DG, Gotzsche PC, Juni P, Moher D, Oxman AD, et al. The Cochrane Collabora-
tion’s tool for assessing risk of bias in randomised trials. BMJ 2011;343:d5928.
23. Sterne JAC, Savović J, Page MJ, Elbers RG, Blencowe NS, Boutron I, et al. RoB 2: a revised tool for
assessing risk of bias in randomised trials. BMJ 2019;366:l4898.
24. Fanaroff AC, Steffel J, Alexander JH, Lip GYH, Califf RM, Lopes RD. Stroke prevention in atrial fibri-
llation: re-defining «real-world data» within the broader data universe. Eur Heart J 2018;39(32):2932-41.
25. Dal-Ré R, Janiaud P, Ioannidis JPA. Real-world evidence: How pragmatic are randomized controlled
trials labeled as pragmatic? BMC Med 2018;16(1). Disponible en: https://bmcmedicine.biomedcentral.
com/articles/10.1186/s12916-018-1038-2.

Cabello JB, López E, Pijoan JI. Lectura crítica de estudios de tratamiento. Ensayos clínicos aleatorios. En:
Cabello Juan B, editor. Lectura crítica de la evidencia clínica, 2.ª ed. Barcelona: Elsevier; 2022. p. 36-56.

C A P Í T U L O 6
de diagnóstico
Ana Royuela Vicente ■ M.ª Luisa Montes Ramírez
Antonio Jesús Martín Mateos
• Definir la exactitud de una prueba diagnóstica.

• Tratar los aspectos clave del diseño de los estudios de exactitud de una prueba
diagnóstica.
• Recoger los indicadores básicos del diagnóstico, sensibilidad, especificidad, valores
predictivos y cocientes de probabilidades.
• Reflexionar sobre el uso de las pruebas diagnósticas en la clínica.
Introducción
Según la Real Academia Española (RAE), el diagnóstico es el arte o acto de conocer la naturaleza
de una enfermedad mediante la observación de sus síntomas y signos. Es el primer paso en la
valoración del estado de un paciente, y solo desde un correcto diagnóstico podrá establecerse un
tratamiento adecuado y un óptimo seguimiento posterior.
Los estudios de diagnóstico suponen un interesante reto dentro de la investigación biomédica. Por
un lado, no gozan de una metodología tan ampliamente desarrollada, conocida y estandarizada como
los estudios de tratamiento o las revisiones sistemáticas (RS). Además, llevan asociada la dificultad de
tener que presentar sus resultados siempre en forma de binomio. Cuando se hable de la sensibilidad
en una prueba diagnóstica, tendrá que hablarse, ineludiblemente, también de su especificidad.
El marco conceptual de evaluación de pruebas diagnósticas está evolucionando de manera sus-
tancial en los últimos años. Ha pasado de considerarse un mero proceso de evaluación secuencial
en fases (1), mimetizando en mayor o menor medida las fases I a IV del ensayo clínico (EC), a
constituir una evaluación más amplia, que engloba desde aspectos técnicos de factibilidad de la
prueba, reproducibilidad y validez, hasta aspectos referentes a su impacto clínico y costes, teniendo
en cuenta el contexto clínico donde se va a aplicar (2).
En este capítulo se tratarán los aspectos más importantes del diseño de los estudios sobre
diagnóstico, la interpretación de resultados de un estudio sobre evaluación de pruebas diagnósticas
y su aplicación a diferentes escenarios clínicos.
Escenario
Pablo es un varón de 52 años que es remitido al especialista de medicina interna por elevación de transa-
minasas desde hace 1 año y factores clásicos de riesgo cardiovascular: fumador, con sobrepeso (IMC de
27), hipercolesterolemia y glucemia alterada en ayunas objetivados en las revisiones médicas de empresa.
Tras la evaluación inicial en consulta, el internista descarta el consumo elevado de alcohol,

solicita una ecografía abdominal y analítica completa para descartar otras enfermedades hepáticas
tanto infecciosas como metabólicas, genéticas o autoinmunes. Los resultados de estos estudios
demuestran que Pablo tiene una esteatosis hepática y un síndrome metabólico. Se le recomiendan
medidas de cambio de estilo de vida, una estatina para tratar la hipercolesterolemia y se le emplaza
a una revisión en 6 meses donde se valorará añadir metformina si no mejora la esteatosis hepática.
En la revisión se observa una mejoría de las transaminasas (aunque no están normales), una
reducción de peso (IMC 25), buen control del colesterol y glucemia en ayunas en 101 mg/dl. El
internista le explica que aunque hay mejoría no es posible saber la situación real del hígado sin una
biopsia hepática. Pablo tiene mucho miedo a una prueba invasiva y pregunta al médico si no habría
alguna otra manera de diagnosticarse que evitase la biopsia.
El internista sabe que hay varios índices no invasivos de esteatosis, le suena que hay varios y
que NAFLD liver fat score (NAFLD-LFS) podría ser útil pero no tiene claro cuál es mejor y si
podrán evitar la biopsia a Pablo. Encuentra un artículo que compara los cinco biomarcadores de
esteatosis hepática más estudiados.
Fedchuk L, et al. Performance and limitations of steatosis biomarkers in patients with nonal-
coholic fatty liver disease. Aliment Pharmacol Ther 2014;40(10):1209-1222.
Tras su lectura te preguntas:
1. ¿El biomarcador de esteatosis hepática NAFLD-LFS es útil para el diagnóstico y segui-
miento de la enfermedad hepática grasa no alcohólica?
2. ¿Podría evitarse a Pablo la biopsia hepática utilizando NAFLD-LFS?
Puntos clave de la lectura crítica de estudios

de diagnóstico
En el contexto de la práctica médica, una buena parte de nuestra labor consiste en diagnosticar, es
decir, realizar mediciones e interpretar sus resultados. Cuando medimos, debemos tener en cuenta
siempre la existencia de cierta variabilidad en la medición. Esta variabilidad es explicada, en parte,
por las características de la población en la que se realiza, las características de la enfermedad que
estamos midiendo y el propio proceso de medición. La variabilidad se divide en dos aspectos
fundamentales: validez y reproducibilidad.
La validez hace referencia al grado en que una medida se aproxima al valor real que pretende
medir; y la reproducibilidad se entiende como el grado en que una prueba diagnóstica obtiene
los mismos resultados al aplicarse sobre el mismo sujeto. Se evalúa básicamente examinando la
concordancia entre observadores, intra-observador y test-retest. Los parámetros utilizados para
medirla dependerán del tipo de variable a medir.
El primer punto que se debe tener en cuenta cuando leemos un estudio sobre validez de pruebas
diagnósticas es su diseño. El diseño óptimo sería un estudio observacional transversal, donde, a una
serie consecutiva de pacientes, todos con sospecha de la enfermedad, de forma ciega e independiente
se les aplicará la prueba que se va a evaluar y la prueba de referencia o patrón de oro (del inglés,
gold standard), comparándose ambas clasificaciones.
La selección de la muestra debe ser representativa de la población en la que posteriormente se
aplicará la prueba y, por tanto, incluir un espectro de pacientes lo más parecido posible al escenario
real en que la prueba pretende utilizarse (es decir, pacientes con enfermedad leve, moderada o grave,
pacientes en etapa temprana y tardía de la enfermedad). Esto se consigue reclutando de forma
consecutiva a los pacientes, para así minimizar el sesgo de selección. En los estudios de casos y
controles existe el riesgo de seleccionar a pacientes «muy sanos» y «muy enfermos», con un sesgo
de selección evidente, ocasionando una sobreestimación del rendimiento de la prueba.
Todos los resultados de la prueba que se va a evaluar deben confirmarse mediante una prueba
de referencia o patrón de oro, asumiendo que clasifica correctamente a los enfermos y a los no
enfermos. La prueba de referencia es el criterio diagnóstico que define quién tiene «realmente» la
6. Lectura crítica de estudios de diagnóstico 59
enfermedad o condición de estudio. Es importante que ambas pruebas se realicen simultáneamente,

pues cualquier lapso temporal entre ellas puede afectar a su resultado.
Tanto la prueba que se va a evaluar como la de referencia deben ser aplicadas a todos los pacientes
del estudio. El proceso de realización y evaluación de ambas pruebas, idealmente, debe ser ciego. Es
decir, ambas pruebas deben realizarse e interpretarse sin conocer el resultado de la otra, y de forma
independiente, es decir, la aplicación de la prueba de referencia no debe estar condicionada por los
resultados de la prueba evaluada. En ocasiones el patrón de referencia se compone de un conjunto de
varias pruebas, en este caso la prueba que se va a estudiar no debe ser parte de la prueba de referencia.
En algunas situaciones, la prueba de referencia puede resultar invasiva o costosa, y puede no ser
ético realizar la prueba de referencia a los pacientes con resultado negativo en la prueba que se va
a evaluar. Una alternativa es el seguimiento a los pacientes negativos durante un tiempo adecuado
y confirmar si eran realmente verdaderos negativos (VN).
Otro de los puntos clave que hay que tener en cuenta en la lectura crítica de un artículo sobre
evaluación de pruebas diagnósticas es el análisis de los resultados en ambas pruebas. Cuando el resul-
tado de las pruebas es de carácter dicotómico (positivo o negativo), se puede realizar una clasificación
cruzada de los resultados de ambas pruebas (la sometida a evaluación y la prueba de referencia) en
forma de una tabla cruzada 2 × 2. Cuando el resultado de la prueba son datos cuantitativos, la validez
diagnóstica se mide mediante la conocida curva ROC (receiver operating characteristic).
RESULTADOS DICOTÓMICOS DE LA PRUEBA QUE EVALUAR

A partir de la tabla cruzada, los resultados posibles son cuatro: la prueba ha dado un resultado posi-
tivo que ha sido confirmado por la prueba de referencia, con lo que se tratará de verdadero positivo
(VP). Si el resultado de la prueba es negativo y se confirma la ausencia de enfermedad, se trata de
un VN. Las situaciones en las que la prueba ha dado un resultado erróneo, es decir, un resultado
no verificado por la prueba de referencia, tendremos falsos positivos (FP) o falsos negativos (FN),
en función de si el resultado de la prueba fue positivo o negativo, respectivamente. En la tabla 6.1
se representa una tabla de clasificación cruzada, y la notación contenida en sus cuatro celdas ayuda
a explicar los cálculos de los índices de validez diagnóstica. Para medir el rendimiento diagnóstico
de una prueba se proponen distintas parejas de índices.
Sensibilidad y especificidad: son los índices más utilizados como índices de validez de las pruebas
diagnósticas. Ambos se interpretan fácilmente, tomando valores entre 0 (prueba no válida) y 1
(prueba completamente válida).
La sensibilidad se refiere a la proporción de un resultado positivo entre los sujetos realmente
enfermos:
a
Sens =
a+c
TABLA 6.1 ■ Clasificación cruzada 2 × 2

Prueba de referencia
Resultado Enfermedad presente Enfermedad ausente Total
Prueba que Positivo VP FP a+b

evaluar a b
Negativo FN VN c+d
c d
Total a+c b+d N
FN, falsos negativos; FP, falsos positivos; VN, verdaderos negativos; VP, verdaderos positivos.

La especificidad refleja la proporción de resultados negativos entre los sujetos que no tienen
la enfermedad:
d
Esp =
b+d
Cuando el objetivo es la detección de enfermedades graves y tratables, es necesaria una prueba
muy sensible. Las pruebas que se aplican para cribado de enfermedades, por ejemplo, deben ser
pruebas con alta sensibilidad. En cambio, con la especificidad se persigue la confirmación de los
sujetos no enfermos. Es preferible una prueba muy específica cuando la enfermedad es grave, pero
difícilmente tratable, y que un resultado falsamente positivo pueda tener una gran trascendencia,
por ejemplo, un falso diagnóstico de VIH o de cáncer.
En este sentido, se propone una regla nemotécnica que ayuda a valorar los resultados obtenidos
en la sensibilidad y especificidad: SNOUT recuerda que cuando una prueba diagnóstica tiene una
sensibilidad elevada (sensitivity), los resultados negativos ayudan a descartar el diagnóstico con
alta probabilidad (rule out). SPIN recuerda que si la prueba tiene alta especificidad (specificity), los
resultados positivos son muy indicativos para confirmar el diagnóstico (rule in).
Valores predictivos positivo y negativo: aunque los anteriores son los índices más recogidos en las
publicaciones científicas de evaluación de pruebas diagnósticas, no son índices útiles para la práctica,
pues, en realidad, cuando se solicita una prueba, no se conoce si el paciente está enfermo o no. Lo
que se quiere conocer es la probabilidad de estar enfermo a partir del resultado de la prueba. En este
contexto de práctica clínica, parece más útil hablar de valores predictivos, es decir, la probabilidad
de un diagnóstico cuando el resultado de la prueba es positivo o negativo.
El valor predictivo positivo se refiere a la proporción de enfermos entre todos los resultados
positivos de la prueba:
a
VP + =
a+b
El valor predictivo negativo obtiene la proporción de no enfermos entre todos los resultados
negativos de la prueba:
d
VP– =
c+d
Sin embargo, a pesar de su atractiva interpretación, no son unos índices adecuados para su uso como
evaluación del rendimiento diagnóstico de una prueba, pues están muy influidos por la prevalencia de
la condición que se está estudiando. Para una misma prueba diagnóstica, el aumento de la prevalencia
aumenta el valor predictivo positivo y disminuye el valor predictivo negativo, y viceversa. Esto explica
que una misma prueba se comporte de forma distinta según el ámbito en el que se aplique. Por tanto,
el valor predictivo está relacionado con la aplicabilidad de la prueba. La probabilidad de que un
paciente con prueba positiva esté realmente enfermo dependerá de la prevalencia de la enfermedad.
Haz la prueba.
En una población de 100.000 habitantes hay una prevalencia de la enfermedad X del 1%.
Tenemos una sensibilidad de la prueba diagnóstica del 90% y una especificidad del 90%.
El 1% de 100.000 habitantes son 1.000 pacientes. Habrá, por tanto, 1.000 enfermos y 99.000 sanos.
Si la sensibilidad de la prueba es del 90%, de los 1.000 pacientes enfermos diagnostica correc-
tamente a 900 (a). Si la especificidad de la prueba es del 90%, de los 99.000 sanos diagnostica
falsamente como enfermos a 9.900 (b).
Por tanto, de los pacientes diagnosticados como enfermos, 9.900 + 900 = 10.800 (a + b), solo
900 (a) son correctamente diagnosticados 900/10.800 (a/a + b), el 8,33%.
Si haces estos mismos pasos variando la prevalencia, observarás cómo se va a ir modificando
el porcentaje.
Cocientes de probabilidad positivo y negativo: también denominados razones de verosimilitud

o likelihood ratios (LR en la literatura inglesa). Son una pareja de índices menos populares que los
anteriores, pero más útiles para interpretar y utilizar el resultado de una prueba diagnóstica (3).
El cociente de probabilidad positivo (CP+) refleja cuánto más frecuente es obtener un resultado
positivo entre los enfermos que entre los no enfermos. Si la prueba fuera totalmente inútil para
diagnosticar una enfermedad (piénsese en una moneda tirada al aire), el resultado positivo (p. ej.,
obtener una cara) se obtendría con la misma frecuencia en los enfermos que en los no enfermos,
con lo que ese resultado positivo no aportaría ninguna información y el CP+ sería 1. Cuanto más
frecuente sea el resultado positivo en los enfermos con respecto a los no enfermos, más información
aporta ese resultado y, por tanto, mayor será el valor del CP+.
De la misma forma, el cociente de probabilidad negativo (CP–) representa cuánto más frecuente
es el resultado negativo entre los enfermos que entre los no enfermos. Si el resultado negativo (la
cruz de la moneda de nuestro ejemplo) se obtuviera con la misma frecuencia en los enfermos y en
los no enfermos, este resultado no contendría ninguna información (CP– igual a 1). Cuanto menos
frecuente sea el resultado negativo en los enfermos con respecto a los no enfermos, más información
aporta y menor será el valor del CP– (4).
Cociente de probabilidad positivo (CP+): cuánto más frecuente es obtener un resultado positivo
entre los enfermos que entre los no enfermos:
VP
sen
CP + = VP + FN =
FP 1 − esp
FP + VN
Cociente de probabilidad negativo (CP–): cuánto más frecuente es obtener un resultado negativo
entre los enfermos que entre los no enfermos:
FN
1 − sen
CP– = VP + FN =
VN esp
FP + VN
No te asustes con la fórmula; si lo piensas bien es muy fácil recordarla.
Si conocemos la sensibilidad de la prueba y su especificidad, solo tienes que hacer un sencillo
cálculo. Haz la prueba.
Tenemos una prueba diagnóstica con una sensibilidad del 95% y una especificidad del 90%. Si te
fijas bien en la fórmula anterior, el cociente de probabilidad positivo realmente es el cociente entre la
sensibilidad y el «error» de la especificidad (1 – esp); si la especificidad es del 90%, hay un 10% de «error»
en la especificidad, por tanto, nuestro ejemplo será 95/10 = 9,5. Para el cociente de probabilidad negativo
usaremos el «error» de la sensibilidad (1 – sen) y la especificidad, en nuestro ejemplo 5/90 = 0,055.
Antes de realizar una prueba diagnóstica, la probabilidad de padecer la enfermedad en el estudio,
denominada probabilidad a priori, coincide con la prevalencia para esa población de esa enfermedad
o condición. Utilizando el conocido teorema de Bayes, se puede utilizar el valor del CP (positivo
o negativo) del resultado de la prueba para actualizar la probabilidad a priori en probabilidad a
posteriori (posprueba).
Este cálculo puede obtenerse fácilmente gracias al nomograma desarrollado por Fagan en 1975
(5) (fig. 6.1). Trazando una línea de intersección entre la probabilidad a priori y el CP del resultado,
se obtiene una probabilidad posprueba.
RESULTADOS CUANTITATIVOS DE LA PRUEBA QUE EVALUAR

Si en lugar de un resultado dicotómico, la prueba que se va a evaluar proporciona resultados cuan-
titativos, la validez diagnóstica se obtiene mediante el área bajo la curva ROC (receiver operating
Figura 6.1 Nomograma de Fagan.
characteristic) (6). Partiremos del ejemplo de la medición de glucosa en sangre para el diagnóstico
de la diabetes. En la figura 6.2 las barras no sombreadas representan personas no diabéticas, y
las sombreadas, personas diabéticas. Vemos que hay solapamiento entre ambas curvas y que la
proporción de FN o FP depende del punto de corte (barra vertical de color negro) que se establezca
para diferenciar a los diabéticos de los no diabéticos.
La curva ROC representa la sensibilidad en función de los falsos positivos (complementario
de la especificidad) para distintos puntos de corte (fig. 6.3). Para evaluar la bondad de la prueba
se obtiene el área bajo la curva, que oscila entre 0,5 (prueba inútil) y 1 (prueba perfecta). Se puede
interpretar como la probabilidad de que, ante un par de individuos, uno enfermo (diabético) y
otro sano (no diabético), la prueba (glucosa basal en sangre) clasifique correctamente.
Otra de las aplicaciones de la curva ROC es la búsqueda de un punto de corte que permita discri-
minar entre enfermos y no enfermos. La búsqueda de este punto de corte puede realizarse atendiendo
a diversos métodos, que escapan a los objetivos de este capítulo. A modo de resumen, se pueden
agrupar entre aquellos que maximizan la sensibilidad, la especificidad, la suma o el producto de ambas.
Artículo
Fedchuk L, et al. Performance and limitations of steatosis biomarkers in patients with nonalcoholic
fatty liver disease. Aliment Pharmacol Ther 2014;40(10):1209-1222. Disponible en: https://doi.
org/10.1111/apt.12963.

Figura 6.2 Función de densidad de probabilidad (fdp) de la glucosa en sangre en personas sanas y diabéticas.
Dependiendo del punto de corte empleado, la proporción de FP (barras desde la flecha hacia la derecha) o FN
(barras desde la flecha hacia la izquierda) varía.
Figura 6.3 Curva ROC para la glucosa basal (mg/dl) en el diagnóstico de la diabetes.


A) ¿Son válidos los resultados del estudio?

Preguntas de eliminación
1. ¿Existió una comparación Sí ✓ No sé No
con una prueba de referencia Utilizan la biopsia como patrón de referencia.
adecuada?
PISTA: ¿es correcto el patrón de
oro? (no siempre se puede aplicar
el mismo patrón de oro a todos
los pacientes).
2. ¿Incluyó la muestra Sí ✓ No sé No
un espectro adecuado Los pacientes incluidos son biopsias realizadas de forma
de pacientes? consecutiva por sospecha clínica o ecográfica de NAFLD.
PISTAS: Hubiera sido mejor tener una cohorte prospectiva, pero aun
• ¿Están adecuadamente siendo retrospectiva, puede incluir un espectro adecuado de
descritos los pacientes y cómo pacientes. Otra cosa sería discutir cuántos pacientes se han
se seleccionaron? perdido por tener sospecha de NAFLD y no haberles realizado
• Casi cualquier prueba distingue biopsia.
entre sanos y gravemente
enfermos.
3. ¿Existe una adecuada Sí ✓ No sé No
descripción de la prueba? Se describe con detalle en el párrafo «Histological assessment».
PISTAS: El patólogo es único para todas las biopsias, ciego a los datos
• ¿Se define con claridad qué es clínicos y el sistema de clasificación está basado en un estándar.
un resultado positivo y qué Con respecto a los biomarcadores, detallan que las variables
es un resultado negativo? recogidas para calcularlos se tomaron en el mismo momento de
• ¿Se especifica la reproducibilidad la biopsia. También especifican las fórmulas empleadas para cada
de la prueba (este puede ser uno.
un punto clave en pruebas que
dependen del observador, como
las técnicas de imagen)?
Preguntas detalladas
4. ¿Hubo evaluación «ciega» Sí ✓ No sé No
de los resultados? Si bien no especifican nada con respecto a la evaluación ciega de
PISTA: ¿las personas que los resultados con respecto al gold standard, sí mencionan que el
interpretaron la prueba conocían patólogo es ciego a los resultados clínicos. Viendo las fórmulas
los resultados del patrón de oro para obtener los cinco biomarcadores, parece que se construyen
(y viceversa)? sobre datos objetivos, como el IMC, GGT, TG, etc.
5. ¿La decisión de realizar Sí ✓ No sé No
el patrón de oro fue Aparentemente sí, se realizaron todas las biopsias y de forma
independiente del resultado independiente se obtuvieron los valores de los cinco
de la prueba problema? biomarcadores a partir de sus respectivas fórmulas.
PISTAS: considera si:
• Se incluyeron preferentemente
los resultados positivos en la
prueba que se iba a evaluar.
• Se utilizaron diferentes patrones
de oro en los positivos y en los
negativos.
B) ¿Cuáles son los resultados?

6. ¿Se pueden calcular los Sí ✓ No sé No
cocientes de probabilidad Nos centraremos en el biomarcador NAFLD-LFS, puesto que
(likelihood ratios)? es el que nos presenta el escenario. Tiene un área bajo la curva
PISTAS: ROC de 0,80 (con un intervalo de confianza al 95% entre 0,69
• ¿Se han tenido en cuenta los y 0,88). Este valor del AUC ROC nos indica que la capacidad
pacientes con resultados «no para discriminar entre pacientes con esteatosis ≥ 5% es buena.
concluyentes»? Buscando el punto de corte óptimo del biomarcador (> 0,16),
• ¿Se pueden calcular los cocientes se obtienen unos valores de sensibilidad y especificidad del 65
de probabilidad para distintos y 87%, respectivamente. Vamos a realizar los cálculos:
niveles de la prueba, si procede? Como sabemos que el estudio parte de 324 pacientes, y que
los pacientes con esteatosis < 5% son 15 (fig. 1, gráfico del
biomarcador NAFLD-LFS), restando 324 – 15 = 309 pacientes
con esteatosis ≥ 5%. Al multiplicar 309 × 0,65 (valor de la
sensibilidad para el punto de corte > 0,16), obtenemos los 201
pacientes que tienen esteatosis ≥ 5% con un valor > 0,16 en
el biomarcador (verdaderos positivos). Restando 309 – 201,
obtenemos los 108 pacientes que presentan esteatosis ≥ 5% y
que tienen un valor de NAFLD-LFS ≤ 0,16 (falsos negativos).
De manera análoga procedemos con la columna de los pacientes
con esteatosis < 5%, obteniendo 13 pacientes sin esteatosis con
el biomarcador negativo (verdaderos negativos) y 2 pacientes
sin esteatosis con el biomarcador positivo (falsos positivos).
NAFLD-LFS Esteatosis ≥ 5% Esteatosis < 5% Total
> 0,16 201 2 203
≤ 0,16 108 13 121
Total 309 15 324
El cociente de probabilidad positivo (CP+) se calcula: 0,65 /
(1-0,87) = 5 y el cociente de probabilidad negativo (CP–):
(1-0,65) / 0,87= 0,40. Por tanto, concluimos que es 5 veces más
probable tener un valor > 0,16 en el biomarcador en un paciente
con ≥ 5% esteatosis que en uno sin esteatosis; y 0,40 veces más
probable encontrar un valor ≤ 0,16 del biomarcador en un
paciente con esteatosis ≥ 5% que en uno sin esteatosis.
Recuerda que un CP igual a 1 indica que el resultado de la prueba
no modifica la probabilidad de estar enfermo. Si es mayor que
1 aumenta esta probabilidad y, si es menor, la disminuye. Los
valores de CP > 10 (o bien < 0,1) indican que se trata de una

prueba muy potente que apoya (o contradice) fuertemente el
diagnóstico; de 5-10 (o de 0,1-0,2) indican poca potencia
de la prueba para apoyar (o descartar) el diagnóstico; de 2-5
(o de 0,2-0,5) indican que la aportación de la prueba es dudosa
y, por último, de 1-2 (o de 0,5-1) indican que la prueba no tiene
utilidad diagnóstica.
(Continúa)

7. ¿Cuál es la precisión Sí ✓ No sé No
de los resultados? Si no están publicados en el apartado de resultados del estudio,
PISTA: hay que buscar o calcular pueden obtenerse los intervalos de confianza al 95% para los CP
los intervalos de confianza en cualquier calculadora en línea. En este caso, el IC 95% para el
de los cocientes de probabilidad. CP+ es de (1,34-18) y para el CP– (0,31-0,52). Es muy amplio
en el caso del CP+ y más estrecho para el CP–.
C) ¿Son los resultados aplicables al escenario?
8. ¿Serán satisfactorias en Sí ✓ No sé No
el ámbito del escenario la Pablo cumpliría el perfil de paciente a los que se realizó la biopsia:
reproducibilidad de la prueba edad, IMC, síndrome metabólico, elevación de transaminasas.
y su interpretación?
PISTA: considera si el ámbito
de la prueba es demasiado
diferente al del escenario.
9. ¿Es aceptable la prueba Sí ✓ No sé No
en este caso? El cálculo de NAFLD-LFS es sencillo, de uso libre, incluye
PISTA: considera la parámetros de la historia clínica y analíticos rutinarios.
disponibilidad de la prueba,
los riesgos y las molestias
de la prueba y los costes.
10. ¿Modificarán los Sí ✓ No sé No
resultados de la prueba Si Pablo tuviese un resultado de NAFLD-LFS elevado, sería
la decisión sobre cómo necesario indicar la biopsia; si no fuese así, podría seguirse
actuar? en consulta de forma conservadora.
PISTAS:
• Desde la perspectiva del
escenario, si la actitud no va a
cambiar, la prueba es (al menos)
inútil.
• Considera el umbral de acción y
la probabilidad de enfermedad
antes y después de la prueba.
Bibliografía
1. Sackett DL, Haynes RB. The architecture of diagnostic research. BMJ 2002;324(7336):539-41.
2. Van den Bruel A, Cleemput I, Aertgeerts B, Ramaekers D, Buntinx F. The evaluation of diagnostic tests:
evidence on technical and diagnostic accuracy, impact on patient outcome and cost-effectiveness is needed.
J Clin Epidemiol 2007;60(11):1116-22.
3. Jaeschke R, Guyatt GH, Sackett DL. Users’ guides to the medical literature. III. How to use an article
about a diagnostic test. B. What are the results and will they help me in caring for my patients? The
Evidence-Based Medicine Working Group. JAMA 1994;271(9):703-7.
4. Abraira V. Índices de rendimiento de las pruebas diagnósticas. SEMERGEN 2008;28:193-4.
5. Fagan TJ. Letter: Nomogram for Bayes theorem. N Engl J Med 1975;293(5):257.
6. Hanley JA, McNeil BJ. The meaning and use of the area under a receiver operating characteristic (ROC)
curve. Radiology 1982;143(1):29-36.

Royuela A, Montes ML, Martín AJ. Lectura crítica de estudios de diagnóstico. En: Cabello Juan B, editor.
Lectura crítica de la evidencia clínica, 2.ª ed. Barcelona: Elsevier; 2022. p. 57-66.

C A P Í T U L O 7
de pronóstico. Estudios de cohortes
Víctor Abraira Santos ■ Alfonso Muriel García ■ M.ª Luisa Montes Ramírez
• Comprender los términos claves de un artículo sobre pronóstico, en particular

los de las categorías a y b de la clasificación mencionada en la introducción.
• Mejorar la capacidad de realizar la lectura crítica de un artículo sobre factores
pronósticos.
• Explicar por qué son tan importantes para justificar las decisiones sobre el manejo
del paciente.
Introducción
En medicina, el pronóstico se refiere a la estimación del riesgo de futuros acontecimientos en
personas con una enfermedad, o condición de salud determinada y su relación con determinadas
características actuales (1). Realizar apreciaciones pronósticas que informen al paciente y a su
entorno sobre la evolución más probable de la enfermedad y ayuden a la toma de decisiones sobre la
realización de las distintas intervenciones posibles es una de las funciones básicas de la medicina y de
los médicos. Las intervenciones terapéuticas se encaminan, precisamente, a modificar el pronóstico
espontáneo o historia natural de la enfermedad, transformándolo en un sentido positivo. Sin duda,
la primera preocupación de una persona enferma es conocer en qué medida la enfermedad puede
interferir en su expectativa de vida, por lo tanto, el estudio de la mortalidad y el tiempo que trans-
curre entre el comienzo de la enfermedad, o su diagnóstico y/o la instauración del tratamiento y la
muerte, o tiempo de supervivencia, constituyen la prioridad para cualquier estudio de pronóstico.
Pero también forman parte del mismo otras consecuencias de la enfermedad (remisión, recidiva,
complicaciones, secuelas, etc.) que interesan al paciente y forman parte del proceso de toma de
decisiones del médico.
Con muchos puntos en común con el pronóstico, está el problema de los factores de riesgo para
enfermar, en el que también se trata de estimar el riesgo de un acontecimiento futuro, aunque en
este caso el acontecimiento de interés es enfermar entre personas de la población general, o de un
cierto subgrupo de ella, en lugar de muerte o complicaciones en personas enfermas. Por lo tanto,
los estudios para estimar factores de riesgo y factores pronósticos tienen muchas similitudes, en
ambos casos el diseño óptimo es un estudio de cohortes, es decir, un estudio en el que se selecciona
un grupo de individuos, bien definido, representativo de la población de estudio, al que se sigue
durante un tiempo suficientemente prolongado para observar el evento de interés. Idealmente son
estudios prospectivos, aunque a veces son retrospectivos o mixtos. En ocasiones, en lugar de un
único grupo se seleccionan grupos con distintos niveles del factor, sobre todo en el estudio de los

factores de riesgo, debido a que se trata de predecir enfermedades, en general con baja probabilidad,
mientras que los factores pronósticos predicen eventos, en general de mayor probabilidad.
Hemingway et al. (1) propusieron la siguiente clasificación de los estudios de pronóstico en
cuatro categorías distintas, aunque interrelacionadas:
1. Investigación fundamental en pronóstico, en la que se trata de estudiar el curso natural, o con el
cuidado habitual, de la enfermedad y sus variaciones. El resultado de esta investigación se expresa
como riesgo (o frecuencia) absoluto de uno, o más eventos, entre las personas que comparten
características demográficas y clínicas; es, por lo tanto, el pronóstico promedio de un determinado
grupo de interés, también llamado riesgo basal. Esta investigación proporciona respuestas iniciales
a la pregunta «¿cuál es el pronóstico de las personas con una determinada enfermedad?». Por
ejemplo, en promedio, cerca del 15% de las personas de 65 años de edad o más ingresadas en
2006 en EE. UU. murieron con un ataque al corazón dentro de los 30 días siguientes al de su
ingreso en el hospital, en comparación con un promedio del 19% en 1995 (2).
2. Investigación en factores pronósticos, en la que se trata de identificar factores específicos (tales
como biomarcadores, fármacos, otras enfermedades, signos…) asociados con el pronóstico. El
resultado de esta investigación se puede expresar, bien como riesgo relativo de sufrir el evento de
los pacientes con un nivel del factor respecto al que se toma como referencia —p. ej., en pacientes
con linfoma esplénico de la zona marginal, los que presentan adenopatía extrahiliar tienen un
riesgo de muerte por la enfermedad 2,1 veces mayor que los que no la presentan (3)—, o bien en
términos absolutos mostrando los riesgos, o más frecuentemente las curvas de supervivencia, para
los pacientes con distintos valores del factor. En el mismo artículo sobre el linfoma se presentan
las curvas de supervivencia de los tres estratos creados con el índice propuesto por los autores.
3. Investigación sobre modelos pronósticos, que trata de desarrollar, validar y evaluar el impacto de
modelos estadísticos para predecir el riesgo individual de un futuro evento. Es importante
enfatizar la necesidad de validación y evaluación del impacto, porque, aunque se han propues-
to muchos modelos pronósticos, relativamente pocos son validados externamente y muy
pocos evalúan el impacto de su uso (4). El resultado de esta investigación se puede presentar
en forma de una fórmula, o gráfica (nomograma) (5), que permite calcular la probabilidad
futura del evento para un individuo en función de los valores observados de los factores, o
bien como una puntuación obtenida de la fórmula, con sus puntos de corte para generar
grupos de riesgo (6). El uso de los modelos pronósticos para hacer predicciones individuales
es más preciso, y en general preferible, a la creación de grupos de riesgo, aunque los grupos de
riesgo pueden informar para opciones de tratamiento y permitir la estratificación por riesgo
de gravedad en los ensayos clínicos (4). Este tipo de investigación es tratada en el capítulo
dedicado a reglas de predicción clínica.
4. Investigación sobre medicina estratificada. La medicina estratificada pretende seleccionar
tratamientos en función de características de los pacientes que predigan la respuesta. La
investigación en pronóstico es un componente principal de esta medicina (7).
Escenario
Carmen es una mujer de 60 años a la que se le acaba de diagnosticar un adenocarcinoma de
estómago en estadio T2 N0 M0. Su oncóloga le ha explicado que el primer paso del tratamiento
es la cirugía de resección del tumor y después es posible que se requiera quimioterapia adyuvante.
Carmen quiere saber con más exactitud si será preciso recibir quimioterapia adyuvante con todo
lo que ello conlleva, pues tiene un pequeño negocio familiar que lleva ella directamente y necesita
decidir qué hacer con él. La oncóloga le explica que esto depende de la verdadera extensión del
adenocarcinoma y que antes de la operación es muy difícil de determinar. Carmen insiste en saber si
no existen otros datos, en el TAC o los análisis, que puedan ayudar a predecir mejor su pronóstico;
necesita organizarse y tomar decisiones importantes sobre su situación laboral desde el principio sin

7. Lectura crítica de estudios de pronóstico. Estudios de cohortes 69
esperar a después de la cirugía. Su oncóloga le dice que va a revisar estudios recientes pues recuerda
haber leído algo sobre un marcador en sangre.
En una búsqueda en PubMed encuentra un artículo sobre el valor pronóstico del dímero-D en
pacientes con cáncer gástrico antes de la cirugía (8).
Liu L, Zhang X, Yan B, Gu Q, Zhang X, Jiao J, et al. Elevated Plasma D-Dimer Levels Correlate
with Long Term Survival of Gastric Cancer Patients. PLoS ONE 2014;9:e90547.
Tras hacer una lectura crítica lo comenta con Carmen, y dado que es una prueba sencilla y barata
deciden hacerla; el resultado es de 1,15 µg/ml.
■ ¿Crees que la determinación del dímero-D puede ayudar a predecir el pronóstico de los
pacientes con carcinoma gástrico?

■ En el caso de Carmen, ¿crees que es aplicable esta prueba?, ¿le puede ayudar a clarificar su
pronóstico y tomar las decisiones personales que necesita?

de factores pronósticos
EN EL DISEÑO
Como se ha dicho en la introducción, y señalando ahora en negrita los puntos clave para la evaluación
crítica de artículos de este tipo, el diseño óptimo para establecer factores pronósticos es un estudio de
cohortes, es decir, un estudio en el que se selecciona un grupo de pacientes bien definido, representa-
tivo de la población de estudio, en un momento homogéneo de la enfermedad, al que se sigue en el
tiempo para observar el evento o eventos de interés durante un tiempo suficientemente prolongado.
Que un grupo de pacientes esté bien definido y sea representativo de la población de interés
depende de la pregunta de investigación. Por ejemplo, para responder a la pregunta de si el uso de
antipsicóticos atípicos aumenta el riesgo (es factor pronóstico) de padecer fractura de cadera en
ancianos, se debe comparar la frecuencia de fracturas en un grupo de ancianos que toman antipsicóticos
atípicos, con la de otro grupo que no los toma; ahora bien, este grupo puede estar formado por ancianos
que no tomen antipsicóticos, o por ancianos que tomen otro tipo de antipsicóticos. Es representativo,
según el caso, un grupo de ancianos de la población general, o de ancianos con demencia (9). Debe
considerarse la proporción de personas elegibles que participan en el estudio, así como la descripción de
la población fuente, los criterios de inclusión y exclusión y el marco de muestreo y reclutamiento (10).
Otro elemento clave para la validez de estos estudios es que, en el comienzo del seguimiento,
los pacientes se encuentren en un momento homogéneo de la enfermedad. Es fácil de entender
que si, por ejemplo, se quieren estudiar factores pronósticos para pacientes infectados por el VIH,
daría lugar a errores (efecto cohorte) introducir en la cohorte pacientes naive (que no han recibido
ningún tratamiento antirretroviral) junto con pacientes multitratados.

El elemento clave más relevante de estos estudios, que condiciona todos los demás, es la elección
del evento. Como ya se ha mencionado, con frecuencia es la muerte, pero también hay otros eventos
de interés, como remisión, recidiva, rechazo del trasplante, aparición de la enfermedad, por ejem-
plo, en paciente con VIH, etc. El artículo debe tener una definición clara y precisa del evento, o
eventos, de interés (p. ej., si fuera muerte, especificar si es por todas las causas o por alguna causa
específica o, si fuera recidiva, cómo se determina, si clínica, radiológica o histológicamente). El
lector crítico debe considerar la pertinencia y relevancia de estas definiciones. Véanse por ejemplo
las definiciones de evento recomendadas por la agencia gubernamental norteamericana Food and
Drug Administration de EE. UU. (FDA) para tratamientos oncológicos (11). Otro elemento clave
en relación con el diseño del estudio es la forma en que se han recogido las variables; deberían
recogerse con procedimientos homogéneos y estandarizados (muy relevante en estudios retros-
pectivos y multicéntricos), sobre todo en aquellas que tengan elementos subjetivos (dolor, calidad de
vida, etc.), necesiten interpretación (pruebas de imagen) o tengan complejidades técnicas (pruebas

de laboratorio). Estos procedimientos deben garantizar la independencia (ceguera) entre los regis-
tros del evento y del factor.
El tiempo de seguimiento debe ser suficiente para que se pueda observar el número de eventos
necesario de acuerdo a la potencia estadística preestablecida. Esto depende, naturalmente, de la
naturaleza de la enfermedad y la frecuencia del evento estudiado. Por ejemplo, un período de segui-
miento de 5 años puede ser apropiado para el estudio de la supervivencia en muchas variedades de
cáncer, sin embargo, es un tiempo claramente insuficiente para valorar la supervivencia de enfermos
en tratamiento substitutivo por insuficiencia renal. Por el contrario, un seguimiento de 30 días es
adecuado para estudiar la supervivencia a un episodio agudo de tromboembolismo pulmonar. En
aquellos estudios que precisen un tiempo de seguimiento largo hay que prestar atención a la posible
pérdida de pacientes y sus causas, sobre todo a aquellas relacionadas con el evento o el factor, ya
que pueden introducir sesgos. Es deseable, para ayudar a evaluar su validez, que todo artículo de
pronóstico cuantifique las pérdidas en el seguimiento, describa las situaciones que las provocan
(abandono del estudio u ocurrencia de alguna otra circunstancia que impide la observación del
evento) y las características de los pacientes afectados (12).
EN LOS RESULTADOS
En cuanto a los resultados de estos estudios, como se dijo en el apartado «Introducción», se pueden
expresar de varias maneras: como riesgo (o frecuencia) absoluto de sufrir el evento en la población
de interés, mostrando la evolución del riesgo o la supervivencia (curvas de riesgo o supervivencia), o
como riesgo relativo de los pacientes de un nivel del factor respecto al que se toma como referencia.
Para estimar el riesgo absoluto se suelen usar dos índices: incidencia acumulada y densidad (o tasa)
de incidencia. La incidencia acumulada es la proporción de individuos que desarrollan el evento
durante el período de seguimiento. Como proporción no tiene dimensiones y su valor oscila entre
0 y 1, aunque también se suele expresar como porcentaje. Depende del tiempo de seguimiento, que
se debe hacer explícito. El resultado del ejemplo citado en el apartado «Introducción» (el 15% de
las personas de 65 años de edad o más ingresadas en 2006 en EE. UU. murieron con un ataque al
corazón dentro de los 30 días siguientes al de su ingreso) es una incidencia acumulada. La principal
limitación de este índice proviene del llamado efecto de cohorte fija: presenta cierta indeterminación
si hay pérdidas en el seguimiento. Para evitar esta limitación se puede usar otro índice, la densidad,
o tasa, de incidencia, que es el cociente entre el número de eventos ocurridos durante el período de
seguimiento y la suma de todos los tiempos de observación. Tiene dimensión de inversa del tiempo,
un rango ilimitado a partir de 0 y no depende del tiempo de seguimiento, asumiendo estacionariedad,
es decir, que el riesgo es constante a lo largo del tiempo. Esta asunción no siempre es razonable.
Sin embargo, en general, el resultado de interés no es la frecuencia de ocurrencia de los eventos sino
el tiempo hasta que ocurren. En este caso, los resultados se suelen expresar, generalmente en forma
gráfica, mediante la denominada función de supervivencia que da, para cada tiempo t, la probabilidad
de que el evento ocurra (el paciente sobreviva, si el evento es muerte) en un tiempo igual o mayor
que t. La figura 4 del artículo que se propone para la lectura (8) en el escenario muestra curvas de
supervivencia de pacientes con cáncer gástrico estatificados por diseminación peritoneal y valores del
dímero-D. La principal dificultad para estudiar el tiempo hasta la ocurrencia de un evento es que,
en general, al final del período de seguimiento siempre hay individuos en los que no se ha podido
observar el evento y, por lo tanto, en los que el tiempo hasta su ocurrencia es desconocido, si bien se
tiene una información parcial sobre él, es mayor o igual que el tiempo observado. A este fenómeno se
le denomina censura. La función de supervivencia se suele estimar por el método de Kaplan-Meier,
que tiene en cuenta la información contenida en las censuras, asumiendo, y es importante resaltarlo
porque es un punto crítico para la validez de la estimación, que las censuras son no informativas o,
dicho de otro modo, que los individuos censurados tienen el mismo riesgo de ocurrencia del evento
que los que siguen en observación más allá de ese tiempo. La importancia de esta asunción es tanto

mayor cuanto mayor sea el número de censuras. Nótese que esta asunción no es trivial y se violaría, por
ejemplo, si los pacientes que abandonan el estudio están más graves, o menos, que los que continúan o,
en otro ejemplo, si el evento fuera progresión de la enfermedad, la muerte sin progresión seguramente
no cumple con esa asunción. Aunque excede los objetivos de este texto profundizar en ello, hay que
distinguir entre censura (circunstancia que impide la observación del evento, pero se supone que este
ocurrirá en el futuro) y evento competitivo (circunstancia que impide que el evento ocurra) y conviene
señalar que, aunque relativamente poco usados, existen métodos para manejar la ocurrencia de eventos
competitivos (13,14). En el ejemplo anterior, la muerte sin progresión sería mejor considerarla un
evento competitivo que una censura. Un ejemplo de estos métodos puede verse en el reanálisis (15)
de un ensayo clínico sobre dos tipos de diálisis renal en el que se consideró el trasplante como evento
competitivo en lugar de censura como en el análisis original (16).
La otra forma de expresar el resultado de un estudio sobre factores pronósticos es mediante el
riesgo relativo, hazard ratio (HR), de los pacientes de un nivel del factor respecto al que se toma
como referencia. Es un cociente entre dos riesgos, por lo tanto, es igual a 1 si en ambos niveles del
factor los pacientes tuvieran el mismo riesgo, es decir, si el factor estudiado no fuera un factor de
riesgo, mayor que 1 si fuera factor de riesgo y menor que 1 si fuera factor de protección. El riesgo,
en estos análisis, se define como la probabilidad por unidad de tiempo (tasa instantánea de eventos)
de que un individuo que está en observación en el tiempo t, tenga el evento justo en ese tiempo,
condicionado a que el evento no ocurrió antes. Puede ser, y de hecho suele serlo, variable en el
tiempo. Sin embargo, el modelo de regresión de Cox, que es el método usado casi en exclusiva en la
investigación clínica (12) para estimar el riesgo relativo, asume que, aunque el riesgo pueda variar,
el riesgo relativo es constante. Esta asunción no siempre se cumple, no se cumpliría por ejemplo en
un estudio en el que al final del seguimiento a todos los pacientes les haya ocurrido el evento. Es
por lo tanto necesario evaluarla. Hay distintos procedimientos gráficos y estadísticos para hacerlo,
pero el más sencillo es la inspección visual de las curvas de supervivencia. Si se cumple la asunción
de riesgo relativo constante, las curvas se separan según avanza el tiempo; que las curvas converjan
o, en el caso extremo, se corten es un indicador de que la asunción no se cumple. En la figura 7.1
se muestran curvas que cumplen la asunción y en la figura 7.2 curvas que no la cumplen.
Figura 7.1 Curvas de supervivencia en las que se cumple la asunción de riesgo relativo constante, o riesgo
proporcional. Obsérvese cómo se separan según avanza el tiempo.

Figura 7.2 Curvas de supervivencia en las que no se cumple la asunción de riesgo relativo constante. Este
sería un caso extremo en el que las curvas llegan a cruzarse, por lo que, para tiempos menores del punto
en el que se cruzan (150 meses), el riesgo de evento para los pacientes sin ganglios (línea negra) es menor
(supervivencia mayor) que para los pacientes con ganglios (línea celeste); por lo tanto, el riesgo relativo es
menor que 1 y, sin embargo, para tiempos mayores que 150, la relación se invierte y el riesgo relativo es mayor
que 1, es decir, no es constante.
PRECISIÓN
Es importante destacar también que los índices citados en el apartado «En los resultados» se calculan a
partir de muestras, es decir, un subconjunto de los pacientes de interés en lugar de todos ellos, por tanto
presentan una imprecisión que se debe cuantificar por el intervalo de confianza (intervalo dentro del
cual se puede asegurar, con una probabilidad determinada, habitualmente el 95%, que se encontraría
el índice si se hubieran estudiado todos los pacientes, asumiendo que el estudio sea válido). En el caso
de las curvas de supervivencia, la anchura del intervalo de confianza aumenta según avanza el tiempo
como consecuencia de la disminución del número de pacientes. En algunos estudios, la anchura al
final del tiempo de seguimiento es tan grande, aunque con demasiada frecuencia no mostrada (12),
que se hace difícil la interpretación de la curva. Una de las razones por las que no siempre se muestran
los intervalos de confianza es que cuando se presentan varias curvas en la misma gráfica, esta podría
llegar a ser engorrosa si se mostraran. Un modo alternativo de presentar la precisión en estos casos
es incluir debajo del eje del tiempo el número de pacientes que permanecen en el estudio en cada
tiempo. Como ayuda a la interpretación de cómo afecta este número a la precisión, se puede usar la
recomendación de Pockoc et al. (17) de acortar la gráfica en el punto en el que queden menos del
20-10% de los pacientes que empezaron el estudio. Recomiendan tal restricción solo para la gráfica;
para el análisis se deberían incluir todos los pacientes. Es una recomendación generalmente no seguida
en los artículos, pero que puede ser útil en la lectura crítica. En la figura 7.3 se muestran dos curvas
con sus intervalos de confianza al 95% y se observa este aumento de la anchura del intervalo según
avanza el tiempo. También se presenta el número de pacientes que permanece en el estudio.
CONFUSIÓN E INTERACCIÓN
La mayor amenaza para el estudio de asociaciones entre variables mediante estudios observacionales
es la confusión. Existe confusión cuando la asociación entre dos variables difiere según que se con-

Figura 7.3 Curvas de supervivencia con sus intervalos de confianza al 95% (IC 95%), en los que se observa
el aumento de anchura según avanza el tiempo.
sidere, o no, otra variable. A esta última variable se la denomina variable de confusión. Para que una
variable sea de confusión debe estar asociada al factor y al evento, siendo causa común (o marcador),
no consecuencia, de ambos. Por ejemplo, en el estudio para la estratificación pronóstica de pacientes
con linfoma esplénico de la zona marginal (3), se encontró que los pacientes con concentración sérica
elevada de la lactato deshidrogenasa (LDH) tienen un riesgo de muerte por la enfermedad 3,38 veces
mayor que los que no la tienen. Sin embargo, como la supervivencia puede depender no solo de la
LDH, sino también de otras variables como la edad, o los niveles de otros componentes sanguíneos,
podría ocurrir que, si los pacientes con niveles altos de LDH fueran también diferentes respecto a esas
otras variables, esa estimación del riesgo relativo esté equivocada (confundida). En efecto, cuando se
consideran otras variables el riesgo relativo de la LDH cambia a 2,47. La manera más usada y sencilla
de controlar la confusión es, como se hizo en ese estudio, mediante modelos de regresión, en los que
se incluyen la variable de interés y las variables de confusión que se quieran considerar. Una medida
habitual para evaluar la confusión es comparar los efectos crudos (sin considerar otras variables) y
ajustados (considerándolas), diferencias mayores del 10% indican presencia de confusión. Hay que
resaltar que la confusión es un problema crucial cuando se estudian asociaciones causales, por ello el
diseño óptimo para evaluar el efecto de un tratamiento es el ensayo clínico, en el que la asignación
aleatoria del tratamiento a los pacientes trata justamente de evitar su asociación con cualquier otra
variable para impedir la confusión; y se han desarrollado complejos sistemas de análisis (18) para
controlar la confusión en los diseños observacionales de evaluación de efectos de los tratamientos. Sin
embargo, no es tan crítico en estudios de pronóstico, por ejemplo, cuando se encuentra que el estado
civil es un factor pronóstico para la supervivencia al cáncer de mama (19), probablemente no se ha
encontrado una asociación causal y hay algún factor, o varios (psicológicos, de comportamiento…),
distinto entre las mujeres casadas y no casadas que es el causante de la diferencia en mortalidad y
que, por lo tanto, sería un factor de confusión para esa asociación. A pesar de estar probablemente

confundida, la información pronóstica que ofrece ese hallazgo es útil tanto para informar a los
pacientes, como para generar ideas sobre los factores causales.
Otra dificultad que se puede presentar con los resultados de un estudio de pronóstico es la exis-
tencia de interacción o modificación del efecto. Existe interacción cuando la asociación entre dos
variables, en este caso factor y evento, varía según los diferentes niveles de otra u otras variables.
El análisis más sencillo de interacción se hace mediante el análisis de subgrupos creados según los
niveles de la variable modificadora de efecto, para ello hay que evaluar el efecto del factor en las dis-
tintas categorías de la variable modificadora de efecto, por ejemplo el efecto de la diabetes mellitus
(DM) sobre eventos cardiovasculares puede ser distinto si el paciente ha tenido, o no, enfermedad
cardiovascular previa (CVD), si fuera así, el efecto de la DM debería ser mostrado no como un
riesgo relativo, sino como dos: uno para los pacientes con CVD previa y otro para los pacientes
sin CVD previa (20). Se dice que hay interacción entre la DM y la CVD o que la CVD modifica
el efecto de la DM. Esta manera de analizarlo, muy utilizada en ensayos clínicos, presenta dos
dificultades: está restringida a variables modificadoras categóricas, es decir, no es posible realizarlo
para variables continuas y no contrasta estadísticamente si los efectos son distintos. Para evaluar
estadísticamente la interacción entre un factor y una variable modificadora del efecto se suelen usar
modelos de regresión en los que se incluyen como variables independientes el factor, la variable
modificadora y el producto de las dos anteriores; la significación obtenida para este producto con-
trasta estadísticamente la interacción entre el factor y la variable. Si existe interacción, el efecto del
factor no es único, sino que será distinto según los valores de la variable considerada, análogo a la
consideración realizada anteriormente en el caso de análisis de subgrupos. Si la interacción se realiza
con una variable continua el efecto será distinto según cada valor de la variable, una alternativa de
presentación podría ser mostrar el efecto del factor mediante un gráfico en el que en el eje de X se
muestre la variable modificadora y en el eje de ordenadas el efecto.
Utilidad del pronóstico

Como ya se ha señalado, el objetivo de la investigación en factores pronósticos es obtener informa-
ción que permita informar al paciente y a su entorno sobre la evolución más probable de la enfer-
medad y ayude a la toma de decisiones sobre la realización de las distintas intervenciones posibles;
también es útil para estratificar pacientes en los ensayos clínicos según su pronóstico inicial. Por
ello, y como también se ha señalado, no es tan crítico como en los estudios de tratamiento, obtener
estimadores exentos de confusión, aunque sí es conveniente controlar por factores pronósticos ya
conocidos. En el artículo citado sobre estado marital y cáncer de mama (19), el riesgo relativo que se
comunica está ajustado por factores demográficos, de tumor y de tratamiento, para asegurar que
su valor pronóstico se añade al de los otros factores.
Con las técnicas genéticas se están proponiendo una gran cantidad de nuevos marcadores
pronósticos, de los que conviene evaluar si añaden, y cuánto, valor pronóstico a los anteriores.
Además de la estimación ajustada por los factores conocidos, se han desarrollado técnicas específicas
para hacer esa evaluación. Una de ellas es el índice de mejoría neta de la reclasificación (NRI) (21),
propuesto para la situación en que a un modelo pronóstico existente se le añade una nueva variable,
pero que no hay inconveniente en aplicarlo a la comparación de dos modelos distintos, siempre
que se puedan aplicar los dos a los mismos pacientes. Sin entrar en demasiados detalles, el NRI
exige estimar las probabilidades de evento predichas por ambos modelos y clasificar con ellas a los
sujetos en categorías de riesgo. El NRI se define como la diferencia de las proporciones de sujetos
con evento que «suben» de categoría con el nuevo modelo (el nuevo modelo les asigna una categoría
de mayor riesgo que el viejo) y los que «bajan» (pasan a una categoría de menor riesgo con el nuevo
modelo), menos esa misma diferencia en los sujetos sin evento. Es decir, el NRI cuantifica lo que
mejora la clasificación para los eventos, descontando lo que empeora para los no eventos. Es por
tanto un índice muy intuitivo de la mejora que el nuevo marcador supone respecto al anterior.

Artículo
Liu L, Zhang X, Yan B, Gu Q, Zhang X, Jiao J, et al. Elevated Plasma D-Dimer Levels Correlate
with Long Term Survival of Gastric Cancer Patients. PLoS ONE 2014;9:e90547. Disponible en:
http://dx.plos.org/10.1371/journal.pone.0090547.

A) ¿Son válidos los resultados?

Preguntas «de eliminación»
1. ¿Fue una muestra Sí ✓ No sé No
representativa y bien definida Son 247 pacientes con cáncer gástrico probado patológicamente
de pacientes en un momento y sin terapia paliativa previa atendidas en un hospital de
similar en el curso de la Shanghái entre 2002 y 2004. La quimioterapia adyuvante fue
enfermedad? permitida si habían pasado más de 6 meses.
PISTAS: De ellos, 237 recibieron algún tratamiento quirúrgico (168
• ¿De qué ámbito son gastrectomía radical, 46 gastrectomía paliativa y 23 laparotomía
los pacientes: primaria exploratoria). Después de la cirugía 50 pacientes fueron
o especializada? confirmados como diseminación peritoneal.
• ¿En qué punto de su curso clínico
se incluyen en el estudio?
2. ¿Fue el seguimiento lo Sí ✓ No sé No
suficientemente prolongado Siguen a los pacientes mediante la historia del hospital,
y completo? el Registro de Cáncer de Shanghái o mediante contacto
PISTAS: con los familiares.
• El intervalo temporal entre un El tiempo fue definido como el intervalo entre la fecha de cirugía
factor pronóstico y un resultado y el último seguimiento o muerte debido a cáncer gástrico.
es variable y puede ser muy Los pacientes fueron observados hasta 31/12/2010.
largo. En resultados dicen que la mediana de seguimiento fue 37 meses
• ¿Se pierden pacientes? ¿Se (1-48).
investigan sus características?
¿Merece la pena continuar?
3. ¿Se utilizaron criterios Sí ✓ No sé No
objetivos y no sesgados Los niveles de dímero-D fueron obtenidos 2 días antes
para los resultados? de la cirugía con un método de ensayo de fluorescencia
PISTA: los resultados a veces son ligado a enzima.
objetivos (p. ej., muerte), otras Se consideran normales valores de dímero-D menores a 0,5.
no tanto (p. ej., calidad de vida). El evento principal es muerte relacionada con el cáncer gástrico.
¿Se valoraron de modo «ciego»? No evalúan el riesgo competitivo de muerte, lo definen como
censura.
Se considera más robusto utilizar muerte por cualquier causa.
El punto de corte óptimo, un valor de 1.465, fue calculado basado
en la curva ROC, no se dice qué método es utilizado para decir
qué es mejor (maximizar sensibilidad, especificidad, la suma…).
(Continúa)

4. ¿Se hizo un ajuste por Sí No sé No ✓

los factores pronósticos No dan detalle de qué variables analizaron.
importantes? Muestran en la tabla 5 el resultado de los factores pronósticos
PISTA: en muchos estudios de univariables, pero no nos dicen si otras variables fueron evaluadas.
pronóstico al grupo de pacientes El modelo final lo componen el estadio (T1, T2, T3, T4),
se le divide en subgrupos las metástasis de nodos linfáticos, el tamaño del tumor
de factores pronósticos (< o > 5 cm), la diseminación peritoneal y el dímero-D
(o tratamientos) sospechados. con el punto de corte de 1.465.
Si se hizo esto, ¿se controlaron Notar que todas las variables son significativas y que no hacen
por otros factores? mención a la posible existencia de interacción o confusión,
aunque en el texto dicen en la página 6 que el HR es 3,86
a comienzo de párrafo y después dicen 2,28, que coincide
con el HR del modelo multivariable.
5. ¿Cuál es la probabilidad Se presenta mediante curva de supervivencia por el método
del(los) evento(s) de Kaplan-Meier y nos dan la mediana de supervivencia.
en un período de tiempo En los pacientes con dímero-D bajos la mediana es 48,02 (43,8;
determinado? 52,3) vs. 22,9 (17,5; 28,4) en pacientes con dímero-D > 1.465.
PISTAS: En términos de HR es 2,28 (1,36; 3,81).
• La probabilidad varía
en el tiempo.
• ¿Se presentan «curvas
de supervivencia»?
• ¿Se presentan para los distintos
factores pronósticos?
6. ¿Cuán precisas son las (v. pregunta 5.)
estimaciones? Se debería añadir el intervalo de confianza de las curvas o individuos
PISTA: ¿se dan los intervalos en riesgo en los gráficos de la figura 4.
de confianza?
C) ¿Son los resultados aplicables en tu medio?
7. ¿Son los pacientes del Sí No sé ✓ No
estudio similares a los míos? Carmen es mujer (representan el 33%), con una edad media
PISTA: considera si: similar a la del estudio y con un estadiaje inicial de la
• Los pacientes del estudio pueden enfermedad bien representado entre los sujetos del estudio. Sin
ser suficientemente diferentes embargo, es importante destacar que el estudio está realizado
de los de tu área. en sujetos asiáticos y no se sabe bien si podría existir alguna
• Tu medio parece ser muy diferente variabilidad genética en la síntesis de dímero-D relacionada
al del estudio. con la raza.
8. ¿Conducen los resultados Sí ✓ No sé No
a seleccionar o a evitar Los autores sugieren que podría ser de gran ayuda para predecir
un tratamiento? la diseminación y la supervivencia a medio plazo. En el caso
de Carmen, si decidimos que el factor racial no supone una
enorme diferencia, podría ayudarle a contemplar un tratamiento
menos agresivo y con menos probabilidad de muerte a 4 años.
9. ¿Son útiles los resultados Sí ✓ No sé No
para tranquilizar o aconsejar En el caso de Carmen, aunque no determinante, permite predecir
a los pacientes? una probabilidad de supervivencia aproximada (a partir de la
gráfica, teniendo solo en cuenta el resultado de la prueba) a 1 año
del 90% y a 2 años del 70%, y esta información podría ayudar a Carmen
a decidir mejor sobre su futuro próximo y el de su negocio.

Bibliografía
1. Hemingway H, Croft P, Perel P, Hayden JA, Abrams K, Timmis A, et al. Prognosis research strategy
(PROGRESS) 1: A framework for researching clinical outcomes. BMJ 2013;346:e5595.
2. Krumholz HMM, Wang YP, Chen JM, Drye EEMS, Spertus JAM, Ross JSMM, et al. Reduction in
Acute Myocardial Infarction Mortality in the United States: Risk-Standardized Mortality Rates From
1995-2006. JAMA 2009;302:767-73.
3. Montalbán C, Abraira V, Arcaini L, Domingo-Domenech E, Guisado-Vasco P, Iannito E, et al. Risk
stratification for Splenic Marginal Zone Lymphoma based on haemoglobin concentration, platelet count,
high lactate dehydrogenase level and extrahilar lymphadenopathy: development and validation on 593
cases. Br J Haematol 2012;159:164-71.
4. Steyerberg EW, Moons KG, van der Windt DA, Hayden JA, Perel P, Schroter S, et al. Prognosis Research
Strategy (PROGRESS) 3: Prognostic model research. PLoS Med 2013;10:e1001381.
5. Semeraro F, Parrinello G, Cancarini A, Pasquini L, Zarra E, Cimino A, et al. Predicting the risk of diabetic
retinopathy in type 2 diabetic patients. J Diabetes Complications 2011;25:292-7.
6. Chen H, Bai M, Qi X, Liu L, He C, Yin Z, et al. Child-Na score: a predictive model for survival in
cirrhotic patients with symptomatic portal hypertension treated with TIPS. PLoS ONE 2013;8:e79637.
7. Hingorani AD, Windt DA, Riley RD, Abrams K, Moons KG, Steyerberg EW, et al. Prognosis research
strategy (PROGRESS) 4: Stratified medicine research. BMJ 2013;346:e5793.
8. Liu L, Zhang X, Yan B, Gu Q, Zhang X, Jiao J, et al. Elevated Plasma D-Dimer Levels Correlate with
Long Term Survival of Gastric Cancer Patients. PLoS ONE 2014;9:e90547.
9. Paula AR, Jerry HG, Kathy S, Muhammad M, David LS, Susan G, et al. Reader’s guide to critical appraisal
of cohort studies: 1. Role and design. BMJ 2005;330:895-7.
10. Hayden J, van der Windt D, Cartwright J, Côté P, Bombardier C. Assessing Bias in Studies of Prognostic
Factors. Ann Intern Med 2013;158:280-6.
11. U. S. Department of Health and Human Services Food and Drug Administration. Guidance for Industry.
Clinical Trail Endpoints for the Approval of Cancer Drugs and Biologics. Disponible en: http://www.fda.
gov/downloads/drugsGuidanceComplianceRegulatoyInformation/Guidance/UCM071590.pdf. 2007.
12. Abraira V, Muriel A, Emparanza JI, Pijoán JI, Royuela A, Plana MN, et al. Reporting quality of survival
analyses in medical journals still needs improvement. A minimal requirements proposal. J Clin Epidemiol
2013;66:1340-6.
13. Gooley TA, Leisenring W, Crowley J, Storer BE. Estimation of failure probabilities in the presence of
competing risks: new representations of old estimators. Stat Med 1999;18:695-706.
14. Fine JP, Gray RJ. A Proportional Hazards Model for the Subdistribution of a Competing Risk. J Am Stat
Assoc 1999;94:496-509.
15. Maduell F, Moreso F, Mora-Macià J, Pons M, Ramos R, Carreras J, et al. Reanálisis del estudio ESHOL:
mortalidad por todas las causas considerando riesgos de competición y tiempo-dependientes para trasplante
renal. Nefrología 2016;36:89-216.
16. Maduell F, Moreso F, Pons M, Ramos R, Mora-Macià J, Carreras J, et al. High-Efficiency Postdilution Online
Hemodiafiltration Reduces All-Cause Mortality in Hemodialysis Patients. J Am Soc Nephrol 2013;24:487.
17. Pocock SJ, Clayton TC, Altman DG. Survival plots of time-to-event outcomes in clinical trials: good
practice and pitfalls. Lancet 2002;359:1686-9.

18. Muriel A, Hernández D, Abraira V. Modelos estructurales marginales: una herramienta útil que propor-
ciona evidencia a los estudios observacionales. Nefrología 2011;2(Supl Ext):7-13.
19. Aizer AA, Chen MH, McCarthy EP, Mendu ML, Koo S, Wilhite TJ, et al. Marital status and survival
in patients with cancer. J Clin Oncol 2013;31:3869-76.
20. Becker A, Bos Gt, de Vegt F, Kostense PJ, Dekker JM, Nijpels G, et al. Cardiovascular events in type 2
diabetes: comparison with nondiabetic individuals without and with prior cardiovascular disease: 10-year
follow-up of the Hoorn Study. Eur Heart J 2003;24:1406-13.
21. Pencina MJ, D’Agostino RB, Steyerberg EW. Extensions of net reclassification improvement calculations
to measure usefulness of new biomarkers. Stat Med 2011;30:11-21.

Abraira V, Muriel A, Montes M. Lectura crítica de estudios de pronóstico. Estudios de cohortes. En: Cabello
Juan B, editor. Lectura crítica de la evidencia clínica, 2.ª ed. Barcelona: Elsevier; 2022. p. 67-77.

C A P Í T U L O 8
Lectura crítica de estudios de reglas
de predicción clínica
José Ignacio Emparanza Knörr ■ Alfonso Muriel García
• Describir los términos claves de un artículo de regla de predicción clínica.

• Mostrar las claves de un diseño adecuado: cómo se deriva una regla de predicción
y cómo se valida.
• Valorar las reglas de predicción antes de la aplicación a un paciente.
• Explicar por qué son tan importantes para justificar las decisiones sobre el manejo
del paciente.
Introducción
Una regla de predicción clínica (RPC) (1,2) es un modelo o ecuación matemática que combina
diferente información clínica (al menos dos variables predictoras) para predecir la presencia de
una enfermedad o circunstancia o para pronosticar un desenlace futuro en un grupo heterogéneo
de pacientes. Distinguimos así, por su objetivo, entre RPC diagnósticas (p. ej., regla de Ottawa
para fractura de tobillo) y pronósticas (p. ej., score Apache). En cualquier caso, el interés en las
RPC radica en su potencial, mediante una predicción certera, para asistir al clínico en la toma de
decisiones que concierne a un paciente concreto.
Hay autores que prefieren la denominación de Reglas de Decisión Clínica y otros que consi-
deran sinónimos los dos términos. Emplearemos preferentemente RPC porque expresan cuál es
la probabilidad de que un paciente padezca una determinada enfermedad o vaya a desarrollar un
evento dado, pero no necesariamente recomiendan una decisión específica.
Las RPC son más necesarias en aquellas áreas donde existe incertidumbre que es relevante en
términos de salud de los pacientes (probabilidad de una enfermedad grave, probabilidad de que
responda a un tratamiento o sufra efectos adversos, probabilidad de que fallezca, etc.) o en términos
de utilización de recursos sanitarios (intervenciones sanitarias que no ofrecen valor).
Esquemáticamente, el desarrollo de una RPC comprende cuatro fases:
1. Extraer información de un conjunto de pacientes con sospecha (o riesgo) de padecer una
enfermedad (o de sufrir un evento).
2. Seleccionar entre toda la información (variables) recogida aquella que se asocia con el
desenlace (diagnóstico o pronóstico) de interés.
3. Ponderar la contribución de cada variable seleccionada al riesgo o probabilidad del desenlace
en el paciente.
4. Aplicar la RPC creada en los tres pasos anteriores a un nuevo grupo de pacientes para evaluar
el rendimiento en la predicción de los eventos.
Los pasos 1 a 3 constituyen la derivación de la RPC, y el paso 4, la validación de la misma.

8. Lectura crítica de estudios de reglas de predicción clínica 79
Escenario
Estando de guardia en la Unidad de Cuidados Intensivos de tu hospital, acude Pedro por deposi-
ciones oscuras y vómitos con sangre.
Pedro es un varón de 68, diagnosticado de cirrosis hace unos años.
Tras la exploración y la realización de pruebas complementarias, objetivas unas varices esofágicas
con un sangrado moderado y las siguientes cifras en la analítica: urea de 48 mg/dl (8 µmol/l), bili-
rrubina de 0,5 mg/dl (8,5 mmol/l), International Normalized Ratio (INR) de 2, glucosa de 120,
creatinina de 1,2 (106 mmol/l), lactato de 17,1 mg/dl (1,9 mmol/l) y un pH de 7.4.
El gradiente A/a es de 200 la Paco2 (kPA) de 5 y un MELD de 25.
La familia te expresa su preocupación por el pronóstico a corto plazo del paciente dada la
situación familiar que tienen.
Para dar respuesta a la familia realizas una búsqueda y encuentras el siguiente artículo.
Theocharidou E, Pieri G, Mohammad AO, Cheung M, Cholongitas E, Agarwal B, et al. The Royal
Free Hospital score: a calibrated prognostic model for patients with cirrhosis admitted to intensive care
unit. Comparison with current models and CLIF-SOFA score. Am J Gastroenterol 2014;109(4):554-562.
Te preguntas:
■ El Royal Free Hospital (RFH) Score, ¿es un buen predictor de la mortalidad en pacientes
cirróticos que ingresan en la Unidad de Cuidados Intensivos?

■ ¿Aplicarás el Royal Free Hospital Score a Pedro para dar una respuesta a sus familiares?
Derivación de una regla de predicción clínica

TIPO DE DISEÑO
El mejor diseño de estudio (3) para desarrollar una RPC depende del objetivo que esta persiga.
Para RPC de tipo diagnóstico optaríamos por un estudio transversal, mientras que, si se trata de
una RPC de tipo pronóstico, un estudio longitudinal de cohortes prospectivo, en el que las pérdidas
fueran mínimas, sería el diseño idóneo.
En analogía con la evaluación de las pruebas diagnósticas, para desarrollar una regla de pre-
dicción clínica diagnóstica, el diseño de estudio más adecuado es un estudio transversal en el que
reclutamos, de manera no sesgada, una serie de sujetos (representativos de la población de interés)
susceptibles de tener la enfermedad en los que evaluamos las variables que forman parte de la regla
de predicción y la prueba de referencia de forma simultánea. Como la simultaneidad es difícil de
cumplir, es necesario garantizar que el tiempo entre la evaluación de las variables sea el mínimo
para que la condición del sujeto no cambie (no mejore/no empeore).
Preferimos un estudio de cohortes prospectivo con inclusión de pacientes consecutivos frente a
uno retrospectivo. La inclusión consecutiva de pacientes permite que todo el espectro de pacientes
esté representado en el estudio. En una cohorte prospectiva, en contraste con una cohorte retros-
pectiva, la identificación de pacientes que se van a incluir se hace con mayor rigor porque la recogida
de variables predictoras puede ser más exacta y precisa y porque la medición del desenlace puede
ser también más fiable. Sin embargo, hay que reconocer que la mayoría de las RPC pronósticas se
realizan mediante estudios de cohorte retrospectivos y unicéntricos. A menudo se basan en registros
de datos. Por supuesto que la recogida de información es prospectiva en los registros, pero lo es con
un propósito distinto al de desarrollar una RPC, por lo que la información disponible en los regis-
tros puede no ser la óptima. Otro diseño posible son los casos-controles anidados, que es un diseño
muy eficiente, y particularmente atractivo cuando el desenlace de interés es muy poco frecuente.
TAMAÑO MUESTRAL
El tamaño muestral necesario para construir una RPC es difícil de determinar habida cuenta de la
naturaleza multivariable de la RPC. Existe una regla empírica que dice que son necesarios tantos
individuos como número de variables se quieren incorporar en la RPC multiplicado por 10, en la
categoría de desenlace de menor tamaño. Así, si el desenlace ocurre en una minoría de la cohorte
(digamos 10%), y queremos incluir 7 variables predictoras, necesitaremos al menos 70 individuos con
el desenlace para estimar con suficiente poder estadístico los coeficientes del modelo: 70 individuos
con el desenlace y 630 sin él, para una cohorte total de al menos 700 individuos.
Otras propuestas incorporan para el cálculo del tamaño muestral en un modelo predictivo asun-
ciones sobre la proporción estimada de eventos en la población, el número de variables predictoras
candidatas a formar parte de la regla y el rendimiento previsto del modelo en términos de ajuste,
por ejemplo, la R2 coeficiente de determinación del modelo) (4).
Las técnicas modernas de modelización de machine learning exigen tamaños muestrales mayores
que las tradicionales (por ejemplo, modelo logístico), incluso 10 veces mayores para alcanzar la
estabilidad de la predicción y no producir inflación de las predicciones (5).
El tamaño muestral necesario para la validación externa de una RPC es un tema que pocas
veces se toma en consideración, pero en los últimos años se ha sugerido que la validación externa
requiere un mínimo de 100, e idealmente 200 eventos, para poder concluir con una estimación
razonable del rendimiento de la RPC (6).
VARIABLES PREDICTORAS
Las variables (predictoras) que forman parte de una RPC pueden ser de diversa índole:
■ Demográficas (edad, sexo…).
■ De anamnesis (historia personal, síntomas, comorbilidades…).
■ De exploración física (signos…).
■ De exámenes complementarios (bioquímica, microbiología, pruebas funcionales…).
■ De pruebas de imagen.
Las variables se recogen sin conocer el desenlace en los estudios pronósticos puesto que el
desenlace es futuro. Sin embargo, en los estudios de RPC diagnósticas, las variables predictoras
son contemporáneas del desenlace, que en este caso es la enfermedad. En este caso es deseable que
se recojan las variables predictoras sin conocer el verdadero estado del paciente (con enfermedad o
sin ella). De este modo la evaluación de una variable no estará influenciada de manera consciente o
inconsciente por el conocimiento del verdadero estado del paciente. Además, cuando las variables
predictoras estén sujetas a variabilidad por parte del observador (evaluaciones subjetivas), deberá
medirse la variabilidad intra- e interobservador, por ejemplo, mediante el índice Kappa de Cohen.
Desde el punto de vista estadístico, las variables predictoras pueden ser dicotómicas, categóricas
o continuas. Es una práctica común el transformar las variables predictoras continuas en variables
categóricas o incluso en dicotómicas y las categóricas en dicotómicas. Ello permite al desarrollador de
una RPC obviar la comprobación de diferentes asunciones estadísticas entre la variable y el desenlace.
Otra ventaja es la de la simplicidad: se simplifican las tareas estadísticas necesarias, ya que el análisis de
una variable dicotómica es mucho más fácil que el de una categórica y se simplifica la interpretación de
los resultados. Y sin embargo la pérdida de información es, en muchos casos, sustantiva. En particular, la
«dicotomización» de una variable continua puede tener consecuencias indeseables para la construcción
de una RPC. Y, ¿cómo decidimos en qué punto de la variable continua damos un corte, establecemos
el límite para codificar como «bajo» o «alto» el valor de esa variable en un individuo? Dependiendo
de dónde establezcamos ese punto de corte tendremos una diferente contribución de la variable en la
RPC. Algunos métodos comúnmente empleados incluyen: dicotomizar empleando el valor mediana,
usar el valor que mayor poder discriminatorio muestra en la curva ROC (ello exige realizar múltiples
comparaciones), el valor que ofrece un mayor índice de Youden (sensibilidad más especificidad), etc.
Incluso el empleo del valor mediana como punto de corte, preferible a los que exigen múltiples
pruebas de hipótesis, conlleva una pérdida de poder estadístico:
■ Si la variable predictora continua se distribuye según una distribución normal, la dicotomi-
zación empleando el valor mediana hace perder un 35% del poder estadístico.
■ Si se distribuye exponencialmente, la dicotomización en la mediana conlleva una pérdida de
poder delDescargado
50%. para Anonymous User (n/a) en National Autonomous University of Mexico de
La búsqueda del punto de corte se hace siempre mediante procedimientos estadísticos univarian-
tes que no son corregidos para las múltiples pruebas de hipótesis que se realizan hasta encontrar el
punto «óptimo». Se ha demostrado empíricamente (7) que la dicotomización aumenta el riesgo de
que un resultado positivo sea un falso positivo. La consideración de solo dos grupos en una variable
predictora oculta la hipotética relación no lineal entre ella y la variable desenlace.
La recomendación, por lo tanto, es que no se deben dicotomizar variables predictoras categóricas
ni continuas. El uso de múltiples categorías (4 o 5) es siempre preferible a la dicotomización, pero
es aún mejor no categorizar las variables continuas.
Si la regla de predicción clínica va a ser implementada en una aplicación informática, la utili-
zación de variables continuas no es un obstáculo, incluso se debería probar la posible existencia de
términos no lineales, dado que en biología la relación entre la variable y el desenlace frecuentemente
no es lineal; por ejemplo, la relación que hay entre presión arterial (o IMC) y muerte es a menudo
en forma de J (tan perjudiciales son valores altos de IMC como bajos).
VARIABLES DESENLACE
La elección del desenlace es muy importante. En estudios diagnósticos debe definirse claramente cuál es
la enfermedad o condición y cuál será el método para evaluar su presencia. Nos referimos habitualmente
como patrón de referencia o patrón oro a aquel método que permite establecer con certeza la presencia
o no de una enfermedad o condición. El problema, en la práctica, puede ser la ausencia de tal patrón
oro, y la elección de un método subóptimo para el diagnóstico del verdadero estado del paciente.
En los estudios pronósticos necesitamos definir explícitamente el desenlace de interés. A veces,
debido a la dificultad logística o económica de medir el desenlace de interés prioritario para el
paciente, se recurre a la medición de desenlaces intermedios sin interés para el paciente, argumen-
tando que un desenlace intermedio (o subrogado) es una medida que se asocia o que incluso es un
paso intermedio en el desarrollo del desenlace de interés. El grado de asociación nunca es perfecto,
por lo que el desarrollo de una RPC pronóstica empleando desenlaces intermedios está sujeto a un
riesgo de sesgo que puede invalidar el estudio.
La variable desenlace, al igual que las variables predictoras, puede ser binaria (dicotómica),
categórica (ordenadas o no), continua o el tiempo en el que el evento se produce (datos de supervi-
vencia). La cantidad de información que aportan difiere, siendo máxima para las variables continuas
y mínima para las binarias. El tipo de variable desenlace condiciona también los modelos estadísticos
a emplear en la construcción de la RPC. El tipo de variable desenlace más frecuente es la variable
binaria o dicotómica (8). Además, como se ha señalado en el capítulo dedicado a pronóstico, es
posible que existan desenlaces competitivos que impidan medir el desenlace de interés.
MÉTODOS ESTADÍSTICOS
Hay dos grandes categorías de análisis estadísticos tradicionales para desarrollar una RPC: modelos
de regresión y modelos de clasificación. Existe además un conjunto de técnicas modernas para
obtener una RPC que englobamos bajo el concepto de machine learning. ML utiliza diferentes
técnicas estadísticas de regresión (Lineal, Logística, Ridge, Lasso, GLM…) y de clasificación
(K-nearest neighbor, SVM, Random forest…) o un uso recursivo de las mismas (redes neuronales)
para obtener un algoritmo o ecuación predictiva (9). Los más habituales son los modelos tradicionales
de regresión, que dependiendo del tipo de variable desenlace se pueden clasificar en: modelos de regresión
lineal múltiple si el desenlace es una variable continua, modelos de regresión logística múltiple si el desenlace
es una variable binaria o dicotómica y modelos de regresión de Cox multivariantes si el desenlace es
la variable tiempo a un evento. Otros métodos para desenlaces dicotómicos son modelos bayesianos
multivariables incorporando dependencias entre variables predictoras y árboles de clasificación y
regresión.
En el caso más habitual de desenlaces dicotómicos, y por lo tanto modelos de regresión logística,
desde el punto de vista estadístico hay que tener en cuenta (10-12):
■ Que el tamaño muestral se ajuste a la regla de 10 casos por predictor en el subgrupo menor
de desenlace.
■ Que se deben incluir inicialmente en el modelo logístico aquellas variables predictoras que
muestran una significación (valor p) menor a 0,25-0,30 en el análisis univariable y aquellas
con sentido clínico.
■ Que la reducción del número de variables del modelo debe hacerse con sentido estadístico
(y clínico a ser posible) mediante un procedimiento explícito.

■ Que habitualmente los coeficientes obtenidos en el modelo de regresión se redondean al
entero más próximo tras dividir su valor entre el menor coeficiente de todas las variables que
componen el modelo logístico final.
■ Que esos coeficientes componen un modelo aditivo (o sumatorio) que llamamos RPC.
■ Que el rendimiento (poder de discriminación) de la RPC puede mostrarse mediante una
curva ROC y cálculo (por estimación puntual y por intervalo de confianza al 95%) del área
bajo la curva ROC (AUC).
■ Que hay que describir claramente el método utilizado para determinar el punto de corte
óptimo y valores de sensibilidad y especificidad (puntuales y por IC al 95%).

Una característica deseable de los estudios de RPC es que ofrezcan un análisis de la bondad de
calibración del modelo, es decir, que la probabilidad predicha por el modelo se aproxime al valor
de probabilidad observado.
Una forma de presentación de reglas de predicción clínica (13) muy clara, que no precisa de
medios informáticos y que puede evitar la necesidad de dicotomizar las variables predictoras es el
nomograma, que permite utilizar variables continuas y categóricas y obtener la probabilidad de un
evento sin necesidad de realizar cálculos complejos.
Validación de una regla de predicción clínica

TIPOS DE VALIDACIÓN
La idea de validar una regla de predicción clínica (RPC) diagnóstica o pronóstica quiere decir dis-
cernir si funciona satisfactoriamente en un grupo de pacientes diferentes al grupo de pacientes que
sirvió para derivarla o construirla. Nos estamos refiriendo a un concepto clínico frente al concepto
estadístico de validación del modelo en términos de bondad de ajuste (datos iniciales) y predicciones
insesgadas (nuevo conjunto de datos).
Distinguimos entre validación interna y externa.
Por validación interna entendemos probar y obtener los valores de rendimiento (discriminación
y calibración) en el conjunto de datos que ha servido para desarrollar nuestro modelo (14). Algunos
métodos de validación interna son: validación aparente en el mismo conjunto de pacientes, split-
sample segregando el archivo de datos en dos subgrupos, validación cruzada (similar a la anterior,
pero en un proceso iterativo) y bootstrap.
Por validación externa nos referimos a la —para nosotros— auténtica validación que nos
permite evaluar la generalizabilidad de la RPC. Para ello se obtiene un grupo de pacientes diferente
al que sirvió para derivar la RPC y se evalúa el rendimiento de la misma. Distinguimos entre
validación estrecha si el grupo de pacientes de validación tiene el mismo origen que el grupo de
derivación, a veces llamada también validación temporal externa, y validación amplia si el grupo
de validación procede de otro entorno diferente, también llamada validación geográfica, idealmente
realizada por otros investigadores (validación completa e independiente).
MÉTODOS ESTADÍSTICOS
La validación debe presentar los resultados de rendimiento en cuanto a discriminación y calibración
en el nuevo grupo de pacientes. Ello nos dará una idea clara del verdadero valor clínico de la RPC.
Tendremos en cuenta:
■ Que el rendimiento (poder de discriminación) de la RPC debe mostrarse mediante una curva
ROC. Si el área bajo curva (AUC) o estadístico c es menor o igual a 0,70, la RPC carece de
valor clínico.
■ Hay que esperar que los datos de rendimiento sean menores que en la validación interna.
■ Si han establecido un punto de corte óptimo, deben proporcionar sensibilidad y especificidad
para esos puntos de corte, la tabla 2 × 2 o los datos necesarios para obtenerla.
■ Deben ofrecer la estimación puntual y por intervalo de confianza al 95% del AUC.
■ Una gráfica de calibración debe también ser mostrada: probabilidades predichas frente a
probabilidades observadas (o reales).
Artículo
Theocharidou E, Pieri G, Mohammad AO, Cheung M, Cholongitas E, Agarwal B, et al. The
Royal Free Hospital score: a calibrated prognostic model for patients with cirrhosis admitted to
intensive care unit. Comparison with current models and CLIF-SOFA score. Am J Gastroenterol
2014;109(4):554-562. Disponible en: https://pubmed.ncbi.nlm.nih.gov/24492755/.


Preguntas de «eliminación»
1. ¿Está la regla bien Sí ✓ No sé No
definida? Pacientes (p. 555) con cirrosis que ingresan consecutivamente en una
PISTAS: UCI entre 1989 y 2012 en un hospital terciario de referencia para
• ¿Se define claramente enfermedades hepáticas y trasplante hepático en el Reino Unido. El
el tipo de pacientes a los motivo específico de ingreso está descrito en la tabla 2. No conocemos
que se aplica la regla? la procedencia de los pacientes. Tampoco se detalla la evolución previa.
• ¿Están adecuadamente Las causas de la cirrosis están descritas, pero habría que valorar si son
descritas las variables similares a las de nuestro entorno.
predictoras? Definen cirrosis por hipertensión portal, estudios por imagen del hígado
• ¿El desenlace y biopsia del hígado (si existe).
(outcome) es relevante La admisión en UCI fue dividida en cuatro períodos: 89-96, 97-04,
y tiene sentido clínico? 05-08, 09-12. Parece que el manejo de la enfermedad es diferente
(El desenlace se puede entre estos cuatro períodos de tiempo, si bien no dan información
expresar como una al respecto ni del porqué de la división en estos cuatro períodos.
probabilidad o un curso La edad, el sexo, la etiología de la enfermedad, la indicación de la
de acción.) admisión en UCI, la estancia en UCI y la mortalidad intrahospitalaria
fue medida en todos los pacientes. Además, se recogieron parámetros

bioquímicos, hematológicos y respiratorios, amén de todas las variables
necesarias para calcular el APACHE-II y el resto de scores pronósticos
empleados. Sin embargo, solo nos muestran en la tabla 4 las variables
que muestran asociación estadística con la mortalidad, por lo que no
disponemos de un listado exhaustivo de todas las variables estudiadas.
La gravedad de la enfermedad hepática fue realizada mediante las escalas
de Child-Pugh, MELD y MELD Na usando parámetros del día de
admisión. Señalan que el APACHE II y el SOFA son los dos scores con
mejor capacidad pronóstica en pacientes que ingresan en UCI con cirrosis.
Los outcomes elegidos son muy relevantes: mortalidad hospitalaria (y no
solo mortalidad en UCI) justificando que hay pacientes que fallecen
después del alta en la UCI porque los tratamientos más agresivos
fueron retirados debido a causas de futilidad o de baja probabilidad de
recuperación. En este sentido, sería deseable que nos dijeran a cuántos
días del ingreso se produjo la muerte.
Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de (Continúa)
2. ¿La población Sí ✓ No sé No
a estudio de la que Se trata de pacientes consecutivos, por lo que entendemos que no hubo
se derivó la regla exclusiones, pero reclutados en un centro especializado de referencia
incluyó un espectro en enfermedades hepáticas y trasplante hepático.
adecuado Probablemente estamos tratando con una muestra de pacientes cirróticos
de pacientes? muy evolucionados o de mayor severidad de la que habitualmente
PISTAS: encontramos en nuestros hospitales.
• ¿Es adecuado el método No está claro si ingresan también los pacientes trasplantados. Por otra
de selección de pacientes? parte, los clínicos de este centro a buen seguro tienen más experiencia
• ¿Está adecuadamente y más medios que centros no especializados.
representado el espectro de
pacientes en los que tiene
sentido aplicar la regla?
3. ¿Se validó la regla Sí ✓ No sé No
en un grupo diferente Sí, pero…
de pacientes? Generan el modelo (o RPC) en un grupo de pacientes, aproximadamente
PISTAS: el 75% del total, y lo validan en el 25% restante.
• No basta con que La distribución de los 635 pacientes consecutivos al grupo de derivación
la regla «funcione» o de validación se hizo al azar empleando números aleatorios,
en la población a partir tratando de que los cuatro períodos de tiempo estuvieran igualmente
de la cual se ha derivado. representados en los dos grupos.
• ¿La validación se Este tipo de validación, llamada validación interna, no es la validación
realizó en pacientes más sólida que se puede ofrecer.
parecidos o distintos? Es preferible una validación externa amplia, o mejor aún, varias
validaciones externas. Serían estudios de validación llevados a cabo
en diferentes localizaciones geográficas y diferente marco temporal.
Preguntas de «matiz»
4. ¿Hubo una Sí No sé No ✓
evaluación ciega No, pero…
del desenlace y de las Siendo la variable desenlace la muerte, parece que la falta
variables predictoras? de una evaluación ciega tiene poco o ningún impacto.
PISTAS: La evaluación de las otras variables de laboratorio podemos asumir que
• ¿Las personas que son ciegas. Las variables que forman parte del modelo final son todas
valoraban el resultado de laboratorio (recogidas antes de que ocurra el desenlace) excepto
conocían los datos sangrado por varices como motivo de admisión en UCI.
clínicos?
• ¿Las personas que
medían las variables
predictoras conocían
el desenlace?
5. ¿Se midieron las Sí ✓ No sé No
variables predictoras Parece que sí…
y el desenlace en Es difícil saber si todos los pacientes tenían las determinaciones, dado
todos los pacientes? el período de inclusión tan largo. Sin embargo, no dicen que se pierda
PISTAS: ningún paciente ni que hayan imputado datos ausentes.
• ¿Están bien descritas Es curioso que pongan el n.o de días en UCI como característica basal.
las exclusiones?
• A veces el desenlace no
se puede medir de la
misma forma en todos
los pacientes.

6. ¿Se describen Sí ✓ No sé No
los métodos La regla la crean mediante un modelo de regresión logística múltiple
de derivación y con estrategia hacia atrás.
validación de la regla? La capacidad de discriminación se evalúa mediante el área bajo la curva
PISTAS: ROC.
¿Se incluyen las La calibración, mediante la χ2 de la prueba de Hosmer-Lemeshow.
variables importantes Los autores declaran que usan los coeficientes del modelo de regresión
y los criterios directamente, sin redondeo. Habría que notar que la regla obliga
de positividad? a hacer los cálculos con calculadora. Es más frecuente el redondeo
¿Se describe el método para que la regla se aplique más fácilmente.
estadístico empleado? Por otra parte, no ofrecen ninguna tabla con los coeficientes.
¿Se describe la El criterio de positividad (o punto de corte) se calcula mediante
reproducibilidad la puntuación del índice de Youden (suma de sensibilidad más
de las medidas? especificidad menos 1), que es lo mismo que elegir aquel valor
que maximiza la sensibilidad más especificidad.
Ello supone que los autores adoptan una postura ecléctica, dando igual
importancia al hecho de no predecir las muertes que ocurren
que al predecir falsamente muertes que no ocurren.
Esta postura ecléctica, basada en la cantidad de información sin tener en
cuenta el coste de los errores por exceso o por defecto, debe ser objeto
de una reflexión serena.
A veces no queremos elegir el valor de una RPC que ofrece mayor
cantidad de información, sino aquel valor que minimiza los errores
en uno o en otro sentido.
Por ejemplo, si lo que pretendemos al desarrollar, validar y, finalmente,
aplicar una RPC es descartar la presencia de una enfermedad (RPC
de propósito diagnóstico) o de un desenlace (RPC de propósito
predictivo), elegiremos un valor que maximice la sensibilidad
a un coste razonable de pérdida de especificidad, por supuesto.
7. ¿Se puede calcular Desenlace + Desenlace –
el rendimiento Regla + 71 – a 31 – b
de la RPC? Regla – 12 – c 44 – d
PISTA: los resultados • Sensibilidad = a/(a + c).
pueden presentarse • Especificidad = d/(b + d).
como: S, Esp, LR+, • LR+ = sens/(1 – esp).
LR-, Curva ROC, • LR– = (1 – sens)/esp.
Curvas de calibración, Nos fijamos en los valores de la validación, no de la derivación.
etc. La formulación de la regla RFH está en la pág. 557, columna derecha.

No dan los valores de la tabla 2 × 2 que mostramos aquí, pero se pueden
derivar a partir de la información que dan: 25% de 635 es el grupo
validación, con S y E que se muestran en la tabla 6, pág. 561. Sin embargo,
los cálculos no coinciden exactamente con los rendimientos declarados.
En la tabla 6 se aprecia que la regla RFH alcanza la máxima sensibilidad
y la menor especificidad de todas las evaluadas utilizando el punto
de corte «óptimo» (v. punto 6). Exactitud clasificatoria, 76,7% (p. 558,
columna izquierda).
En la tabla 5 se aprecia también que la RFH es la de mayor AUC
(0,797), aunque no ofrecen los IC de ninguna de las RPC.
Respecto a la calibración, ofrecen el valor del estadístico χ2 y el valor p
correspondiente, pero no han hecho ninguna curva de calibración.
Además de la validación interna, sería deseable que se realizara
una validación externa de la RPC.
(Continúa)
8. ¿Cuál es la precisión No ofrecen los intervalos de confianza de ningún estimador, aunque

de los resultados? a partir de la tabla 2 × 2 se puede obtener una aproximación.
PISTAS: En el grupo de validación, de 158 individuos y suponiendo que la
• Es el momento para mortalidad sea la misma que en el conjunto de los 635 pacientes
reflexionar sobre el (52,3%), habría 83 fallecidos.
tamaño de la muestra En el grupo de derivación, de 477 individuos, habría 249-250 fallecidos, con
y el número de variables lo que podríamos estimar sin problemas un modelo con 25 predictores
de la RPC. (regla de 10 eventos por variable predictora).
• ¿Es suficientemente Sería deseable que los autores mostraran los parámetros del modelo
robusta? Explicar si se para poder contestar directamente a esta pregunta.
intentó refinar.
C) ¿Son los resultados aplicables al escenario?
9. ¿Serán satisfactorios en Desearíamos ver una validación externa amplia antes de tomar ninguna
el ámbito del escenario decisión clínica basada en esta regla.
la reproducibilidad La reproducibilidad de la RPC no parece que suponga un problema en
de la RPC y su este caso, dado el carácter objetivo de las variables predictoras (todas
interpretación? menos una son determinaciones de laboratorio).
PISTA: considera si el El problema puede surgir de los criterios de selección de los pacientes
ámbito de estudio es en este estudio (criterios de evolución, de derivación…), que pueden
demasiado diferente ser bien distintos de los pacientes habituales en nuestros centros.
al del escenario.
10. ¿Es aceptable la Se trata de una regla fácil de calcular, aunque aún lo sería más si hubieran
prueba en este caso? procedido al redondeo de los coeficientes.
PISTAS: Por otra parte, las variables predictoras incluidas tienen mucho sentido
• Considera la facilidad clínico y son de uso cotidiano en este tipo de pacientes. Se refieren al
de uso, la disponibilidad estado de hipertensión portal, al estado funcional del hígado, al estado
de la RPC y los costes. renal y a la función respiratoria.
• Considera si la RPC
tiene sentido clínico.
11. ¿Modificarán los Se trata de una RPC nueva, sin validación externa y sin conocer
resultados de la por lo tanto el verdadero impacto que su aplicación pueda tener.
prueba la decisión En cualquier caso, se trata de pacientes cirróticos ingresados en la UCI,
sobre cómo actuar no para cirróticos en términos generales.
(o la información A nuestro juicio, la RPC goza de una aparente calidad dadas las variables
para el paciente)? incluidas y podría ayudar, si su rendimiento se confirmara mediante
PISTAS: una validación externa, a tomar decisiones más ajustadas al devenir
• Al margen de tu opinión, de estos pacientes.
puede haber estudios que
exploren el impacto de la
RPC (dinero, resultados
en salud, etc.).
• Desde la perspectiva del
escenario, si la actitud no
va a cambiar la RPC es
(al menos) inútil.
• Considera cómo cambia
tu estimación inicial
tras aplicar la RPC
y cómo afecta esto al
umbral de acción.

Bibliografía
1. Phillips B. Clinical Decision Rules: how to built them. Arch Dis Child Educ Pract Ed 2010;95:83-7.
2. Phillips B. Clinical Decision Rules: how to use them. Arch Dis Child Educ Pract Ed 2010;95:88-92.
3. Mann CJ. Observational research methods. Research design II: cohort, cross sectional, and case-control
studies. Emerg Med J 2003;20:54-60.
4. Riley RD, Ensor J, Snell KIE, et al. Calculating the sample size required for developing a clinical prediction
model. BMJ 2020;368:m441.
5. Van der Ploeg T, Austin PC, Steyerberg EW. Modern modelling techniques are data hungry: a simulation
study for predicting dichotomous endpoints. BMC 2014;14:137-50.
6. Collins GS, Ogundimu EO, Altman DG. Sample size considerations for the external validation of a
multivariable prognostic model: a resampling study. Stat Med 2016;35:214-26.
7. Royston P, Altman DG, Sauerbrei W. Dichotomizing continuous predictors in multiple regression: a bad
idea1. Stat Med 2006;25:127-41.
8. Siontis GC, Tzoulaki I, Ioannidis JP. Predicting death: an empirical evaluation of predictive tools for
mortality. Arch Intern Med 2011;171:1721-6.
9. Christodoulou E, Ma J, Collins GS, Steyerberg EW, Verbakel JY, Van Calster B. A systematic review
shows no performance benefit of machine learning over logistic regression for clinical prediction models.
J Clin Epidemiol 2019;110:12-22.
10. Harrell FE, Lee KL, Califf RM, Pryor DB, Rosati RA. Regression modelling strategies for improved
prognostic prediction. Stat Med 1984;3:143-52.
11. Harrell FE, Lee KL, Matchar DB, Reichert TA. Regression models for prognostic prediction: advantages,
problems, and suggested solutions. Cancer Treat Rep 1985;69:1071-7.
12. Harrell FE, Lee KL, Pollock BG. Regression models in clinical studies: determining relationships between
predictors and response. J Natl Cancer Inst 1988;80:1198-202.
13. Adams ST, Leveson SH. Clinical prediction rules. BMJ 2012;344:d8312.
14. Harrell FE, Lee KL, Mark DB. Multivariable prognostic models: issues in developing models, evaluating
assumptions and adequacy, and measuring and reducing errors. Stat Med 1996;15:361-87.

Emparanza JI, Muriel A. Lectura crítica de estudios de reglas de predicción clínica. En: Cabello Juan B, editor.

C A P Í T U L O 9
Lectura crítica de artículos cualitativos
M.ª Teresa González Gil ■ Alejandra Cano Arana
• Describir la pregunta de investigación planteada en el contexto de la metodología

cualitativa (pregunta clínica de experiencia o de significado).
• Recoger los diferentes tipos de abordajes, métodos o marcos teórico-metodológicos,
e identificar su congruencia con la pregunta de investigación.
• Reflexionar sobre la descripción del ámbito de estudio y de la población de estudio
en términos de transferibilidad de resultados.
• Tratar las características del muestreo cualitativo, enunciar los diferentes tipos
de muestreos y conocer las diferentes estrategias para confirmar la adecuación
del tamaño muestral.
• Valorar las técnicas para la recogida de datos cualitativos justificando su adecuación
en relación con la pregunta de investigación y las características del proceso de análisis
de datos cualitativos.
Introducción
En este capítulo nos centraremos en orientar a la lectura crítica de evidencia cualitativa durante
el proceso de búsqueda de respuestas a preguntas clínicas de experiencia o significado: ¿cuál es
el significado que nuestros pacientes/usuarios atribuyen a su experiencia de salud-enfermedad?,
¿cuál es su vivencia y cuáles son sus respuestas humanas ante dicho problema (actual o potencial)
de salud? (1).
Nos situamos así bajo el paraguas del paradigma constructivista, reconociendo que la realidad
de los procesos de salud-enfermedad no es única, sino que existen múltiples interpretaciones, tantas
como vivencias y experiencias subjetivas en torno a dicha realidad haya. Desde esta premisa, la única
forma posible de conocer en profundidad los problemas y las necesidades de nuestros pacientes/
usuarios es a través de su subjetividad, es decir, a través de sus discursos y sus narrativas en relación
con dicha experiencia (2).
Es, en este escenario, donde la metodología de la investigación cualitativa se ofrece como la
herramienta apropiada para dar respuesta a nuestras preguntas. La investigación cualitativa está
orientada al entendimiento de la complejidad de la realidad humana a través de un proceso inter-
subjetivo, esto es: la indagación sobre las experiencias de las personas desde su propia subjetividad
al mismo tiempo que desde la propia subjetividad del investigador (entendido este último como
herramienta de investigación) (3,4).
A la hora de leer críticamente un artículo original cualitativo, es necesario tener presentes algunas
de las características básicas de la investigación cualitativa (5):
■ La investigación cualitativa es humanista: trata de llegar al conocimiento y la comprensión
de las realidades de las personas.

9. Lectura crítica de artículos cualitativos 89
■ El investigador debe adoptar una perspectiva holística: no reduce a los participantes a varia-
bles, sino que los entiende como un todo de dimensiones interconectadas.
■ La investigación cualitativa es inductiva: comienza con interrogantes o preguntas muy
generales que se van reformulando y matizando según avanza el trabajo de campo y se va
conociendo en mayor profundidad el objeto de estudio.
■ La investigación cualitativa es naturalista y adopta una perspectiva «emic»: se desarrolla en
el contexto donde se da el fenómeno de estudio y se orienta desde la mirada de las personas
que participan de dicho fenómeno.
■ La investigación cualitativa es dinámica y flexible: Se centra en el proceso de investigación y
en las necesidades del campo, lo que implica una constante actitud de reflexividad (para tomar
decisiones metodológicas justificadas) y de creatividad (para responder a estas necesidades
de forma apropiada).
■ La investigación cualitativa da valor a lo cualitativo y presenta descripciones densas: Rescata
los significados dando valor a las metáforas y a la capacidad simbólica del ser humano para
interpretar la realidad y adaptarse a ella.
■ El investigador es sensible a los efectos que él mismo causa sobre el fenómeno de estudio:
es conocedor de sus prenociones, experiencias, creencias, predisposiciones y prejuicios y
reflexiona sobre cómo estas pueden influir en el proceso de investigación velando por la
máxima neutralidad.
Escenario
En el contexto del Programa de Envejecimiento Activo y Saludable, el Centro de Mayores de
nuestra zona básica de salud nos ha solicitado colaboración en una serie de talleres y actividades
centradas en la mejora de la calidad de vida y prevención de la dependencia para mayores de 65
años. En concreto, proponen que participemos en la planificación y el desarrollo de talleres de
carácter psicoeducativo para trabajar el fomento de la vida autónoma y el desarrollo personal. De
cara a priorizar los contenidos que se van a abordar, hemos realizado una búsqueda bibliográfica
en busca de evidencia que dé cuenta del proceso de adaptación de los mayores a las limitaciones
sobrevenidas por el envejecimiento y las estrategias que desarrollan para mantener una vida activa e
independiente en sus propios domicilios. Resultado de la consulta a las principales bases de datos
en ciencias de la salud obtenemos, entre otros, el siguiente artículo que procedemos a leer crítica
mente.
Hatcher D, Chang E, Schmied V, Garrido S. Holding momentum: a grounded theory study
of strategies for sustaining living at home in older persons. Int J Qual Stud Health Well-being
2019;14(1):1658333.
Después de haberlo leído, responde a estas cuestiones:

■ ¿Responde el artículo a tus necesidades de conocimiento?
■ ¿Crees que los resultados del estudio se pueden tener en cuenta para tomar decisiones?
■ ¿Podrías extrapolarlos a tu medio?

cualitativos
PREGUNTA CUALITATIVA Y OBJETIVOS DE INDAGACIÓN
Las preguntas acerca de la vivencia, la experiencia, la opinión, la percepción, el conocimiento, la
perspectiva y el proceso de salud-enfermedad de las personas se traducen en objetivos del tipo
explorar, conocer, profundizar, comprender, interpretar, conocer e indagar (6,7).
En tanto que la investigación cualitativa se caracteriza por ser un proceso dinámico y flexible, las
preguntas y objetivos de investigación también lo son, de modo que los objetivos de investigación

serán exploratorios en un inicio para, a posteriori, surgir nuevos objetivos de un talante más des-
criptivo o explicativo. Así exploraremos fenómenos poco o nada conocidos, identificando elementos
básicos para su comprensión y entendimiento; documentaremos y describiremos fenómenos para
orientar en su abordaje; o trataremos de explicar las pautas, conductas, acciones, atribuciones, etc.,
relacionadas con el fenómeno en cuestión e identificar patrones relacionales que den significado
al fenómeno (7).
DIFERENTES ABORDAJES CUALITATIVOS SEGÚN EL TIPO

DE PREGUNTA DE INVESTIGACIÓN
Los distintos métodos cualitativos hacen referencia a las diferentes aproximaciones con las que nos
podemos acercar a nuestro fenómeno de estudio. El método, la orientación o el abordaje que
sigamos habrá de estar intrínsecamente relacionado con nuestras preguntas de investigación, es
decir, ser conceptualmente congruente con la misma. Por otra parte, el método va a condicionar
el uso de una serie de herramientas metodológicas que serán las más propicias para «construir» las
respuestas a nuestras preguntas de investigación (congruencia metodológica).
En este sentido, al hablar de métodos cualitativos, resulta útil hacer referencia a ellos a través
de la siguiente terminología: «orientaciones teórico-metodológicas». ¿Por qué? Porque cada uno
de ellos se construye basándose en una serie de propuestas o marcos teóricos para, posteriormente,
hacer una serie de recomendaciones metodológicas (8).
Los métodos más utilizados en la investigación cualitativa en el ámbito de la salud (en con-
gruencia con las preguntas de investigación que emergen de este contexto disciplinar) son: etno-
grafía, fenomenología y teoría fundamentada (tabla 9.1).
La etnografía se gesta en el contexto de la disciplina antropológica, cuyo principal interés es
comprender las realidades humanas desde la perspectiva de la cultura (entendiendo cultura como
aquel conjunto de creencias, valores, costumbres, hábitos, normas, formas de hacer e interpretar la
realidad que el individuo adquiere y de los que participa por el hecho de formar parte de un grupo).
En este sentido, la etnografía como método de investigación trata de dar respuesta a preguntas
que tengan relación con los aspectos socioculturales y cómo estos aspectos condicionan la inter-
pretación y la gestión de un determinado proceso de salud: ¿qué es esto?, ¿qué está ocurriendo?
La recogida de datos se hace, de manera principal, a través de la observación participante en busca
de descripciones y explicaciones densas sobre aspectos culturales que condicionan la experien
cia (8-10).
La fenomenología es un método que encuentra sus orígenes teóricos en la corriente filosófica
del mismo nombre cuyos inicios manan del trabajo de Husserl y, más tarde, de Heidegger. La
principal propuesta de la fenomenología gira en torno al concepto de life word, y la idea de que la
existencia está basada en la experiencia vivida (entendiendo la experiencia como la percepción e
interpretación individual que cada persona le da a su estar y participar del mundo en un momento,
espacio y contexto relacional determinado). Así, la fenomenología es un método apropiado
para dar respuesta a aquellas preguntas de investigación centradas en las interpretaciones y los
significados que las personas le dan a una determinada experiencia dentro del proceso de salud-
enfermedad. Su objetivo último es acceder a la esencia de los fenómenos. El investigador se
hace preguntas del tipo: ¿a qué se parece o cómo es vivir cierta experiencia? La principal fuente
de información válida y fiable es la persona que ha vivido de primera mano el fenómeno que
se estudia, siendo la entrevista en profundidad la principal técnica de recogida de datos. Los
resultados de los estudios fenomenológicos dan cuenta de la esencia de la experiencia, siendo de
carácter descriptivo y presentándose en forma narrativa o como temas con subtemas o bloques temáti
cos (8,11).
Por último, la teoría fundamentada es una propuesta metodológica que surge como tal en el
contexto del trabajo de campo de la mano de Glaser y Strauss (12). Sus referentes teóricos provienen
del interaccionismo simbólico, corriente sociológica cuyos principales supuestos plantean que la

TABLA 9.1 ■ Congruencia entre pregunta de investigación, método, procedimientos de trabajo de campo y hallazgos cualitativos
Pregunta Preguntas Técnicas
general de específicas Objetivo Objetivos Población de estudio de recogida Estrategias

investigación de investigación general específicos Método y muestreo de datos de análisis Resultados

¿Cuáles son los Identificar Etnografía Actores Observación Proceso de Se identifican

significados, creencias, Contextos de participante codificación categorías que
las creencias, valores, interacción Entrevistas en basado en hacen referencia
los valores, los patrones de profundidad una primera a los diferentes
patrones de comportamiento Grupos de aproximación elementos culturales
comportamiento en torno al discusión más que condicionan
en torno al fenómeno X Técnicas descriptiva la vivencia de
fenómeno X? documentales y una un fenómeno X
segunda fase (creencias, valores,
interpretativa rituales, etc.)
¿Cuál es la esencia Identificar la Fenomenología Informantes Entrevistas en Análisis Se identifican temas

¿Cuál es la
del significado del esencia de vivir Criterios de profundidad temático y subtemas que
experiencia
fenómeno X? el fenómeno X inclusión Técnicas según las describen la esencia
de un
experienciales narrativas propuestas de la experiencia
determinado
Muestreo Técnicas de diferentes Vivir el fenómeno X es
grupo de Explorar la
intencional biográficas autores: vivir…
personas/ experiencia
Tamaño de Colaizzi,
colectivo/ de…
la muestra Giorgi,
población
según la Benner, etc.
en torno al
saturación
fenómeno
¿Cómo es el Identificar las Teoría de los datos Actores/ Entrevistas en Codificación Se identifica un
X?
proceso de vivir fases que fundamentada informantes profundidad. abierta proceso social
a través del definen el (Interaccionismo Contextos de Observación Codificación básico con sus
fenómeno X? proceso de vivir Simbólico) interacción participante axial diferentes fases
a través del Especial Grupos de Codificación o acciones que se
fenómeno X énfasis en discusión selectiva desarrollan a lo largo
Identificar la el muestreo Técnicas Comparación de dicho proceso
dinámica teórico narrativas constante Representación gráfica
del proceso Técnicas Memorandos del proceso
y los recursos documentales reflexivos
para su
afrontamiento
realidad es interpretada basándose en símbolos construidos, que estos símbolos los construimos en
constante interacción con aquello y aquellos que nos rodean, y que los símbolos son dinámicos y
evolucionan-cambian en función del contexto en el que nos encontramos. Esta noción de dinamis-
mo y de cambio es la que caracteriza principalmente a este método, que resulta especialmente útil
cuando nos planteamos preguntas en las que está presente la noción de proceso: ¿cuáles son las
fases de un determinado proceso de salud y enfermedad desde la perspectiva de las personas que
viven dicha experiencia?, ¿qué estrategias de adaptación para ir avanzando a lo largo del proceso
se gestionan? (13,14). Es un abordaje abierto a múltiples procedimientos de obtención de datos.
Los resultados, por su parte, tienen una importante naturaleza interpretativa y se presentan como
categorías y subcategorías interrelacionadas bajo una categoría principal, que representa de forma
condensada el proceso social o proceso psicosocial sometido a estudio (8).
ESTRATEGIA DE MUESTREO
Cuando hablamos de población de estudio, hacemos referencia al total conglomerado de casos
que cumplen unos criterios de inclusión específicos. Así, los criterios de inclusión son aquellas
características que delimitan la población de estudio sobre la que nos planteamos una determinada
pregunta de investigación. En el caso de la investigación cualitativa, estos criterios se centran,
mayoritariamente, en que las personas hayan vivenciado un determinado fenómeno, aquel sobre
el que queremos explorar (15).
Sin embargo, a la hora de realizar el trabajo de campo, trabajar con el total conglomerado que
constituye la población de estudio es inviable, de modo que hemos de seleccionar una muestra con
la que trabajar para luego, basándonos en los resultados o hallazgos a los que hayamos llegado,
poder transferir los resultados.
En el caso de la investigación cualitativa, la muestra, sin embargo, no debe dar respuesta, como
en investigación cuantitativa, al criterio de representatividad para con la población de estudio, sino
que, más bien, se busca el criterio de significación. Es decir, no importa tanto que las características
de la muestra sean o no representativas de la población en general, sino que la información que
sean capaces de aportar o que hayan aportado de cara al conocimiento del fenómeno de estudio
sea rica en significado.
Teniendo esto último en cuenta, debemos matizar el término «transferir», diciendo que, efectiva-
mente, en investigación cualitativa no se puede hablar de «generalización» de los hallazgos en tanto
que la muestra sea representativa de la población total, sino de «transferencia de los resultados»,
siendo siempre muy críticos con las características de la muestra de estudio y el ámbito donde
se desarrolla el estudio en comparación con el ámbito asistencial y con la población con la que
trabajamos y con la que queremos hacer uso de la evidencia generada.
Si lo que se prioriza es la riqueza informativa que aporta la muestra para el conocimiento del
fenómeno de estudio, entonces queda justificada la intencionalidad de todo procedimiento de
muestreo en investigación cualitativa. Es decir, un investigador cualitativo elije a los sujetos que
formarán parte de su muestra de estudio de forma intencional (no aleatoria).
Ahora, la intencionalidad puede estar sujeta a diferentes criterios o justificaciones. Por ello se
definen diferentes tipos de procedimientos de muestreo, entre los que podemos destacar el muestreo
por conveniencia, el muestreo por bola de nieve, el muestreo por propósito, el muestreo teórico y el
muestreo por casos extremos o negativos entre otros descritos en la literatura (tabla 9.2).
Por otra parte, hay que reseñar que, teniendo en cuenta la flexibilidad de la investigación
cualitativa y la importancia que tiene el proceso de investigación en tanto que es ajustable a las
necesidades del trabajo de campo, puede ser útil el no trabajar exclusivamente con un tipo de
procedimiento de muestreo, sino ir combinándolos según el campo nos vaya exigiendo (recordad,
eso sí, que todo proceso flexible exige una reflexividad que justifique el rigor de cada decisión
metodológica que se realice) (16).

9. Lectura crítica de artículos cualitativos

TABLA 9.2 ■ Diferentes estrategias de muestreo
Consumo
Tipo Rigor de recursos
de muestreo Definición Fundamento (+ → ++++) (+ → ++++)

Por conveniencia El investigador selecciona a aquellos participantes a los que tiene acceso Accesibilidad de primer orden + +
directo (p. ej., por listado de pacientes). En la literatura médica a veces
existen matizaciones con respecto al muestreo por «conveniencia»,
haciendo referencia a criterios de comodidad (lo cual no sería muy
riguroso). Ideal en el primer acercamiento a los datos. La información
que probablemente recojamos será muy amplia y poco focalizada
(pero estamos comenzando con el trabajo de campo)
Por bola de nieve El investigador accede a nuevos posibles participantes a través de los Accesibilidad de segundo + +
contactos y redes personales de los participantes a los que ya ha orden
entrevistado previamente o de los actores con los que ha coincidido
en un contexto de observación participante
Por propósito El investigador selecciona pacientes basándose en criterios experienciales, es Emergencia teórica basada ++ ++
decir, circunstancias que puedan condicionar la vivencia de la experiencia en el conocimiento previo
de algún modo. Estos criterios experienciales emergen del propio bagaje que el investigador tiene
del investigador como clínico o como estudioso del tema de indagación del fenómeno de estudio
(revisión de la literatura médica). En algunas ocasiones veremos que
la documentación hace referencia a estos criterios experienciales
bajo el término «variables»; entended este término con cautela
Teórico El investigador selecciona a los participantes basándose en nuevos criterios Emergencia teórica a partir +++ +++
experienciales que vayan emergiendo del análisis de los datos. Ideal del propio proceso
según empezamos a trabajar con los primeros datos. Exige mucha de indagación y de las
capacidad crítica y de reflexión. La información que obtengamos a necesidades del mismo
partir de estos informantes será más focalizada, intentando comprender
matices concretos de la construcción teórica que vamos construyendo
Por casos Podría entenderse como parte del muestreo teórico en fases muy Necesidad de comparar ++++ ++++
negativos avanzadas del proceso de análisis. El investigador selecciona a y contrastar o cubrir un
o extremos participantes con características experienciales que pueden marcar área de conocimiento del
la diferencia en la interpretación que hacen de su vivencia con respecto fenómeno de estudio muy
al resto de los informantes concreto
93
Para finalizar, cabe decir que el tamaño de la muestra cualitativa no se puede predeterminar
durante la planificación del estudio, sino que será el propio trabajo de campo el que nos vaya
sugiriendo ir incorporando más o menos sujetos a nuestra muestra. El tamaño de la muestra
(inferior a las muestras cuantitativas) está condicionado por la información aportada por la misma
para el conocimiento del fenómeno de estudio. Si esta es suficiente, también lo será la muestra; si
es insuficiente, por el contrario, tendremos que seguir incorporando nuevos sujetos que nos aporten
información nueva. El que necesitemos muestras más o menos grandes dependerá, por tanto, de
los objetivos de investigación (más o menos amplios), del abordaje (más o menos complejo), del
potencial de significación de la información recogida y de nuestra experiencia como investigadores
(tanto en la recogida como en el análisis de los datos).
El hecho de poder dar respuesta a las preguntas de investigación con la seguridad de que
la propuesta realizada sea fiel al fenómeno vivenciado por los sujetos (categorías de análisis
condensadas), junto con el hecho de que los nuevos datos recogidos ya no aporten nada nuevo
(apoyando las propuestas teóricas formuladas), es indicativo de haber llegado a la «saturación
de los datos» (17).
TÉCNICAS DE RECOGIDA DE DATOS

Al hablar de técnicas de recogida de datos en investigación cualitativa, podemos hacer referencia
a múltiples estrategias: técnicas observacionales, técnicas conversacionales, técnicas biográficas,
técnicas artísticas y técnicas documentales (entre otras).
El baúl de herramientas para recoger datos cualitativos que nos ayuden al entendimiento
de un determinado fenómeno es muy amplio, al mismo tiempo que cada técnica, en sí mis-
ma, nos permite una amplia versatilidad. La razón de esta riqueza de herramientas y esta
flexibilidad para su puesta en práctica en el contexto del trabajo de campo de nuevo encuentra
su justificación en las necesidades particulares que el campo nos plantea y al que nos debemos
adaptar (18).
No obstante, debemos tener en cuenta que, en función de los objetivos de estudio y del método
u orientación teórico-metodológica con el que nos aproximemos al fenómeno que vamos a explorar,
así habrá técnicas de recogida de datos que sean más o menos congruentes y, por tanto, técnicas
que hayan de ser consideradas como primarias o prioritarias en relación con otras que podrán ser
utilizadas como fuentes secundarias o complementarias.
A modo introductorio, trabajaremos algunos apuntes básicos sobre las técnicas conversacionales
más utilizadas: las entrevistas en profundidad y el grupo de discusión.
En relación con la entrevista en profundidad, esta hace referencia a los reiterados encuentros dis-
cursivos entre el investigador y los informantes (o personas que participan del fenómeno de estudio).
Dichos encuentros tienen por objetivo promover/facilitar la externalización de la experiencia por
parte de los informantes con la intención de conocer cómo es la interpretación que hacen de esta
experiencia desde su propia producción discursiva (19).
Las entrevistas en profundidad se caracterizan porque no hay un guion previo establecido ni
un orden de las preguntas. La intención es marcar un punto de partida a través de una pregunta
abierta invitando al informante a llevar las riendas de la entrevista y a producir un discurso rico,
significativo y profundo. Para ello, el entrevistador tiene que ser capaz de facilitar un espacio
confortable y una actitud abierta de escucha activa. En ocasiones, sin embargo, el investigador
se puede ver obligado a hacer alguna pregunta con intención aclaratoria o exploratoria o de
carácter reconductor. Las entrevistas que tienen un guion de preguntas son entrevistas semi-
estructuradas y son muy útiles para investigadores principiantes, o para orientar las entrevistas
en momentos más avanzados del proceso de investigación donde la recogida de datos se plantea
de forma más focalizada con la intención de saturar la información o concretar algún tema que
no haya quedado claro (20).

El grupo de discusión es una técnica de recogida de datos grupal cuya intención es la colisión
de los diferentes discursos de los participantes, siendo su producto final la puesta de manifiesto de
los efectos de colisión (discusión), de los discursos personales (convencimientos) y de los discursos
grupales (consenso o construcción colectiva).
Es un grupo artificial, es decir, el grupo no es tal ni antes ni después de la discusión (21). Esto
implica que los participantes no se conocen previamente, evitando interferencias previas en la
producción de su habla.
A la hora de constituir los grupos se deben combinar mínimos de homogeneidad y de heteroge-
neidad, asegurando de este modo la simetría de la relación de los componentes del grupo, al mismo
tiempo que preservamos la diferencia necesaria en todo proceso discursivo. El número de grupos de
discusión que se planifica dependerá de las diferentes posiciones discursivas que se quieran someter
a la escucha y de la mencionada saturación de los datos.
La versión anglosajona de esta técnica es el grupo focal, o focus group, que se diferencia del grupo
de discusión, entre otras cuestiones, en que el interés se focaliza en el discurso individual y no en
la construcción grupal de un discurso colectivo (22).
A modo de cierre, podemos añadir que combinar diferentes estrategias de recogida de datos puede
resultar de gran utilidad para acceder a diferentes tipos de datos y, en este sentido, triangular informa-
ción para llegar al conocimiento profundo del fenómeno de estudio desde diferentes «vías de acceso».
ESTRATEGIAS DE ANÁLISIS DE DATOS

Podemos definir el análisis de datos como el proceso a través del cual vamos más allá de los datos
para acceder a la esencia del fenómeno de estudio, es decir, a su entendimiento y comprensión;
el proceso por medio del cual el investigador expande los datos más allá de la narración des-
criptiva (23).
El proceso de análisis de los datos es el eje sobre el que va a girar todo el proceso de investigación
y, en consecuencia, aquello de lo que van a depender, en gran medida, muchas de nuestras decisiones
metodológicas («el cómo» investigar), pero también de las decisiones conceptuales («el qué» investigar).
Aunque a nivel pedagógico se distingan diferentes etapas en el proceso de investigación (pla-
nificación de la propuesta, entrada en el campo y recogida de datos, análisis de los datos, redacción
de los resultados y difusión de los resultados), en el caso de la investigación cualitativa estas fases o
etapas no discurren linealmente, sino de forma circular o en espiral. Es decir, que la propia inves-
tigación se está continuamente redefiniendo y adaptándose a las necesidades del campo y a las
necesidades teóricas emergentes (esto es, al análisis de los datos).
Con respecto al propio proceso de análisis, existen múltiples propuestas que provienen de las
diferentes orientaciones teóricas (v. tabla 9.1). Por otra parte, la naturaleza variable (discursiva,
iconográfica, visual…) de los datos cualitativos hace que el abordaje del análisis de los mismos res-
ponda a diferentes estrategias. En el contexto de esta versatilidad emana un torrente de creatividad

que hace al investigador trabajar guiado por las propuestas, pero siempre en una constante actitud
de apertura e innovación metodológica (24).
El análisis implica una primera fase de organización, procesamiento y análisis de los datos para,
posteriormente, trabajar en la abstracción e interpretación de los mismos. La organización y el
procesamiento de los datos (codificación) consiste en extraer, del groso de los datos, aquellos que
realmente tienen una significación relevante en relación con nuestros objetivos de estudio, para pos-
teriormente establecer relaciones entre los datos que nos faciliten, más adelante, realizar esfuerzos de
abstracción en busca de la generación de conceptos, proposiciones, modelos y teorías. Este proceso
de abstracción es complejo y depende en gran medida de la capacidad interpretativa del analista (de
lo que llamamos «sensibilidad teórica»), condicionada por su experiencia analizadora, su bagaje vital,
su formación, su capacidad simbólica, su capacidad de comparación, de cuestionamiento, de verifica
ción, etc. (25).

CRITERIOS DE CALIDAD Y ESTRATEGIAS

PARA SU ASEGURAMIENTO
Hablar de criterios de calidad en el contexto de la investigación cualitativa es algo ambiguo si
consideramos las múltiples y diferentes aportaciones que la literatura hace al respecto.
Resumiendo, podemos agrupar dichas aportaciones en dos tendencias. La primera de ellas
trata de establecer unos criterios específicos para la metodología de la investigación cualitativa,
argumentando que los referentes ontológicos y epistemológicos son diferentes. La segunda de
ellas trata, por otra parte, de seguir una tendencia más globalizadora apostando por compartir
criterios de referencia estándar para todo tipo de trabajo de investigación, ya sea de carácter
cualitativo o cuantitativo.
Podemos encontrar un innumerable listado de términos que harían referencia a los criterios
de calidad en el marco de la investigación cualitativa: credibilidad, auditabilidad, confirmabi-
lidad, transferibilidad, generalización, validez interna, validez externa, creatividad, adecuación
epistemológica, sensibilidad, relevancia, confiabilidad, consistencia, transparencia, neutralidad,
significación, etc. Para simplificar, y tal y como recoge la herramienta CASPE, trabajaremos
con los criterios establecidos por Lincoln y Guba: credibilidad, confirmabilidad y trans-
feribilidad (26).
La credibilidad se refiere a cómo los resultados de una investigación son verdaderos para
las personas que fueron estudiadas y para otras personas que han experimentado o estado en
contacto con el fenómeno investigado. La confirmabilidad asegura la capacidad de otro inves-
tigador para seguir la pista o la ruta de lo que el investigador principal ha recorrido. Para ello,
el investigador principal debe registrar y documentar cada paso, decisión e ideas que ha tenido
en relación con el estudio. Y, por último, la transferibilidad hace referencia a la posibilidad
de extender los resultados a otras poblaciones o contextos; posibilidad de que los resultados
sean aplicados a la práctica clínica (siempre teniendo en cuenta el contexto de aplicación y los
recursos disponibles).
Algunas de las estrategias que el investigador puede aplicar al proceso de investigación para
el aseguramiento de la calidad del estudio en estos términos son: la triangulación de técnicas de
recogida de datos o de investigadores (en el proceso de recogida de datos y análisis), la concurrencia
analítica, el muestreo adecuado (preferiblemente teórico y por casos extremos o negativos), la
confirmación por parte de los participantes (member checking o participant validation, la revisión
crítica por parte de un experto (peer debriefing o «amigo crítico»), la descripción minuciosa del ámbito
y de la muestra definitiva, y la reflexividad (actitud de reflexión crítica y justificación de cada una
de las decisiones conceptuales y metodológicas que se vayan tomando).
CONSIDERACIONES ÉTICAS
Los principios éticos que guían la investigación cualitativa están construidos basándose en la ética
médica. La aplicación de los mismos al contexto de la investigación cualitativa, sin embargo, resulta
en ocasiones algo complicada, incómoda y delicada. Así, basándonos en los principios de autonomía,
beneficencia/no maleficencia y justicia, podemos identificar diferentes problemas o situaciones
conflictivas a nivel ético en el contexto de la planificación y desarrollo de nuestros trabajos de inves-
tigación. Para cada uno de estos problemas podemos encontrar diferentes estrategias de abordaje
que, en ocasiones, más que seguir directrices estandarizadas, deberán ser gestionadas por el propio
investigador en función de las necesidades de campo. Esto último requiere una constante actitud
de alerta para la identificación de situaciones potencialmente conflictivas (27).
Algunas de las estrategias básicas para la salvaguardia de los principios éticos son: la aprobación
de la propuesta y el seguimiento del proceso por parte de un comité ético; la información clara
y completa a los informantes acerca de los objetivos de estudio, condiciones de participación y

aportaciones o beneficios derivados de dicha participación mediante el consentimiento informado;

la adecuada gestión y custodia de los datos generados a partir de los discursos o narrativas de los
participantes, o de la interacción de los mismos en los contextos de observación; la cuidadosa exposi-
ción de los hallazgos y de las características de la muestra final con el objetivo de preservar la identidad
de los participantes; la definición clara de roles investigador/participante frente a terapeuta/
paciente para evitar confusiones en relación con la participación y los beneficios esperados, y la
prevención de situaciones que pongan a los participantes en riesgo de sufrir un daño emocional
como resultado del ejercicio de rememorar o reflexionar sobre las experiencias de salud-enferme
dad (28).
RECOMENDACIONES PARA LA PRÁCTICA CLÍNICA BASADA

EN LA EVIDENCIA CUALITATIVA
La aplicación de los resultados cualitativos al proceso salud-enfermedad puede generarnos algunas
dudas si no estamos familiarizados con esta forma de cuestionarnos la realidad. En algunas ocasio-
nes, la aplicabilidad de la evidencia generada cae en lo simbólico, repercutiendo en la apertura de
conciencias y constituyendo una llamada de atención sobre determinados fenómenos, lo que puede
dar pie a nuevas políticas y filosofías de cuidado. En otras ocasiones podremos ver en estos hallazgos
pistas muy claras para orientar nuestra práctica clínica, ya sea en el contexto de la valoración, de
la identificación de problemas o de la planificación de actividades de intervención. Centrándonos
en esto último, la evidencia cualitativa, con alta carga de significación, nos permite dar contenido
y soporte a intervenciones en salud complejas y de alto nivel de abstracción en el contexto de los
problemas psicosociales.
Artículo
Hatcher D, Chang E, Schmied V, Garrido S. Holding momentum: a grounded theory study
of strategies for sustaining living at home in older persons. Int J Qual Stud Health Well-being
2019;14(1):1658333. Disponible en: https://www.tandfonline.com/doi/full/10.1080/17482631.2
019.1658333.



1. ¿Se definieron de forma Sí ✓ No sé No
clara los objetivos de la
En el último párrafo de la introducción los autores identifican claramente el
investigación?
objetivo general de la investigación, cuyo propósito es entender la experiencia
PISTAS:
de los mayores que viven en sus domicilios. De forma concreta, se pretende
• ¿Queda implícita/explícita la
entender las estrategias que desarrollan y ponen en marcha los mayores para
pregunta de investigación?
continuar viviendo de forma independiente en sus casas.
• ¿Se identifica con claridad el
La pregunta de investigación queda justificada en términos de actualidad,
objetivo de la investigación?
novedad y pertinencia. Los autores hacen referencia a la actualidad
• ¿Se justifica la relevancia de los
demográfica que da cuenta de un envejecimiento progresivo de la población
mismos?
con una expectativa de vida cada vez mayor, pero también con una creciente
aparición de problemas de salud y necesidades de cuidados en los últimos
años de vida. Por otra parte, contextualizan la pregunta de investigación en el
marco de la filosofía de cuidados para el envejecimiento activo y la prevención
de la dependencia e identifican un vacío de conocimiento en relación con
los recursos intrapersonales y el proceso de autogestión para la mayor
independencia posible.
2. ¿Es apropiada la Sí ✓ No sé No
metodología cualitativa?
La pregunta de investigación es una pregunta de experiencia cuyos objetivos de
PISTAS: considera:
investigación se centran en: a) explorar la vivencia de los mayores que viven
• Si la investigación pretende
solos en sus casas; b) explicar la interpretación que ellos mismos hacen de
explorar las conductas o
su proceso de adaptación a los cambios y circunstancias que sobrevienen;
experiencias subjetivas de los
c) identificar los cambios que van poniendo a prueba su autogestión
participantes con respecto al
e independencia para llevar una vida autónoma en sus propias casas,
fenómeno de estudio.
y d) identificar las estrategias de afrontamiento para hacer frente a dichos
• ¿Es apropiada la metodología
cambios.
cualitativa para dar respuesta
a los objetivos de investigación
planteados?
3. ¿El método de la Sí ✓ No sé No
investigación es adecuado
Los autores refieren, en el apartado de metodología, haber seguido los principios
para alcanzar los objetivos?
de la teoría fundamentada para facilitar el desarrollo de una teoría substantiva
PISTA: considera si el investigador
que explique el proceso y las estrategias desarrolladas por los mayores para
hace explícito y justifica el método
mantener una vida independiente en sus domicilios. Sin embargo, y aunque
elegido (p. ej., fenomenología,
mencionan que esta propuesta metodológica ha sido ampliamente utilizada
teoría fundamentada, etnografía,
en la investigación en el campo disciplinar de la sociología y la enfermería, no
etc.).
aluden al Interaccionismo Simbólico como su marco teórico. Hubiera sido muy
apropiado recordar sus principios básicos desde la voz de autores clásicos y su
evolución a través de otros autores más contemporáneos. Esto hubiera ayudado
al lector a valorar con más seguridad la pertinencia de explorar un fenómeno de
estudio como el que nos ocupa (un proceso psicosocial de adaptación) a través
de esta orientación.

4. ¿La estrategia de selección Sí ✓ No sé No
de participantes es adecuada
Los criterios de inclusión para la población de estudio están claramente
para alcanzar los objetivos
enunciados: a) personas mayores de 65 años; b) angloparlantes; c) que hayan
de la investigación?
vivido al menos durante los últimos 12 meses en sus casas antes de ser
reclutadas para el estudio, y d) que consientan voluntariamente participar
• Hay alguna explicación relativa
en el estudio.
a la selección de los participantes.
El reclutamiento de los participantes se hizo a través del listado de personas que
• Justifica por qué los participantes
participaban de diferentes actividades (danza, bolos, etc.) en un Centro de
seleccionados eran los más
Mayores, lo que condiciona un perfil de participante concreto y quizás algo
adecuados para acceder al tipo
homogéneo, lo cual puede considerarse una limitación, tal y como reconocen
de conocimiento que requería el
también los propios investigadores.
estudio.
Para comenzar con los grupos focales se realizó un muestreo de carácter
• El investigador explica quién,
intencional por propósito, es decir, que se incorporó a los grupos a todas
cómo, dónde se convocó a los
aquellas personas que, una vez contactadas e informadas, consintieron
participantes del estudio.
participar considerando algunas variables experienciales que pudieran haber
condicionado su vivencia y discurso buscando la máxima heterogeneidad
dentro de las posibilidades del trabajo de campo. Quizás hubiera sido
interesante matizar estos criterios o características experienciales.
De cara a la segunda fase del proceso de recogida de datos, y una vez analizada la
información recogida a través de los grupos focales, los investigadores llevaron
a cabo un muestreo teórico buscando perfiles específicos de participantes,
focalizando así la recogida de datos.
Los autores explican por qué no se entrevistó a algunos de los participantes en los
grupos de discusión que se prestaron voluntarios para participar en la segunda
fase de recogida de datos a través de entrevistas individuales. Esto resulta muy
interesante porque da cuenta de un proceso de muestreo pensado, justificado
y, por tanto, madurado. Así, los investigadores explican que, para las primeras
entrevistas, buscaron perfiles de participantes que, en relación con la teoría
emergente derivada del análisis de los grupos focales, hubieran realmente
vivido un proceso de adaptación a una serie de cambios sobrevenidos y
relacionados con el envejecimiento y la soledad no buscada. Para las últimas
entrevistas, la estrategia de muestreo se centró en captar a personas que se
habían cambiado de casa buscando un lugar alternativo adaptado a sus nuevas
necesidades o personas que vivían en casa con importante ayuda o soporte.
Se reconoce como limitación el no haber podido acceder a casos con perfiles más
divergentes. Quizás hubiera sido necesario ampliar la muestra avanzando en
el proceso de muestreo teórico hacia un muestreo de casos extremos o casos
negativos.
(Continúa)

5. ¿Las técnicas de recogida Sí ✓ No sé No

de datos utilizadas son
Los investigadores optaron por una estrategia de recogida de datos procesual
congruentes con la pregunta
mediante la triangulación de dos técnicas de recogida de datos conversacionales:
de investigación y el método
grupos focales (técnica grupal) y entrevistas en profundidad (técnica individual).
utilizado?
A través de la primera fase se intentó hacer una recogida de datos más general
para, posteriormente, focalizarla a través de entrevistas en profundidad con una
• El ámbito de estudio está
planificación más específica y centrada en la teoría emergente. La estrategia
justificado.
resulta muy congruente con la propuesta de la teoría fundamentada, haciendo
• ¿Se especifica claramente y
una explotación apropiada de las potencialidades de cada una de las técnicas de
justifica la técnica de recogida
recogida de datos consideradas.
de datos (p. ej., entrevistas,
Se llevaron a cabo tres grupos de discusión, el primero de ellos mixto
grupos de discusión, observación
(10 participantes) y los dos siguientes compuestos por 6 mujeres y 4 hombres
participante, etc.)?
respectivamente. Quizás, el tamaño de este último grupo pueda considerarse
• ¿Se detallan aspectos concretos
limitado con posibilidades recatadas para estimular la interacción discursiva entre
del proceso de recogida de datos?
los participantes. Los investigadores justifican esta decisión de realizar grupos
• Si se ha modificado la estrategia
homogéneos en relación con el género por sus diferentes estilos de interacción
de recogida de datos a lo largo
(sin mayor matización). Los grupos duraron aproximadamente 1 h (tiempo
del estudio, y si es así, ¿explica el
que puede considerarse algo limitado considerando el proceso de desarrollo de
investigador por qué?
una dinámica grupal con sus diferentes fases de presentación, consolidación,
• Si se explica el formato de
producción, cierre y despedida) y se realizaron en una sala tranquila y libre de
registro de los datos (p. ej.,
interrupciones en el Centro de Mayores (lo que resulta apropiado).
grabaciones de audio/vídeo,
El espacio de interacción discursiva se centró en dos cuestiones fundamentales que
cuaderno de campo, etc.).
los autores recogen en la tabla 2: a) presentación, «dónde vives y por qué te gusta
• ¿El investigador alcanza la
vivir donde lo haces», y b) profundización, «qué cosas hacen posible que puedas
saturación de datos y reflexiona
seguir viviendo de este modo». Además, los moderadores de los grupos focales
sobre ello?
consideraron los siguientes ejes para reorientar el discurso de los participantes o
hacer intervenciones de carácter aclaratorio: hogar, comunidad, independencia,
salud y bienestar, recursos, redes sociales y soporte. La planificación resulta
adecuada, si bien no se reflexiona sobre cómo resultó el desarrollo de los grupos
y si hubo algún problema y cómo este fue solventado.
Se reconoce como limitación el hecho de que los participantes en los grupos focales ya
se conocieran antes de participar en los mismos. Efectivamente, lo ideal es que los
participantes del grupo focal no se entiendan como grupo antes del encuentro de
investigación. El hecho de que conozcan sus discursos y hayan compartido espacios
de discusión en relación con el fenómeno de estudio en un entorno diferente al de
la propia investigación puede condicionar la producción de información dentro del
grupo focal. Es importante que los autores reconozcan y comuniquen esta limitación.
En cuanto a las entrevistas en profundidad, los investigadores dicen haber
realizado entrevistas en profundidad tomando como referencia una guía
de entrevista semiestructurada con algunas preguntas relacionadas con
contenidos críticos que trataban de asegurar la recogida de información
básica. Sin embargo, reflexionan sobre su actitud de apertura propiciando
que los informantes tomaran las riendas de la entrevista redireccionándola
por aquellos derroteros que consideraran significativos.
Es interesante que den cuenta de cómo el análisis de las fases iniciales del trabajo
de campo fue orientando la posterior recogida de datos influyendo, de forma
concreta, en la reelaboración de la guía de entrevista. Las nuevas preguntas fueron
buscando cada vez más especificidad focalizando progresivamente la recogida de
datos. Se valora muy positivamente la incorporación en el anexo al artículo de las
guías de entrevista para el primer y segundo bloque de entrevistas, lo que permite
valorar cómo fueron evolucionando a petición del propio trabajo de campo.
Las entrevistas se llevaron a cabo en diferentes ubicaciones adaptándose a las
necesidades de los participantes (el propio domicilio, en el Centro de Mayores
o por teléfono en el caso de aquellas personas que vivían en zonas retiradas). Esto
es reflejo de una actitud, por parte del investigador, de flexibilidad, centrándose
en las necesidades y preferencias de los participantes, esto es: de una investigación
centrada en los participantes.

Resulta un apunte de calidad el haber realizado dos entrevistas a una de las

participantes en relación con el dinamismo de su proceso de adaptación.
Las entrevistas longitudinales (varias entrevistas a lo largo del tiempo) pueden
resultar muy interesantes para explorar los procesos de adaptación en términos de
dinámicas de avance y condiciones y estrategias que permiten dar el salto de fases
preliminares a fases ulteriores del proceso.
Tanto grupos focales como entrevistas en profundidad fueron transcritas para su
posterior análisis, lo que es también una estrategia para garantizar la calidad
del estudio. No se reporta el tiempo medio de duración de las entrevistas.
6. ¿Se ha reflexionado sobre la Sí No sé ✓ No
relación entre el investigador
Si bien no se hace referencia explícita a la actitud constante de reflexividad,
y el objeto de investigación
la narrativa, a través de todo el artículo, sitúa al lector en la voz de los
(reflexividad)?
investigadores que hacen suyo el proceso de investigación respondiendo y
PISTAS: considera:
responsabilizándose de la evidencia generada, buscando la máxima neutralidad
• Si el investigador ha examinado
y dejando patente su relación intersubjetiva con el fenómeno de estudio.
de forma crítica su propio rol en
el proceso de investigación (el
investigador como instrumento
de investigación), incluyendo
sesgos potenciales:
• En la formulación de la
pregunta de investigación.
• En la recogida de datos,
incluida la selección de
participantes y la elección
del ámbito de estudio.
• Si el investigador refleja y
justifica los cambios conceptuales
(reformulación de la pregunta
y objetivos de la investigación)
y metodológicos (criterios de
inclusión, estrategia de muestreo,
técnicas de recogida de datos, etc.).
7. ¿Se han tenido en cuenta Sí ✓ No sé No
los aspectos éticos?
Los autores afirman haber obtenido la aprobación del comité ético para la
PISTAS: considera:
investigación de la Western Sydney University para realizar el estudio
• Si el investigador ha detallado
de investigación.
aspectos relacionados con:
Cuando hacen referencia a los criterios de inclusión matizan como criterio
• El consentimiento explícito la aceptación informada y voluntaria para participar en el estudio,
informado.
garantizando así el principio de autonomía. Sin embargo, no aclaran cómo
• La confidencialidad se facilitó esta información ni cómo se procedió a documentar o registrar el
de los datos.
consentimiento por parte de los participantes.
• El manejo de la En relación con la captación de informantes, se hace referencia al cuidadoso filtro
vulnerabilidad emocional
llevado a cabo por el portero (trabajador social) para proveer los contactos de
(efectos del estudio sobre
aquellas personas que emocionalmente estuvieran preparadas para hablar de
los participantes durante
su experiencia personal. Igualmente, se consideró la necesidad de monitorizar
y después del mismo como
la respuesta emocional de los informantes (especialmente durante las
consecuencia de la toma
entrevistas), para identificar precozmente evidencias de malestar emocional,
de conciencia de su propia
y se les ofreció la posibilidad de finalizar las entrevistas en el momento en
experiencia).
que ellos consideraran en el caso de no encontrarse confortables. Todo ello
• Si se ha solicitado la aprobación
muestra un especial esfuerzo por garantizar el principio de beneficencia/no
de un comité ético.
maleficencia, tratando de balancear el resultado de la investigación en favor
de los beneficios que puede aportar la evidencia generada sobre los costes y
efectos adversos sobre los participantes.
Por último, el muestreo teórico garantiza el principio de justicia, dando la
oportunidad de participar en el estudio a aquellas personas con experiencias
significativas y con capacidad para contribuir al conocimiento del fenómeno
de estudio.
(Continúa)

8. ¿Fue el análisis de datos Sí ✓ No sé No
suficientemente riguroso?
El tiempo de trabajo de campo de 2 años, si es tiempo de trabajo real, da cuenta
PISTAS: considera:
de un cronograma apropiado en el que poder ir avanzando en el proceso de
• Si hay una descripción detallada
investigación con el suficiente margen para poder ir realizando una recogida
del tipo de análisis (de contenido,
de datos guiada por el análisis (como eje central de la investigación).
del discurso, etc.) y del proceso.
Los autores hacen referencia a la concurrencia analítica, es decir, a la recogida y
• Si queda claro cómo las categorías
el análisis de los datos simultáneo de modo que la teoría emergente oriente al
o temas emergentes derivaron
proceso de recogida de datos buscando, progresivamente, aquella información
de los datos.
que resulte significativa para ir conociendo en profundidad el fenómeno de
• Si se presentan fragmentos
estudio.
originales de discurso
La estrategia de análisis que describen es coherente con la propuesta de la teoría
significativos (verbatim)
fundamentada. Hacen referencia a una primera fase de microanálisis a través
para ilustrar los resultados
de una codificación abierta línea a línea. Mencionan haber orientado esta
y se referencia su procedencia
primera codificación a la identificación de códigos in vivo, sin embargo, no
(p. ej., entrevistado 1, grupo
reportan haber generado códigos abiertos fruto de la interpretación del propio
de discusión 3, etc.).
investigador. Hubiera sido interesante haber adjuntado una imagen o tabla
• Hasta qué punto se han tenido
a modo de ejemplo del proceso de reagrupación de códigos en grupos de
en cuenta en el proceso de análisis
significado y del ejercicio de explorar relaciones entre códigos.
los datos contradictorios (casos
Además, los investigadores dan muestras de haber incorporado aspectos
negativos o casos extremos).
fundamentales de la propuesta de análisis de la teoría fundamentada tales
• Si el investigador ha examinado
como la comparación constante y la relación entre categorías y subcategorías
de forma crítica su propio rol y su
a través de una matriz causal-consecuencial (un ejemplo gráfico de esta última
subjetividad de análisis.
estrategia hubiera visibilizado trabajo de retaguardia, dando transparencia
al trabajo interpretativo).
Por otra parte, refieren haber apoyado el trabajo de interpretación con la
elaboración de diagramas y memorandos teóricos, lo que es muy congruente
con la propuesta de la teoría fundamentada. Finalmente, hacen alusión al
ejercicio de integrar categorías y subcategorías en coherencia con una historia
lineal, lo que define un proceso psicosocial básico con una categoría central
que integra y da un sentido global al conjunto de la propuesta teórica a través
de las diferentes categorías y subcategorías.

9. ¿Es clara la exposición de los Sí ✓ No sé No

resultados?
Los resultados responden a la pregunta de investigación siguiendo una
exposición clara que va llevando al lector de la mano en el descubrimiento del
• Los resultados corresponden a la
fenómeno de estudio. Los autores han optado por ir explicando e ilustrando
pregunta de investigación.
con verbatim las diferentes categorías y subcategorías para, finalmente,
• Los resultados se exponen de una
plantear el proceso central o proceso psicosocial básico que integra todo lo
forma detallada, comprensible.
anterior, dando sentido global a la propuesta y respondiendo a la pregunta
• Se comparan o discuten los
principal de investigación. Incorporan para ello un gráfico que, visualmente,
hallazgos de la investigación con
resulta muy clarificador y sobre el cual el lector puede, de forma muy intuitiva,
los resultados de investigaciones
ir situando todos los elementos antes descritos.
previas.
Posteriormente, en la discusión, los investigadores comparan su propuesta teórica con
• El investigador justifica
la evidencia generada por otros autores (publicaciones de carácter internacional y
estrategias llevadas a cabo para
con fecha de publicación en el rango de los últimos 10 años). La exposición resulta
asegurar la credibilidad de los
muy ordenada, rescatando los principales hallazgos sobre los que van realizando
resultados (p. ej., triangulación,
matizaciones aludiendo a similitudes con otros trabajos o incorporando nuevos
validación por los participantes
aspectos sobre los que continuar indagando o, al menos, reflexionando.
del estudio, etc.).
Los autores no dedican un apartado específico para referirse a los criterios de calidad
• Se reflexiona sobre las
que toman como referente en su proceso de investigación ni de las estrategias que
limitaciones del estudio.
han puesto en marcha para garantizar dichos criterios de calidad. Sin embargo,
a lo largo de todo el artículo, van incorporando anotaciones y reflexiones que van
proporcionando información al lector al respecto de todo ello.
Se identifican estrategias claras, como son la constante actitud de reflexividad
(tratando de justificar las diferentes decisiones metodológicas que se han ido
tomando), el rigor metodológico y la transparencia (siendo minuciosos a la hora
de describir los diferentes procedimientos), la apuesta por realizar un muestreo
adecuado de carácter teórico (que garantice una recogida de datos centrada en la
teoría emergente), la triangulación de técnicas de recogida de datos y la utilización
de diferentes estrategias para estimular la sensibilidad teórica (entre otras).
Las limitaciones deberían haber sido recogidas en el apartado de discusión,
centrándose en el apartado de conclusiones en responder a las preguntas
de investigación planteadas por los autores. No obstante, hacen explícitas
diferentes limitaciones en relación con el muestreo y recogida de datos que
han sido reflejadas en anteriores secciones y sobre las que ya se ha reflexionado.
Sí No sé ✓ No
10. ¿Son aplicables los
Las recomendaciones para la práctica clínica que proponen los autores se quedan en
resultados de la
un ámbito muy conceptual. Hacen referencia a la contribución que la evidencia
investigación?
generada puede hacer al diseño de políticas para el cuidado comunitario y la
PISTAS: considera si: provisión de servicios, matizando la importancia de desarrollar intervenciones
• El investigador explica la comunitarias, pero también individuales, que fortalezcan los recursos personales
contribución que los resultados de cada persona mayor en particular. Sin embargo, no se lanzan a realizar
aportan al conocimiento existente recomendaciones para la práctica clínica de carácter más operativo o procedimental.
y a la práctica clínica. Asimismo, no se reflexiona sobre las futuras líneas de investigación sobre las
• Se identifican líneas futuras que sería interesante seguir trabajando a la luz de las limitaciones y nuevas
de investigación. preguntas que surgen de los hallazgos.
• El investigador reflexiona acerca Hubiera sido deseable que los autores hubieran descrito con mayor profundidad
de la transferibilidad de los el ámbito de estudio donde se ha llevado a cabo el presente trabajo. Las
resultados a otros contextos. características poblacionales y de dotación de la zona de salud donde se ubica
el Centro de Mayores podrían contribuir a la toma de decisiones acerca de la
transferibilidad de los resultados. Por otra parte, hubiera resultado muy apropiado
realizar una descripción más minuciosa de las características de los participantes/
informantes considerando otras características experienciales (asegurando
siempre su anonimato), tales como, por ejemplo: problemas de salud con los que
convive, si está polimedicado o no, si cuenta con recursos de ayuda en domicilio,
nivel de independencia/dependencia para la realización de las actividades de la
vida cotidiana y nivel socioeconómico. Conocer toda esta información permitiría
una comparación más informada con el perfil de los usuarios/pacientes con los
que se pretende realizar la actividad psicoeducativa.

Bibliografía
1. Cullum N, Ciliska D, Haynes RB, Marks S, editores. Evidence Based Nursing: An introduction. Oxford:
Blackwell Publishing, BMJ Publishing Group Limited and RCN Publishing Company; 2008.
2. Cano Arana A, González Gil T, Palmar Santos A, Luengo González R. Diferentes aproximaciones de
investigación en salud: metodología cuantitativa y cualitativa. Educare 21. 2008. [Fecha de último acceso:
15 de febrero de 2021. Disponible en: https://www.enfermeria21.com/revistas/educare/articulo/480251/
diferentes-aproximaciones-de-investigacion-en-salud-metodologia-cuantitativa-y-cualitativa/.
3. Munhall PL. Nursing Research. A qualitative Perspective. Toronto: Jones and Bartlett Publishers; 2001.
p. 67-68.
4. de la Cuesta Benjumea C. El Investigador Como Instrumento Flexible de la Indagación. Int J Qual Meth
2003;2(4):25-38.
5. Pedraz Marcos A, Zarco Colón J, Ramasco Gutierrez M, Palmar Santos AM. Investigación Cualitativa.
Colección Cuidados de Salud Avanzados. Barcelona: Elsevier; 2014.
6. Mayan MJ. Una introducción a los métodos cualitativos: módulo de entrenamiento para estudiantes y
profesores. Alberta: International Institute for Qualitative Methodology; 2001. [Fecha de último acceso:
15 de febrero de 2021]. Disponible en: https://sites.ualberta.ca/∼iiqm/pdfs/introduccion.pdf.
7. de la Cuesta Benjumea C. ¿Por dónde empezar?: la pregunta en investigación cualitativa [Where to begin?:
the qualitative research question]. Enferm Clin 2008;18(4):205-10.
8. Morse JM, Richards L. Selecting a Method. En: Morse JM, Richards L, editores. Read me first. Thousand
Oaks: SAGE; 2001. p. 43-64.
9. Hammersley M, Atkinson P. Etnografía. Métodos de investigación. Barcelona: Paidós; 2001.
10. Roper JM, Shapira J. Ethnography in Nursing Research. Methods in Nursing Research. Thousand Oaks:
SAGE; 2000. p. 3-9.
11. Cohen MZ, Kahn DL, Steeves RH. Hermeneutic Phenomenological Research. A Practical Guide for
Nurse Researchers. Methods in Nursing Research. Thousand Oaks: SAGE; 2000. p. 2-6.
12. Glaser B, Strauss A. The Discovery of grounded theory: Strategies for Qualitative Research. Chicago:
Aldine; 1967.
13. Morse JM, Stern PN, Corbin J, Bowers B, Charmaz K, Clarke AE. Developing Grounded Theory. The
second Generation. Walnut Creek: Left Coast Press; 2009. p. 13.
14. Schreiber RS, Stern PN, editores. Using Grounded Theory in Nursing. New York: Springer Publishing
Company; 2001.
15. Marshall M. Sampling for qualitative research. Fam Pract 1996;13(6):522-5.
16. Field PA, Morse JM. Nursing, Research. The Application of Qualitative Approaches. London: Chapman
& Hall; 1994. p. 93-96.
17. Morse JM. «Data Were Saturated…». Qual Health Res 2015;25(5):587-8.
18. Callejo Gallego J. Observación, entrevista y grupo de discusión: el silencio de tres prácticas de investigación.
Rev Esp Salud Pública 2002;76(5):409-22.
19. Alonso LE. Sujeto y discurso: el lugar de la entrevista abierta en las prácticas de la sociología cualitativa.
En: Delgado JM, Gutiérrez J, coordinadores. Métodos y técnicas cualitativas de investigación en ciencias
sociales. Madrid: Síntesis; 1999. p. 225-240.
20. Kvale S, Brinkmann S, Interviews. Learning the Craft of Qualitative Research Interviewing. 2nd ed.
Thousand Oaks: SAGE; 2009.
21. Canales M, Peinado A. Grupos de discusión. En: Delgado JM, Gutiérrez J, editores. Métodos y técnicas
cualitativas de investigación en Ciencias Sociales. Madrid: Síntesis; 1999. p. 288-316.
22. Krueger RA, Casey MA. Focus Groups: A Practical Guide for Applied Research. London: SAGE
Publications; 2000.
23. Morse JM. Emerger de los datos: los procesos cognitivos del análisis en la investigación cualitativa.
En: Morse JM, editor. Asuntos críticos en los métodos de investigación cualitativa. Medellín: Universidad
de Antioquía; 2003. p. 29-52.
24. Cooffey A, Atkinson P. Variedades de datos y variedades de análisis. En: Cooffey A, Atkinson P, editores.
Encontrar sentido a los datos cualitativos: estrategias complementarias de investigación. Medellín:
Universidad de Antioquia; 2003. p. 1-30.
25. Gibbs G. Analyzing Qualitative Data. Thousand Oaks: SAGE; 2007.
26. Castillo E, Vásquez LM. El rigor metodológico en la investigación cualitativa. Colomb Med 2003;34:164-7.

27. Barrio-Cantalejo I, Simón-Lorda P. Problemas éticos de la investigación cualitativa. Med Clin

2006;126(11):418-23.
28. Martín Arribas MC, et al. Recomendaciones sobre aspectos éticos de la Investigación Cualitativa en Salud.
Metas de Enferm 2012;15(4):58-63.

González MT, Cano A. Lectura crítica de artículos cualitativos. En: Cabello Juan B, editor. Lectura crítica de
la evidencia clínica, 2.ª ed. Barcelona: Elsevier; 2022. p. 88-105.

C A P Í T U L O 10
Lectura crítica de estudios basados
en registros de salud o de actividad
clínica. Datos de la vida real
Alfonso Muriel García ■ José Ignacio Pijoan Zubizarreta
• Establecer las características de un registro y destacar su importancia para contestar

preguntas de investigación clínica.
• Entender los elementos más importantes de una relación causal y conocer los posibles
sesgos que considerar en la valoración de dicha relación.
• Caracterizar el índice de propensión y sus diversas alternativas como herramienta
estadística para evaluar el efecto causal de una exposición.
Introducción
Los registros constituyen una fuente de información muy importante y que se está utilizando cada
vez más en investigación clínica. La utilización de este tipo de fuentes en investigación clínica basada
en datos de la vida real se puede aplicar a distintos escenarios contemplados en otros capítulos, como
podrían ser la evaluación de un tratamiento o intervención, la estimación de la exactitud de una
prueba diagnóstica, la elaboración y validación de una regla de predicción clínica o la evaluación
de un factor pronóstico. En este capítulo nos vamos a centrar en la estimación del efecto de una
intervención mediante la utilización de registros (1,2).
En un capítulo anterior dedicado al ensayo clínico aleatorizado (ECA) se mostraba que cons-
tituye el mejor diseño de investigación primaria para cuantificar el efecto de una intervención o de un
tratamiento. La aleatorización, la ocultación de la secuencia de aleatorización y el ciego constituyen
características definitorias de los ECA, aunque no siempre es posible cumplir con estas exigencias
o, aun siendo posible, puede ser no recomendable dada la pregunta de investigación. La utilización
de datos proveniente de registros permite evaluar la efectividad y seguridad de un fármaco, evaluar
la incorporación de nuevas tecnologías o establecer una personalización más individual de los
tratamientos (1). Los datos del mundo real permiten identificar patrones a partir de datos, en lugar
de buscar datos que argumenten hipótesis, incorporando otras perspectivas complementarias al
estudio ideal que representa el ensayo clínico aleatorizado.
Los estudios no aleatorizados del efecto de una intervención son claves en distintas áreas de la
evaluación de la salud dado que se pueden realizar de forma más rápida que los ensayos clínicos
integrando la información de distintas fuentes. Tradicionalmente, y como alternativa a los ensayos
clínicos aleatorizados, los estudios de cohortes prospectivas o retrospectivas y los estudios de casos
y controles han constituido los diseños de investigación recomendados. En la actualidad y gracias
a la gran cantidad de información disponible en forma de registros, la información obtenida de

10. LECTURA CRÍTICA DE ESTUDIOS BASADOS EN REGISTROS DE SALUD... 107
este tipo de estudios, lo que algunos autores han denominado Real World Evidence (RWE), aporta
aspectos complementarios o en algunos casos sustitutos de las evidencias obtenidas a través de
ensayos clínicos aleatorizados cuando los resultados no son concluyentes.
Las dificultades de la utilización de los datos de la vida real abarcan aspectos diversos.
Legales. La normativa necesita incorporar esta nueva realidad en la que se respeten datos
especialmente sensibles para un participante como son los datos de salud.
Metodológicos. Los diseños de investigación tradicionales: cohortes, casos y controles no se aplican
directamente en el caso de grandes registros. La interconexión entre distintas fuentes es un reto
debido a la no existencia de un identificador único o la inexistencia del mismo por confidencialidad.
Éticos. En investigación biomédica es habitual la necesidad de consentimiento informado por
parte del paciente, este consentimiento es muy complicado o muchas veces imposible de obtener
en el caso de grandes registros. Frecuentemente, si existe un consentimiento, es de tipo asistencial
y no considera el uso de los datos para investigación.
Entre las distintas fuentes que pueden ser consideradas para generar evidencias basadas en los
datos de la vida real se puede considerar:
■ Historias clínicas electrónicas.
■ Registros de pacientes con una determinada patología o que han recibido un cierto trata-
miento o dispositivo (vacunas, prótesis, trasplante, etc.).

■ Bases de datos administrativas.
■ Registros poblacionales a nivel estadístico (Encuesta Nacional de Salud).
Además, con la informatización de la sociedad, la existencia de teléfonos inteligentes, wearables,

tarjetas de fidelización, compras en línea… una ingente cantidad de información no estrictamente
médica: datos económicos, laborales, familiares, de hábitos de consumo podrían estar al alcance de
la investigación biomédica (3).
Escenario
Ves en la consulta del centro de salud a Alfredo, de 52 años, diagnosticado de colitis ulcerosa a
los 22 años; presenta buena evolución de su enfermedad inflamatoria intestinal, con dos ingresos
hospitalarios desde su diagnóstico.
Se asocia con anemia crónica estudiada tratada con hierro oral desde hace 5 años que en líneas
generales consigue mantener los niveles aceptables de hemoglobina. En la última revisión refiere
molestias, probablemente asociadas al hierro oral que se manifiesta en heces y dispepsia.
Ante esta mala tolerancia te preguntas la sustitución de hierro oral por hierro intravenoso.
Encuentras este interesante artículo realizado con los datos del registro alemán de enfermedad
inflamatoria intestinal.
Stein J, Haas JS, Ong SH, Borchert K, Hardt T, Lechat E, et al. Oral versus intravenous iron
therapy in patients with inflammatory bowel disease and iron deficiency with and without anemia
in Germany-a real-world evidence analysis. Clinicoecon Outcomes Res 2018;10:93-103.
■ ¿Es eficaz el hierro intravenoso en pacientes con enfermedad inflamatoria intestinal y anemia
para el control de su anemia y prevenir ingresos hospitalarios?

■ ¿Indicarías el hierro por vía i.v. a Alfredo?
Causalidad
En el lenguaje cotidiano es frecuente utilizar el verbo causar como una relación entre una acción y
una consecuencia inequívoca de esa acción. Por ejemplo, se suele decir: «el alcohol me causa dolor de
cabeza» y esto indica para el sujeto que lo señala que después de que toma alcohol le aparece dolor
de cabeza. Conviene distinguir entre causalidad y asociación, asociación no indica causalidad (4,5); por
ejemplo, el consumo de helados correlaciona, se asocia, con las quemaduras solares, pero es improbable

que exista una relación causal entre estas dos variables, probablemente influya una tercera variable, que
en la jerga epidemiológica se denomina confusora o variable de confusión, que es el verano.
Hay que distinguir dos elementos en esa relación causal:
1. Elemento inicial o causa: se puede clasificar como causa intencional (p. ej., la administración
de un analgésico para quitar un dolor) o no intencional (p. ej., dieta rica en grasas o fumar
habitualmente en aparición de un cierto tumor en edad adulta).
2. Elemento final o consecuencia: se define en términos de cambio sobre la situación inicial,
el paciente tenía dolor intenso de cabeza y tras la administración del fármaco el dolor ha
disminuido. O el paciente no tenía un determinado cáncer y después de mucho tiempo en
el que ha estado expuesto al tabaco aparece un cáncer.
Características de la relación causal: siguiendo a Hume.
■ Temporalidad: la causa precede al efecto.
■ Dirección: la relación va de la causa al efecto.
■ Asociación: entendida como cuantificación de la constancia de la relación.
DISEÑO EXPERIMENTAL FRENTE A OBSERVACIONAL.

ELEMENTOS METODOLÓGICOS CLAVE. SESGOS
La utilización de registros, para evaluar el efecto de una intervención, frente al ensayo clínico aleatorizado
presenta algunas similitudes y diferencias. Para poder estimar correctamente, libre de sesgos, el efecto de
una intervención mediante un ensayo clínico aleatorizado se vio en un capítulo anterior que era necesario
establecer adecuadamente en un protocolo el diseño ideal para un estudio de intervención. Entre otros
elementos se señalaban la importancia de establecer una pregunta de intervención en términos PICO
(pacientes, intervención, comparador, outcomes), la aleatorización, el ciego o la ocultación de la secuencia
de aleatorización se establecían como aspectos claves. En el caso de un estudio observacional no aleatori-
zado cuyo objetivo sea una evaluación causal, también es recomendable establecer un diseño pragmático
en el que, en primer lugar, esté muy bien explicitado el PICO del estudio teniendo en consideración la
evitación de estos posibles sesgos más comunes en estudios observacionales (6).
SESGO DE CONFUSIÓN
En los estudios observacionales la asignación al tratamiento no es al azar, el médico u otro profe-
sional sanitario prescribe un tratamiento basado en las características clínicas del paciente. Estas
características se denominan variables de confusión o confusores si están relacionadas con la
exposición (tratamiento) y con el evento de interés (outcome) y no son variables intermedias en
la ruta causal entre tratamiento y outcome.
La selección de confusores y su análisis estadístico mediante modelos de regresión multivariable
o mediante índice de propensión entre las técnicas más utilizadas habitualmente será expuesta
posteriormente.
Una complejidad añadida puede considerarse si estos confusores son medidos a lo largo del
tiempo y la prescripción del tratamiento depende de estos confusores, que además pueden estar
modificados por los tratamientos previos, lo que se ha denominado confusores tiempodependientes,
este tipo de confusores necesita de análisis estadístico más complejo que los modelos de regresión
multivariable. Un ejemplo sería la evaluación de nuevos fármacos antirretrovirales y los CD4. Los
CD4 basales modifican la probabilidad de indicación de un nuevo fármaco antirretroviral, y este
fármaco, a su vez, podría modificar los CD4 posteriores al momento basal (5).
SESGO DE SELECCIÓN
Este sesgo se produce cuando la selección de los sujetos de investigación, del tiempo de inicio
de seguimiento o de algunos eventos está relacionada con la intervención y con el outcome; por

ejemplo, se podría producir si en la evaluación de un fármaco se recogen individuos prevalentes,

con individuos incidentes de la administración de un fármaco. Un sesgo conocido es el llamado
sesgo de tiempo inmortal. En un estudio aleatorizado se establece el tiempo de inicio como la fecha
de aleatorización. En un estudio observacional en el que se comparan dos tratamientos es difícil
establecer adecuadamente el tiempo en el que se establece la decisión de comenzar un tratamiento
que no tiene por qué coincidir con el tiempo de inicio. Si uno de los tratamientos empieza más
tarde, en el tiempo transcurrido entre la entrada en la cohorte y el inicio del tratamiento, el paciente
es inmortal, es decir, no es considerado a riesgo de desarrollar el evento a estudio. Además, puede
haber pacientes que en el momento del diagnóstico estén ya con el fármaco de interés, individuos
prevalentes respecto del tratamiento.
SESGO EN LA CLASIFICACIÓN DE LAS INTERVENCIONES

Clasificar intervenciones, sobre todo en tratamientos no farmacológicos, puede ser complejo y no
está exento de crítica. Por ejemplo, para clasificar si un paciente hace una dieta pobre en grasas se
podrían utilizar varias definiciones, y estas definiciones no deberían estar condicionadas al outcome
del estudio. Por ejemplo, en un estudio de casos y controles en el que se evalúe el efecto de un
tratamiento previo que tiene que ser reportado por los sujetos de investigación el grado de detalle
podría ser distinto en los pacientes casos que en los sujetos controles, un sujeto caso puede recordar
con más detalle tratamientos recibidos, intervenciones realizadas.
SESGO POR DESVIACIÓN DE LAS INTERVENCIONES PREVISTAS

Este sesgo ocurre cuando la intervención prevista se modifica, por ejemplo, por no adherencia al
tratamiento por parte del paciente, cambio de formulación o componentes de la intervención o
porque las cointervenciones sean muy distintas entre las dos intervenciones comparadas. Las des-
viaciones de las intervenciones previstas son muy frecuentes en algunos casos, por ejemplo, la pres-
cripción de los ciclos de quimioterapia para una patología puede no ser llevada a cabo en muchos
pacientes por problemas de toxicidad.
SESGO DEBIDO A DATOS PERDIDOS

Los datos perdidos (missing data) constituyen un problema a la hora de analizar los datos. Su
importancia va a depender de si el hecho de que el dato esté o no presente está relacionado o no
con respecto a la exposición o al outcome de interés. Por ejemplo, un estudio en el que en el grupo
de intervención, los valores missing se produjeran más frecuentemente en pacientes más graves
podría modificar mucho la estimación del verdadero efecto de la intervención.
SESGO EN LA MEDICIÓN DE LOS RESULTADOS

Este sesgo puede no tener implicaciones en la estimación del efecto si no es diferencial según el
tratamiento recibido. Tiene mucho más impacto si el error en la medición de resultados depende
del tratamiento recibido (error diferencial). Por ejemplo, en un estudio sobre síntomas de una
enfermedad en el que se compara tratamiento con quimioterapia frente a radioterapia podría ser
reportado de forma diferente por el paciente dado que conoce el tratamiento recibido o por el
médico que ha prescrito los tratamientos.
Este sesgo de detección puede ser atenuado si se puede medir el resultado de interés de forma
ciega. Por ejemplo, un estudio sobre síntomas de una enfermedad podría ser reportado distinto
por el paciente dado que conoce el tratamiento recibido, pero no por un evaluador enmascarado a
los tratamientos administrados.

SESGO EN EL REPORTE DE LOS RESULTADOS

En los estudios observacionales es menos frecuente que exista un protocolo en el que se establezcan
claramente a priori los outcomes que se van a reportar y en qué momento de la enfermedad se van
a medir. Este posible sesgo se podría plantear en el caso de que para la evaluación de un outcome
como calidad de vida se reporten en el documento final aquellos aspectos que han sido favorables
(habitualmente basados en significación estadística) y no aquellos cuya significación estadística no
haya sido alcanzada. También puede ser frecuente si los resultados provienen de estudios en los
que se analizan subgrupos no previamente seleccionados.
Índice de propensión (IP)

La estimación del efecto promedio de un tratamiento en un ensayo clínico se suele mostrar
con medidas de riesgo como son el riesgo relativo, la diferencia de riesgos o el hazard ratio. Estas
medidas, en los ensayos clínicos, se suelen estimar de forma univariable, dado que en este estudio
experimental el riesgo de los sesgos que se mostraron anteriormente es mínimo. En estudios
observacionales, clásicamente, los modelos multivariables de regresión lineal, logística o Cox han
constituido los métodos más habituales para ajustar por posibles variables confusoras. Otra alter-
nativa para estimar el efecto medio del tratamiento es mediante el uso del índice de propensión. El
índice de propensión (IP), propensity score, fue definido por Rosenbaum y Rubin (7) en 1983 como
la probabilidad que tiene cada participante del estudio de ser asignado a cada una de las ramas del
estudio por sus características basales.
p( X ) = P ( D = 1 X ) = E( D X )
donde D es un indicador de la exposición al tratamiento y X es un vector multidimensional que
resume las características basales de los pacientes.
El IP es un índice balanceado; por lo tanto, en un conjunto de sujetos que tienen el mismo IP, la
distribución de las variables observadas basales es la misma entre pacientes tratados y no tratados.
El IP se puede calcular en cualquier tipo de estudio, experimental u observacional. En un
estudio experimental la asignación es conocida y el IP es estimado fácilmente; en un estudio
aleatorizado con dos ramas equiprobables, el IP para cada paciente es 0,5. En los estudios
observacionales el verdadero valor del IP no es conocido, pero se puede estimar utilizando los
datos del estudio. Hay varias alternativas estadísticas en la estimación del índice de propensión,
la regresión logística en la que la variable dependiente es el tratamiento recibido y las variables
independientes las variables basales, es el método estadístico más utilizado en la generación de
un índice de propensión.
De forma parecida a la aleatorización, los métodos basados en el índice de propensión controlan
el efecto de la confusión mediante la comparación de sujetos tratados y no tratados con distribución
similares de las covariables iniciales.
ASUNCIONES DEL ÍNDICE DE PROPENSIÓN

Rosenbaum y Rubin establecen dos condiciones que debe cumplir el IP para su aplicación.
La primera es que en el estudio observacional no hay confusores no medidos. Dado que esta
condición se debe cumplir, pero es imposible de asegurar, Rosenbaum y Rubin proponen efectuar
un análisis de sensibilidad para establecer cuál sería el efecto de un confusor no medido para que
los resultados de los análisis cambiaran de sentido.
La segunda condición es que cada sujeto tiene una probabilidad distinta de 0 de recibir un
tratamiento; esta condición es frecuentemente establecida en los ensayos clínicos aleatorizados,
por ejemplo, si hay un tratamiento con posible efecto teratogénico las embarazadas son excluidas.

En este mismo artículo Rosenbaum y Rubin demuestran que si se cumple estas condiciones
se puede obtener mediante el IP una estimación no sesgada del efecto medio del tratamiento con
un diseño observacional.
CREACIÓN DEL ÍNDICE DE PROPENSIÓN

La creación de un índice de propensión más usada se basa en un modelo de regresión logística,
en el que la variable dependiente es el tratamiento recibido y las variables independientes son las
variables basales; la probabilidad estimada por este modelo refleja la probabilidad condicionada
de recibir el tratamiento basándose en un conjunto de variables iniciales observadas y medidas.
Esta probabilidad refleja la propensión que tiene un paciente de recibir el tratamiento, que se
ha definido como evento, por las características basales del paciente.
Una vez estimada esta probabilidad, se plantean varias alternativas para obtener una estimación
insesgada de la relación entre el tratamiento y el evento de interés (8,9). Las más usadas son:
Emparejamiento. Para cada paciente tratado se busca uno o varios no tratados según la proba-
bilidad estimada de tratamiento.
Ponderación. Consiste en ponderar la relación entre las dos variables (tratamiento y evento) por
el inverso de esa probabilidad (IPTW). Esta estrategia crea una nueva muestra «corregida» en
la que la asignación de uno u otro tratamiento es independiente de las características basales
del paciente (similarmente a lo que ocurre en un ECA).
Ajuste. Ajustar la relación entre las variables estratificando por categorías de la probabilidad de
tratamiento (IP) o estableciendo modelos de regresión entre la variable evento y el tratamiento
añadiendo esta probabilidad como variable confusora.
EMPAREJANDO POR ÍNDICE DE PROPENSIÓN (PS MATCHING)

El emparejamiento según el índice de propensión consiste en encontrar para cada sujeto
tratado una pareja no tratada con un valor de IP similar. Una vez que se han formado todas
las parejas, se puede comparar directamente los resultados entre tratados y no tratados en
la muestra emparejada. Si la variable es continua, mediante una comparación de medias de
muestras emparejadas. Si la variable es dicotómica, el efecto del tratamiento se puede estimar
mediante cualquiera de las medidas de efecto habituales, tales como el riesgo relativo, odds ratio
o número necesario que se va a tratar, estimadas para datos emparejados. Análogamente a los
ensayos clínicos aleatorizados, si el balance de las covariables no se realiza adecuadamente en
la muestra emparejada, se podrían plantear modelos de regresión adicionales con ajustes en los
factores pronósticos no balanceados.
El IP compensa las diferencias observadas entre tratados y no tratados en la muestra, por lo

que un participante tratado y un control con el mismo valor de índice de propensión tienen una
distribución similar de las variables con las que se ha construido el índice de propensión. Esto
significa que tras el emparejamiento cada paciente tratado puede tener valores distintos para
alguna de las covariables, aunque la distribución de las covariables sea parecida dentro del grupo
de tratados y los no tratados.
Estudios de simulación han establecido que para reflejar adecuadamente el diseño emparejado en
variables continuas, la t de Student para muestras relacionadas o alguna alternativa no paramétrica
como la prueba Wilcoxon deberían ser utilizadas. En el caso binario se debería utilizar la prueba
de McNemar para proporciones relacionadas, dado que la prueba de χ2 exige independencia de las
observaciones. Modelos de regresión para observaciones relacionadas con estimadores robustos del
error típico, como modelos de ecuaciones de estimación generalizadas (GEE models) o modelos
lineales generalizados (GLM models) constituyen una alternativa y permiten ajustar simultáneamente
por otras covariables.

EMPAREJANDO DE FORMA CODICIOSA Y ÓPTIMA

(GREEDY Y OPTIMAL MATCHING)
En el emparejamiento Greedy se selecciona de forma aleatoria un sujeto tratado, al que se le empareja
con el sujeto no tratado cuyo índice de propensión sea más cercano; este proceso es repetido hasta
que todos los sujetos no tratados han sido emparejados, o hasta que la lista de sujetos tratados ha
quedado vacía.
El término utilizado en inglés es Greedy, que significa codicioso, ansioso, avaro, debido a que
en cada paso del proceso el sujeto no tratado más cercano es seleccionado para emparejarlo con
un sujeto tratado concreto, incluso aunque el sujeto no tratado estuviera más próximo a un sujeto
tratado seleccionado posteriormente.
Con el emparejamiento óptimo las parejas se forman de tal manera que el total de las diferencias
de los índices de propensión entre parejas es mínimo.
En comparaciones realizadas con estos dos métodos, los resultados establecen que el óptimo no
es mejor que el Greedy a la hora de establecer muestras balanceadas en el IP.
IP emparejado con reemplazamiento frente a no reemplazamiento
Otra de las opciones que hay que establecer a la hora de plantear un emparejamiento por IP es
decidir si las parejas se forman con reemplazamiento o sin reemplazamiento. En este último caso, si
un sujeto no tratado es seleccionando como pareja de un sujeto tratado, el sujeto no tratado queda
excluido como posible pareja del siguiente paciente tratado, es decir, cada sujeto no tratado solo
puede estar en una pareja. En el caso de que permitamos con reemplazamiento, un mismo sujeto
no tratado puede ser pareja de varios sujetos tratados; en este caso hay que tener en cuenta que
los contrastes de hipótesis que se establezcan y los análisis correspondientes han de considerar la
existencia de un sujeto varias veces.
Vecino más cercano o vecino más cercano con un caliper máximo
Como se ha señalado anteriormente, el emparejamiento mediante índice de propensión busca para
cada paciente tratado un paciente no tratado con un IP similar, y hay diferentes opciones para elegir
esa pareja similar. Las dos opciones más utilizadas son el vecino más cercano y el vecino más cercano
con una diferencia (caliper) máxima. Esta última opción supone frecuentemente que alguno de los
pacientes tratados no encuentre pareja dentro de la diferencia máxima establecida y que sea excluido
a la hora de estimar el efecto del tratamiento, análogamente en un ensayo clínico un sujeto cuyas
condiciones clínicas sean extremas podría estar indicada su asignación, sin aleatorización, a una de las
ramas y no entraría en el ensayo clínico. Cuando se realiza la opción del vecino más cercano, ante una
misma diferencia entre varios sujetos no tratados habría que escoger de forma aleatoria a uno de ellos.
La decisión de establecer una distancia máxima aceptable es objeto de controversia; en la
literatura médica, diversos rangos de calipers han sido usados, por ejemplo, diferencias absolutas
máximas de 0,05 y 0,1 en el valor de IP (no olvidemos que este, al ser una probabilidad condicionada
tiene un rango de posibles valores entre 0 y 1). Otra diferencia máxima muy utilizada se basa en
la variabilidad del logit del IP, Rosenbaum y Rubin muestran que si la varianza del logit del IP es
igual en tratados y no tratados, utilizando calipers (calibres o distancias) de anchura máxima de
0,2 veces la desviación típica combinada del logit se podría eliminar aproximadamente la mayoría
del sesgo debido a los confusores medidos. Otras alternativas que se han propuesto consisten en
emparejar más de un no tratado por cada tratado.
ESTRATIFICACIÓN POR EL ÍNDICE DE PROPENSIÓN

La estratificación por el índice de propensión es una opción que consiste en dividir la muestra
en varias submuestras basadas en percentiles del índice de propensión en tratados y no tratados.
El número de grupos que habitualmente se usa es 5 basado en los quintiles del IP, Rosenbaum y

Rubin establecen que la estratificación en quintiles del IP elimina aproximadamente el 90% del
sesgo debido a los confusores cuando se estima un efecto lineal del tratamiento. Si se incrementa el
número de grupos resulta un incremento en la reducción del sesgo que cada vez menos importante.
Esta estratificación es similar a la que se realiza en un metaanálisis de ensayos clínicos.
PONDERANDO POR EL INVERSO DE LA PROBABILIDAD

DE TRATAMIENTO USANDO EL ÍNDICE DE PROPENSIÓN
Esta aproximación de uso del índice de propensión consiste en usar pesos basados en el índice de
propensión para crear una muestra artificial en la cual la distribución de las variables basales medidas
es independiente de la asignación del tratamiento.
Si denotamos por Di una variable que nos indica si el paciente está o no tratado e IPi el índice
de propensión para el sujeto i podemos definir el peso de ese individuo como:
Di (1 − Di )
wi = +
IPi 1 − IPi
Es decir, que wi representa el inverso de la probabilidad de recibir el tratamiento que el paciente
realmente recibió.
Este peso es utilizado para ponderar la relación entre el tratamiento y el evento de interés,
teniendo en cuenta la naturaleza de datos emparejados para el cálculo de los errores estándar de los
estimadores. Estos pesos pueden ser inestables debido a la existencia de pacientes con probabilidades
bajas de recibir el tratamiento recibido.
Existen técnicas para disminuir el impacto excesivo de esos individuos en la estimación del efecto.
AJUSTE USANDO EL IP COMO COVARIABLE

En este método se plantea un modelo de regresión en el que la variable dependiente es el
desenlace de interés, la independiente el tratamiento y como variable confusora se utiliza el
índice de propensión. La única asunción de este método es que la relación entre el índice de
propensión y el resultado de interés está correctamente especificada, por ejemplo, que la hipótesis
de linealidad es correcta, en este sentido es similar a un modelo de regresión multivariable con
dos variables independientes.
COMPARACIÓN DE VARIABLES BASALES

Es necesario evaluar si las características basales observadas de los pacientes son similares entre
sujetos tratados y no tratados mediante la comparación de las variables basales antes y después de
usar el índice de propensión como método de equilibrado. Antes del emparejamiento es asumible
que pacientes no tratados y tratados sean distintos, lo que podía reflejar un sesgo por indicación, des-
pués del emparejamiento la existencia de diferencias podía reflejar que el IP no ha sido correctamente
especificado o que las diferencias en la distribución de características basales en los grupos son tan
grandes que el equilibrado utilizando el IP no ha conseguido su función.
En el emparejamiento mediante el índice de propensión, esta comparación se realiza mediante
la estimación de las diferencias estandarizadas entre expuestos y no expuestos antes y después del
emparejamiento, mediante una comparación de medias para variables continuas o mediante la
diferencia de proporciones estandarizadas para variables categóricas. Los contrastes de hipótesis
no están recomendados para esta comparación dada su gran relación con el tamaño muestral, de
la misma forma que no se recomiendan para valorar la comparabilidad basal de los grupos tras la
aleatorización en un ECA. Si se cuenta con gran tamaño muestral, se podrían encontrar diferencias
estadísticamente significativas, pero de poca importancia clínica.

Si las diferencias estandarizadas, en valor absoluto, son mayores de un 10%, podría ser un indicio
de mala especificación del modelo con el que se construyó el índice de propensión. En este caso se
recomienda replantear el modelo, añadiendo o quitando variables, creando interacciones o términos
no lineales y generando un nuevo índice de propensión y realizando nuevamente la comparación de
las covariables basales. Si la diferencia se debe a una variable específica, se pueden utilizar técnicas
analíticas adicionales (utilizarla como variable de estratificación adicional, por ejemplo).
SELECCIÓN DE VARIABLES: CONFUSORES. DAG

La selección de variables para realizar el ajuste en una relación causal es uno de los principales retos
a la hora de realizar una investigación observacional con objetivo causal.
Una definición de variable confusora muy extendida se establece como aquella variable que se
asocia con la variable de exposición (tratamiento), con el outcome y que no es consecuencia de la
variable de exposición. Brookhart (10) establece, mediante estudios de simulación, que variables
asociadas a la exposición y al resultado de interés siempre deben ser incluidas, variables que solo
se asocien al resultado de interés es necesario incluirlas y sin embargo variables que solo se asocien
a la exposición no es recomendable incluirlas, dado que no corrigen el sesgo de la estimación del
efecto y aumentan la varianza de los estimadores (imprecisión).
Para decidir la selección de las variables es útil diseñar un gráfico acíclico direccional DAG
(11). Estos gráficos permiten establecer relaciones causales y decidir qué variables se comportan
como confusoras en el modelo de relación causal propuesto y por tanto deben ser seleccionadas
para estimar un efecto causal de manera adecuada.
En este gráfico se unen las variables con flechas indicando la relación entre dos variables y el
sentido (directed) de la asociación causal. Se dice que es acíclico porque desde un nodo no se puede
volver al mismo nodo.
Si no existe una flecha entre dos variables, indica la asunción de no efecto causal entre las dos
variables (fig. 10.1).
Figura 10.1 Asociación de un confusor (C) con la variable tratamiento (A) sin camino causal entre confusor
y variable resultado (Y).

Figura 10.2 Camino directo entre el tratamiento (A) y la variable resultado (Y), y camino por la puerta de atrás
que pasa por el confusor C.
En el DAG anterior se muestra que A potencialmente causa Y y que C «no causa» Y. El gráfico
se dice causal cuando este incluye todas las causas comunes.
Como se muestra en la figura 10.2, si se quiere evaluar el efecto de A en Y hay que tener en cuenta
que existe un camino causal entre A e Y y otro camino no causal entre A e Y que pasa por C, este último
camino se puede cortar si ajustamos por C. Un ejemplo clásico utilizado en epidemiología es evaluar el
efecto de tener los dedos amarillos (A) y cáncer de pulmón (Y), hay una variable, ser fumador (C), que
se asocia con la variable dedos amarillos y con cáncer de pulmón. Aunque no exista relación causal entre
dedos amarillos y cáncer de pulmón, si estudiamos la asociación entre estas dos variables se encontrará
asociación estadística entre ellas; esto es lo que se conoce como camino por la puerta de atrás, se puede
llegar de forma errónea de A a Y pasando por C, este camino se interrumpe cuando ajustamos por C.
En la figura 10.3 se muestra que hay variables (I) que se asocian con el tratamiento (A) y con
el resultado (Y ) y que no deben ser ajustadas dado que son variables intermedias (I). Ajustar por
una variable intermedia interrumpe el efecto causal de A en Y que pasa por la variable intermedia I
y lleva a estimaciones erróneas del efecto causal subyacente.
La selección de variables es un punto clave en el índice de propensión, dado que no existe

consenso sobre cuáles son las variables que se deben incluir en un IP. En la fase de diseño de un
Figura 10.3 Modelización de una variable intermedia (I) entre el tratamiento (A) y la variable resultado (Y). El
efecto de A en Y tiene un camino causal directo y un camino indirecto que pasa por la variable intermedia (I).

estudio observacional se deben identificar por los expertos que conocen el problema de investigación
cuáles son las variables que podrían estar relacionadas con el tratamiento, con el resultado y con
ambas, esta fase es previa al análisis de datos para evitar buscar asociaciones estadísticas espurias.
La plasmación de las relaciones causales en un gráfico causal es una tarea recomendada en el
caso de evaluación de exposiciones o tratamientos en estudios observacionales.
Dada una serie de variables basales podríamos distinguir tres grupos de variables:
1. Variables que se asocien solo con la exposición.
2. Variables que se asocien solo con el resultado.
3. Variables que se asocien con la exposición y con el resultado.
Brookhart sugiere que variables que se asocien con el tratamiento pero no con el desenlace no
se deben introducir, dado que incrementan la varianza de los estimadores y no reducen el sesgo. En
este mismo estudio se establece que variables que no afecten al tratamiento pero que sí afecten al
resultado deberían ser introducidas en el modelo. Variables que afecten a tratamiento y resultado
deberían siempre entrar.
Otras alternativas al índice de propensión

La utilización de modelos de regresión multivariable ha sido la metodología estadística más
frecuentemente utilizada para estimar el efecto de una intervención, tratamiento o exposición sobre
un resultado. Con los modelos de regresión es posible evaluar la posible confusión o establecer si
existe interacción con otras características de los pacientes. Bajo ciertas condiciones, las estima-
ciones obtenidas por los modelos de regresión multivariables y el IP son similares, condicionada al
número de eventos y número de pacientes tratados. Si el número de eventos es reducido, el índice
de propensión permite ajustar un modelo con más variables que el modelo de regresión logística.
Además, en la elaboración de un índice de propensión se establece la necesidad de la estimación
de las diferencias estandarizadas entre pacientes tratados y no tratados en la muestra emparejada,
lo cual permite valorar de forma más adecuada el grado de balance conseguido entre los grupos y
valorar si es aceptable para continuar hacia una estimación de efectos. Otras condiciones como la
positividad (todos los pacientes deben tener una probabilidad distinta de cero de recibir cualquier
tratamiento para comparar) no son testadas habitualmente cuando se utilizan modelos de regresión.
Otros métodos propuestos, que no podemos abordar en este capítulo, abarcan la regresión
discontinua, el método de diferencias en diferencias, los landmark analysis, los métodos de rando-
mización mendeliana o el uso de las llamadas variables instrumentales.
Artículo
Stein J, Haas JS, Ong SH, Borchert K, Hardt T, Lechat E, et al. Oral versus intravenous iron
therapy in patients with inflammatory bowel disease and iron deficiency with and without anemia
in Germany-a real-world evidence analysis. Clinicoecon Outcomes Res 2018;10:93-103. Disponible
en: https://pubmed.ncbi.nlm.nih.gov/29440920/.

Conclusión
La evaluación del riesgo de sesgo en estudios que han utilizado datos observacionales con una
finalidad de evaluar causalidad, requiere de instrumentos adecuados cuyas recomendaciones tienen
que ser valoradas e incorporadas por los investigadores, preferentemente en una fase inicial, de

A) ¿Son los resultados del estudio válidos?

1. ¿El estudio se centra en un Sí ✓ No sé No
tema claramente definido? Pacientes: adultos mayores de 18 años diagnosticados de
PISTA: una pregunta se puede enfermedad intestinal inflamatoria, clasificados mediante
definir en términos de: International Statistical Classification of Diseases and Related
• La población estudiada. Health Problems, 10th revision, German Modification
• La intervención/exposición. (ICD-10-GM) codes K50* or K51, con déficit de hierro
• Los resultados (outcomes) asociado o no a anemia que empiezan con tratamiento con hierro
considerados. clasificados.
Intervención: terapia intravenosa de hierro.
Comparación: terapia oral con hierro.
Outcomes: hospitalización por cualquier causa, hospitalización
relacionada con la deficiencia de hierro/anemia, mortalidad, costes.
2. ¿La cohorte se reclutó Sí No sé ✓ No
de la manera más adecuada? Son pacientes con diagnóstico reciente en un momento homogéneo
PISTA: se trata de buscar de la enfermedad procedentes de un registro que recoge 75
posibles sesgos de selección de 120 de las compañías de seguro de Alemania, representando
que puedan comprometer que el 4% de la población alemana. No conocemos si este registro
los hallazgos se puedan es una muestra representativa o podría estar sesgada a favor de
generalizar. pacientes con más recursos, más acceso a utilización de servicios
• ¿La cohorte es representativa sanitarios. Esto puede ser de vital importancia para outcomes
de una población definida? relacionados con los costes o la hospitalización.
• ¿Se incluyó a todos los que La anemia podría estar definida de distintas formas según la
deberían haberse incluido práctica local. Los déficits de hierro/anemia fueron detectados
en la cohorte? mediante los diagnósticos principal y secundario de acuerdo a la
• ¿El tratamiento/la exposición clasificación ICD-10-GM, códigos D50* y E61 y tratamiento
se midió de forma precisa con con hierro (vía ATC).
el fin de minimizar posibles
sesgos?
Preguntas de detalle
3. ¿El resultado se midió de Sí ✓ No sé No
forma correcta con el fin de La variable ingreso por cualquier causa es una variable objetiva
minimizar posibles sesgos? que no estaría condicionada por la exposición a cualquiera
PISTA: se trata de buscar sesgos de los grupos de tratamiento.

de medida o de clasificación: Los ingresos relacionados con anemia son registrados de acuerdo
• ¿Los autores utilizaron con la clasificación ICD-10-GM, códigos D50* y E61 y
variables objetivas o subjetivas? tratamiento con hierro (vía ATC). Los costes relacionados con
• ¿Las medidas reflejan de la salud fueron calculados durante el período de observación
forma adecuada aquello que se y en tres trimestres consecutivos incluyendo los costes de
supone que tiene que medir? hospitalización, farmacéuticos, servicios, ayudas, bajas laborales.
• ¿Los métodos de medida
fueron similares en los
diferentes grupos?
• ¿Eran los sujetos y/o el
evaluador de los resultados
ciegos a la exposición
(si esto no fue así, importa)?
(Continúa)
4. ¿Han tenido en cuenta los Sí No sé ✓ No

autores el potencial efecto El índice de propensión fue estimado mediante una regresión
de confusión de todas logística binaria utilizando las variables edad, género y las
las variables que puedan comorbilidades de acuerdo al índice de Charlson. No justifican
afectar a la asociación la selección de estas variables. Se podría haber añadido alguna
tratamiento/resultado? variable relacionada directamente con la enfermedad inflamatoria
PISTAS: intestinal (escala de gravedad, tratamientos, número de brotes)
• ¿Dan una lista o con la gravedad del déficit de hierro y anemia.
de las variables? Para evaluar los outcomes de costes también se podría haber
• ¿Justifican cómo/por qué considerado ingresos económicos o situación laboral.
utilizan esas variables para
crear el PS? ¿Evalúan
interacciones, términos
no lineales?
• ¿Qué método estadístico
(regresión logística, árbol
de decisión…) utilizan
para generar el PS?
• ¿Son variables asociadas
con el evento y/o con el
tratamiento?
• ¿Utilizan otros métodos
para seleccionar variables?
5. ¿Han evaluado que el PS Sí ✓ No sé No
consigue balance adecuado En material y métodos señalan que han utilizado diferencias
entre tratados y no estandarizadas < 10% en las variables seleccionadas y lo
tratados? presentan en la tabla 1.
PISTA: ¿utilizan diferencias
estandarizadas?, ¿test
estadísticos adecuados?
6. ¿Es adecuado el método Sí ✓ No sé No
de PS que utilizan? Utilizan emparejamiento mediante vecino más cercano con una
PISTA: tras obtener el PS distancia máxima de 0,05 de la desviación típica del índice de
utilizan: propensión. Otra alternativa podría haber sido establecer 0.2 SD
• Emparejamiento (matching). del logit del índice de propensión.
• Estratificación. Emparejan 380 pacientes; hay que tener en cuenta que hay 442
• Ponderación. pacientes en el grupo intravenoso. No se señala nada de estos
62 pacientes que no fueron emparejados.


7. ¿Cuáles son los resultados Emparejan 380 pacientes, y se encuentran diferencias en la
de este estudio? ¿Cómo proporción de hospitalizaciones por cualquier causa, siendo
muestran los resultados? menor en el grupo de pacientes con tratamiento con hierro
PISTA: intravenoso (37%) frente a un 48% en el grupo de hierro oral,
• Diferencias. p = 0,0019.
• Cocientes (OR, HR, RR, De forma similar encuentran menos hospitalizaciones en el grupo
etc.). intravenoso, relacionadas con el déficit de hierro/anemia
(5 vs. 14%, p < 0,001).
La duración de los días de hospitalización es mayor en el grupo
i.v. (8,5 vs. 7,9, p = 0,0016), sin embargo, las hospitalizaciones
relacionadas con el déficit de hierro/anemia fueron
estadísticamente menores en el grupo intravenoso (7,0 vs. 9,6
días, p < 0,001).
Los costes relacionados con la salud fueron mayores en el grupo
intravenoso (13.365 euros vs. 9.099 euros, p < 0,0001), sin
embargo, los costes de hospitalización fueron menores en el
grupo de administración oral (2.796 vs. 4.397 euros, p = 0,006).
Los costes farmacéuticos fueron mayores en los pacientes
tratados con hierro intravenoso, seguramente relacionado
con administración de otros fármacos (biológicos).
Tras la utilización de la técnica de diferencia en diferencias para
ajustar (tabla 4 y fig. 4) se puede observar que la diferencia en
términos de coste totales es 369 € favorable al hierro i.v., pues
pese a su mayor coste farmacológico reduce ulteriores estancias,
reingresos y otros cuidados.
Aspectos que mejorar en la presentación de resultados son: no se
dan diferencias de proporciones ni de medias, se señalan los
valores individuales en cada grupo, no se corrige adecuadamente
porque los pacientes tras el emparejamiento no pueden ser
considerados como muestras independientes.
8. ¿Cuál es la precisión No se da intervalo de confianza.
de los resultados?
Mira el intervalo de confianza.
C) ¿Son los resultados aplicables a tu medio?
9. ¿Te parecen creíbles Sí No sé ✓ No
los resultados? No realizan análisis de sensibilidad seleccionando otras variables
PISTA: ¡un efecto grande es
confusoras, modelos de regresión, criterios de inclusión

difícil de ignorar! u opciones del índice de propensión.
• ¿Puede deberse al azar, sesgo Los resultados son consistentes con otros estudios que han
o confusión? comparado el hierro oral vs. intravenoso.
• ¿Realizan el análisis de
sensibilidad? ¿Comparan
con otros métodos?
10. ¿Los resultados de Sí ✓ No sé No
este estudio coinciden La revisión de Bonovas S et al. Intravenous Versus Oral Iron for
con otra evidencia the Treatment of Anemia in Inflammatory Bowel Disease:
disponible? A Systematic Review and Meta-Analysis of Randomized
Controlled Trials. Med (Balt). 2016;95(2):e2308 es consistente
con los resultados de este estudio.
(Continúa)

11. ¿Se pueden aplicar los Sí ✓ No sé No

resultados en tu medio? En práctica clínica, la prescripción de hierro oral en pacientes
PISTA: considera si: con anemia y enfermedad inflamatoria intestinal es menor que
• Los pacientes cubiertos el hierro intravenoso. Las diferencias entre el sistema alemán
por el estudio pueden ser de salud y el nuestro no parecen sustanciales para aplicar los
suficientemente diferentes resultados de este estudio en nuestro contexto.
de los de tu área. Dignass AU, et al. European Crohn’s and Colitis Organisation
• Tu medio parece ser muy [ECCO]. European consensus on the diagnosis and
diferente del medio management of iron deficiency and anaemia in inflammatory
del estudio. bowel diseases. J Crohns Colitis. 2015;9(3):211-222.
• ¿Puedes estimar los beneficios
y perjuicios en tu medio?
12. ¿Va a cambiar esto tu Existen ventajas de salud y de costes a favor del hierro i.v.
decisión clínica? Sin embargo, otros factores como las preferencias del paciente,
la duración de la enfermedad y tratamientos previos, el modo
de organización de la unidad, etc., deben ser incorporados
a la decisión.
Por nuestra parte, propondríamos a Alfredo hierro intravenoso.
diseño del estudio. Posteriormente, son útiles para que revisores, metodólogos y editores evalúen
sus procedimientos y resultados. La publicación de la herramienta ROBINS-I contempla los
principales aspectos que se deben considerar en el caso de estudios no aleatorizados de evaluación
del efecto de los tratamientos (6,12,13).
La utilización de datos procedentes de registros permite contestar preguntas de investigación
sobre los resultados de intervenciones preventivas o terapéuticas que no están contempladas en
ensayos clínicos. Otras preguntas de investigación, que se han desarrollado en otros capítulos de este
libro, de naturaleza pronóstica, sobre factores de riesgo, exactitud diagnóstica y valoración económica
son también susceptibles de ser abordadas a partir de datos observacionales y registros ya existentes.
Bibliografía
1. Schünemann HJ, Tugwell P, Reeves BC, Akl EA, Santesso N, Spencer FA, et al. Non-randomized studies
as a source of complementary, sequential or replacement evidence for randomized controlled trials in
systematic reviews on the effects of interventions. Res Synt Meth 2013;4(1):49-62.
2. https://www.fda.gov/regulatory-information/search-fda-guidance-documents/use-real-world-evidence-
support-regulatory-decision-making-medical-devices.
3. Murdoch T, Detsky A. The Inevitable Application of Big Data to Health Care. JAMA 2013;309(13):
1351-2.
4. Hernán MA. The C-Word: Scientific Euphemisms Do Not Improve Causal Inference From Observational
Data. Am J Public Health 2018;108(5):616-9.
5. Hernán MA, Brumback B, Robins JM. Marginal structural models to estimate the causal effect of
zidovudine on the survival of HIV-positive men. Epidemiol 2000;11(5):561-70.
6. Sterne Jonathan AC, Hernán Miguel A, Reeves Barnaby C, Savović Jelena, Berkman Nancy D, Viswanat-
han Meera, et al. ROBINS-I: a tool for assessing risk of bias in non-randomised studies of interventions.
BMJ 2016;355:i4919.
7. Rosenbaum P, Rubin D. The central role of the propensity score in observational studies for causal effects.
Biometrika 1983;70(3):41-55.
8. Austin PC. An Introduction to Propensity Score Methods for Reducing the Effects of Confounding in
Observational Studies. Multivariate Behav Res 2011;46(3):399-424.
9. Heinze G, Juni P. An overview of the objectives of and the approaches to propensity score analyses. Eur
Heart J 2011;32(14):1704-8.

10. Brookhart MA, Schneeweiss S, Rothman KJ, Glynn RJ, Avorn J, Sturmer T. Variable selection for
propensity score models. Am J Epidemiol 2006;163(12):1149-56.
11. Greenland S, Pearl J, Robins JM. Causal diagrams for epidemiologic research. Epidemiology 1999;10(1):
37-48.
12. von Elm E, Altman DG, Egger M, et al. The Strengthening the Reporting of Observational Stu-
dies in Epidemiology (STROBE) statement: guidelines for reporting observational studies. Lancet
2007;370(9596):1453-7.
13. Yao XI, Wang X, Speicher PJ, et al. Reporting and guidelines in propensity score analysis: a systematic
review of cancer and cancer surgical studies. J Natl Cancer Inst 2017;109(8):djw323.

Muriel A, Pijoan JI. Lectura crítica de estudios basados en registros de salud o de actividad clínica. Datos de
la vida real. En: Cabello Juan B, editor. Lectura crítica de la evidencia clínica, 2.ª ed. Barcelona: Elsevier;
2022. p. 106-121.

C A P Í T U L O 11
Lectura crítica de revisiones
de la evidencia clínica
Juan Bautista Cabello López ■ Eukene Ansuategi Zengotitabengoa
Amanda Burls
• Identificar los diferentes tipos de revisiones existentes en la literatura clínica.

• Definir los ejes para clasificar las revisiones.
• Clarificar la taxonomía de las revisiones.
• Describir las características de los diferentes tipos de revisiones y su utilidad
para la práctica clínica.
• Conocer la aproximación a la lectura crítica de las revisiones.
Introducción
La «revisión» es un género tradicional de la literatura médica que trata de recopilar, organizar y
sintetizar estudios previos sobre un tema. Hay distintas formas de realizar estas revisiones, unas
tienen larga tradición clínica y otras se han desarrollado en los últimos decenios asociadas al
movimiento de la medicina basada en la evidencia. En cualquiera de sus formas, la revisión ocupa
un lugar preeminente entre el tipo de artículos más descargados y leídos de las revistas médicas (1).
En sus formas más tradicionales, la revisión es un resumen del conocimiento existente sobre un
tema, realizado desde la perspectiva de un experto o conocedor del área, habitualmente invitado por
los editores o grupos científicos. Son documentos que versan sobre asuntos clave para la clínica o
el conocimiento, y tienen importancia en la construcción de la opinión en los grupos clínicos. No
obstante, estas revisiones, pese a hablar de ciencia, no usan métodos científicos para identificar,
recopilar, ordenar, evaluar y sintetizar la información obtenida. Por ello Cynthia Mulrow (2) propuso
transformar las revisiones en estudios con arquitectura explícita y definida a priori, de modo que
permita construir síntesis de la evidencia consistentes y válidas que trasciendan las opiniones de
los autores. Bajo el influjo de esta visión se ha desarrollado en los últimos años una pléyade de
modernas técnicas de revisión (3).
Sea como fuere, todas las revisiones se enfrentan a la compleja tarea de identificar, ordenar
y condensar el conocimiento, y cada una de esas formas de revisión trata de aproximarse a su
objetivo desde diferentes visiones editoriales, diferentes marcos teóricos, distintos propósitos inves-
tigacionales, variadas estrategias de investigación, y necesidades de conocimiento específicas. En
consecuencia, cada tipo de revisión requerirá de diferentes aproximaciones lectoras. En este capítulo
trataremos sobre los aspectos esenciales de las distintas revisiones, como son sus ejes de clasificación,
su taxonomía, sus características diferenciales y sobre la lectura crítica de estos documentos, con
especial hincapié en las que son de más utilidad para la clínica.

11. Lectura crítica de revisiones de la evidencia clínica 123
Ejes de clasificación de las revisiones

Los distintos tipos de revisiones se diferencian fundamentalmente en el modo en que gestionan
tres grandes ejes: 1) los objetivos y el marco teórico; 2) la dimensión espacio-temporal, y 3) la
estructura interna de la revisión.
OBJETIVOS Y MARCO TEÓRICO

Unas revisiones tienen una intención más teórico-reflexiva o exploratoria, y otras, en cambio, tienen
una finalidad más definida y pragmática. Cada una de ellas responde a lógicas o marcos teóricos
distintos (4), que llamaremos respectivamente configurativo o agregativo.
Lógica o modelo configurativo
En este modo las revisiones se interesan en la creación, construcción y ordenación de conceptos, en
las explicaciones de los hallazgos experienciales, o en la descripción y el mapeo de las publicaciones
en áreas de investigación.
En unas ocasiones la revisión trata de describir, interpretar o comprender un fenómeno mediante
la organización de la información de estudios primarios para refinar conceptos o teorías a partir de
ellos. Por ejemplo, refinar el concepto de fatiga presente en múltiples enfermedades (5). En otras
ocasiones se trata de describir la investigación existente sobre un área o aspecto determinado aunque
no profundice en ella, por ejemplo describir y ordenar los estudios existentes sobre las relacio-
nes entre fatiga y depresión en pacientes determinados (6) o, en otro sentido, conocer las visiones
sobre la experiencia personal de los pacientes con una enfermedad o sometidos a un procedimiento
concreto, por ejemplo en hemodiálisis (7).
En este tipo de revisiones las bases metodológicas están definidas antes del comienzo, aunque
en algunos casos pueden ir adaptándose de modo iterativo. La búsqueda es exhaustiva en los casos
de estudios de exploración de la investigación de un área, o «adecuada» (aunque explícita) para los
estudios orientados a clarificar conceptos o comprender aspectos experienciales.
En esta lógica configurativa es atractiva la heterogeneidad y la diversidad como fuente de
hipótesis o explicaciones, como instrumento de comparaciones de conceptos, descripción de
experiencias, y también como muestra de la diversidad de los enfoques de un área de investigación.
Lógica o modelo agregativo
En este modo, las revisiones son colecciones de datos empíricos cuyo objeto esencial es poner a
prueba «relaciones de asociación» definidas de antemano en los estudios primarios, en este caso las
revisiones son agregaciones de esos datos para construir estimaciones conjuntas de un efecto (4).
Los modelos agregativos se basan en el uso de conceptos definidos a priori, e hipótesis formuladas
previamente en forma de preguntas estructuradas PICO o equivalentes para otros tipos de estudios
clínicos (8). El objetivo es combinar estudios similares basados en esas preguntas, ponerlas a prueba
conjuntamente y generar un estimador global. Se diría que en estas revisiones lo anterior y lo pos-
terior a los datos ya está prefijado en el protocolo, solo falta añadir los datos.
Dado que el propósito final es combinar estudios para hacer estimadores conjuntos, esta lógica agre-
gativa se interesa por la homogeneidad de los estudios, puesto que lo esencial es «si esos estudios son
realmente agregables». Dicho de otro modo, esta lógica se preocupa por la gestión de la heterogeneidad.
Ejemplos de este tipo de lógica agregativa en revisiones serían: «Exactitud de la tomografía
computarizada en el diagnóstico de apendicitis aguda en adultos» (9), «Pronóstico del infarto de
miocardio silente identificado mediante resonancia magnética nuclear» (10), «Efectos de una inter-
vención psicosocial sobre la depresión en pacientes en diálisis» (11) o «Tratamientos farmacológicos
para fallo cardíaco en paciente en diálisis» (12).
El marco teórico de la revisión está condicionado por el tipo de pregunta de investigación que
se plantea. Las preguntas que se relacionan con las fases de construcción de hipótesis, reflexiones

TABLA 11.1 ■ Ejemplos de preguntas para distintos tipos de revisiones

Tipo de revisión Preguntas y tipo de revisión Referencias
Configurativas • Fatiga, análisis del concepto (revisión y análisis conceptual) 5

• Relaciones entra fatiga y depresión en pacientes en estadios 6
finales de enfermedad renal y en hemodiálisis (revisión exploratoria)
• Perspectivas del paciente sobre el significado e impacto de 7
la fatiga en pacientes en hemodiálisis (revisión sistemática
cualitativa y análisis temático)
• Análisis conceptual de la resiliencia de los sistemas de salud 23
(revisión exploratoria)
Agregativas • Exactitud de la tomografía computarizada en el diagnóstico de 9

apendicitis aguda en adultos (revisión sistemática de diagnóstico)
• Pronóstico del infarto de miocardio silente diagnosticado por 10
resonancia magnética nuclear (revisión sistemática de pronóstico)
• Efecto de una intervención psicosocial para la prevención 11
de la depresión en pacientes en diálisis (revisión sistemática
de intervención preventiva)
• Intervenciones farmacológicas para el fallo cardíaco en 12
pacientes con enfermedad renal crónica (revisión sistemática
de intervenciones terapéuticas)
conceptuales, elementos experienciales o mapas de evidencia en un área precisan de lógicas o marcos

configurativos flexibles y abiertos, mientras que la mayoría de las preguntas clínicas «especificas»,
como son las de tratamiento, diagnóstico, pronóstico, prevalencia, daño, coste-efectividad, etc., se
adaptan mejor a modelos agregativos (v. ejemplos en la tabla 11.1).
En realidad, cuando hablamos de esas lógicas nos referimos a «lógicas predominantes», pues todas
las revisiones tienen parte de ambas visiones. Así las revisiones de efectividad de las intervenciones,
o de exactitud de test diagnósticos, o de pronóstico, siendo esencialmente agregativas, necesitan
de conceptualización previa y enfoque cualitativo de los grupos en los que hacer agregaciones. Por
lo demás, la discusión de los resultados o las consecuencias para la clínica o la investigación usan
narraciones y reflexiones conceptuales propias del modelo configurativo. Por su parte, las revisiones
cualitativas, los análisis conceptuales, etc., siendo esencialmente configurativos, construyen sus tablas
u otras agregaciones de datos para usarlos argumentalmente en su narración, y de modo análogo
las revisiones o mapas sobre la investigación existente en un área agrupan los conglomerados de
estudios en tablas, gráficos y mapas de complejidad variable según sus características.
DIMENSIÓN ESPACIAL Y TEMPORAL

El segundo eje que se debe considerar es el espacio-temporal.
Si usamos el espacio como representación o metáfora del conocimiento que se va a revisar,
podemos tratar de abordarlo de diversos modos. En unos casos lo haremos de un modo extensivo;
así podemos conocer todas las publicaciones o estudios sobre un determinado campo, explorando
todos sus aspectos investigados (aun sin profundizar en ellos). De este modo podemos identificar
áreas en que hay necesidades de conocimiento y áreas en las que existen conglomerados de
estudios, potencialmente agregables, y en todo caso apreciamos la extensión y diversidad del
área en perspectiva.
En otros casos, en vez de elegir una aproximación extensiva, podemos optar por concentrarnos
en un área específica, sea para profundizar en las variaciones del conocimiento en esa área y elaborar
un árbol más detallado del conocimiento, o para plantear una pregunta específica con formato

estructurado PICO y sobre ella realizar un estudio agregativo con estimación combinada de un
efecto a partir de los diversos estudios.
También aquí la manera en que se formule la pregunta (modo amplio o estrecho) conduce a la
elección de una estrategia de extensión o de intensidad: en efecto, si incluimos en la pregunta muchas
poblaciones, o múltiples intervenciones o comparaciones, o desenlaces, estamos implícitamente
optando por estrategias extensivas.
Naturalmente, es posible combinar ambas estrategias en un plan de mayor nivel (4), sea agru-
pando diversos modos de revisión (revisiones anidadas) y realizando diferentes tipos de revisión en
el área: tras una primera extensiva focalizarse en aspectos determinados del área o en particulares
conglomerados de estudios, o también desarrollando una revisión de revisiones que mencionaremos
posteriormente.
El tiempo. La revisión usa estudios ya realizados y por tanto su eje temporal es retrospectivo
(salvo excepciones) aunque los estudios incluidos puedan ser prospectivos o no. Con respecto al
tiempo, es posible también tomar diferentes rutas. En unos casos se puede incluir todo un largo
período de tiempo con cierta visión histórica, aunque, más frecuentemente, procede acotar los
estudios al período en que es aceptable la vigencia de un determinado contexto científico o clínico.
A veces al analizar estas revisiones se opta por agregar las estimaciones en intervalos o secuencias
de tiempo, acumulativos o no, de manera que se aprecie la evolución en el tiempo de los estimadores de
la evidencia según cambia el contexto clínico, por ejemplo, según diferentes tratamientos esenciales
o contextuales han estado disponibles.
En ocasiones, el propósito de la revisión es ir solapando los períodos de estudio y planearlos
anticipadamente para mantener una continuidad en la actualización de un tema, es el caso habitual
de las revisiones Cochrane, en las que se planea renovar cada 2-3 años la evidencia, y en algunos
casos especiales, por su trascendencia, el objetivo es mantener «permanentemente» actualizada la
revisión (son las llamadas living reviews); esto se entiende muy bien en tiempos de COVID-19.
En algunas ocasiones, el interés de la revisión se centra específicamente en los últimos avances
sobre un área determinada, es decir, en la punta de lanza o frontera del conocimiento en el tema,
son las llamadas tradicionalmente «revisiones estado del arte».
Finalmente, casi siempre hay un conflicto entre amplitud del campo a revisar, la profundidad
de la tarea y la complejidad del problema, lo que obliga a multiplicar los recursos asignados, y
siempre es especialmente complejo el recurso «tiempo». Por ello a veces se sacrifican algunas de las
complejidades de las revisiones para realizar una «revisión rápida» que mantiene un compromiso
entre calidad metodológica y tiempo de realización, y son de gran utilidad cuando es imprescindible
obtener evidencia con urgencia.
ESTRUCTURA Y COMPONENTES DE LA REVISIÓN

El tercer eje diferenciador, probablemente el más crucial, es la existencia o no de una estructura o

diseño explícito.
En las revisiones tradicionales no existe un formato editorial prefijado y los elementos del proceso
de revisión no se muestran en su totalidad, es decir, la estructura no es explícita. Por el contrario, en
las revisiones más actuales el documento adopta la forma estándar IMRAD (Introducción, Material
y métodos, Resultados y Discusión) (13) y la estructura de la revisión es claramente identificable
en el apartado de material y métodos.
Esa estructura de la revisión incluye los puntos clave del estudio (cuadro 11.1), y en él incluimos
todos los puntos de la revisión más exigente (la sistemática) aunque en realidad, y como veremos,
cada uno de los subtipos de revisión negocie de modo particular cada uno de esos puntos.
Esta estructura o diseño de la revisión debe ser definido a priori en el protocolo para garantizar
que se mantiene estable durante el estudio. Además, debe realizarse la inclusión del protocolo en un
registro público prospectivo de revisiones PROSPERO (https://www.crd.york.ac.uk/prospero/) para

CUADRO 11.1 ■ Estructura de una revisión sistemática
1. Pregunta explícita y generalmente formulada de modo formal (PICO o similares).

2. Búsqueda de estudios: señalando las fuentes y estrategias.
3. Criterios de inclusión y exclusión.
4. Selección o estudios: que puede hacerse de modo simple o doble.
5. Extracción de datos: que puede hacerse de modo simple, doble, etc.; en ocasiones con uso de
instrumentos específicos.
6. Evaluación de la calidad de los estudios, riesgo de sesgo (también realizable de modo simple o
múltiple). Se usan instrumentos específicos para juzgar el riesgo de sesgo.
7. Análisis, con ordenación cualitativa, cuantitativa y procedimientos de agregación matemática si
procede.
8. Reporte de resultados o modelos de escritura: con combinaciones distintas de estrategias: narrativas,
mapas, tablas, representaciones gráficas, análisis matemáticos especiales (metarregresión), etc.
9. Conclusiones y consecuencias clínicas y de investigación.
hacer comprobaciones durante la lectura crítica de la revisión y también con fines de cooperación
y de evitar duplicidad de esfuerzos de investigación.
Para que sea posible valorar críticamente la revisión, reproducirla o incorporar su evidencia a
otros propósitos, existe una convención para la publicación de los resultados de las revisiones sis-
temáticas: PRISMA (http://www.prisma-statement.org/), que incorpora algunas variantes para
algunos tipos específicos de revisión.
Tipos básicos de revisiones

Definidos los ejes respecto de los que se diferencian unas revisiones de otras, a continuación des-
cribimos los tipos más habituales de revisiones (3) e incluimos alguna referencia como ejemplo
para el lector de cada tipo de revisión.
Existe una cierta confusión sobre los nombres de cada revisión y sobre los adjetivos que usan los
autores para adornar sus propias revisiones (14); aquí eludiremos la discusión lingüística, aunque
hemos reservado el adjetivo «sistemática» para el tipo de revisión que reúne los más altos estándares
de estructura. Sin embargo, describimos con detalle en la tabla 11.2 el modo habitual en que cada
tipo de revisión resuelve cada uno de los diferentes puntos o apartados claves de la estructura de la
revisión. El lector podrá así juzgar la esencia de cada revisión, y eludir la distracción sobre nombres
y adjetivos asociados a cada revisión en las publicaciones. Veamos, pues, los tipos.
REVISIÓN CLÁSICA (REVIEW)

Es una recopilación de estudios, primarios u otras revisiones, sobre una pregunta generalmente sin
formato PICO. La búsqueda puede ser parcialmente descrita, pero el resto de la estructura no es
explícita, la descripción es narrativa con alguna agregación y no es posible saber si las conclusiones
derivan de los estudios (15).
REVISIÓN CRÍTICA (CRITICAL REVIEW)

Es una revisión en la que predomina el elemento crítico o reflexivo frente al discursivo o expositivo.
Utiliza estudios sobre una pregunta sin formato, con búsqueda y selección no explícitas. Son usadas
para la construcción de hipótesis o el refinamiento de conceptos a partir de la reinterpretación de
estudios previos. Su interés radica en su capacidad de innovación, desarrollo conceptual o generación
de hipótesis. Tienen una larga tradición en las ciencias sociales y también en la clínica (5).

TABLA 11.2 ■ Tipos de revisiones y sus características
Estructura de la revisión
Selección Extracción Lectura crítica Convenciones
Tipo de revisión Marco/pregunta Búsqueda de artículos de datos de estudios Análisis de datos Presentación final de escritura
Revisión clásica Configurativo/ No descrita. Solo No descrita No definida No hay lectura Alguna agregación Narrativa típicamente Generales ICMJE
Review Definida, pero excepcionalmente crítica formal de datos No estructura
no estructurada IMRAD
Revisión crítica Configurativo/ No descrita Criterios No definida Puede existir Cualitativo, reflexivo Narrativa típicamente Generales ICMJE
Critical review Definida no o descripción genéricos genérica aunque de o argumental No estructura
estructurada incompleta modo no formal IMRAD
Revisión Configurativo/ Descripción incompleta Criterio de No definida No explícita Cualitativo, Narrativa. Estructura Generales ICMJE
«estado Tópico o área pero temporalidad genérica agregaciones similar a textos No estructura
del arte» sin definición ocasionales clínicos IMRAD
State of art review de preguntas no agregativa
Revisión mapa Configurativo/ Bases diversas Predefinida, Prefijada No se realiza Descripciones, Estructura mixta: PRISMA-ScR
de evidencia Pregunta Estrategia exhaustiva, realizada en diseño tablas y mapas. narrativa (poco),
Mapping review sobre área de prefijada adaptada por 2 o más y realizada Ocasionales mapas +++,
conocimiento en el proceso por 2 o más agregaciones. gráficos y
amplia Sin narración esquemas +++
Revisión Configurativo/Única Bases amplias Predefinida, Predefinida, Ocasional, Tablas, mapas, algunas Estructura mixta: PRISMA-ScR
exploratoria sobre tema más Predefinida en diseño realizada realizada no profunda agregaciones y narrativa + algunas
Scoping review específico por 2 o más por 2 o más estructura narrativa agregaciones
RS cualitativa Configurativo/ BASES Predefinida, Predefinida, Formal con Diferentes modos Estructura PRISMA
Qualitative review Preguntas Preestablecida en realizada realizada métodos e RETREAT narrativa con SRQR
cualitativas diseño-adaptada por 2 o más por 2 o más instrumentos tablas, gráficos, COREQ
experienciales, etc. cualitativos metaagregaciones eMERGe
Revisión Agregativo/Preguntas Estrategia preconcebida Predefinida, Predefinida, Formal y por dos Agregativas Parte cualitativa, PRISMA
sistemática formato PICO en bases + búsqueda realizada realizada lectores Metaanálisis metaanálisis, PRISMA-DTA
Systematic o similares Exhaustiva por 2 o más por 2 o más Instrumentos con elementos gráficas o tablas PRISMA-NMA
review Criterios de Instrumentos específicos cualitativos y figuras
inclusión específicos para riesgo
y exclusión para la de sesgo
extracción
(v. gr. CHARM)
(Continúa)
TABLA 11.2 ■ Tipos de revisiones y sus características (cont.)
Estructura de la revisión
Selección Extracción Lectura crítica Convenciones

Tipo de revisión Marco/pregunta Búsqueda de artículos de datos de estudios Análisis de datos Presentación final de escritura
Revisión Agregativo/ Exhaustiva/o NO Predefinida, Predefinida, Formal/doble Agregativas, Estructura narrativa, PRISMA-R
sistemática PICO o variantes 1 o 1/1 1 o 1/1 o simple + cualitativo alguna agregación
rápida cualitativas supervisión
Rapid Systematic
Review
Revisiones Ambas visiones PICO Estrategia preconcebida Predefinida, Predefinida, Formal y por Agregativas + Estructura narrativa PRISMA
mixtas y cualitativas en bases + realizada realizada 2 lectores cualitativo + metaanálisis +
Mixed reviews búsqueda por 2 o más por 2 o más tablas + figuras
Exhaustiva
Revisión realista Preguntas múltiples Estrategia preconcebida Predefinida, Predefinida, Formal y por Agregativas + Estructura narrativa PRISMA
Realistic review (PICO o NO) con en bases + realizada realizada 2 lectores cualitativo + metaanálisis +
+ complejidad búsqueda por 2 o más por 2 o más tablas + figuras
Exhaustiva
Revisión Agregativo/PICO/s Estrategia preconcebida Predefinida, Predefinida, Contenida en RS Unidad de estudio, Estructura narrativa PRIOR
paraguas, en bases + realizada realizada la RS + metaanálisis +
«revisión de búsqueda por 2 o más por 2 o más A veces los estudios tablas + figuras
revisiones» Exhaustiva de las RS
Umbrella review Metaepidemiología
Revisiones Combinan revisiones de extensión con otras de profundidad o con aspectos particulares de otras revisiones: tres ejemplos serían «Revisión exploratoria de revisiones
anidadas rápidas» (21), «Revisión exploratoria de la conducción y análisis de la revisiones exploratorias» (22) o «Revisión exploratoria de análisis conceptual sobre resiliencia
de sistemas de salud (23).
COREQ, Consolidated criteria for reporting qualitative research; eMERGe, meta-ethnography reporting guidance; ICMJE, International Committee of Medical Journal Editors; IMRAD, Introduction,
Methods, Results and Discussion; PICO, Population, Intervention, Comparison, Outcome; PRIOR, Preferred Reporting Items for Overviews of Reviews; PRISMA, Preferred Reporting Items
for Systematic Reviews and Meta-Analyses; PRISMA-DTA, PRISMA for Diagnostic Test Accuracy; PRISMA-NMA, PRISMA meta-analyses network; PRISMA-R, PRISMA Rapid reviews;
PRISMA-ScR, PRISMA for Scoping Reviews; RETREAT, Review question - Epistemology - Time/Timescale - Resources - Expertise - Audience and purpose - Type of Data; SRQR, Standards
for reporting qualitative research.
REVISIONES «ESTADO DEL ARTE» (STATE OF ART REVIEW)

Son revisiones que se centran en «lo último» del conocimiento (la frontera) sobre el tema, que suele
ser una condición clínica o un aspecto tecnológico y definido de modo no estructurado. Incluye
estudios primarios (básicos y clínicos), así como revisiones sistemáticas, guías de práctica y otros
documentos de evidencia. La búsqueda es a veces explícita, pero no así el resto de la estructura
del trabajo. Estas revisiones proceden de la tradición tecnológica (en especial de la ingeniería) y
ordenan la información al modo característico de los documentos clínicos (condición, prevalencia,
etiología, diagnóstico, pronóstico, tratamiento, etc.). Tienen mucha tradición en la clínica y son
especialmente apreciadas para la docencia porque incluyen también conocimientos preclínicos.
Algunos autores prefieren llamarlas State of science (16).
REVISIÓN MAPA DE EVIDENCIA (MAPPING REVIEW, SYSTEMATIC MAP)

Se trata de una revisión sobre la investigación existente en torno a una pregunta generalmente
amplia o que contiene diferentes modos de enfoque o incorpora diversos paradigmas de inves-
tigación. Mantiene una estructura explícita en la búsqueda (bases y estrategia), selección de artículos,
extracción de datos (ambos doblemente). No realiza valoración crítica de los estudios incluidos y el
resultado es una cartografía del campo de investigación. Usualmente presenta los estudios agrupados
en forma de tablas o mapas temáticos sin usar estrategias narrativas en la presentación (17,18).
REVISIÓN EXPLORATORIA (TAMBIÉN LLAMADA PANORÁMICA)

(SCOPING REVIEW)
Se trata de una revisión que explora la investigación existente en un campo generalmente amplio
(aunque menor que las anteriores) o sobre un aspecto determinado en múltiples áreas de inves-
tigación. Es una revisión con estructura formal y explícita en todos sus pasos (19,20). Incluye
en la búsqueda estudios primarios y otras revisiones, evidencias de otra naturaleza, repositorios
de agencias, estudios en curso, literatura gris, etc. La selección de estudios y extracción de datos
usa criterios prefijados, y se realiza por duplicado. Puede, aunque no suele, hacer algún tipo de
valoración crítica no profunda, y en su presentación combina tablas y gráficos con un complemento
narrativo (19-23).
Ambas revisiones (mapas y exploratorias) se usan para valorar la extensión de la actividad inves-
tigadora en un área e identificar las fortalezas y las lagunas de conocimiento existentes. Son, por
ello, de gran utilidad en la planificación de prioridades de investigación en los servicios de salud
o en departamentos académicos, y en las fases preliminares de la elaboración de guías de práctica
clínica. También se usan como instrumento para valorar la pertinencia y la factibilidad de revisiones
sistemáticas sobre aspectos concretos.
REVISIÓN SISTEMÁTICA (SYSTEMATIC REVIEW)

Es una recopilación de toda la evidencia empírica de estudios primarios relativos a una pregunta
formulada en formato PICO o similares y usando todos los métodos que minimizan el sesgo en
cada una de las fases descritas en el apartado «Estructura y componentes de la revisión» (búsqueda,
criterios de inclusión, selección de artículos, extracción de datos, valoración crítica, agregación,
metaanálisis si procede, y reporte de resultados combinando formas narrativa, numérica, tablas y
figuras).
En la actualidad constituyen el gold standard de calidad en cuanto a la evidencia para preguntas
de naturaleza clínica (8,24). Son absolutamente cruciales para informar las decisiones clínicas y de
salud, también en la formulación de nueva investigación clínica, así como para la elaboración
de recomendaciones basadas en la evidencia en las guías de práctica. Serán, por todo ello, el objeto
fundamental de nuestro interés en sucesivos capítulos (9-12).
METAANÁLISIS
Es una técnica matemática que permite la estimación conjunta de un efecto a partir de datos
procedentes de diferentes estudios. Realmente no es sensu stricto una revisión, se incluye en este
listado para remarcar su frecuente uso impropio como sinónimo de revisión sistemática.
REVISIÓN SISTEMÁTICA RÁPIDA (RAPID SYSTEMATIC REVIEW)

Es un tipo de revisión sistemática en el que alguno (o algunos) de los componentes del proceso
formal de la revisión sistemática ha sido simplificado para producir información «razonablemente»
válida en un corto período de tiempo. Las simplificaciones posibles pueden afectar a la búsqueda,
al cribado de artículo, a la extracción de datos o a su valoración crítica (un investigador solo con
supervisión del otro) (21). Suelen ofrecer síntesis cualitativa de resultados y usan generalmente
formato narrativo. Este equilibrio entre la validez de la evidencia que proporcionan y el tiempo las
hace especialmente apreciadas para las decisiones no demorables.
REVISIÓN SISTEMATIZADA (SYSTEMATIZED REVIEW)

Es una revisión que usa la estructura de las revisiones sistemáticas, pero omite algunos de sus
requerimientos metodológicos; generalmente la selección, extracción de datos, o la lectura crítica
está hecha por un solo revisor o autor (25). Tiene, por ello, menos calidad metodológica «formal»,
y es característica de ámbitos académicos donde el alumno desarrolla solo su proyecto de máster
o doctorado.
SÍNTESIS DE EVIDENCIA CUALITATIVA (QUALITATIVE SYSTEMATIC

REVIEW)
Es una revisión de estudios cualitativos con estructura formal y explícita en todas las fases y con
una síntesis realizada usando una familia de técnicas para la síntesis e integración de resultados
de los estudios cualitativos: RETREAT framework (26). Todas esas aproximaciones tratan de tras-
cender del conocimiento particular y específico generado a partir de estudios cualitativos primarios,
hacia una comprensión más amplia de los fenómenos a través del análisis e interpretación de los
hallazgos de dichos estudios.
REVISIÓN MIXTA
Es una revisión en la que la naturaleza de la/s pregunta/s tiene partes cualitativas y partes cuan-
titativas, por ejemplo «Adherencia a tratamiento retroviral en mujeres VIH+». Por ello ha de
incluir aproximaciones cuantitativas típicas junto con estudios de naturaleza experiencial sobre
su percepción personal y social del problema. Combina, por tanto, distintos tipos de revisión sis-
temática, cualitativas y cuantitativas, con diferentes presupuestos teóricos y sus diferentes métodos
y pasos adaptados, de modo paralelo o interactivo, a cada una de las partes de la pregunta (27,28).
REVISIÓN SISTEMÁTICA REALISTA (REALISTIC SYSTEMATIC

REVIEW)
Es una revisión que trata de profundizar en el cómo, el porqué y bajo qué circunstancias funcionan
o no las intervenciones complejas en contextos complejos. Responden al problema conocido de
la falibilidad al implementar, en el mundo real de los sistemas de salud, las políticas basadas en la
evidencia construidas en ámbitos de investigación. Son de gran interés para la investigación en ser-
vicios de salud y asumen teorías diversas sobre la interacción del contexto y las intervenciones (29).

REVISIÓN DE REVISIONES O REVISIÓN PARAGUAS

(UMBRELLA REVIEW, REVIEW OF REVIEWS, OVERVIEW)
Se trata de una revisión sistemática de revisiones sistemáticas. Es decir, la unidad de estudio son
otras revisiones sistemáticas. Usa una pregunta estructurada en formato PICO o similares, aunque
planteada con mayor amplitud que las PICO de los correspondientes estudios que serán incluidos.
Constituye un orden de mayor complejidad de estudios de revisión que combina la extensión con
la profundidad (30,31).
REVISIONES ANIDADAS
Son también revisiones de revisiones, análogas a las anteriores, en las que sobre un esquema de
«revisiones en extensión» (mapping o scoping) se incorporan diferentes tipos de revisiones (como
unidad de estudio), o aspectos concretos de otras revisiones (21,22,32). Al igual que las umbrella,
aportan una visión que combina extensión con profundidad y que puede ser de gran utilidad en la
realización o actualización de la evidencia para las recomendaciones de las guías de práctica, y en
menor medida para orientar la investigación necesaria que se debe priorizar en sistemas de salud o
ámbitos académicos, y rara vez, para informar las decisiones clínicas directas.

Tras repasar los ejes diferenciales de las revisiones y sus diversas formas de presentación, es obvio
que no es posible disponer de un enfoque unitario para la lectura crítica de documentos tan diversos.
Sin embargo, cabe agrupar a efectos de lectura crítica tres grandes grupos según las características
de la revisión.
GRUPO 1
Revisiones en las que los métodos no son explícitos, generalmente con formato editorial libre sin
la organización IMRAD (Introducción, Material y métodos, Resultados y Discusión) caracterís-
tica de los artículos originales. Este grupo incluiría a las tres primeras revisiones del listado y de la
tabla 11.2: «Revisiones clásicas», «Revisiones críticas» y «Revisiones estado del arte».
En estas revisiones posiblemente los autores hayan definido el objetivo de la revisión, hecho su
búsqueda bibliográfica, seleccionado los estudios pertinentes, organizado la información de acuerdo
a mapas mentales o a sus conocimientos previos, realizado algunas agregaciones y redactado el
documento según su saber y talento literario. Sin embargo, el proceso no es explícito, no sabemos si
es consistente, no es posible saber si los estudios incluidos son los que deberían ser, si la valoración
y el análisis de los estudios es correcto y si sus conclusiones se derivan realmente de lo estudiado.

En realidad, para el lector crítico pronunciarse sobre estas revisiones sería como opinar sobre
un estudio sin leer el apartado de material y métodos. Cabe poca lectura crítica, excepto lectura
literaria comprensiva y naturalmente la valorativa sobre el mensaje de la revisión en el contexto de
conocimiento que previamente posea al lector. Son, no obstante, apreciadas en ámbitos clínicos
especialmente en la docencia por incorporar preguntas generales y específicas y por incluir cono-
cimientos preclínicos.
GRUPO 2
Revisiones con métodos explícitos, consistentes, definidos a priori y expresados en formato IMRAD,
pero en las que no se realiza una apreciación crítica formal de los estudios obtenidos. Se incluirían
en este grupo las «revisiones mapas de evidencia» y las «revisiones exploratorias» y la mayoría de
la «revisiones anidadas». En ellas existe un proceso formal que atañe a los puntos del 1 al 5 des-

critos en el cuadro 11.1 y por ello cabe juzgar críticamente la adecuación y consistencia de cada
uno de esos procedimientos, así como de su impacto sobre el producto u objetivo de la revisión
(que es el catálogo o mapa de evidencias existentes sobre la pregunta o el tema). Cabe, asimismo,
hacer juicios sobre el modo elegido para su ordenación (temática, histórica, geográfica, etc.), sobre
el modo de presentación (gráficos simples o complejos, tablas, narración, etc.) y sobre la forma en
que eso facilita los objetivos de esas revisiones.
En todo caso estas revisiones son, como señalamos, piezas de evidencia relevantes para orga-
nización de la investigación, la planificación de la captura de la evidencia en las guías de práctica
clínica o para la planificación de revisiones sistemáticas, aunque tienen escasa relevancia directa en
el proceso de toma de decisiones clínicas por su evidente lejanía.
GRUPO 3
Revisiones con métodos explícitos y consistentes definidos a priori con formato IMRAD + con
valoración crítica de los estudios incluidos + con o sin agregación numérica. En este grupo se
incluirían el resto de las revisiones señaladas de la 9 a la 13 (revisión sistemática, revisión sistemática
rápida, revisión sistematizada, síntesis de evidencia cualitativa, revisión sistemática mixta, revisión
sistemática realista y revisión de revisiones), aunque por su trascendencia clínica en el libro nos
centraremos exclusivamente en las revisiones sistemáticas.
En este grupo vale lo comentado en el punto anterior respecto de los juicios de valor sobre las
fases 1-5 del proceso (v. cuadro 11.1) y sobre si los estudios incluidos son los que deben ser. Respecto
de la valoración crítica, los elementos que condicionan la validez de un estudio son dependientes
del diseño tanto en el caso de estudios cualitativos como cuantitativos. En el caso de las revisiones
sistemáticas agregativas, habituales en la clínica, al tratarse de un estimador conjunto del efecto
hablamos de sesgo o desviación de la auténtica estimación, y en estas revisiones nos referimos a
dos conceptos esencialmente distintos.
Riesgo de sesgo
Se refiere al riesgo de desviación de la estimación obtenida respecto de la correcta, es decir, al
juicio de valor sobre la validez de cada estudio de la revisión. Esto lo hemos estudiado en capítulos
precedentes con argumentos diversos, pero siempre es un juicio complejo y por tanto susceptible de
discrepancias. En el caso de las revisiones sistemáticas es particularmente crítico que los juicios de
valor sobre el riesgo de sesgo sean consistentes entre los diversos lectores. Por ello para juzgar ese
riesgo de sesgo se han desarrollado diferentes instrumentos según el tipo de estudios que incluya
la revisión sistemática, y que veremos en capítulos sucesivos.
En el caso de las revisiones sistemáticas este juicio ha de realizarse individualmente para cada
uno de los artículos incluidos, para el conjunto de los artículos de la revisión y para el método de
combinación de los estudios.
Calidad, confianza o certidumbre en la evidencia

Además de ese riesgo de sesgo de cada estudio y del grupo de estudios, valorados en su conjunto,
el grupo de estudios nos ofrece una valiosa información grupal, sobre la que podemos juzgar la
«calidad de ese cuerpo de evidencia» entendida como la confianza o certeza que tenemos en que
esa estimación conjunta sea la realmente correcta (GRADE). Esa «certeza en la evidencia» tiene
en cuenta el riesgo de sesgo de los estudios de la revisión, pero también valora otros aspectos del
conjunto de los estudios, tales como la «consistencia» de los resultados entre estudios, la «precisión»
de la estimación en los estudios y en el conjunto (medida por el intervalo de confianza), la existencia
de «evidencias indirectas» o la posible existencia de «sesgo de publicación».
La certidumbre en la evidencia la expresaremos en una escala ordinal decreciente con cuatro
categorías: Alta (⊕⊕⊕⊕), Moderada (⊕⊕⊕), Baja (⊕⊕) o Muy Baja (⊕).

Abordaremos, en capítulos sucesivos, ese concepto para cada una de las revisiones que trataremos:
de ensayos clínicos aleatorios, revisiones con metaanálisis en red, de exactitud de los test diagnós-
ticos, de factores pronósticos. Mostraremos su uso práctico asociando los resultados estimados a
la certidumbre en la estimación en las llamadas «Tablas de sumario de evidencias de GRADE»
(Summary of Findings Table, SoF), y trataremos con más profundidad los detalles sobre cómo
se llega a esos juicios sobre la certidumbre en los cuerpos de evidencia y su valor para realizar
recomendaciones para guías o aplicación a la clínica en los capítulos 17 y 18.
Conclusión
En el mundo actual, con una enorme proliferación de los estudios y con un crecimiento exponencial
de las evidencias, los métodos para la colección, ordenación y síntesis de esas evidencias constituyen
un reto intelectual y tecnológico de primer orden. Por ello las técnicas de revisión de la evidencia
han evolucionado hacia formas definidas y más sofisticadas de revisión y están en continua trans-
formación y progreso.
Cada una de ellas responde a diferentes objetivos, los formatos del primer grupo tienen interés
clínico relativo y sobre todo tienen valor docente porque suelen incluir preguntas generales e
información preclínica. El segundo tipo de revisiones tiene una vocación de exploración extensiva
de un territorio de evidencia o de conocimiento, por ello son de gran valor para la planificación de
la investigación en sistemas de salud o en áreas académicas o para la planificación de la, necesaria,
renovación de la evidencia en guías de práctica clínica. El tercer tipo de revisiones está más enfocado
en preguntas específicas con formato PICO y tiene más cercanía con las necesidades clínicas de
evidencias para la acción.
Cada una de ellas precisa de una lectura crítica adecuada a sus objetivos y peculiaridades. En
adelante, en este libro abordaremos la lectura crítica de las revisiones sistemáticas de los estudios
relevantes para las decisiones clínicas y eludiremos otras formas de indudable interés para otros
ámbitos.
Bibliografía
1. Davies K. The information-seeking behaviour of doctors: a review of the evidence. Health Inf Libr J
2007;4:78-94.
2. Mulrow CD. The Medical Review Article: State of the Science. Ann Intern Med 1987;106(3):485-8.
3. Grant MJ, Booth A. A typology of reviews: an analysis of 14 review types and associated methodologies:
A typology of reviews. Health Inf Libr J 2009;26(2):91-108.
4. Gough D, Thomas J, Oliver S. Clarifying differences between review designs and methods. Syst Rev
2012;1(1):28.
5. Ream E, Richardson A. Fatigue: a concept analysis. Int J Nurs Stud 1996;33(5):519-29.
6. Farragher JF, Polatajko HJ, Jassal SV. The Relationship Between Fatigue and Depression in Adults With
End-Stage Renal Disease on Chronic In-Hospital Hemodialysis: A Scoping Review. J Pain Symptom
Manage 2017;53(4):783-803. e1.
7. Jacobson J, et al. Patient Perspectives on the Meaning and Impact of Fatigue in Hemodialysis: A Systematic
Review and Thematic Analysis of Qualitative Studies. Am J Kidney Dis 2019;74(2):179-92.
8. Munn Z, Stern C, Aromataris E, Lockwood C, Jordan Z. What kind of systematic review should I
conduct? A proposed typology and guidance for systematic reviewers in the medical and health sciences.
BMC Med Res Methodol 2018;18(1):5.
9. Rud B, Vejborg TS, Rappeport ED, Reitsma JB, Wille-Jørgensen P. Computed tomography for diagnosis
of acute appendicitis in adults. Cochrane Database Syst Rev 2019;(11):CD009977.
10. Yang Y, et al. Prognosis of unrecognised myocardial infarction determined by electrocardiography or
cardiac magnetic resonance imaging: systematic review and meta-analysis. BMJ 2020;369:m1184.
11. Natale P, Palmer SC, Ruospo M, Saglimbene VM, Rabindranath KS, Strippoli GF. Psychosocial interven-
tions for preventing and treating depression in dialysis patients. Cochrane Database Syst. Rev 2019;12(12):
CD004542.

12. Lunney M, et al. Pharmacological interventions for heart failure in people with chronic kidney disease.
Cochrane Database Syst. Rev. Feb 2020;2(2):CD012466.
13. International committee of Medical Journal Editors. Recommendations for the Conduct, Reporting,
Editing, and Publication of Scholarly Work in Medical Journals. 2019. [Fecha de último acceso: 19 de
octubre de 2020]. Disponible en: http://www.icmje.org/recommendations/.
14. Krnic Martinic M, Pieper D, Glatt A, Puljak L. Definition of a systematic review used in overviews of
systematic reviews, meta-epidemiological studies and textbooks. BMC Med Res Methodol 2019;19(1):203.
15. de Cabo R, Mattson MP. Effects of Intermittent Fasting on Health, Aging, and Disease. N Engl J Med
2019;381(26):2541-51.
16. Lee A, Xie YL, Barry CE, Chen RY. Current and future treatments for tuberculosis. BMJ 2020;368:m216.
17. Soaita AM, Serin B, Preece J. A methodological quest for systematic literature mapping. Int J Hous Policy
2019;20(3):1-24.
18. Bush PL, García Bengoechea E. What do we know about how to promote physical activity to adolescents?
A mapping review. Health Educ Res 2015;30(5):756-72.
19. Arksey H, O’Malley L. Scoping studies: towards a methodological framework. Int J Soc Res Methodol
2005;8(1):19-32.
20. Levac D, Colquhoun H, O’Brien KK. Scoping studies: advancing the methodology. Implement Sci
2010;5(1):69.
21. Tricco AC, et al. A scoping review of rapid review methods. BMC Med 2015;13(1):224.
22. Tricco AC, et al. A scoping review on the conduct and reporting of scoping reviews. BMC Med Res
Methodol 2016;16(1):15.
23. Turenne CP, Gautier L, Degroote S, Guillard E, Chabrol F, Ridde V. Conceptual analysis of health systems
resilience: A scoping review. Soc Sci Med 2019;232:168-80.
24. Munn Z, Peters MDJ, Stern C, Tufanaru C, McArthur A, Aromataris E. Systematic review or scoping
review? Guidance for authors when choosing between a systematic or scoping review approach. BMC
Med Res Methodol 2018;18:143.
25. Barr-Walker J. Evidence-based information needs of public health workers: a systematized review. J Med
Libr Assoc 2017;105(1):69-79.
26. Booth A, et al. Structured methodology review identified seven (RETREAT) criteria for selecting
qualitative evidence synthesis approaches. J Clin Epidemiol 2018;99:41-52.
27. Voils CI, Sandelowski M, Barroso J, Hasselblad V. Making Sense of Qualitative and Quantitative Findings
in Mixed Research Synthesis Studies. Field Methods 2008;20(1):3-25.
28. Sandelowski M, Voils CI, Leeman J, Crandell JL. Mapping the Mixed Methods-Mixed Research Synthesis
Terrain. J Mix Methods Res 2012;6(4):317-31.
29. Minian N, et al. Identifying contexts and mechanisms in multiple behavior change interventions affecting
smoking cessation success: a rapid realist review. BMC Public Health 2020;20(1):918.
30. Hunt H, Pollock A, Campbell P, Estcourt L, Brunton G. An introduction to overviews of reviews: planning
a relevant research question and objective for an overview. Syst Rev 2018;7:159.
31. Lunny C, et al. Impact and use of reviews and ‘overviews of reviews’ to inform clinical practice guideline
recommendations: protocol for a methods study. BMJ Open 2020;10(1):e031442.
32. Timpel P, Oswald S, Schwarz PE, Harst L. Mapping the Evidence on the Effectiveness of Telemedicine
Interventions in Diabetes, Dyslipidemia, and Hypertension: An Umbrella Review of Systematic Reviews
and Meta-Analyses. J Med Internet Res 2020;22(3):e16791.

Cabello JB, Ansuategi E, Burls A. Lectura crítica de revisiones de la evidencia clínica. En: Cabello Juan B, editor.

C A P Í T U L O 12
sistemáticas sobre estudios
de prevención o tratamiento
Miguel Maldonado Fernández ■ Vicente Ruiz García
• Definir las revisiones sistemáticas sobre intervenciones de prevención o tratamiento (ITP).

• Enumerar los elementos clave de validez de estas revisiones sistemáticas.
• Definir conceptos de riesgo de sesgo y de certeza en la evidencia de cada resultado.
• Describir la forma de realizar la síntesis cualitativa y cuantitativa.
• Reflexionar sobre la aplicabilidad de la evidencia extraída de las revisiones sistemáticas.
• Facilitar al lector la lectura crítica de una revisión sistemática tras la lectura de este capítulo.
Introducción
La mejor evidencia sobre intervenciones de tratamiento o prevención (ITP) se obtiene de las revisiones
sistemáticas (RS) de ensayos aleatorios. Estas revisiones recopilan de modo estructurado, consistente y
prefijado toda la evidencia publicada o no sobre una pregunta PICO, extraen los datos de los estudios
y construyen estimaciones agregadas de los efectos de las intervenciones (metaanálisis). Por ello son de
enorme utilidad en la toma de decisiones sobre actividad clínica y en la elaboración de guías de práctica
clínica, de modo que constituyen la piedra angular en el uso de la evidencia en la clínica. Cuando
queremos saber si una intervención preventiva o una forma de tratar a los pacientes es mejor o peor
que otra, por ejemplo, mejorar los reingresos o la mortalidad en una enfermedad u otra, el diseño ideal
es una RS de ensayos clínicos que aborde la pregunta en cuestión. Fiarlo todo al resultado de un solo
ensayo si existen muchos ensayos, no parece una respuesta sensata, pues podría proporcionarnos una
respuesta que no represente la situación real y fuera más bien una situación particular. La gran cantidad
de ensayos de ITP que se generan y la necesidad de estar al día hace que necesitemos documentos
de síntesis que estén sujetos al menor sesgo posible y que representen una aproximación a «la verdad
sobre la cuestión». El crecimiento de RS a lo largo de la última década ha sido exponencial, duplicando
el número de las publicaciones cada 5 años. La proliferación de este tipo de RS hace que debamos
conocer la forma en las que están construidas y presentadas, para decidir sobre la validez de las mismas.
Escenario
Te encuentras en tu centro de salud pasando consulta. Acude una paciente de 17 años con un dolor
de garganta de intensidad considerable, que le impide concentrarse para estudiar las pruebas de
acceso a la Universidad, que tiene que hacer de forma inminente.

La paciente no tiene alergias medicamentosas ni otras patologías de interés. A la exploración no

encuentras signos de absceso periamigdalino y únicamente evidencia una orofaringe eritematosa.
Su madre, muy preocupada por la situación de la paciente, te pide algún tratamiento que mitigue
el dolor a la mayor brevedad, para que su hija pueda continuar con su estudio al máximo nivel. Una
amiga íntima le ha comentado que su hija mejoró muchísimo cuando «le pincharon cortisona».
Afortunadamente, encuentras la siguiente revisión sistemática:
Corticosteroids for treatment of sore throat: systematic review and meta-analysis of randomised
trials (1).
Leyéndolo con atención te preguntas:
■ ¿Son útiles los corticoides para mejorar el dolor de garganta?
■ ¿Darías un corticoide para mejorar el dolor de garganta en la opositora adolescente?
Sadeghirad B, et al. Corticosteroids for treatment of sore throat: systematic review and meta-
analysis of randomised trials. BMJ 2017;358:j3887.
Puntos clave para leer una RS

APROXIMACIÓN A UNA DEFINICIÓN
Las RS sobre ITP son documentos que intentan reunir toda la evidencia empírica, publicada o
no, que se ajuste a los criterios de elegibilidad especificados previamente, con el fin de responder
a una pregunta de investigación concreta orientada al tratamiento y la prevención. Usan métodos
explícitos y sistemáticos con el fin de minimizar sesgos, por lo tanto, proporcionan resultados más
fiables que los de estudios individuales, y a partir de ellas se pueden extraer conclusiones y decisiones.
Las características clave de una revisión sistemática son (1):
■ Una pregunta clínica bien definida con formato PICO, con criterios de inclusión y exclusión
predefinidos para los estudios.

■ Una metodología explícita y reproducible.
■ Una búsqueda sistemática que trata de identificar todos los estudios.
■ Una evaluación de la validez de las conclusiones de los estudios incluidos, por ejemplo, a
través de la evaluación del riesgo de sesgo entre los ensayos y de la calidad o certeza de la
evidencia en cada resultado.
■ Una presentación sistemática y una síntesis, que incluya las características y los hallazgos de
los estudios incluidos.
Pregunta clínica
Habitualmente, la RS de ITP se construye para responder a una pregunta clínica claramente
formulada. La mejor forma de hacerlo es mediante el acrónimo PICO ya comentado al abordar el
ensayo clínico en el capítulo 5.
P (PARTICIPANTES). A diferencia de lo que ocurre en los ensayos, donde los participantes
son los pacientes o individuos, los participantes aquí son los propios ensayos clínicos (EC) realizados
sobre pacientes que presentan una determinada condición objeto de nuestro interés. A diferencia
del PICO de los ensayos, la incorporación de poblaciones diferentes a través de los estudios (edades,
comorbilidad, diferentes estadios evolutivos, etc.) introduce una fuente de heterogeneidad que no
aparece en los ensayos. Normalmente, en los textos se referencia que la unidad de análisis son los
estudios. Solo en los metaanálisis de pacientes individuales la unidad de análisis son los enfermos.
Estos se confeccionan con los datos crudos de los ensayos a los que acceden los investigadores, lo
que permite explorar más información relevante.
I (INTERVENCIÓN). La intervención objeto de la revisión es la prevención o el tratamiento
que se somete a prueba, ya sea un fármaco concreto, un grupo de ellos o cualquier otra actuación
terapéutica, preventiva, ruta clínica u organizativa que ha sido estudiada en los ensayos originales.

12. LECTURA CRÍTICA DE REVISIONES SISTEMÁTICAS SOBRE ESTUDIOS DE PREVENCIÓN... 137
C (COMPARACIÓN). La comparación es la acción alternativa con la que se contrasta la

nueva intervención objeto del estudio. Esta puede ser un tratamiento falso o placebo, el tratamiento
habitual de la enfermedad o incluso el mismo tratamiento en dosis diferentes o con vías de adminis-
tración diferentes.
O (OUTCOMES-RESULTADOS). Los resultados son los eventos producidos objeto de la
investigación. No todas las preguntas se contestan en una revisión y en ocasiones se necesita más de
una revisión para contestar todas las preguntas relevantes. Los resultados deben ser lo más definidos
posibles a través de la descripción de los métodos diagnósticos que se usaron, las escalas de medida,
los umbrales a los que se ajustaron, el tiempo al que se midieron los resultados y las unidades de
medida usadas. En el caso de emplear escalas hay que detallar los valores superiores e inferiores y
si los valores más altos o los más bajos son los favorables.
Un asunto de importancia es lo ambigua o precisa que sea una pregunta clínica, pues las res-
puestas serán igualmente ambiguas o precisas. Esta cuestión varía con los criterios de inclusión de
los participantes en los ensayos clínicos.
Un ejemplo de una pregunta con formato PICO sería: ¿En los enfermos con COVID-19
ingresados por bronconeumonía, el tratamiento con Remdesivir comparado con el placebo sirve
para disminuir la mortalidad a 28 días o la estancia hospitalaria?
La amplitud de los componentes es crucial a la hora de extraer conclusiones, pues esta pregunta
anterior podría haberse acotado aún más si incluyésemos solo a sujetos inmunocomprometidos o
solo sujetos a partir de una determinada edad o sexo, dado que hoy sabemos que el riesgo de fallecer
por COVID-19 si se sufre bronconeumonía puede depender de estos (2). En resumen, la pregunta
más ambigua produce resultados globales que pueden no representar alguno de los subgrupos
incluidos. Siguiendo el mismo ejemplo:
P: Ensayos clínicos que incluyan enfermos con bronconeumonía y que estén ingresados en
hospital.
I: Remdesivir. La pregunta no incluye la dosis y esta podría ser diferente, dada a lo largo del
día en solución continua o a una dosis fija administrada periódicamente.
C: Placebo. Una solución lo más parecida a la intervención en aspecto y que se prescribe a las
mismas horas y de la misma forma.
O: Mortalidad a los 28 días y estancia hospitalaria. Pero podrían ser aún más, como efectos
adversos, necesidad de oxígeno suplementario, carga viral, etc. Desde un punto de vista de
importancia, los tres primeros son claramente resultados centrados en los pacientes, mientras
que los dos últimos son prácticamente resultados subrogados que, aunque sean recogidos,
no modificaran la incorporación o no del tratamiento si los resultados de importancia no
producen beneficio. La RS de ITP deben estar centradas claramente en resultados centrados
en los pacientes.
Búsqueda de la evidencia y la exhaustividad

El lector debe revisar si hubo exhaustividad en la búsqueda. La búsqueda de los ensayos publicados
se hace a través de bases de datos y la de los ensayos no publicados a través de los registros de ensayos
clínicos, contacto con los autores y promotores y de la llamada literatura gris.
En una revisión sistemática deben incluirse los ensayos publicados y los no publicados. Si los
autores no lo hicieran se podría incurrir en un sesgo de publicación.
La información publicada aparece recogida en bases de datos de artículos científicos. Idealmente
se debería buscar al menos en Medline, Embase y CCRT (Cochrane Central Register of Trials).
Existen numerosas bases de datos, muchas de ellas específicas de determinadas áreas de la salud:
CancerLit, CiNAHL, WOS (Web of Science), PsycINFO, LILACS (Literatura Latinoamericana
y del Caribe en Ciencias de la Salud), si se desea buscar literatura de esa zona concreta. Por
ejemplo, al hacer una revisión sistemática de la enfermedad de Chagas, muy prevalente en His-

panoamérica, sería interesante que los autores incluyesen LILACS para buscar artículos de autores
latinoamericanos. En cualquier caso, la elección de las bases de datos dependerá de los problemas
clínicos que se aborden.
Los registros de EC como http://controlled-trials.com, http://clinicaltrials.gov y la World Health
Organization (WHO) trial portal son bases de datos internacionales que constituyen una de las
mayores fuentes de información sobre EC. Allí podemos encontrar: ensayos en sus diferentes fases sin
haber concluido y ensayos terminados, en ocasiones con resultados sin publicar. Identificar estos regis-
tros facilita en futuras actualizaciones que no se pierdan estos si no se llegaran a publicar los resultados.
El lector debe revisar si los autores de la revisión sistemática se pusieron en contacto con los
autores de los estudios individuales que se incluyeron en la revisión sistemática, ya que pueden ser
fuente de información adicional de otros estudios no publicados, así como si hubo contacto con
los patrocinadores de los estudios.
Asimismo, se debe chequear si se intentó encontrar en las referencias de los estudios localizados
otros estudios originales que no estuvieran localizados. Por último, se debe revisar si se abarcó la lite-
ratura gris que abarca los repertorios de congresos, o tesis doctorales, que pueden ayudar a localizar
pequeños ensayos clínicos que no se han llegado a publicar en revistas. La inclusión de literatura
gris parece que incrementa solo discretamente los resultados a favor de la revisión a estudio (3).
Selección de estudios y extracción de datos

El lector debe revisar cómo se realizó, pues como en el recuento de votos en unas elecciones, este proceso
debe ser realizado por más de una persona. Los estudios que no cumplen los criterios de la pregunta
PICO deben ser eliminados y detallarse la causa de su exclusión. A la hora de proceder a la extracción
de datos debe revisarse si procedió de igual manera: si dos o más personas extrajeron los mismos. Lo
normal es que este procedimiento, tanto la selección como la extracción, se haga de forma independiente.
En realidad, vuelve a recordar el proceso de autentificación de las papeletas por los integrantes de la
mesa electoral. Lo habitual son dos personas y si no existe consenso decide una tercera persona.
Evaluación de la calidad de los ensayos

El resultado que se pueda extraer de una revisión sistemática depende, entre otros factores, de la
validez de los artículos originales incluidos. Los puntos fundamentales sobre la validez de un ensayo
clínico ya se citaron en el capítulo de ensayos.
La escala más utilizada para la detección de riesgo de sesgo es la de la Colaboración Cochrane
(ya comentada en el capítulo 5), que es una evaluación basada en las características de los estudios:
generación de la secuencia, ocultamiento de la secuencia, cegamiento de los participantes y del per-
sonal, cegamiento de los evaluadores de los resultados, datos de resultado incompletos, notificación
selectiva de resultados, otras fuentes de sesgo. Cada característica se expresa como «bajo riesgo»,
«alto riesgo» o «riesgo poco claro» de sesgo (1).
Hoy sabemos que la interrupción precoz de los ensayos tiene más posibilidad de sesgo que los que se
terminan sin interrupciones anticipadas. Interrumpir un estudio por seguridad, porque existen más muer-
tes o efectos dañinos en uno de los grupos, es ético, pero interrumpir prematuramente por la aparición
de un beneficio inesperado puede introducir sesgos importantes y debería tenerse en consideración (4).
Resultados: metaanálisis y forest plot

El metaanálisis es un conjunto de procedimientos estadísticos que permite agregar los resultados de
diferentes estudios entre sí. Si este procedimiento no se hace tras una revisión exhaustiva de acuerdo
con lo que hemos descrito para una revisión sistemática, no tiene gran valor. El objetivo es mejorar
el conocimiento al obtener un valor promedio de un valor desconocido que nos permita acercarnos
al valor más real posible. Al incrementar el tamaño muestral se aumenta la precisión estadística.

Estos cálculos producen una media ponderada de los efectos de los tratamientos. Estos efectos
dependen de los resultados estudiados. Si los valores son dicotómicos (por ejemplo, los pacientes
mueren o no), los resultados los podemos presentar como diferencia absoluta entre vivos y muertos,
también llamada diferencia absoluta de riesgos (DAR), proporción entre muertos y vivos, riesgo
relativo u odds ratio (RR u OR), que ya se han explicado en el capítulo de EC. Si los valores son
continuos, los resultados se presentan como diferencia de medias, bien de forma absoluta cuando están
medidas en las mismas unidades, o de forma ponderada, cuando la forma de medirlas es a través de
distintos instrumentos, como por ejemplo diferentes cambios en las escalas de depresión. El forest plot
es el gráfico que presenta los resultados de cada estudio con el valor final agregado de todos los estudios.
La estimación puntual de cada estudio individual se presenta como un cuadrado, cuyo tamaño es
proporcional al peso de dicho estudio en el resultado combinado y la precisión de dicha estimación,
es decir, los intervalos de confianza, se representan mediante una línea horizontal. En general los
estudios de menor tamaño tienen menos precisión y su contribución a la estimación global del
efecto recibe una menor ponderación.
El resultado combinado de todos los estudios se muestra como un rombo o diamante cuya
amplitud horizontal representa los intervalos de confianza de la estimación global, es decir, el
rango de valores entre los que el verdadero valor del efecto es probable que se sitúe. Su significación
estadística se valora observando si su amplitud incluye la línea de no significación (1 si se trata de
OR o RR y 0 si se trata de diferencia de riesgos o diferencia de medias). Cuando los resultados se
presentan en forma de OR o RR el forest plot utiliza una escala logarítmica.
El forest plot permite explorar visualmente la existencia de heterogeneidad, viendo si las estima-
ciones puntuales de cada estudio son muy diferentes entre sí y en qué grado se solapan los IC. Hay
diferentes estadísticos que miden heterogeneidad, pero el más frecuentemente usado es el I2. Un
valor de menos de 40% se considera indicativo de heterogeneidad baja. Entre 30-60% sugiere una
probabilidad moderada de heterogeneidad, entre 50-90% puede ser sustancial y entre 75 y 100%
considerable. Estos valores se solapan reafirmando la idea de que los intervalos se han establecido
de manera orientativa.
Grandes diferencias en las estimaciones puntuales de cada estudio e IC que no se solapan
sugieren heterogeneidad. En cualquier caso, la heterogeneidad es una cuestión del clínico más que
del estadístico. Las figuras 12.1 y 12.2 representan respectivamente un forest plot sin heterogeneidad
y con heterogeneidad estadística. En la primera, los intervalos de confianza se solapan, mientras que
en la segunda no todos los estudios se solapan y algunos claramente tienen resultados opuestos (C
y E). El estadístico de heterogeneidad es 0 en el primero mientras que llega al 68% en el segundo.
Las diferencias que existen en los ensayos siempre van a introducir un grado de heterogeneidad
en las revisiones: diferencias en fármacos, dosis, vías de administración, pacientes, estadio evolutivo,
seguimientos, calidad de los estudios, etc. Sin la plausibilidad de que los tratamientos afecten de
forma similar, a pesar de estas diferencias, no se deberían combinar los resultados individuales para
extraer una conclusión global. Sin embargo, puede ser útil combinarlos para comprobar cómo afectan
Figura 12.1 Forest plot que mide el riesgo de mejorar en la cefalea con el nuevo tratamiento en relación con
el tratamiento control. El valor de I2 es de cero, no sugiriendo heterogeneidad estadística.

Figura 12.2 Forest plot que compara la mortalidad de un nuevo tratamiento para la cefalea. Los IC 95% de
todos los estudios no se solapan y la I2 es del 63%, sugiriendo heterogeneidad importante.
estas diferencias al resultado final. Podría incluso considerarse hacer recomendaciones específicas
para diferentes subgrupos de pacientes, grupos o tratamientos.
Los forest plot se realizan de acuerdo con dos asunciones: la del modelo de efectos fijos y la
del modelo de efectos aleatorios. El primero asume ausencia de diferencias entre los estudios por
poblaciones e intervenciones muy homogéneas, y el segundo, que estas diferencias pueden ser
importantes. El segundo es más conservador y produce intervalos de confianza más amplios. Aunque
en los protocolos se debe establecer qué modelo a priori se va a usar, lo habitual es confirmar la
consistencia de los resultados para valorar la heterogeneidad con los dos modelos.
ANÁLISIS DE SUBGRUPOS
El análisis de subgrupos o estratificado consiste en realizar metaanálisis para diferentes características o
categorías de los estudios y valorar si los resultados combinados son diferentes entre sí (por ejemplo, si
hay diferencias del efecto entre adultos y niños, entre dosis diferentes, lugares geográficos o calidad de
la evidencia). Para comprobar esto y descartar que esta variación se deba al azar es necesario realizar la
prueba de interacción, cuya significación inferior < 0,10 sugiere un diferente efecto de la intervención
en los subgrupos. Hay que recordar que los análisis de subgrupos son de tipo observacional y, salvo
que tengamos datos individuales de los pacientes dentro de los ensayos, pueden producir hallazgos que
en realidad no existan, pues los subgrupos pueden no estar balanceados al no derivarse de una
asignación al azar. En el ensayo ISIS-2 se demostró beneficio de la aspirina sobre el placebo en todos
los sujetos, pero en dos signos astrológicos de los pacientes, este no parecía existir (5). A más análisis
de subgrupos, más posibilidad de producir hallazgos, que en realidad pueden no existir.
La metarregresión es una extensión del análisis por subgrupos que permite investigar simultá-
neamente el efecto de características categóricas (vía de administración, sexo, calidad de los estudios)
y continuas (edad, dosis, tamaño muestral).
ANÁLISIS DE SENSIBILIDAD
El análisis de sensibilidad pretende medir la consistencia del estimador final. Para ello se repite
tantas veces el metaanálisis como estudios tenga la revisión, eliminándose en cada paso uno de
ellos y dejando el resto. Si los resultados de los distintos metaanálisis son similares en magnitud,
dirección y efecto, se puede concluir que los resultados son confiables o robustos. En caso contrario
no se tendría un estimador robusto, lo cual exigiría cierta precaución en la interpretación de los
resultados o podría ser motivo para generar nuevas hipótesis.
El análisis de sensibilidad también puede utilizarse para estudiar la influencia en los resultados
del metaanálisis de ciertos aspectos relacionados con la validez de los estudios, como por ejemplo

la exclusión de estudios que no superan un determinado umbral de calidad, trabajos no publicados;

o bien estudios en los que hay incertidumbre sobre el cumplimiento de los criterios de selección.
En ocasiones este análisis se confunde con el análisis de subgrupos. Los dos métodos difieren
en dos aspectos. En primer lugar, los análisis de sensibilidad no intentan calcular el efecto de la
intervención en el grupo de estudios eliminados del análisis, mientras que en los análisis por sub-
grupos se producen estimaciones para cada subgrupo. En segundo lugar, en el análisis de sensibilidad
se hacen comparaciones informales entre diferentes formas de calcular lo mismo, mientras que en
el de subgrupos se hacen comparaciones estadísticas formales entre los subgrupos.
Certidumbre de la evidencia en los resultados

La calidad de la evidencia o certidumbre depende de dos factores. Por una parte, el riesgo de sesgo
en cada uno de los estudios incluidos en la revisión. Por otro, el riesgo de sesgo de la propia revisión,
debido a factores como la imprecisión, los sesgos de publicación, la evidencia indirecta, etc.
GRADE en las RS de ITP funcionaría como un ascensor que, instalado en los pisos altos (por
tratarse de revisiones de ensayos clínicos), solo puede bajar la certidumbre de los resultados si se ve
penalizado en alguna de las siguientes áreas:
IMPRECISIÓN
Los estudios con pocos pacientes probablemente tendrán intervalos de confianza grandes, sobre todo
si los resultados son poco numerosos. En este caso se recomienda bajar un escalón por imprecisión.
Por regla general se sugiere bajar un escalón si los intervalos de confianza sobrepasan el 0,75 por
abajo o el 1,25 por arriba.
Otra forma de medir imprecisión, además de los intervalos de confianza, es considerar si el
número total de pacientes incluido en la revisión para el resultado estimado es inferior al del tamaño
de un ensayo clínico con un tamaño muestral con suficiente poder estadístico. En este caso habría
que bajar también un escalón por imprecisión.
Para estudios con pocos eventos y tamaños muestrales grandes en los grupos podría parecer
que los riesgos relativos son similares. En este caso se conseja usar medidas absolutas como las
diferencias de riesgo y disminuir la confianza por imprecisión, si esta es amplia.
INCONSISTENCIA
La inconsistencia se evalúa y se cuantifica a la baja cuando los valores promedios de los estudios
individuales son claramente diferentes entre sí, sus intervalos de confianza no se solapan o los
estadísticos que miden la heterogeneidad general son menores de p < 0,1. Si se ha hecho análisis
de subgrupos, los análisis son creíbles y se muestran, no hay porque bajar la calidad por inconsis-
tencia. En caso de que los subgrupos sean plausibles, pero los resultados sean muy improbables
y se exprese solo una estimación final de un solo valor final agregado, debería bajar la calidad al
menos un escalón.
NATURALEZA INDIRECTA
Cuando existen comparaciones indirectas de un fármaco A contra placebo y de B contra placebo,
pero no existe comparación de A contra B, estamos ante una comparación indirecta. Otras formas
de comparación indirecta incluyen diferencias en el tipo de población, por ejemplo, diferentes
grados de enfermedad o diferentes cointervenciones, diferencias en la forma de medir el resultado
o la existencia de un resultado subrogado. En estos casos debería bajarse la calidad.

RIESGO DE SESGO DE PUBLICACIÓN

Cuando los resultados son contrarios a la hipótesis de trabajo e incluyen pocos sujetos, es más
probable que no se publiquen. Lo mismo sucede si el promotor es la industria farmacéutica. También
se sabe que los autores, editores y revisores de revistas no son proclives a publicar los resultados,
o los retrasan porque no los consideren prioritarios. Se aconseja disminuir un escalón la calidad
si los estudios son pequeños, están financiados por la industria farmacéutica y los autores tienen
claro conflicto de intereses con esta.
Cuando los autores o patrocinadores deciden no publicar cierto material del ensayo por la
magnitud del resultado, la dirección de este o por la ausencia de significación estadística, se produce
un sesgo conocido como sesgo de reporte (reporting bias) (6). Cuando es todo el ensayo el que no
se publica, se produce un sesgo denominado sesgo de publicación o publication bias. Ejemplos de
sesgo de publicación se han producido con antidepresivos (7) o antigripales (8). Organizaciones
como alltrials.net están orientadas a que toda la investigación que se produzca sobre un campo se
haga pública con la inclusión de todos los resultados, para minimizar el impacto de este sesgo.
A pesar de que existe un mandato legal desde 2007 que en EE. UU. obliga a publicar los resultados
de los ensayos incluidos en clinicaltrials.gov, en marzo de 2020 alltrials.net publicó: «Un juez de
Nueva York ha dictaminado que cientos de ensayos clínicos registrados en clinicaltrials.gov están
infringiendo la ley al no informar los resultados» El período analizado incluye 2007-2017 y todo
parece indicar que las cosas no han cambiado mucho a este respecto (https://www.alltrials.net/news/
hundreds-of-clinical-trials-ruled-to-be-breaking-the-law/).
Existen diferentes formas de sugerir la presencia de sesgo de publicación a partir de gráficos y de
pruebas estadísticas. El gráfico de embudo, funnel plot, es una de las formas más usadas. Explora la
posibilidad de sesgo de publicación relacionando la magnitud del efecto combinado del tratamiento
de cada estudio con la precisión. Cuando el diagrama de puntos de los diferentes estudios tiene una
distribución simétrica alrededor del efecto, se sugiere la ausencia de sesgo de publicación. Y en su
defecto indica una posible existencia de sesgo. La primera imagen de la figura 12.3 muestra una
distribución simétrica de los ensayos, mientras que la segunda imagen muestra una distribución con
una asimetría en las bases que sugiere sesgo de publicación. Desgraciadamente, con menos de 10
estudios la posibilidad de sugerir sesgo de publicación a partir del funnel plot es baja y en realidad
en la mayoría de las ocasiones no se presenta en las publicaciones (1).
La sospecha o confirmación de datos falsificados penaliza nuevamente este ítem. En el caso
de apixabán, parece que los resultados de los metaanálisis publicados incluían aportaciones de un
estudio que se demostró falsificado y su anulación en los metaanálisis producía cambios importantes
en sus resultados en un tercio de estos (9).
El sesgo de publicación nunca se puede descartar del todo, pero se intenta minimizar al explorar
los metarregistros de ensayos clínicos, e idealmente al menos clinicaltrials.gov y el de la World
Health Organization (WHO).
Presentación de resultados: Summary of Findings (SoF)

y perfil de evidencia
Es habitual encontrar en la parte final de los documentos un resumen estructurado con los
hallazgos de la revisión, denominado SoF, Summary of Findings (resumen de hallazgos), o
un perfil de evidencia de GRADE, que vamos a repasar en la figura 12.4. Hemos adaptado
los resultados del ensayo que usamos en este capítulo como ejemplo para elaborar un perfil de
evidencia de acuerdo con GRADE. Las diferencias entre ambos son mínimas, pero en los dos
el encabezado debe incluir los autores, la pregunta de investigación y el tipo de pacientes
que incluye. En ambos se describen los resultados de interés, donde el lector debe comprobar que
aparecen los resultados de carácter CRÍTICO o IMPORTANTE para resolver la pregunta en

Figura 12.3 Funnel plot de una revisión sistemática. A. La distribución de los estudios a ambas partes del
verdadero efecto sugiere que no existe sesgo de publicación, pues los estudios de menor tamaño muestral
por azar se supone que se distribuirían a ambos lados del gráfico de forma parecida. B. La falta de estudios
a la derecha de la línea media sugiere un posible sesgo de publicación.
cuestión. Se deberían dejar fuera de este resumen de evidencia los resultados subrogados y no
centrados en los valores que resultan importantes para los pacientes. Idealmente no se deberían
presentar más de siete resultados. Se deben mostrar los efectos secundarios, si los hubiera, para
tener un balance riesgo/beneficio. En la tabla se expresan las unidades en que se mide cada
resultado y la interpretación de estas, así como el tiempo de seguimiento en cada uno de estos.

Figura 12.4 Perfil de evidencia de GRADE (adaptado). IC, intervalo de confianza; MD, diferencia media; RR, riesgo relativo.
CUADRO 12.1 ■ Interpretación de calidad a través de GRADE
ALTA CALIDAD: es muy improbable que las investigaciones adicionales modifiquen la certidumbre
con respecto al cálculo del tamaño del efecto.
MODERADA: probablemente las investigaciones futuras tendrán una repercusión importante en la
certeza respecto al cálculo del efecto y pueden modificarlo.
BAJA: muy probablemente investigaciones adicionales tendrán una repercusión importante en la certeza
respecto al cálculo del efecto y es muy posible que lo modifiquen.
MUY BAJA: cualquier cálculo del efecto es muy poco fiable. Es muy necesaria más investigación para
estimar el efecto.
Se debe describir si existe riesgo de sesgo en cada una de las áreas de GRADE, etiquetándolo
como Ninguno/no; Serio/Muy serio. Si el resultado es cualquiera de los dos últimos, hay que
poner una llamada para explicar por qué se ha etiquetado de esta forma. Por último, se expresan
los resultados de los estudios, que incluyen: pacientes incorporados en cada rama para cada
resultado, número de ensayos incluidos para cada resultado, y el estimador relativo y/o absoluto.
Finalmente, la certeza que supone ese resultado y, en caso de los SoF, una interpretación literal
de la misma. La gradación va desde una certeza muy importante en los efectos que nos presentan
a una muy baja certeza en la estimación de estos (cuadro 12.1).
En el caso del SoF del artículo que es analizado en este capítulo, para el primer resultado
(resolución completa del dolor a las 24 h), se etiqueta como certidumbre MODERADA y se des-
cribe como: «los corticoides probablemente incrementan la posibilidad de una resolución completa
del dolor a las 24 h», mientras que el resultado de «la prescripción de antibióticos» o «tiempo medio
hasta la resolución completa del dolor» son etiquetados como certidumbre BAJA y se describen de
la siguiente manera: «los corticoides pueden disminuir la posibilidad de tomar antibióticos o pueden
acortar la duración del dolor».
PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses) es el
consenso de escritura para desarrollar una revisión sistemática en la actualidad. Seguir cada uno de
los apartados permite evaluar todos los apartados de una revisión sistemática (10).
Es habitual que los protocolos de las revisiones estén disponibles en registros como
PROSPERO, en la Universidad de York (https://www.crd.york.ac.uk/PROSPERO/) o en publi-
caciones como en la Colaboración Cochrane.
Aplicabilidad de los tratamientos

DISCUSIÓN
En la parte final de una RS, tras exponer los resultados, el lector debería encontrar una reflexión
en la que se hiciera un balance sobre lo completa o no que es la misma. No es infrecuente que los
tiempos de seguimiento para determinadas variables que son importantes en la revisión sean cortos
o los efectos secundarios se hayan medido en pocos ensayos.
Otra de las cuestiones para revisar es la certeza sobre los efectos de las intervenciones que se
ha examinado, pues en los etiquetados como bajos o muy bajos, cualquier nuevo estudio podría
cambiar el sentido del efecto, o en el último caso el estimador puede ser cualquier otro distinto
al reportado.
Debiera tomarse en consideración si existen comparaciones solo contra placebo y se han obviado
comparaciones contra otras alternativas igualmente eficaces. El lector debe revisar si se plantea un
balance riesgo/beneficio entre la mejora que produce el tratamiento que se pone a prueba y los
posibles efectos adversos. Así, otros actores emergen a la hora de decidir más allá de la calidad de
la evidencia: las preferencias de los pacientes y los efectos adversos (11).

EVIDENCIA EN CONTEXTO
Poner a la evidencia reportada en contexto con otras revisiones sistemáticas producidas sobre el
mismo tema permite comprobar si existen diferencias importantes sobre las conclusiones acerca de
la misma. Diferencias mínimas en la formulación de la pregunta de investigación pueden cambiar
los criterios de inclusión de los estudios, agregar diferentes comparadores o tiempo de seguimiento
y producir resultados distintos.
CONSECUENCIAS PARA LA INVESTIGACIÓN

Con frecuencia se señalan reflexiones acerca de las consecuencias que la RS tendrá para la investiga-
ción futura, pues se pueden poner en evidencia claras lagunas al respecto, por falta de estudios que
incluyan a pacientes en un estadio concreto de enfermedad, duración insuficiente del seguimiento
o falta de abordaje de resultados en salud necesarios para tomar una decisión bien informada, como
pueden ser calidad de vida, efectos secundarios u otros.
VISIÓN GLOBAL FRENTE A LA VISIÓN PARTICULAR

DE LOS SUBGRUPOS (LUMPERS VS. SPLITTERS)
Hay que decidir hasta qué punto esa RS puede aplicarse a pacientes (12) y entornos concretos (13).
Aunque el conocimiento que se genere pueda ser válido a nivel general, la toma de decisión en
pacientes concretos exige una aplicación local o individual (globalizar la evidencia pero localizar
las decisiones) (14).
El lector debe ser consciente de hasta qué punto las recomendaciones generales se pueden adaptar
a pacientes específicos o no. Imaginemos una estrategia para prevenir el cáncer de colon que se
realiza en toda España. Los diferentes ensayos en cada provincia demuestran que es efectivo en todas
las provincias menos en Valencia, y sus pacientes son de esta provincia. ¿Debiera dejar de recomendar
esta estrategia porque a nivel local no funcionó? La respuesta parece obvia, la información recopilada
de la mayoría de los estudios sugiere que debe funcionar y deberíamos aceptar estos resultados,
salvo que en esta provincia existan características específicas que la hagan bien diferente del resto.
En otras ocasiones los valores de todos los estudios «no dejan ver el bosque» y la asunción de los
lumpers en relación con los splitters no está tan clara. En la RS sobre intervenciones para mejorar
la adherencia a la medicación para la insuficiencia cardíaca (15,16) se sugiere que las estrategias
son efectivas para la misma. Sin embargo, la RS incluye multitud de intervenciones y no diferencia
entre insuficiencia cardíaca con baja fracción de eyección y fracción de eyección conservada. Se
sugiere una reducción de mortalidad y de reingresos, pero nos haría falta mucha más información
para saber qué intervención de las múltiples que señala es efectiva y para qué tipo de insuficiencia
cardíaca. Esta información desagregada (splitter) sería de gran utilidad.
Un comentario final: Los clínicos debemos hacer el esfuerzo de considerar si la evidencia centrada
en resultados clínicamente relevantes para los pacientes está suficientemente bien construida o no. Los
pacientes reúnen características únicas, provienen de diferentes ámbitos, tienen diferentes valores y
comorbilidad y una percepción del riesgo distinta. La pericia de un buen clínico es aunar todas ellas.
Artículo
Sadeghirad B, et al. Corticosteroids for treatment of sore throat: systematic review and meta-analysis
of randomised trials. BMJ 2017;358:j3887. Disponible en: http://dx.doi.org/10.1136/bmj.j3887.


A) ¿Los resultados de la revisión son válidos?

1. ¿Se hizo la revisión Sí ✓ No sé No
sobre un tema Sí. La revisión se hizo sobre un tema que puede traducirse en una
claramente definido? pregunta PICO (Paciente, Intervención, Control, Outcome
PISTA: una pregunta o resultado):
clínica se formula con los Pacientes: publicaciones de ensayos que incluyen pacientes de 5 o más
componentes PICO: años atendidos en urgencias con faringitis, amigdalitis o síndrome
• La población de estudio. de dolor de garganta. Por dolor de garganta incluye un abanico de
• La intervención descripciones que van desde el dolor en sí a la faringitis o el dolor
realizada. al tragar. Los criterios de exclusión los define claramente e incluyen:
• La comparación. inmunocomprometidos, mononucleosis, dolor de garganta poscirugía
• Los desenlaces o postintubación, reflujo, etc.
(outcomes) considerados. Intervención: corticoides. No describe la dosis, ni la vía de
administración, aunque en la introducción se menciona que son dosis
bajas a moderadas.
Control: tratamiento habitual (standard of care) o placebo.
Outcomes: resolución completa del dolor a las 24 y 48 h; tiempo medio
de inicio de la reducción del dolor; tiempo medio hasta la resolución
completa del dolor; resolución absoluta del dolor a las 24 h;
duración de los síntomas «intolerables»; recidiva del dolor; días
perdidos de trabajo o escuela; necesidad de antibióticos; y efectos
adversos de la intervención.
2. ¿Buscaron los autores Sí ✓ No sé No
el tipo de artículos Sí. Se ha hecho una revisión sistemática de ensayos clínicos
adecuado? aleatorizados, que es el tipo de estudios que responde a preguntas
PISTA: el mejor «tipo sobre prevención o tratamiento.
de estudio» es el que:
• Se dirige a la pregunta
objeto de la revisión.
• Tiene un diseño
apropiado para la
pregunta (puede ser
óptimo o subóptimo
por razones diversas).
(Continúa)

3. ¿Crees que estaban Sí ✓ No sé No
incluidos los estudios Sí. Esta revisión es una actualización de otra previa hecha para
importantes Cochrane. Aceptan por buena la búsqueda bibliográfica realizada en
y pertinentes? esa primera revisión, y actualizan la búsqueda desde el 1 de enero de
PISTAS 1: 2010. De ese modo se solapan 2 meses con lo buscado en la revisión
• ¿Qué bases de datos Cochrane. La búsqueda se llevó a cabo en Medline, Embase y en
bibliográficos se han el Cochrane Central Register of Controlled Trials (CENTRAL).
usado? ¿Qué estrategia Buscaron también en clinicaltrials.org, pero no en metarregistros
de búsqueda? o en la plataforma de registros internacionales de ensayos clínicos
• Seguimiento de las (ICTRP) de la OMS. No hubo restricción por idioma (es decir,
referencias. no se rechazaron ensayos clínicos que no estuviesen en inglés).
• Contacto personal No mencionaron la búsqueda de literatura gris. Tampoco se hizo
con autores. referencia a si se pusieron en contacto con los autores para recabar
• Búsqueda de estudios no información e indagar sobre otros estudios no publicados. Sí buscaron
publicados y de resultados en las referencias bibliográficas de los ensayos clínicos incluidos.
no publicados-control de
los protocolos originales.
• Idiomas distintos
del inglés.
PISTAS 2:
• Criterios de inclusión/
exclusión.
• Selección de estudios.
• Extracción de datos.
4. ¿Crees que los autores Sí ✓ No sé No
de la revisión han Sí. Cuatro revisores trabajando por pares extrajeron los datos y
hecho suficiente evaluaron de forma independiente (es decir, cada uno trabajando por
esfuerzo para valorar la su lado, no revisando a la vez los artículos) la calidad metodológica
calidad de los estudios de cada ensayo con la herramienta de medición del riesgo (Risk of
y de los resultados bias tool: RoB) de Cochrane, que evalúa aleatorización, cegamiento,
incluidos? reporting bias y otros riesgos. También evaluaron la certidumbre
PISTA 1: el «riesgo en cada resultado a través de GRADE. Seleccionan los estudios
de sesgo» depende de acuerdo a criterios de inclusión y exclusión definidos en los que
(Cochrane RoB1): añadieron un apartado para la exclusión de menos de 5 años por
• Secuencia RZ. lo difícil de valorar el dolor de forma creíble a esa edad. De forma
• Ocultación de la secuencia duplicada extrajeron los datos de acuerdo a: autores, año, localización,
de aleatorización. diagnóstico, tamaño de estudio, edad, etc.
• Cegamiento. En el apéndice 2 se describe el riesgo de sesgo para cada uno
• Pérdidas (atrición). de los estudios. Diez ensayos en los que en cuatro hay algún dominio
• Reporte selectivo con alto riesgo de sesgo, especialmente en el ensayo de Ahn.
de desenlaces. La figura 2 estudia la resolución completa del dolor a las 24 h. RR
• Otros. 2,24 (1,17-4,29). El dolor es una variable subjetiva que bien podría
PISTA 2: valorar para verse afectada por la ausencia de cegamiento. Revisemos el riesgo de
cada desenlace, en cada sesgo de los ensayos para este resultado de los estudios involucrados.
estudio y en el conjunto La descripción de estos está en el apéndice 2 como tabla adicional. La
de estudios. descripción que se ve es alto riesgo de sesgo por falta de ocultación
de la secuencia de la aleatorización en los artículos de Ahn y Marvez
Valls y falta de cegamiento del resultado en Ahn y O’Brien. El resto
está de color verde, lo que implica bajo riesgo de sesgo. Ninguno
de estos ensayos aparece para este resultado, lo que significa que la
valoración que debiera hacerse es bajo riesgo de sesgo.

5. Si los resultados de los Sí ✓ No sé No

diferentes estudios han Es decir, ¿son los ensayos clínicos suficientemente homogéneos
sido mezclados para para combinarlos entre sí?
obtener un resultado Hay una heterogeneidad clínica manifiesta que se tiene en cuenta
«combinado», ¿era a priori debida a varios factores: edad (niños-adultos), postulando un
razonable hacer eso? mayor efecto en adultos; ruta de administración (oral-parenteral),
PISTA: la heterogeneidad postulando un mayor efecto en la parenteral; cultivos positivos
puede ser: a estreptococo betahemolítico A, postulando un mayor efecto
• Clínica. en los que tenían cultivo positivo; lugar de la atención médica
• Metodológica. (atención primaria/urgencias), postulando un mayor efecto en los
• Estadística (i2). pacientes atendidos en urgencias; y lugar del tratamiento posterior
(hospitalización-tratamiento ambulatorio).
6. ¿Cuál es el resultado Diez estudios de los cuales tres son en niños, uno en adultos y niños
global de la revisión? y el resto solo en adultos. Está recogida en una tabla resumen (SoF)
PISTA: considera: donde se clarifican los resultados prefijados para cada uno de ellos.
• Valora para los desenlaces Ver tabla 1 del artículo.
positivos y también los Resolución completa del dolor a las 24 h RR 2,24 (1,17-4,29).
negativos. Resolución del dolor a las 48 h RR 1,48 (1,26-1,75).
• ¿Cuáles son los resultados Reaparición de los síntomas RR 0,52 (0,16-1,73).
para cada desenlace? Prescripción de antibióticos 0,83 (0,61-1,13).
• ¿Cómo están expresados Reducción del dolor en 24 h MD 1,3 (0,7-1,9).
los resultados? RR, HR, Días perdidos de escuela. Los describe de forma individual en los dos
etc. ensayos, pero no da un valor agregado.
• ¿Muestran gráficos forest Efectos secundarios severos. Los describe, pero no da un valor agregado
plot? y señala que son similares en ambos grupos.
Se aprecian forest plot para diferentes resultados en las figuras 2, 3, 4, 5
y 6.
La figura 2 del artículo representa la resolución completa del dolor a
las 24 h y muestra cinco ensayos cada uno con un IC distinto que
se solapan entre sí excepto dos (Tasar y Hayward). Cada estudio
está representado por un cuadrado que es más o menos grande en
función del peso en el resultado del agregado final. Los intervalos de
confianza aparecen como una línea recta que atraviesa cada cuadrado
y representa en sus extremos los valores inferiores y superiores del
intervalo. Todos los valores medios de los ensayos son favorables a
los corticoides, pero en tres de ellos, incluido el de mayor peso, no
son estadísticamente significativos. Aparece un valor final agregado
en forma de rombo que no incluye el 1, por lo que se considera como

estadísticamente significativo. Un RR 2,24 (1,17-4,29) significa que
aproximadamente es dos veces más probable que desaparezca el dolor
de garganta si se toma corticoide que si no se toma, pero que este
valor podría llegar a ser hasta cuatro veces más o apenas igual tomar
placebo. El forest plot incluye un valor de I2 de heterogeneidad
de 69%, que expresa una heterogeneidad importante.
Se evalúan resultados positivos pero también efectos secundarios
de forma genérica, en forma de efectos adversos severos.
(Continúa)

7. Para el conjunto de Sí ✓ No sé No
los estudios (en cada Sí.
desenlace concreto) Riesgo de sesgo en los desenlaces: para la resolución del dolor a las
• «Riesgo de sesgo en los 24 h ya ha sido comentado con anterioridad.
desenlaces». Inconsistencia: el material auxiliar del apéndice 3 explora si existe
• ¿Cuál es la precisión interacción entre los subgrupos y analiza los supuestos antes
de los resultados? comentados (adultos/niños, oral/parenteral, atención primaria/
• ¿Son consistentes los urgencias, etc.) y no la encuentra. Es evidente que existe
resultados de los estudios heterogeneidad clínica, de tratamientos, etc., hay una I2 en la figura
para cada desenlace? de 69%, pero no se degrada debido a que se ha hecho análisis de
• ¿Es indirecta la subgrupos, los análisis son creíbles y se muestran en la información
evidencia en algún adicional. De hecho, los autores declaran que no bajan la calidad
desenlace? por inconsistencia.
• Sesgo de publicación para Evidencia indirecta: hay diferencias en la población pues se incluye
ese desenlace incluido a niños al menos en esta variable, lo que implica bajar un escalón.
en el protocolo pero no También hay efectos indirectos derivados del hecho de que algunos
mostrado. de estos estudios para esta variable incluyen dexametasona (DXM)
IM y otros DXM oral, diferentes dosis de DXM oral y otros
corticoides como prednisona y betametasona, lo que debería llevar
asociado bajar otro escalón al menos. GRADE aconseja bajar al
menos dos escalones si hay más de una fuente de naturaleza indirecta
afectada. Los autores no bajaron la calidad ningún escalón por este
ítem.
Imprecisión: los autores bajan un escalón por imprecisión. Lo justifican
porque el límite inferior sugiere beneficio discreto, y el límite
superior, gran beneficio. Hemos calculado las diferencias absolutas,
como aconseja GRADE, y son de 0,19 (0,04-0,33). No nos parecen
tan imprecisos, ni los valores absolutos ni los relativos, por lo que
nuestra valoración no se degradaría en este apartado.
Sesgo de publicación: no se reporta.
Finalmente, por motivos distintos a los autores de la revisión, la
calificación quedaría en MODERADA para este resultado. Esto
sugiere que existe una certidumbre moderada para quedar sin dolor
a las 24 h.
8. ¿Se pueden aplicar Sí ✓ No sé No
los resultados en tu La enferma podría estar representada por cualquiera de los ensayos que
medio? aparecen en la revisión. Los corticoides son los mismos, los cuidados
PISTA: considera si: son similares, la prevalencia de comorbilidad podría ser similar, etc.
• Los pacientes cubiertos No hay nada diferente que nos sugiera que estamos alejados
por la revisión pueden ser del escenario propuesto.
suficientemente diferentes Es más, los resultados incluyen la representación de estudios que
de los de tu área. obtienen pacientes de atención primaria, no solo de situaciones
• Tu medio parece ser muy de mucha más severidad como podrían ser pacientes atendidos
diferente al del estudio. en urgencias.

9. ¿Se han considerado Sí ✓ No sé No

todos los resultados Los efectos adversos solo se reportaron en tres estudios, pero no
importantes para parecieron adjudicarse a los corticoides y estuvieron más en relación
tomar la decisión? con la propia enfermedad. Como es habitual, los efectos adversos
• Utilidades están infradiagnosticados, pero fueron similares. Los precios de los
y disutilidades. corticoides en el momento actual son bajos y no hay posibilidad de
• Balance de efectos discriminación de posible uso. Incluso en enfermos diabéticos es poco
positivos/negativos. probable que afecten más de 1 día los ajustes de insulina.
• Preferencias del paciente, Dentro del dolor, la percepción de beneficio clínico de los pacientes es
costes, etc. muy importante. Hoy se sabe que este umbral para el dolor leve es de
6 (4-8 puntos)/100 VAS, de 13 (11-14)/100 y de 21 (20-23)/100 para
los dolores moderados y severos respectivamente (17). La diferencia
media de usar corticoides al cabo de 24 h es 1,3 (0,7-1,9)/10, lo que
equivale a un valor de 13/100. Incluso para niveles de dolor moderado
existirá beneficio clínico para la paciente de nuestro escenario.
Existen evidencias de que los pacientes que sufren infecciones de vías
altas (incluida la faringitis) ven mermada su calidad de vida, medida
mediante la escala SF-36 (18). Los corticoides en dosis utilizada en
el ejemplo (una dosis baja, de administración única) parece que no
provocarían efectos secundarios muy significativos. Por lo tanto, es
posible que sea buena idea tratar a nuestro paciente con corticoides.
Bibliografía
1. Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, et al. Cochrane Handbook for Systematic
Reviews of Interventions. 2nd ed. Chichester: John Wiley & Sons; 2019.
2. Knight SR, Ho A, Pius R, Buchan I, Carson G, Drake TM, et al. Risk stratification of patients admitted
to hospital with covid-19 using the ISARIC WHO Clinical Characterisation Protocol: development and
validation of the 4C Mortality Score. BMJ 2020;370:m3339.
3. Hopewell S, McDonald S, Clarke MJ, Egger M. Grey literature in meta-analyses of randomized trials of
health care interventions. Cochrane Database Syst Rev 2007;(2):MR000010.
4. Latour Pérez J, Cabello López JB. Interrupción precoz de los ensayos clínicos. ¿Demasiado bueno para
ser cierto? Med Int 2007;31(9):518-20.
5. Sleight P. Debate: Subgroup analyses in clinical trials: fun to look at - but don’t believe them! Curr Control
Trials Cardiovasc Med 2000;1(1):25-7.
6. Dwan K, Gamble C, Williamson PR, Kirkham JJ. The Reporting Bias Group. Systematic Review of the
Empirical Evidence of Study Publication Bias and Outcome Reporting Bias — An Updated Review.
PLoS ONE 2013;8(7):e66844.
7. Turner EH, Tell RA. Selective Publication of Antidepressant Trials and Its Influence on Apparent Efficacy.
New Engl J Med 2008;358:252-60.
8. Doshi P, Jefferson T, Del Mar C. The Imperative to Share Clinical Study Reports: Recommendations
from the Tamiflu Experience. PLoS Med 2012;9(4):e1001201.
9. Garmendia CA, Nassar Gorra L, Rodriguez AL, Trepka MJ, Veledar E, Madhivanan P. Evaluation of
the Inclusion of Studies Identified by the FDA as Having Falsified Data in the Results of Meta-analyses:
The Example of the Apixaban Trials. JAMA Intern Med 2019;179(4):582-4.
10. PRISMA. [Fecha de última consulta: 20 de septiembre de 2020]. Disponible en: http://prisma-statement.
org/Extensions/.
11. Andrews JC, Schünemann HJ, Oxman AD, Pottie K, Meerpohl JJ, Coello PA, et al. GRADE guidelines:
15. Going from evidence to recommendation — determinants of a recommendation’s direction and strength.

12. Murad MH, Montori VM, Ioannidis JPA, Jaeschke R, Devereaux PJ, Prasad K, et al. How to Read a
Systematic Review and Meta-analysis and Apply the Results to Patient Care: Users’ Guides to the Medical
Literature. JAMA 2014;312(2):171-9.
13. Andrews JC, Schünemann HJ, Oxman AD, Pottie K, Meerpohl JJ, Coello PA, et al. GRADE guidelines:
15. Going from evidence to recommendation — determinants of a recommendation’s direction and strength.
J Clin Epidemiol 2013;66(7):726-35.
14. Eisenberg JM. Globalize The Evidence, Localize The Decision: Evidence-Based Medicine And Inter-
national Diversity. Health Affairs 2002;21(3):166-8.
15. Khazanie P, Allen LA. Meta-Analysis of Medication Adherence Interventions Among Heart Failure
Patients: The Lumpers Make Their Case. J Am Heart Assoc 2016;5(6):e003827.
16. Ruppar TM, Cooper PS, Mehr DR, Delgado JM, Dunbar-Jacob JM. Medication Adherence Interventions
Improve Heart Failure Mortality and Readmission Rates: Systematic Review and Meta-Analysis of Con-
trolled Trials. Journal of the American Heart Association 2016;5(6):e002606.
17. Olsen MF, Bjerre E, Hansen MD, Tendal B, Hilden J, Hróbjartsson A. Minimum clinically important
differences in chronic pain vary considerably by baseline pain and methodological factors: systematic
review of empirical studies. J Clin Epidemiol 2018;101:87-106. e2. Disponible en: https://tinyurl.com/
y4nmhgpt.
18. Linder JA, Singer DE. Health-related quality of life of adults with upper respiratory tract infections.
J Gen Intern Med 2003;18(10):802-7.

Maldonado M, Ruiz V. Lectura crítica de revisiones sistemáticas sobre estudios de prevención o tratamiento.
En: Cabello Juan B, editor. Lectura crítica de la evidencia clínica, 2.ª ed. Barcelona: Elsevier; 2022. p. 135-152.

C A P Í T U L O 13
Revisiones sistemáticas
con metaanálisis en red
Juan Bautista Cabello López ■ Javier Jaén Olasolo ■ Amanda Burls
• Identificar el problema de decisión clínica que tratan de resolver las RS-MER.

• Conocer la estructura de una RS-MER.
• Comprender los fundamentos y las asunciones en que reposa esta aproximación
a la síntesis de la evidencia.
• Valorar los elementos clave para la lectura crítica de este tipo de estudios.
• Interpretar los resultados útiles para la aplicación a la clínica de este tipo de evidencia.
Introducción
La mejor evidencia para estudiar los efectos y la seguridad de las intervenciones terapéuticas o preven-
tivas se obtiene de los ensayos clínicos aleatorios (ECA), y la mejor evidencia sobre el efecto de esas
intervenciones procede de las revisiones sistemáticas de ECA (RS-ECA). Tanto en unos como en otras
se compara una intervención frente a una alternativa, placebo o el estándar terapéutico del momento.
Con frecuencia, en la clínica, nos encontramos con situaciones en las que para una condición
clínica determinada hay múltiples opciones terapéuticas disponibles, cada una de ellas con sus
correspondientes evidencias de efectividad y seguridad procedentes de los ECA y RS-ECA de
esas comparaciones frente-a-frente.
Disponer de múltiples recursos es estupendo para la clínica, sin embargo, nos plantea un nuevo
escenario para la decisión. Esos diversos tratamientos suelen haber seguido rutas paralelas en su
investigación, desarrollo e implantación y, en ese proceso, han sido comparados frente a placebo en
los inicios o posteriormente frente a las otras opciones que van consolidándose como nuevo estándar
terapéutico. El resultado final es que nos encontramos con alternativas, para una determinada con-
dición clínica, que han sido probadas frente a diversos comparadores o algunas de ellas entre sí, pero
no disponemos de evidencia completa sobre comparaciones frente-a-frente de todos los tratamientos.
Ejemplos de esta situación clínica sin todas las comparaciones frente a frente podrían ser: el uso
de los nuevos anticoagulantes orales, unos frente a otros o frente a antivitaminas K, en pacientes
con fibrilación auricular no valvular (1). Las intervenciones para la prevención de sangrado de
estrés en pacientes críticos mediante inhibidores de la bomba de protones (IBP), antagonistas de
los receptores H2 (ARH2), sucralfato o antiácidos (2). La selección del anticoagulante preferible
(en combinación con antiagregantes) tras angioplastia transluminal percutánea + stent en pacientes
con indicación previa de anticoagulación (3), etc.
En esos casos, el interés clínico podría estar en tres focos: conocer la comparación de evidencias
entre determinadas opciones estudiadas frente-a-frente, obtener evidencias de comparaciones no

realizadas a partir de métodos directos o, también, saber cuál es la mejor opción de efectividad
(o de seguridad) entre todas las intervenciones de ese grupo.
Las revisiones sistemáticas con metaanálisis en red (RS-MER) ofrecen una respuesta a este
problema mediante la recopilación de toda la evidencia disponible para todas las comparaciones
realizadas en el grupo y la construcción de una «red de evidencia» que permite una estimación de
las comparaciones realizadas y no realizadas (directas, indirectas y en red) o la valoración del orden
de las mejores opciones en el grupo de intervenciones.
Escenario
Perteneces a la comisión de infecciones de tu hospital y en la última reunión se comentó el aumento
de la incidencia de neumonías nosocomiales en el centro, especialmente en pacientes críticos, y
se trató de enfocar a diferentes niveles. Uno de los comentarios que destacaron en la reunión fue
el de la descripción, en estudios observacionales, de una asociación entre la administración de
inhibidores de la bomba de protones (IBP) y la aparición de neumonía nosocomial (4) y de diarrea
por Clostridium difficile (5).
Se sugiere la conveniencia de revisar el protocolo de prevención del sangrado en pacientes
críticos, que incluye IBP, y se encarga a los documentalistas del centro una búsqueda de la evidencia.
Entre las evidencias halladas se encuentran una RS-MER que estudia la eficacia y la seguridad de
las posibles opciones terapéuticas para ese fin:
Wang Y, Ye Z, Ge L, Siemieniuk RAC, Wang X, et al. Efficacy and safety of gastrointestinal
bleeding prophylaxis in critically ill patients: systematic review and network meta-analysis. BMJ.
2020;368:l6744. doi/10.1136/bmj.l6744 (2).
El estudio es algo complejo y, como tú tienes habilidades en lectura crítica de revisiones sis-
temáticas, te encargan hacer de ponente de la próxima reunión de la comisión para aclarar la
evidencia existente al respecto.
Te preguntas sobre:
1. Efectividad:
a. ¿Cuál es el tratamiento más efectivo en general?
b. ¿Realmente los IBP aumentan el riesgo de neumonía nosocomial?
c. Entre IBP y la alternativa más usada (antagonistas de los receptores H2, ARH2), ¿cuál
es el balance entre riesgos y beneficios? (considera todos los efectos).
2. ¿Sugerirías en la comisión cambiar el protocolo con IBP?
Puntos clave para leer una revisión sistemática

con metaanálisis en red
Como en cualquier revisión sistemática, el objetivo es obtener toda la evidencia disponible, publicada
o no, para una pregunta determinada y realizar una síntesis cualitativa y cuantitativa de los resultados.
Por tanto, el esquema general de lectura es, en lo esencial, similar a las revisiones sistemáticas de
ECA. Sin embargo, en estas revisiones hay algunos elementos diferenciales que conciernen a la
formulación de las preguntas, al modo de construir la red de evidencia, a la búsqueda de la evidencia,
a la corrección de los estudios incluidos, a su análisis, a la presentación de los datos y a la certeza en
las estimaciones de los diferentes efectos estudiados, y que analizaremos en los siguientes puntos.
FORMULACIÓN DE LA PREGUNTA
El formato de la pregunta en estos estudios responde al tradicional acrónimo PICO: Población,
Intervención, Comparación y Desenlaces (Outcomes). Sin embargo, en este caso la pregunta tiene
algunas peculiaridades:

13. Revisiones sistemáticas con metaanálisis en red 155
■ En primer lugar, las intervenciones son múltiples, las comparaciones pueden también serlo y
las diversas intervenciones funcionan entre sí como comparaciones. Por su parte, los desenlaces
también serán múltiples, unos favorables y otros desfavorables (el acrónimo adaptado sería
algo así: PI*C*O*). Con esas intervenciones y esas comparaciones podemos construir un
diagrama de red o grafico en el que se representan las intervenciones o tratamientos mediante
círculos (nodos), cuyo tamaño es proporcional al número de pacientes asignados a un trata-
miento concreto en todos los estudios incluidos, y líneas que unen los nodos (tratamientos)
que han sido comparados directamente, y cuya anchura representa el número de estudios
analizados. Dentro de este particular gráfico podemos definir «bucles», constituidos por dos
o más comparaciones directas que contribuyen a una estimación indirecta. Los bucles de
primer orden solo afectan a una intervención adicional. Por ejemplo, si el interés se centra
en estimar A frente a B (lo representaremos por A–B), las comparaciones directas A–C y
C–B, constituyen un bucle de primer orden. Si se ven involucradas otras intervenciones del
tipo de C–D tendríamos un bucle de segundo orden, y así sucesivamente (fig. 13.1). En
ocasiones, las comparaciones indirectas se representan en el mismo gráfico mediante líneas
discontinuas.
■ En segundo lugar, es necesario que exista una conexión entre las poblaciones y las interven-
ciones a estudiar, porque de ello depende la asunción de transitividad para las comparaciones:
se asume que si A > B (la intervención A es mejor que la B) y B > C, entonces A > C.
Esta asunción es absolutamente crítica para realizar comparaciones indirectas y, por tanto,
el MER, es decir, B–D (indirecta) = B–C (directa) + C–D (directa). Por ejemplo: X es un
tratamiento quimioterápico adecuado para pacientes de un determinado cáncer en cualquier esta-
dio evolutivo, mientras que W lo es solo para estadios avanzados y el resto (Y, Z) solo para
estadios iniciales (fig. 13.2). Supongamos que W y X se compararon directamente en estadios
avanzados. Por otra parte, disponemos de comparaciones directas X–Y, X–Z, Y–Z, aunque
todas ellas se hicieron en estadios iniciales. No disponemos de comparaciones directas W–Y
o W–Z y desearíamos hacerlas indirectamente. Sin embargo, no es razonable estimar W–Z
mediante comparación indirecta a partir de W–X y X–Z, porque los estudios que incluyen
W serán poblaciones de pacientes diferentes del resto de comparaciones (más avanzados) y
los resultados de efectividad del tratamiento también lo serán. Por tanto, no podremos hacer
comparaciones indirectas ni usar la red de evidencia, porque se produciría una violación de
la asunción de transitividad (6). Por ello, para explorar la existencia de transitividad hay que
Figura 13.1 Gráfico de la red de evidencia. Ejemplo: A: Tratamiento con mayor número de pacientes.
A–C: Comparación directa con mayor número de estudios. Bucles de primer orden: A–B–C (cerrado: hay estima
ciones directas para todas las comparaciones) y A–C–D (abierto: no hay estimación directa para A–D). Bucle
de segundo orden: A–B–C–D.

Figura 13.2 Asunción de transitividad.
comprobar la relación entre las poblaciones y las intervenciones en todos los estudios incluidos
en la revisión. La regla general es que «cualquier paciente elegible para aleatorización en un
estudio debería haber sido elegible en otro estudio u otra comparación».
■ En tercer lugar, respecto del sentido clínico de las comparaciones, hay dos tipos esenciales:
unas constituyen el núcleo de la decisión clínica (son llamadas comparaciones de decisión);
otras, llamadas comparaciones complementarias, no son estrictamente las incluibles en la
decisión clínica habitual, pero sirven para construir la red de comparaciones general que
permite hacer nuevas comparaciones o mejorar la precisión de las estimaciones (todas ellas
en conjunto forman el grupo de comparación de la síntesis). Por ejemplo (2), si tratamos de
comparar intervenciones preventivas del sangrado por úlceras de estrés en pacientes críticos,
las comparaciones de sucralfato con placebo no son realmente objeto de duda en la decisión,
porque no están en uso, mientras que comparaciones de IBP o IH2 sí pueden ser elementos
de la decisión clínica.
■ En cuarto lugar, al estructurar las comparaciones, es crítico decidir, con sentido clínico, qué
estudios deben agruparse para formar los nodos de la red. Por ejemplo: dosis diferentes de
un fármaco, ¿deben formar parte del mismo nodo o no?, o fármacos de la misma clase, pero
con diferentes cinéticas hepáticas, ¿deberían ser del mismo nodo? Este asunto depende del
contexto clínico y de las necesidades del estudio.
■ Finalmente, una vez construida la red de comparaciones principal, es probable que, en algunos
estudios, ciertos desenlaces de interés estén ausentes o hayan sido medidos de otro modo y
no sean agregables. Esto significa que habrá estudios que no podrán contribuir a la red de
evidencia para un determinado desenlace, por carecer de él. De otro modo, podríamos hacer
una red de evidencia específica para cada desenlace y esas subredes tendrán una morfología
similar a la red, pero con diferentes pesos en los nodos y líneas en cada caso, ver ejemplo en
referencia (7).
BÚSQUEDA DE LA EVIDENCIA
En cuanto a la búsqueda de la evidencia, no hay diferencias con otras RS-ECA en lo que respecta
a las bases de datos, registros, autores, literatura gris y demás estrategias a usar. Sin embargo, como
la pregunta PI*C*O de estas revisiones es algo peculiar, la estrategia de búsqueda debe adaptarse y
añadir métodos específicos para buscar explícitamente todas las comparaciones (8).
Respecto del tipo de estudios que se deben incorporar en estas revisiones, es aconsejable res-
tringirlo a ECA siempre que ello sea posible. Obviamente hay situaciones en las que la evidencia
existente procede de estudios no aleatorios u observacionales y en esos casos será precisa una

valoración cuidadosa de su inclusión. En todo caso mezclar diferentes diseños (experimentales y

observacionales) genera dificultades añadidas en la valoración del riesgo de sesgo de los estudios y
de la confianza en la evidencia.
CALIDAD DE LOS ESTUDIOS INCLUIDOS EN LA REVISIÓN

CON LA RED DE EVIDENCIA
El riesgo de sesgo de cada uno de los estudios incluidos en la revisión debe ser valorado para cada
desenlace mediante los instrumentos adecuados, por ejemplo, Cochrane RoB11, que incluye juicios
sobre elementos metodológicos como: la secuencia de aleatorización, la ocultación de la secuencia,
el cegamiento, las pérdidas y el reporte selectivo de los desenlaces. De ese modo cada estudio tendrá
un riesgo de sesgo para cada desenlace (alto, medio o bajo).
Para cada comparación directa procederíamos como en una revisión sistemática usual (6) y
podemos juzgar el riesgo de sesgo conjunto de la revisión (o comparación) para cada desenlace
y considerando el conjunto de desenlaces. Podemos expresar el riesgo de sesgo del conjunto de
desenlaces en cada comparación como riesgo alto, medio o bajo y podemos agrupar todas las
comparaciones de modo gráfico según el porcentaje de estudios con riesgo alto.
ANÁLISIS DE DATOS
Para las comparaciones directas se realiza un metaanálisis normal. Para aquellas comparaciones
no directas es posible estimar los efectos mediante una comparación indirecta. Por ejemplo, en la
figura 13.1: la comparación B–D podría hacerse (asumiendo transitividad) mediante B–C y C–D;
o también, la comparación A–D, mediante A–C y D–C.
Pero las comparaciones directas pueden también ser estimadas indirectamente, por ejemplo,
la comparación A–B puede explorarse a partir de A–C y C–B. En consecuencia, hablaremos de
tres tipos de evidencias: evidencias directas (procedentes de las estimaciones directas), evidencias
indirectas (correspondientes comparaciones indirectas) y evidencias mixtas en las comparaciones
que son estimadas directa e indirectamente.
De este modo es posible construir la red de evidencia completa y realizar las estimaciones de
red incorporando todas las estimaciones (directas, indirectas y mixtas). El metaanálisis en red
analiza simultáneamente todas las comparaciones de tratamientos de la red considerando todas
las estimaciones (9-11).
A primera vista, las comparaciones indirectas parecerían necesarias solo cuando no hubiera
comparaciones directas. Sin embargo, ambas estimaciones contribuyen al cuerpo de evidencia para
cada comparación y las evidencias indirectas son interesantes, aun cuando existan comparaciones
directas, porque mejoran la precisión de la estimación del efecto y constituyen un modo adicional de
reforzar la validez de la estimación de la comparación, en la medida en que maximiza la información
sobre poblaciones y efectos (12).
Desde el punto de vista estadístico, el MER puede realizarse mediante una aproximación
estadística tradicional (o frecuentista), sea con asunción de efectos fijos o de efectos aleatorios (12).
También puede realizarse mediante aproximaciones bayesianas, que tienen más parecido con el
marco decisional y permiten el cálculo de la probabilidad de que una intervención de las probadas
sea la mejor y, por tanto, posibilita una ordenación de las opciones de mejor a peor (ranking). Des-
cribir esas aproximaciones queda lejos de las intenciones de este capítulo.
Esta evaluación del riesgo de sesgo actualmente se evalúa mediante un nuevo instrumento (RoB2), que en vez de
1
en características se centra en áreas o dominios del estudio donde impactan esas características. Esos dominios
son: La aleatorización y sus consecuencias, desviaciones en el protocolo por problemas en la asignación o en
la observancia, pérdidas, problemas en la medición del resultado y reporte selectivo de resultados.

En la siguiente sección veremos cómo se expresan y presentan los diferentes resultados del MER,
pero antes hay algunos conceptos que atañen a la validez del análisis y que deben ser señalados; nos
referimos a la heterogeneidad y a la coherencia o consistencia.
Heterogeneidad
La heterogeneidad es la presencia de diferencias importantes en el efecto de la intervención entre
los estudios incluidos, más allá de lo que cabría esperar por azar. Es una consecuencia conjunta de la
variabilidad clínica (poblaciones participantes), metodológica (diseño de los estudios, intervenciones,
desenlaces y riesgo de sesgo) o heterogeneidad estadística genuina.
Dado que la RS-MER incluye múltiples metaanálisis convencionales de comparaciones directas,
es posible explorar las fuentes de heterogeneidad para cada uno de ellas valorando las diferencias
en las poblaciones y los diseños. La estimación total de la heterogeneidad para las comparaciones
directas puede explorarse en los correspondientes diagramas de bosque (forest plot), de manera visual
y mediante el cálculo de estimadores (Q, I2).
Coherencia o consistencia
Es la presencia de concordancia (o coherencia) entre los efectos estimados mediante las compara-
ciones directas y las indirectas. Supone, en realidad, la manifestación estadística de la asunción de
transitividad que comentamos previamente. La coherencia se puede evaluar de manera global para
toda la RS-MER o parcial para distintos grupos de comparaciones, siendo recomendable realizar
ambos tipos de análisis.
¿CÓMO SE EXPRESAN LOS RESULTADOS?

■ Desde el punto de vista formal existe una convención PRISMA adaptada al metaanálisis
en red o Network Meta-Analysis (PRISMA-NMA), que debe entenderse como los criterios
de presentación para su lectura y uso. Desde la perspectiva de uso clínico y, dada la com-
plejidad de la RS-MER, hay diferentes maneras de presentar los datos de los distintos análisis
realizados. Señalaremos los más relevantes para la aplicación (8,11,12).
■ Estimación del efecto relativo: tabla de clasificación. La RS-MER permite realizar compa-
raciones del efecto relativo, entre cualquier par de intervenciones. Una manera de presentar
estos resultados es mediante una matriz cuadrada, habitualmente llamada tabla de clasificación
(league table), resumen de todas las posibles comparaciones dos a dos de los tratamientos
evaluados para la condición de interés. En las casillas de la tabla se muestran la estimación
de eficacia relativa (OR: odds ratio, RR: riesgo relativo, diferencia de medias, etc.) y su
certidumbre (intervalos de confianza) para la comparación entre dos tratamientos, uno
definido en la columna y otro en la fila que comparten dicha casilla. Como en cualquier
estimación del efecto relativo, si el intervalo de confianza incluye el 1 para RR/OR o el 0
para diferencia de medias, las diferencias no serán estadísticamente significativas al nivel
de confianza determinado. Los distintos tratamientos se muestran en la diagonal de la
tabla, por orden de eficacia relativa. Las casillas por encima de la diagonal se refieren a las
comparaciones directas, y las que están en el triángulo bajo la diagonal, a las estimaciones de
la RS-MER, que tienen en cuenta además las indirectas. Su significado es idéntico al usado
en otras circunstancias: el tratamiento en prueba siempre va a numerador y por ello OR < 1
favorecen el tratamiento definido en la columna para comparaciones de la RS-MER y el de
la fila para las directas (tabla 13.1).
■ Probabilidad de clasificación. Otra manera de presentar resultados que permite la
RS-MER es establecer una clasificación basada en la probabilidad de que cada tratamiento
ocupe una determinada posición respecto a los demás (ranking probabilities), en función de
la estimación de su efectividad (tabla 13.2). Este ranking se establece para cada desenlace,

TABLA 13.1 ■ Tabla de clasificación. Ejemplo
Hay cuatro posibles comparaciones directas entre los tratamientos: dos favoreciendo significativamente
al A vs. C (OR = 0,3, IC 95% = 0,2-0,5) y al A vs. B (OR = 0,5, IC 95% = 0,2-0,9); otras dos
diferencias no significativas en favor del C vs. B y del C vs. D. No existen comparaciones directas
A–D, ni B–D.
Estimaciones de la RS-MER (directas + indirectas): la que tiene mayor efecto relativo es la comparación
de A–C, siendo favorable al A y estadísticamente significativa: OR = 0,5 (IC 95% = 0,1-0,8). También
es la estimación más precisa (IC más estrecho).
Tratamiento A 0,3 (0,2-0,5) 0,5 (0,2-0,9) –
0,5 (0,1-0,8) Tratamiento C 0,6 (0,4-1,3) 0,8 (0,4-2,1)
0,6 (0,2-1,3) 0,7 (0,3-2,6) Tratamiento B –
0,8 (0,2-2,8) 0,9 (0,2-2,8) 0,9 (0,4-3,1) Tratamiento D
Azul claro: estimaciones directas. Azul oscuro: estimaciones de la RS-MER.
TABLA 13.2 ■ Probabilidad de clasificación. Ejemplo
Probabilidad de ser clasificado cada tratamiento en 1.a, 2.a, 3.a o 4.a posición (ranking) en relación
con la medida del efecto.
El tratamiento A es el que tiene mayor probabilidad de clasificarse en 1.a posición (48%), seguido
del C (36%) y el D de hacerlo en la 4.a y última posición (80%).
Probabilidad de clasificación (ranking)

Ranking Tratamiento A Tratamiento B Tratamiento C Tratamiento D
1 0,48 0,15 0,36 0,01
2 0,39 0,19 0,32 0,10
3 0,11 0,58 0,22 0,09
4 0,02 0,08 0,10 0,80
teniendo en cuenta que cada uno de ellos tiene distinta importancia para los pacientes. Una
forma de estimar la probabilidad de clasificación de los tratamientos analizados en la
RS-MER es mediante el cálculo de área bajo la curva de la probabilidad acumulada (SUCRA:

Surface Under the Cumulative RAnking curves). Es susceptible de ser representada gráficamente
mediante curvas y también numéricamente, definido por el porcentaje del área bajo la curva
de la probabilidad acumulada, respecto a la total. Así, para cada tratamiento, un valor de
SUCRA del 100% representaría una certeza de ser el más el eficaz, y uno del 0%, la certeza
de ser el menos eficaz. Aunque pueda resultar muy atractivo para el clínico conocer el orden
preferencial de los tratamientos para una determinada condición, estas clasificaciones, por
sí solas, pueden resultar engañosas. La probabilidad de ser el mejor no tiene en cuenta la
precisión en la estimación y puede dar falsamente rangos más altos, especialmente para
tratamientos con escasa evidencia disponible (13). Además, una buena clasificación no se
corresponde necesariamente con la magnitud del efecto ni con su relevancia clínica. Por
tanto, el lector de una RS-MER debe interpretar siempre estas clasificaciones a la luz de la
magnitud del efecto estimado e interesarse por la distribución completa de las probabilidades
de clasificación, con medidas del tipo de la SUCRA, junto con su grado de incertidumbre.

CONFIANZA O CERTEZA EN LA EVIDENCIA DE UNA RS-MER

En una RS-MER, el grupo de estudios de cada comparación, valorado para cada desenlace, cons-
tituye el cuerpo de evidencia de esa comparación y valen los métodos usados en los metaanálisis
usuales. Cabe pues hacer un juicio de valor sobre la certeza que esa estimación nos ofrece, es decir,
sobre la calidad de esa evidencia según GRADE (alta, moderada, baja o muy baja). En la propuesta
tradicional GRADE, para hacer ese juicio y mantener o degradar la evidencia, se considera el riesgo
de sesgo de los estudios incluidos en esa comparación (evaluados individualmente y en su conjunto) y
otros elementos que proceden de la valoración del conjunto de los estudios, como son la precisión y
la consistencia de la estimación, así como el uso de evidencia indirecta y el posible sesgo de publicación
(v. detalles en capítulo 17).
Es obvio que en este tipo de estudios algunos de esos términos usados tradicionalmente
en GRADE deben ser matizados porque aquí tienen significados especiales, nos referimos
particularmente a la «evidencia indirecta» y a la «consistencia» (8,10-12). En cuanto a la
evidencia indirecta, resulta claro que es la esencia misma de esta técnica de MER y, por ello,
tiene un significado especial cuando se considera toda la red de evidencia y no implica, de modo
automático, una degradación en la certidumbre de esa evidencia. Por su parte, la consistencia se
entiende cuando hablamos de comparaciones directas del mismo modo que en los metaanálisis
normales (como similar dirección del efecto en los estudios). Sin embargo, cuando hablamos
de MER, consistencia tiene el significado de coherencia entre las estimaciones directas y las
indirectas de la RS-MER.
Esta valoración de la certeza en la evidencia según GRADE es un asunto complejo en las
RS-MER, que puede realizarse mediante diferentes métodos (9,14). Intuitivamente parece claro que
debe hacerse la valoración para cada desenlace y cada comparación en las tres maneras de estimar
que ofrece la RS-MER: comparación directa, comparación indirecta y red de evidencia.
Para la comparación directa el modo de proceder es, como señalamos arriba, similar a los meta
análisis habituales de comparaciones frente-a-frente. Por su parte, para cada comparación indirecta
la certeza en la evidencia de la estimación dependerá de la certeza que tengamos en las respectivas
comparaciones directas que construyen la indirecta.
Para las estimaciones mediante la red, la confianza en la evidencia que ofrece cada compa-
ración-desenlace depende de las respectivas confianzas en la estimación de la comparaciones
directas, indirectas o mixtas que influyen en ella y de la proporción o peso de cada tipo de
comparación en la estimación (¿cuánto influyen la directas o las indirectas?). Como principio
general, las estimaciones directas suelen pesar más que las indirectas y las más precisas pesar
más que las menos precisas.
Para juzgar la confianza en el MER, considerado en su conjunto, no es posible aceptar
que, al margen de las intervenciones, todas las variables «modificadoras» van a distribuirse de
modo aleatorio en la gran cantidad de estudios y comparaciones que realiza la red. Por eso,
no es posible considerarlas a priori como comparaciones de grupos realmente aleatorizados.
En consecuencia, la evidencia de la estimación en red debe considerarse como evidencia de
naturaleza observacional (8,9).
APLICANDO LOS RESULTADOS DEL METAANÁLISIS EN RED

La validez externa es una cualidad esencial para las estimaciones del efecto y también lo es para
la aplicación clínica de los resultados. En las RS-MER, depende de la validez externa de los
correspondientes estudios que incluye la red de evidencia. En tal sentido, hay que recordar que las
poblaciones de los ensayos clínicos aleatorios suelen ser «especiales» y selectas, y aún más cuando
son ensayos realizados con fines de registro en agencias regulatorias.
Por ello, la presencia de multiplicidad o diversidad en las poblaciones en un MER puede ser
un elemento de interés, porque puede reflejar mejor el mundo real y, por tanto, ser más fiel que

los ECA, aunque eso puede acompañarse de heterogeneidad y, sobre todo, obliga a tener especial
cuidado con la asunción de transitividad (12).
Finalmente, señalaremos que el objetivo fundamental de la RS-MER es la comparación de
múltiples intervenciones incorporando toda la información posible (directa e indirecta y de la
red de evidencia) para su uso clínico. Esas diferentes comparaciones deben expresarse para cada
uno de los desenlaces relevantes (favorables o desfavorables) y para los tres modos de estimación
(directa, indirecta y en red) en las tablas de «Sumario de Resultados GRADE». En esas tablas se
ofrecen las estimaciones de efecto relativo y absoluto, la precisión de cada comparación (medida
por el intervalo de confianza) y la certeza en la evidencia que la sustenta según GRADE, así como
las razones por las que la evidencia se ha modificado a la baja o al alza. Un ejemplo de esto puede
observarse en las tablas 2 y 3 del estudio de Wang (2).
Estas tablas-sumarios de resultados de la RS-MER son el instrumento capital para comprensión
de los efectos y la aplicación de la evidencia de la RS-MER a la práctica clínica.
Artículo
Wang Y, Ye Z, Ge L, Siemieniuk RAC, Wang X, et al. Efficacy and safety of gastrointestinal
bleeding prophylaxis in critically ill patients: systematic review and network meta-analysis.
BMJ. 2020;368:l6744. doi/10.1136/bmj.l6744. Disponible en: https://pubmed.ncbi.nlm.nih.
gov/31907166/.

En el cuadro 13.1 se muestra la plantilla CASPe contestada para el artículo propuesto.

1. ¿Se hizo la revisión sobre un Sí ✓ No sé No
tema claramente definido? Los componentes de las preguntas son:
PISTA: una pregunta clínica se • Población de pacientes críticos de diversas patologías.
formula con los componentes • Intervención cualquier protección contra sangrado
PICO: (PPI, H2R, sucralfato).
• La población de estudio. • Comparación: cualquiera de ellos 1-1, o placebo, o no Tto.
• Las intervenciones. • Desenlaces: mortalidad general, sangrado importante clínico,

• Las comparaciones. neumonía nosocomial, Clostridium difficile, sangrado externo,
• Los desenlaces (outcomes) estancia UCI, duración ventilación mecánica.
considerados. Es una red de comparaciones que incluye: IBP-PCB,
• Es razonable la asunción H2Rs-PCB, sucralfato-PCB, IBP-H2RS, IBP-sucralfato,
de transitividad H2Rs-sucralfato.
(si A > B y B > C => A > C). Comparaciones clínicas habituales IBP-ARH2, resto son
menos usadas.
Las poblaciones son bastante mix, pero quizás similares,
puede ser razonable asumir transitividad. Llama la atención
que algunos ensayos son de 85/86. Entre esas fechas
y la actualidad posiblemente las poblaciones de estudio
y múltiples detalles metodológicos sean muy distintos.
(Continúa)

2. ¿Buscaron los autores el tipo Sí ✓ No sé No

de artículos adecuado? Si seleccionan ECA como único diseño adecuado
PISTA: el mejor «tipo de estudio» para las contestaciones de la pregunta.
es el que: Cabe especular sobre si para determinados efectos adversos
• Se dirige a la pregunta objeto este es el diseño adecuado. En general la respuesta es no,
de la revisión. pero para este horizonte temporal y estos desenlaces parece
• Tiene un diseño apropiado para razonable.
la pregunta (puede ser óptimo o
subóptimo por razones diversas).
3. ¿Crees que estaban incluidos Sí ✓ No sé No
los estudios importantes • Buscan en las bases adecuadas, incluidas las de habla
y pertinentes? no inglesa, y adaptan las estrategias de búsqueda para
PISTAS para la búsqueda: incorporar todas las comparaciones. Asimismo, siguen
• ¿Qué bases de datos bibliográficos las referencias.
se han usado? • No contactan con autores (aunque son un grupo que
• ¿Qué estrategia de búsqueda lidera el tema) y no hacen esfuerzo especial en estudios
(especial MAR)? no publicados (lo que en este caso no parece importante
• Seguimiento de las referencias. a efectos de sesgo de publicación).
• Contacto personal con autores • Excluyen estudio con datos deficientes (sin contactar
y expertos. con autores).
• Búsqueda de estudios no • El proceso de selección se realiza por dos revisores
publicados. independientemente. La extracción de datos se hace por
• Idiomas distintos del inglés. dos revisores independientemente y en caso de conflicto
PISTAS sobre la selección: un tercero. No usan software específico para estas tareas.
• Criterios inclusión/exclusión. Se incluyen todas las comparaciones pertinentes.
• Selección estudios. • El resultado de la búsqueda y selección de estudios se aprecia
• ¿Se incluyen todas las en el diagrama de flujo PRISMA de la figura 1.
comparaciones pertinentes?
• La extracción de datos.
de la revisión han hecho el Han usado el instrumento de riesgo de sesgo de Cochrane
esfuerzo adecuado para valorar (RoB1) con los criterios que se incluyen en la plantilla
la calidad de los estudios con una modificación ad hoc.
incluidos? Hacen la valoración para cada desenlace en cada estudio.
PISTA 1: Valoran globalmente la calidad del grupo de estudios
• «Riesgo de sesgo» depende: para desenlace y cada comparación (no es explícito, pero
• Secuencia de aleatorización. suponemos que lo hace porque usan después GRADE).
• Ocultación de la secuencia No hace sumario de riesgo global en cada estudio considerando
de aleatorización. todos los criterios (esto es razonable).
• Cegamiento.
• Pérdida de datos.
• Reporte selectivo de desenlaces.
• Otros.
PISTA 2: valorar el riesgo para cada
desenlace, en cada estudio y en el
conjunto de estudios en red.


diferentes estudios han sido En las comparaciones directas que muestran forest plot no se
mezclados para obtener un aprecia heterogeneidad.
resultado «combinado», ¿era Aunque clínicamente parece bastante posible que exista, y aún más
razonable hacer eso? metodológicamente porque algunos estudios provienen del 85/86
PISTA: la heterogeneidad (I2) puede ser y los métodos de ECA han mejorado notoriamente en esos años.
clínica, metodológica y estadística.
6. ¿Son coherentes las Sí No sé No ✓
comparaciones directas Usan tres métodos para valorarla (node spliting method,
e indirectas? diferencia en las estimaciones directas en indirectas, e I2)
• En algunas variables relevantes, especialmente sangrado
gastrointestinal mayor y externo (v. apéndice 5), hay discrepancias
entre estimados directos en indirectos e incoherencia para varias
comparaciones IBP-ARH2 y ambos contra placebo.
• En otras como neumonía, mortalidad, Clostridium difficile,
estancia en UCI, etc., no hay incoherencia.
Los autores hacen MER para los últimos y renuncian
a hacerlo en los desenlaces con incoherencia (sangrado
gastrointestinal), donde hacen comparación directa,
estratificando por subgrupo de riesgo (planeados a priori).
7. ¿Cuál es el resultado global La geometría de la red es adecuada e intuitiva (fig. 2). Las
de la revisión? geometrías específicas según desenlace se pueden ver en el
• Valora la geometría de la red apéndice 5 con sus correspondientes números de estudios
de evidencia. (se deducen del cajón final de la fig. 1).
• Desenlaces estudiados. • Para sangrado GI hacen comparación directa porque no es
• Valora los resultados y su seguro usar la indirecta o el metaanálisis en red porque
intervalo de confianza para las la incoherencia sugiere intransitividad.
comparaciones: directas, indirectas • Para neumonía (que es la variable que más nos interesa)
y en red. hace los tres: directas, indirectas y en red (v. tabla 3); ofrezco
• Comparaciones de tu interés la variable en red:
especial. 1. IBP comparado con placebo o no profilaxis puede aumentar
• RANKING, SUCRA. riesgo de neumonía (odds ratio = 1,39; IC 95% = 0,98-2,10),
50/1.000 pacientes más (grado bajo de certidumbre).
2. ARH2 frente a placebo o no Tto. puede aumentar el
riesgo de neumonía (OR = 1,26; IC 95% = 0,89-1,85),
34/1.000 pacientes más (grado bajo de certidumbre).
3. IBP puede aumentar riesgo de neumonía comparado con
sucralfato (OR = 1,63; IC 95% = 1,12-2,46), 70/1.000

pacientes más (grado bajo de certidumbre).
4. AHR2 frente a sucralfato aumenta riesgo (OR = 1,47;
IC 95% = 1,11-2,03), 53/1.000 pacientes más (grado bajo
de certidumbre).
5. Sucralfato-placebo: sin efecto.
6. IBP-ARH2: sin efecto.
• Mortalidad. No cambios.
Aporta el Rank para cada desenlace en apéndice 7. Creo que es
de interés, aunque hay que discutir su significado clínico, porque
lo mejor parece ser el sucralfato (lo que es algo contraintuitivo).
Quizás se explique porque se excluyen del MER las variables
sangrado gastrointestinal por la incoherencia pero son
realmente interesantes para prevenir sangrado.
(Continúa)
8. ¿Cuál es la certeza en la En la tabla 3 pueden apreciarse las comparaciones realizadas

evidencia de las estimaciones para neumonía mediante los tres procedimientos:
de arriba comentadas La certeza en la evidencia es moderada para todas las
(GRADE)? comparaciones en la estimación directa e indirecta y baja
• Revisa la tabla «sumario para la comparación mediante MER.
de resultados». Para el sangrado gastrointestinal (tabla 2) los riesgos de sesgo
varían mucho según el estrato y la certeza en la evidencia es
moderada para el efecto superior de IBP frente a placebo
y ARH2 frente a placebo, y asimismo moderada para la
comparación IBP frente a ARH2, que resulta favorable
a los primeros.
resultados en tu medio? Posiblemente sí, pero de modo muy genérico porque no
PISTA: considera si: se define en el escenario pacientes, pero los estudios son
• Los pacientes cubiertos por la revisión poblaciones muy diversas.
son muy diferentes de los de tu área. Sin duda la estratificación del riesgo es crucial (de sangrado
• Tu paciente podría ser muy y de infección).
diferente al del estudio. No.
10. ¿Se han considerado todos Sí No sé No ✓
los resultados importantes Mortalidad, sangrados diversos.
para tomar la decisión? Necesitaríamos mayor capacidad discriminante para los riesgos
• Utilidades y disutilidades basales de los diferentes desenlaces positivos.
de los desenlaces. No es un escenario clínico que propicie la incorporación
• Balance efectos positivos/negativos. del paciente a toma de decisiones, por tanto, la exploración
• Preferencias del paciente, costes, etc. de preferencias debe extrapolarse de otros escenarios; la
estimación de esas preferencias es compleja porque es difícil
imaginarse dentro de ese escenario.
Los costes sí son incorporables y en tal sentido IBP son
los más caros. Pero también los más costo-efectivos.
11. ¿Es útil esta evidencia Sí No sé ✓ No
para resolver tu problema Este metaanálisis en red tiene valor como pieza de evidencia
de decisión? para ayudar a la decisión. Aunque el estudio fracasa
respecto del desenlace más importante por la presencia
de incoherencia (sangrado GI). El incremento de neumonía
parece creíble y es consistente con otros estudios y plausible
biológicamente.
Por tanto, no es un asunto cerrado.
Hay evidencias adicionales, más recientes respecto del artículo,
que hay que incluir en la trama argumental para la reunión
de la comisión:
• Towns et al. Interventions for preventing upper
gastrointestinal bleeding in people admitted to intensive care
units. Cochrane Datab Syst Rev. 2018;6:CD008687. DOI:
10.1002/14651858.CD008687.pub2.
• Zhou et al. Stress ulcer prophylaxis with proton pump
inhibitors or histamine 2 receptor antagonists in critically ill
adults - a metaanalysis of randomized controlled trials with
trial sequential analysis. BMC Gastroenterol. 2019;19:193.
https://doi.org/10.1186/s12876-019-1105-y.

Agradecimientos
Nuestro agradecimiento a María Isabel Villanego Beltrán (Oncología Radioterápica H. Puerta del
Mar, Cádiz), Miguel de Mier Morales (ORL, H. Puerta del Mar, Cádiz), Irene Fajardo Paneque
(Oncología Radioterápica, Hospital de Jerez, Cádiz) y José Luis Antón Pascual (UCI Hospital
General Universitario de Alicante), por sus comentarios a versiones previas de este manuscrito.
Procede el eximente habitual.
Bibliografía
1. López-López JA, Sterne JAC, Thom HHZ, Higgins JPT, Hingorani AD, Okoli GN, et al. Oral anticoa-
gulants for prevention of stroke in atrial fibrillation: systematic review, network meta-analysis, and cost
effectiveness analysis. BMJ 2017;359:j5058.
2. Wang Y, Ye Z, Ge L, Siemieniuk RAC, Wang X, et al. Efficacy and safety of gastrointestinal bleeding
prophylaxis in critically ill patients: systematic review and network meta-analysis. BMJ 2020;368:l6744.
3. Said S, Alabed S, Kaier K, Tan AR, Bode C, Meerpohl JJ, et al. Non-vitamin K antagonist oral anticoa-
gulants (NOACs) post-percutaneous coronary intervention: a network meta-analysis. Cochrane Heart
Group, editor. Cochrane Database Syst Rev. 2019. Disponible en: http://doi.wiley.com/10.1002/14651858.
CD013252.pub2.
4. Herzig SJ, Howell MD, Ngo LH, Marcantonio ER. Acid-suppressive medication use and the risk for
hospital-acquired pneumonia. JAMA 2009;301(20):2120-8.
5. Buendgens L, Bruensing J, Matthes M, Dückers H, Luedde T, Trautwein C, et al. Administration of
proton pump inhibitors in critically ill medical patients is associated with increased risk of developing
Clostridium difficile-associated diarrhea. J Crit Care 2014;29(4):696.e11-5.
6. Chaimani A, Caldwell DM, Li T, Higgins JPT, Salanti G. Chapter 11: Undertaking network meta-
analyses. En: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, Welch VA, editores.
Cochrane Handbook for Systematic Reviews of Interventions. 2.ª ed. Chichester: John Wiley & Sons;
2019. p. 285-320.
7. Zhang Y, He D, Zhang W, Xing Y, Guo Y, Wang F, et al. ACE Inhibitor Benefit to Kidney and Cardiovas-
cular Outcomes for Patients with Non-Dialysis Chronic Kidney Disease Stages 3-5: A Network Meta-
Analysis of Randomised Clinical Trials. Drugs 2020;80(8):797-811.
8. Hoaglin DC, Hawkins N, Jansen JP, Scott DA, Itzler R, Cappelleri JC, et al. Conducting Indirect-Treat-
ment-Comparison and Network-Meta-Analysis Studies: Report of the ISPOR Task Force on Indirect
Treatment Comparisons Good Research Practices: Part 2. Value Health 2011;14(4):429-37.
9. Salanti G, Del Giovane C, Chaimani A, Caldwell DM, Higgins JPT. Evaluating the Quality of Evidence
from a Network Meta-Analysis. Tu YK, editor. PLoS ONE 2014;9(7):e99682.
10. Rouse B, Chaimani A, Li T. Network meta-analysis: an introduction for clinicians. Intern Emerg Med
2017;12(1):103-11.
11. Tonin FS, Rotta I, Mendes AM, Pontarolo R. Network meta-analysis: a technique to gather evidence
from direct and indirect comparisons. Pharm Pract 2017;15(1):943.
12. Jansen JP, Fleurence R, Devine B, Itzler R, Barrett A, Hawkins N, et al. Interpreting Indirect Treat-
ment Comparisons and Network Meta-Analysis for Health-Care Decision Making: Report of the
ISPOR Task Force on Indirect Treatment Comparisons Good Research Practices: Part 1. Value Health
2011;14(4):417-28.
13. Chaimani A, Salanti G, Leucht S, et al. Common pitfalls and mistakes in the set-up, analysis and
interpretation of results in network meta-analysis: what clinicians should look for in a published article.
Evidence Based Mental Health 2017;20:88-94.
14. Puhan MA, Schunemann HJ, Murad MH, Li T, Brignardello-Petersen R, Singh JA, et al. A GRADE
Working Group approach for rating the quality of treatment effect estimates from network meta-analysis.
BMJ 2014;349(5):g5630.

Cabello JB, Jaén J, Burls A. Revisiones sistemáticas con metaanálisis en red. En: Cabello Juan B, editor. Lectura
crítica de la evidencia clínica, 2.ª ed. Barcelona: Elsevier; 2022. p. 153-166.

Anexo ■ Glosario
Comparaciones indirectas: comparación de dos intervenciones/tratamientos, estimada a
partir de estudios frente-a-frente (head-to-head) con un comparador común (p. ej., placebo o un
tratamiento estándar).
Metaanálisis en red (Network meta-analysis): metaanálisis que evalúa simultáneamente tres o
más intervenciones, incorporando información proveniente tanto de estudios comparados direc-
tamente, como de comparaciones indirectas estimadas mediante técnicas estadísticas («evidencia
mixta»).
Transitividad: ausencia de otras diferencias sistemáticas entre las comparaciones disponibles,
diferentes a los tratamientos evaluados. Si se cumple esta asunción, todos los participantes de los
estudios de la RS-MER cumplirían criterios para ser asignados a cualquiera de los tratamientos
considerados. Otra forma de verlo: si el tratamiento A es mejor que el B y el B mejor que el C, A
tiene que ser mejor que el C.
Consistencia: concordancia estadística entre las comparaciones directas e indirectas.
Gráfico de la red (Network graph): gráfico que resume de forma sencilla la estructura de la
evidencia existente en la comparación de todos los tratamientos de interés (geometría de
la RS-MER). Informa de un vistazo sobre qué intervenciones han sido comparadas de manera directa,
así como de la magnitud de la evidencia disponible.
Tabla de clasificación (League table): tabla resumen de todas las posibles comparaciones entre
los pares de tratamientos evaluados. Las casillas muestran la estimación de eficacia relativa (odds
ratio, diferencia de medias, etc.) y su certidumbre (intervalos de confianza) para la comparación
entre dos tratamientos, uno definido en la columna y otro en la fila que comparten dicha casilla.
Probabilidades de clasificación (Ranking probabilities): clasificación ordenada basada en la
probabilidad de que cada tratamiento ocupe una determinada posición respecto a los demás (ranking)
en función de su efectividad estimada.
Área bajo la curva de la probabilidad acumulada (SUCRA: Surface Under the Cumulative
RAnking curves): es una forma de estimar la probabilidad de clasificación de los tratamientos
analizados en la RS-MER, susceptible de ser representada, tanto de manera gráfica como numérica,
definida por el porcentaje del área bajo la curva de la probabilidad acumulada, respecto a la total.
Grado de Recomendaciones, Evaluación, Desarrollo y Evaluación (GRADE): aproximación
para la evaluación de la evidencia basada en seis dominios: limitaciones de los estudios (riesgo de
sesgos), heterogeneidad, inconsistencia, imprecisión y sesgo de publicación.

C A P Í T U L O 14
sistemáticas de pruebas diagnósticas
M.ª Nieves Plana Farrás ■ Javier Zamora Romero
• Valorar la pregunta de investigación que se aborda en una revisión sistemática

de exactitud diagnóstica.
• Valorar críticamente la metodología empleada en estas revisiones sistemáticas.
• Entender las distintas alternativas de análisis estadístico de estas revisiones sistemáticas.
• Valorar los resultados de estos metaanálisis y su alcance para aplicarlos en un caso
concreto.
Introducción
La utilidad de una prueba diagnóstica se fundamenta, entre otros aspectos, en su validez o exactitud,
es decir, en su capacidad para discriminar, en los pacientes con sospecha de una determinada
condición clínica, entre aquellos que realmente presentan dicha condición y los que no. Como ya se
ha visto en el capítulo 6 de esta obra, las evidencias acerca de esta exactitud diagnóstica provienen de
estudios con un diseño de investigación clínica particular y un análisis estadístico de los resultados
que proporciona los conocidos índices de exactitud diagnóstica de sensibilidad, especificidad, valores
predictivos y los cocientes de probabilidad junto con sus intervalos de confianza. Para poder abordar
la lectura de este capítulo, recomendamos la lectura previa del mencionado capítulo de estudios
primarios de exactitud diagnóstica, al igual que el capítulo relativo a las revisiones sistemáticas
en general y de ensayos clínicos aleatorios en particular (v. capítulos 11 y 12, respectivamente).
La lectura crítica de revisiones de diagnóstico comparte muchos aspectos con lo referido en esos
capítulos previos.
Las revisiones sistemáticas de exactitud diagnóstica se conciben como un instrumento para
integrar toda la evidencia disponible sobre la exactitud de una prueba diagnóstica. Los métodos
para realizar estas revisiones paralelizan los métodos empleados para realizar sus homónimas
revisiones de eficacia de intervenciones. Como lectores, deberíamos prestar atención a cómo los
autores de la revisión han realizado los procesos de búsqueda de literatura, la selección de estudios
para la revisión, la extracción de datos y el análisis de la calidad metodológica y el riesgo de sesgo
de los artículos incluidos. El análisis crítico de estos aspectos determinará la validez de la revisión
sistemática que estemos leyendo.
El presente capítulo pretende servir de guía para la realización de una lectura crítica de este
tipo de artículos. Abordaremos inicialmente los aspectos que permiten evaluar cuán válidos son
los resultados de la revisión. En segundo lugar, valoraremos críticamente la metodología estadís-
tica empleada para hacer el metaanálisis e interpretaremos los resultados. Por último, valoraremos

la aplicabilidad o validez externa de los resultados de la revisión. Para ilustrar estos apartados se
utilizará como ejemplo una revisión publicada recientemente en el ámbito de la salud mental (1).
Escenario
Estás discutiendo con tus compañeros del centro de salud acerca de los múltiples cuestionarios dis-
ponibles de cribado cognitivo para el diagnóstico precoz de demencia. Os estáis planteando poner en
marcha una estrategia de despistaje de demencia entre los pacientes de edad avanzada asintomáticos
que tenéis en cupo. Hay cierta controversia entre los profesionales sobre la conveniencia o no de
establecer una estrategia generalizada o ya dirigida a pacientes con quejas cognitivas y de cuál sería
la mejor herramienta para identificar deterioro cognitivo de manera temprana desde atención
primaria. Aunque algunos estáis familiarizados con el Mini-Mental State Examination (MMSE)
y su versión española normalizada, el Mini-Examen Cognoscitivo (MEC), pensáis que sería bueno
revisar en la literatura qué otros instrumentos de cribado podríais utilizar en el contexto de atención
primaria y cuáles tienen mejor rendimiento para detectar deterioro cognitivo en fases tempranas.
En la búsqueda encuentras la siguiente revisión: Tsoi KKF, Chan JYC, Hirai HW, Wong SYS,
Kwok TCY. Cognitive Tests to Detect Dementia: A Systematic Review and Meta-analysis. JAMA
Intern Med. 2015;175(9):1450-1458 (1).
Te planteas las siguientes preguntas:
■ ¿Cuál es el rendimiento diagnóstico del Mini-Examen Cognoscitivo (MEC) en población
asintomática?
■ ¿Aplicaría en mi medio el MEC para el cribado de deterioro cognitivo leve?
Puntos clave de la lectura crítica

DEFINICIÓN DE LA PREGUNTA DE LA REVISIÓN
¿Se hizo la revisión sobre un tema claramente definido?
El primer aspecto relevante que se debe considerar en la lectura de una revisión, y quizás el
aspecto más crucial, es determinar qué pregunta de exactitud diagnóstica trata de responder la
revisión sistemática que se tiene entre manos. Tener claro este punto es vital para poder valorar
adecuadamente el resto de los aspectos de la revisión. Sobre una definición adecuada de la pregunta
de la revisión pivotan el resto de los aspectos que iremos desgranando en este capítulo. Es importante
notar que el rendimiento de una prueba diagnóstica depende no solo de sus capacidades técnicas,
sino que también viene condicionado por las características de la población, el ámbito en el que se
aplica la prueba y la estrategia diagnóstica previa que ha ido seleccionando la población de los dis-
tintos estudios incluidos en la revisión. Ya estamos familiarizados con la metodología de formulación
de preguntas estructuradas. En el caso de las revisiones de diagnóstico, los componentes genéricos
del acrónimo inglés PICO se han reformulado para adaptarse a una pregunta sobre la exactitud
de una prueba diagnóstica (P: population; I: index test; CO: comparator test; T: target condition) (2).
Se recomienda incluir además dos componentes adicionales (P: prior testing; P: purpose) para tener
un acrónimo algo más complejo, pero más rico en detalles (PPPICOT). Con estas adiciones se
pretende delimitar bien la población de estudio (el espectro de la enfermedad, nivel de riesgo y su
severidad, etc.) y además delimitar el rol de la prueba en la ruta diagnóstica donde se empleará.
Así se podrá distinguir si la prueba que se evalúa pretende sustituir a otra, o pretende añadirse al
proceso diagnóstico como paso previo a otras pruebas más agresivas o costosas (triage) o como un
paso posterior tras otras pruebas (add-on) (3).
Por último, la revisión debe especificar qué tipo de estudios va a incluir para responder a la
pregunta planteada. Este aspecto se puede abordar vigilando que la revisión sistemática haya
excluido diseños de estudio no adecuados para contestar a una pregunta sobre rendimiento diagnós-
tico. Ya sabemos que el mejor diseño de estudio para evaluar la exactitud de una prueba diagnóstica

14. Lectura crítica de revisiones sistemáticas de pruebas diagnósticas 169
es un estudio observacional con diseño transversal donde, a una serie consecutiva de pacientes
con sospecha de la enfermedad que se diagnostica, de forma ciega e independiente, se les aplica
la prueba que se evalúa y una prueba de referencia o patrón de oro (gold standard) que diferencia
indiscutiblemente entre aquellos que tienen la enfermedad y los que no. A pesar de la aceptación
unánime de este diseño transversal como el óptimo para esta tarea, es frecuente encontrar en la
literatura estudios de casos y controles para responder a preguntas de exactitud diagnóstica. En ellos
se selecciona un grupo de sujetos con la enfermedad objeto de estudio y otro grupo de controles
sanos y a ambos se les aplica la prueba evaluada. Se ha demostrado empíricamente que este diseño
de casos y controles sobreestima enormemente el rendimiento diagnóstico de la prueba que se
evalúa y por tanto es práctica común, o debería serlo, que los autores de las revisiones sistemáticas
excluyan este tipo de estudios de sus revisiones (4,5).
Determinar con precisión la pregunta de investigación que se trata de contestar en la revisión sis-
temática que estamos leyendo es crucial para valorarla críticamente y para determinar la aplicabilidad
de sus resultados al escenario clínico en cuestión.
IDENTIFICACIÓN DE EVIDENCIAS: ESTRATEGIAS DE BÚSQUEDA

¿Crees que estaban incluidos los estudios importantes y pertinentes?
Al igual que en sus homólogas revisiones de ensayos clínicos, la exhaustividad de la búsqueda
es el pilar básico del valor de una revisión sistemática de pruebas diagnósticas. Esta búsqueda debe
ser exhaustiva para reducir el riesgo de sesgo de publicación e identificar la totalidad de estudios
relevantes. Es obligado que los autores de la revisión describan las fuentes de información en las
que realizaron la búsqueda y las plataformas de acceso empleadas, incluyendo tanto la estrategia
de búsqueda como las fechas en las que se realizó. Con toda esta información es posible valorar el
esfuerzo realizado y el riesgo de que haya estudios relevantes que no se encuentren en los resultados
de la búsqueda.
Como en cualquier revisión sistemática, debe valorarse si la búsqueda de estudios primarios
ha sido objetiva y si es reproducible. Una búsqueda solo en Medline se considera inadecuada. Los
estándares metodológicos de la colaboración internacional Cochrane (www.editorial-unit.cochrane.
org/mecir) establecen como obligatorio realizar una búsqueda al menos en Medline y Embase, y
es altamente recomendable buscar en otras bases de datos al igual que realizar búsquedas manuales
en las listas de referencias bibliográficas de los artículos incluidos, en los resúmenes de congresos
relevantes (BIOSIS Database [http://www.biosis.org/], Mediconf [www.mediconf.com]), hacer
consultas con investigadores destacados, etc.
Existen bases de datos específicas de estudios de diagnóstico como ARIF (www.arif.bham.
ac.uk), HTA Database y DARE (www.york.ac.uk), que recogen un buen número de revisiones
publicadas de estudios de diagnóstico y de cribado. Existen bases de datos de temas específicos

(CINAHL de enfermería, BIOSIS de biología, PsycINFO, etc.) que pueden utilizarse también
como fuentes de estudios primarios.
La identificación de artículos de diagnóstico presenta más dificultades que la búsqueda de
ensayos clínicos. No existe como tal un término MeSH (Medical Subject Heading) o EMTREE
(el equivalente a MeSH en Embase) específico que sea comparable al término randomized controlled
trial. El término sensitivity and specificity podría ser el más adecuado, pero no en todas las bases de
datos los artículos de diagnóstico están bien indexados. Muchos de los estudios de diagnóstico se
realizan alrededor de la propia práctica clínica sin la existencia de un protocolo de investigación
registrado en bases como clinicaltrials.gov, con lo que se dificulta su seguimiento. No existe, por
el momento, una base de datos centralizada de estudios de diagnóstico equivalente a la de ensayos
clínicos, aunque Cochrane está ultimando un registro similar al registro de ensayos clínicos
(CENTRAL) para estudios de validez diagnóstica (CRDTAS). Hay que prestar atención al hecho de
que el uso de filtros metodológicos para restringir y focalizar la búsqueda no está recomendado (6).

Esto se traduce en que normalmente la cantidad de títulos y resúmenes localizados en las bús-
quedas de las revisiones de diagnóstico sobrepasan con creces a los encontrados en las búsquedas
de las revisiones de ensayos clínicos, dado que estas últimas son más fácil de enfocar empleando
filtros metodológicos que restringen enormemente las búsquedas.
La estructura de una estrategia de búsqueda debe incluir términos referentes a la condición
clínica que se trata de diagnosticar y términos para identificar la prueba diagnóstica que se evalúa.
Esta estructura básica puede adaptarse y hacerse más específica incluyendo la prueba de referencia
definida en la pregunta estructurada.
Los criterios de elegibilidad de estudios que se van a incluir en la revisión deben haber sido
bien descritos en el artículo y se debe comprobar que efectivamente se ajustan a lo planteado en
la pregunta estructurada (PPPICOT). Dado que el proceso de selección de estudios tiene una
elevada carga de subjetividad, para evitar resultados sesgados es importante que los autores hayan
realizado el proceso por duplicado (por parejas de revisores), haber determinado un método para
resolver discordancias e idealmente haber valorado la reproducibilidad del proceso mediante un
análisis de concordancia.
Finalmente, el flujo de estudios desde la búsqueda inicial hasta la realización del metaanálisis
debería presentarse siguiendo las recomendaciones de las guías PRISMA (7); es decir, mediante
una figura o diagrama de flujo donde consten los estudios en las distintas fases del proceso, con las
exclusiones y los motivos de exclusión bien descritos (fig. 14.1). Este diagrama nos permite valorar
todo el proceso realizado y entender bien qué estudios han sido finalmente analizados.
Figura 14.1 Diagrama de flujo propuesto por la declaración PRISMA para ilustrar el proceso de búsqueda y
selección de estudios para la revisión. (Tomado de Moher D, Liberati A, Tetzlaff J, Altman DG, The PRISMA
Group. Preferred Reporting Items for Systematic Reviews and MetaAnalyses: The PRISMA Statement. PLoS
Med. 2009;6[7]:e1000097. Para más información visitar www.prisma-statement.org.)

EVALUACIÓN DE LA CALIDAD
¿Crees que los autores de la revisión han hecho suficiente esfuerzo para valorar la calidad de
los estudios incluidos?
Un aspecto clave en toda revisión sistemática es la evaluación de la calidad metodológica de
los estudios incluidos con la finalidad de identificar posibles riesgos de sesgo. El cuestionario
QUADAS-2 es una herramienta diseñada específicamente para la evaluación de la calidad
metodológica y el riesgo de sesgo de los estudios primarios incluidos en una revisión sistemática de
pruebas diagnósticas (8). El cuestionario se organiza en cuatro dominios: 1) selección de pacientes;
2) prueba en evaluación; 3) prueba de referencia, y 4) flujo de pacientes y tiempo entre pruebas.
Cada dominio se evalúa en términos del eventual riesgo de sesgo en el que se pudiera incurrir y
adicionalmente se evalúan problemas de aplicabilidad a la pregunta de revisión de acuerdo con
esos dominios. Este aspecto de aplicabilidad lo retomaremos más adelante en el último apartado
de este capítulo. Es importante atender a cómo los autores han personalizado y señalizado
las rúbricas específicas para cada dominio de la herramienta QUADAS-2 para así adaptarlo a las
peculiaridades de la revisión.
Este ejercicio de evaluación del riesgo de sesgo no es un mero ejercicio intelectual que conduce
a una gráfica más en el artículo para la descripción de esta calidad metodológica de los estudios
incluidos en la revisión (fig. 14.2). Los resultados de este análisis deben influir tanto en la realización
del metaanálisis como en la interpretación de los resultados del mismo. Para lo primero, los autores
pueden haber hecho análisis de sensibilidad comparando los resultados que se obtienen al excluir
determinados estudios en función de su riesgo de sesgo en determinados dominios del QUADAS-2
que se entienden críticos para la revisión en cuestión. Para lo segundo, es preciso entender los
resultados del metaanálisis en el contexto de la calidad de evidencia disponible y discutir bajo esta
óptica sus limitaciones y fortalezas.
EVALUACIÓN DE LA HETEROGENEIDAD
Si los resultados de los diferentes estudios han sido mezclados para obtener un resultado
«combinado», ¿era razonable hacer eso?
Una limitación inherente a cualquier metaanálisis es la presencia de variabilidad (heterogeneidad)
entre los resultados de los estudios primarios incluidos en la revisión. La heterogeneidad en las
revisiones de pruebas diagnósticas suele ser mayor que la encontrada en las revisiones de eficacia
de intervenciones y, también con frecuencia, mayor de lo que sería esperable por azar (variabilidad
aleatoria). Las fuentes habituales de heterogeneidad son las mismas que en otras revisiones sis-
temáticas. La heterogeneidad puede venir de los diferentes métodos empleados en los estudios
primarios (heterogeneidad metodológica) o de las diferencias en las poblaciones de pacientes o los
ámbitos donde se han realizado los estudios (heterogeneidad clínica). Sin embargo, en el caso de
Figura 14.2 Representación gráfica del resultado de la evaluación del riesgo de sesgo de los estudios incluidos
en una revisión sistemática de pruebas diagnósticas.

las revisiones de pruebas diagnósticas existe una fuente adicional e importante de heterogeneidad.
Se trata de lo que se conoce como el efecto umbral. Esto es, el umbral para determinar cuándo un
resultado de una prueba es positivo o negativo puede haber variado en los estudios incluidos en la
revisión. Esta variación puede ser explícita (distintos puntos de corte para una medida cuantitativa,
como puede ser el antígeno prostático) o puede ser una variabilidad en umbrales implícitos (por
ejemplo, la que existiría entre radiólogos con distinto entrenamiento o experiencia y que se reflejaría
en que tendrían un distinto umbral de detección de anormalidad al interpretar una prueba de
imagen). Si los estudios emplean diferentes criterios de positividad, esto hace que la sensibilidad y
la especificidad cambien y lo hagan en direcciones opuestas: un menor umbral puede incrementar la
sensibilidad a expensas de perder especificidad. La presencia de este efecto umbral explicaría parte
de las diferencias que vemos entre los resultados de los estudios individuales. Se verá más adelante
que la presencia de este efecto umbral hace que el metaanálisis deba considerar simultáneamente
ambos índices y deba estimar la correlación entre ellos. Además, y muy importante como veremos
en el siguiente apartado, si los estudios incluidos han empleado umbrales de positividad diferentes,
el análisis estadístico deberá abordarse de una determinada manera, distinta a si todos los estudios
incluidos han empleado el mismo umbral de positividad.
Aparte de la heterogeneidad metodológica, la clínica y la debida al efecto umbral, existe también
la heterogeneidad que viene por el propio proceso de muestreo y medición. Esta heterogeneidad
viene como consecuencia de que los distintos estudios han reclutado distintos sujetos y también
del propio proceso de realizar las mediciones de la prueba diagnóstica (obtención de la muestra,
procesamiento, interpretación, etc.). Ambas fuentes de variabilidad se integran en lo que se conoce
como heterogeneidad estadística.
Para valorar la heterogeneidad estadística se deben explorar las estimaciones de los índices de
rendimiento diagnóstico de los estudios primarios incluidos (sensibilidad y la especificidad), viendo
los resultados numéricos o bien evaluando su representación gráfica en forma de forest plots empa-
rejados (9) (fig. 14.3). Estos forest plots idealmente pueden haber sido construidos presentando los
estudios ordenados de mayor a menor sensibilidad (o especificidad). Esta representación ordenada
puede ayudar a analizar la consistencia entre estudios y la eventual correlación entre sensibilidad y
especificidad como indicio de la presencia de efecto umbral. Sin embargo, la mejor forma de ilustrar
la correlación entre los índices es representar estas parejas estimadas en cada estudio individual en
un plano Receiver Operating Characteristic (ROC), en el que se representa en el eje de abscisas
la tasa de falsos positivos (1-especificidad) y en el eje de ordenadas la tasa de verdaderos positivos
(sensibilidad). Cuando existan indicios de efecto umbral y por tanto de correlación entre sensibilidad
y especificidad, esta representación gráfica resultará en un patrón característico con forma curvilínea
de hombro (fig. 14.4).
Se han propuesto pruebas estadísticas específicas para poner a prueba la homogeneidad de los
índices de validez diagnóstica por separado. También se ha propuesto cuantificar la proporción de
variación total entre los estudios que va más allá de lo esperable por azar mediante el índice I2 de
Higgins (10). Sin embargo, estas aproximaciones deben interpretarse con suma cautela, dado que
ignoran la correlación entre estos índices y están afectadas por el tamaño muestral. Las pruebas
estadísticas para determinar la significación estadística de esta heterogeneidad pueden carecer de
la potencia necesaria cuando en el metaanálisis se incluye un número reducido de pacientes. O de
forma contraria, si los estudios han incluido tamaños muestrales muy grandes, ligeras diferencias
interestudio pueden resultar en valores de estas pruebas altamente significativos. Por último, estos
test no son útiles para detectar la heterogeneidad proveniente de fenómenos como los vistos de
«efecto umbral».
Tan importante, o más, que identificar la heterogeneidad es la exploración de sus posibles
fuentes. Esta exploración debe planificarse a priori antes de iniciar el análisis de los datos para evitar

Figura 14.3 Representación gráfica en forma de forest plot de los resultados de sensibilidad y especificidad emparejados.
Figura 14.4 Representación en un plano ROC de los resultados de exactitud diagnóstica de los estudios
individuales en una revisión sistemática. Se representa el punto promedio de sensibilidad y especificidad junto
con las elipses de confianza y predicción y la curva SROC resumen.
hallazgos espurios. Se pueden hacer análisis de subgrupos o, más formalmente, emplear técnicas de
metarregresión para probar si la heterogeneidad disminuye de forma significativa cuando se separan
los estudios de acuerdo a características clínicas y/o metodológicas. Hay que mostrar cautela con las
conclusiones que se deriven a nivel causal de estos análisis, dado que están sujetas al mismo sesgo
de confusión como cualquier otro estudio observacional y están afectadas también por problemas
de potencia estadística cuando el número de estudios es reducido.
METAANÁLISIS
¿Cuál es el resultado global de la revisión?, ¿cuál es la precisión del resultado?
Como siempre, es importante recordar que el metaanálisis solo debería realizarse si los estudios
son clínica y metodológicamente homogéneos, si se han realizado con pacientes clínicamente
similares, han evaluado pruebas comparables y han usado pruebas de referencia (gold standard)
también comparables. Si existiera excesiva heterogeneidad entre los resultados de los estudios,
podría ser más adecuado, en lugar de calcular los índices combinados, investigar las causas de dichas
diferencias. En cualquier caso, la presencia de variabilidad, y concretamente del efecto umbral
comentado anteriormente, va a condicionar las distintas alternativas de análisis que los autores de
la revisión pudieran haber empleado.
En general, todo metaanálisis es un proceso en dos etapas. En un primer paso se estiman los
resultados de cada estudio, que, en el caso de la evaluación de pruebas diagnósticas, cada estudio
es resumido no por un índice, sino por la conocida pareja de índices sensibilidad y la especificidad,
aunque también pueden ser los valores predictivos positivo y negativo o los cocientes de probabilidad
positivo y negativo. También podemos encontrar resúmenes del rendimiento diagnóstico global de

una prueba en forma de un único índice, el Odds Ratio Diagnóstico (ORD) (11). Este índice es el
producto de las proporciones de aciertos de la prueba (verdaderos positivos y verdaderos negativos)
dividido por el producto de las proporciones de errores (falsos positivos y falsos negativos). Por lo
tanto, cuanto mayor sea este índice mejor es una prueba diagnóstica. Sin embargo, su utilidad es
limitada porque se pierde el carácter dual de las pruebas y no permite saber cuál es la probabilidad
de tener la enfermedad si el resultado es positivo o negativo, ni determinar si la prueba es más útil
para confirmar la presencia de una enfermedad o para descartarla.
Los métodos estadísticos empleados para sintetizar la revisión sistemática deben tener en
cuenta esta dualidad y, por lo tanto, en lugar de combinar uno solo deben combinar ambos índices
simultáneamente, teniendo en cuenta su correlación y la distinta precisión con la que se han estimado
dependiendo del número de enfermos y no enfermos en cada estudio.
La vía de realización del metaanálisis depende en primera instancia de si existe heterogeneidad
de umbrales de positividad entre los estudios (efecto umbral, sea este explícito o implícito). Si fuera
así, el análisis estadístico debería haberse orientado en la dirección de estimar la curva ROC resumen
que subyace entre los estudios incluidos (Summary Receiver Operating Characteristic [SROC]
curve). En esta situación, los autores deben haber evitado la tentación de sintetizar la exactitud
diagnóstica de los estudios incluidos proporcionando un valor de sensibilidad y especificidad
promedio, pues estos valores no serían interpretables porque no sabríamos a qué punto de corte
de la prueba diagnóstica corresponderían. Si el umbral de positividad es el mismo para todos los
estudios, entonces sí tiene sentido acometer el metaanálisis con el objetivo de obtener la sensibilidad
y la especificidad promedio. Empecemos por este último caso.
Estimación del rendimiento promedio de la prueba diagnóstica

cuando no hay variabilidad en los umbrales de positividad,
es decir, se asume que no hay efecto umbral
La primera alternativa de análisis que puede emplearse es aquella en la que los autores asumen
que los estudios individuales incluidos en su revisión no muestran variabilidad en los umbrales de
positividad explícitos o, si no hubiera umbrales explícitos, asumen que los umbrales implícitos son
despreciables y de escaso impacto sobre el rendimiento diagnóstico. En este caso se tiene como
objetivo el cálculo del punto promedio de sensibilidad y especificidad (el conocido como punto
resumen o, en inglés, summary point) promedio para el perfil de umbrales incluidos en la revisión.
A partir de esta pareja se pueden derivar los cocientes de probabilidad. La metodología para obtener
estos promedios de sensibilidad y especificidad es compleja y se suele recurrir a modelos estadís-
ticos avanzados (modelos jerárquicos de efectos aleatorios). Los más frecuentemente empleados
son el modelo bivariante y el modelo Hierarchical Summary Receiver Operating Characteristic
(HSROC) (12,13). Estos modelos jerárquicos permiten cuantificar además la heterogeneidad
presente en los resultados y la correlación entre ambos parámetros. Es habitual representar los
resultados de estos análisis mediante un plano ROC con los puntos de los estudios individuales
generalmente representados con un tamaño proporcional al tamaño del estudio, junto con el
punto promedio de sensibilidad y especificidad calculado, que estará rodeado por una elipse
de confianza al 95%. Esta elipse de confianza representa la precisión de esta estimación. Es el
intervalo de confianza bivariante que contendría el verdadero valor de sensibilidad y especificidad
que se está estimando con una confianza del 95%. También se suele representar como medida de
heterogeneidad una elipse de predicción al 95% alrededor del summary point. Esta elipse representa
los posibles resultados de sensibilidad y especificidad que se podrían obtener en nuevos estudios
que se realizasen (v. fig. 14.4).
El cálculo de los promedios de los valores predictivos positivo y negativo no se recomienda,
pues es bien conocida su dependencia de la prevalencia de la condición que se diagnostica y,
presumiblemente, esta magnitud varía de estudio a estudio, constituyéndose en una fuente extra
de heterogeneidad.

Estimación del rendimiento promedio global de la prueba diagnóstica

cuando hay variabilidad en los umbrales (curva SROC)
La segunda alternativa de análisis corresponde con la situación más frecuente en la que
se observa una gran variabilidad entre los índices de validez diagnóstica de los estudios
individuales como consecuencia del efecto de los distintos umbrales para definir los resul-
tados positivo y negativo empleados en los distintos estudios. En esta circunstancia no es
adecuado obtener un resumen de la validez diagnóstica mediante los índices de sensibilidad y
especificidad porque, como decíamos anteriormente, este resumen no sería interpretable. En
su lugar, el análisis estima una curva ROC resumen (summary ROC o SROC) que represente
la relación de la validez diagnóstica con el umbral de positividad. Los modelos jerárquicos
bivariante y HSROC vistos en el apartado anterior pueden servir para estimar los parámetros
de esta curva SROC.
Se han propuesto distintos estadísticos útiles para resumir una curva SROC. El más habitual es
el área bajo la curva (AUC), que, como el Odds Ratio Diagnóstico (ORD), resume el rendimiento
diagnóstico de la prueba en un solo número (14): las pruebas que discriminan bien tienen un AUC
mayor que las pruebas con peor rendimiento. Finalmente, puede usarse el área para comparar
el rendimiento de distintas pruebas diagnósticas. Los autores también podrían haber empleado
la curva SROC estimada para extrapolar una sensibilidad a partir de una especificidad dada o
viceversa.
Evaluación del sesgo de publicación
La valoración del sesgo de publicación en los estudios de diagnóstico es compleja. Los mecanismos
que pueden originar la presencia de un sesgo de publicación en este tipo de estudios no son claros.
A diferencia de lo que ocurre con los estudios de tratamiento, no parece plausible que la magnitud
estimada para la sensibilidad o la especificidad, ni su significación estadística, puedan influir en
que el estudio se publique o no. En consecuencia, los gráficos de embudo o de chimenea (funnel
plots) y demás métodos estadísticos basados en la asimetría de estas gráficas utilizados para evaluar
dicho sesgo de publicación en las revisiones de tratamiento están discutidos para las revisiones
de diagnóstico. El manual Cochrane para revisiones sistemáticas de diagnóstico desaconseja la
utilización de los habituales test utilizados en revisiones de tratamiento y en su lugar recomienda
la utilización de test alternativos (15).
Aplicabilidad de los resultados

Tras la lectura crítica de cualquier estudio de investigación, analizar la aplicabilidad de sus resultados
no es otra cosa que determinar el grado en el que estos se corresponden con la pregunta que había
motivado la lectura del artículo, es decir, el escenario o la situación concreta en la que queremos
aplicar los resultados del estudio.
En el caso de las revisiones sistemáticas de pruebas diagnósticas, la capacidad de transferir sus
resultados a un escenario u otro depende de aspectos críticos como el ámbito donde se aplicará la
prueba, el espectro de los pacientes, la propia prueba que se evalúa y el patrón de oro o estándar de
referencia empleado. Todas estas características afectarán a las estimaciones de exactitud diagnós-
tica de la prueba y por tanto deberán tenerse en cuenta las eventuales diferencias entre la revisión
y el escenario concreto donde se aplicarán los resultados.
Se pueden distinguir dos situaciones diferentes a la hora de evaluar la aplicabilidad de los
resultados de una revisión sistemática de pruebas diagnósticas. Estas se distinguen por la amplitud
o estrechez de la pregunta de la revisión que, en última instancia, se reflejará en los criterios de
inclusión de estudios en la revisión. Si la pregunta es amplia, la revisión debería haber explorado
si el rendimiento de la prueba varía en distintos ámbitos o en diferentes grupos de pacientes o
varía fruto de variaciones en la propia prueba evaluada. En cambio, si la revisión ha planteado una

pregunta restringida, aunque esto favorece que los resultados sean más homogéneos, la capacidad
de transferencia a otros escenarios distintos es más limitada.
El cuestionario QUADAS-2, del que hemos hablado anteriormente, incluye varias preguntas
concretas sobre la aplicabilidad de los resultados en tres ámbitos distintos: el ámbito de la selección
de pacientes, el ámbito de la realización de la prueba diagnóstica que se evalúa y por último en el
ámbito del estándar de referencia.
SELECCIÓN DE PACIENTES
Se sabe que el rendimiento diagnóstico de una prueba varía según el espectro clínico de los parti-
cipantes incluidos en el estudio (16). Por tanto, se debe valorar si el espectro de participantes de la
revisión es similar al de la población donde se aplicará la prueba. Pistas para analizar esta similitud
se deben buscar en las características demográficas, las comorbilidades, la gravedad de la enfermedad
que se pretende diagnosticar, su sintomatología y las pruebas previas realizadas en estos pacientes. Es
esperable que la sensibilidad de una prueba aumente ante la presencia de poblaciones con enfermedad
de mayor gravedad. Del mismo modo, la presencia de una gran variabilidad en los diagnósticos
diferenciales en las poblaciones no enfermas es esperable que disminuya la especificidad de la prueba.
PRUEBA EVALUADA
También se deben valorar eventuales diferencias que pudiera haber en las pruebas utilizadas en
los estudios incluidos en la revisión respecto a la prueba que se aplicará realmente en el escenario
de interés. Estas diferencias pueden ser fruto de versiones diferentes de la prueba, las muestras
evaluadas, los observadores y su entrenamiento, el umbral de positividad empleado, sea de forma
explícita o de forma implícita. Otro aspecto fundamental para la aplicabilidad ya mencionado
en el capítulo 6 es la consideración de la reproducibilidad de la prueba, su calibración y las necesida-
des técnicas y humanas para su correcta aplicación. Estos aspectos podrían penalizar la transferencia
de los resultados de la revisión a nuestro medio.
PRUEBA DE REFERENCIA
La aplicabilidad de los resultados de la revisión a nuestro medio puede verse penalizada si la
definición de enfermedad en los estudios incluidos difiere de la definición en nuestro escenario,
sea por diferencias de criterio (por ejemplo, qué se considera una cardiopatía congénita grave)
o sea por diferencias prácticas debidas por ejemplo a los umbrales empleados en el estándar de
referencia para considerar como patológica una función renal o una insuficiencia cardíaca. Además
de las connotaciones que estas diferencias pudieran tener sobre el espectro de pacientes incluido
en la revisión, los cambios en las definiciones de la enfermedad pueden hacer que los resultados
de la revisión nos sean ajenos, dado que nuestro interés bien podría ser diagnosticar una entidad
nosológica distinta a la analizada en la revisión.
Artículo
Tsoi KKF, Chan JYC, Hirai HW, Wong SYS, Kwok TCY. Cognitive Tests to Detect Dementia:
A Systematic Review and Meta-analysis. JAMA Intern Med. 2015;175(9):1450-1458. Disponible
en: https://pubmed.ncbi.nlm.nih.gov/26052687/.



sobre un tema
En la revisión sistemática se establecen los criterios de inclusión de estudios. En cuanto
claramente
a la población, debían ser estudios de pacientes reclutados en cualquier entorno clínico
definido?
o comunitario (población de estudio), a los que se realiza un test de cribado cognitivo en
PISTA: un tema debe ser
una entrevista presencial con el paciente o cuidador (prueba en evaluación) y se compara
definido en términos
con unos criterios estandarizados de diagnóstico (Diagnostic and Statistical Manual of
de:
Mental Disorders, International Classification of Diseases, National Institute of Neurological
• Población de estudio.
and Communicative Disorders and Stroke and the Alzheimer Disease and Related Disorders
• Prueba que se evalúa
Association, National Institute of Neurological and Communicative Disorders and Stroke
y de referencia o gold
y la Association Internationale pour la Recherche et L’Enseignement en Neuroscience criteria,
standard.
o juicio clínico tras series de evaluación completa) (pruebas de referencia) para la detección
• Condición clínica.
de demencia asociada a alzhéimer, demencia vascular o enfermedad de Parkinson
• Resultados
(condiciones clínicas). Los resultados de exactitud diagnóstica que consideraron fueron:
(outcomes)
sensibilidad, especificidad y cocientes de probabilidad positivo y negativo. Los autores
considerados.
excluyeron los estudios que evaluaban test aplicados a pacientes con discapacidad visual
o con tiempo de administración mayor a 20 min.
2. ¿Buscaron los Sí ✓ No sé No
autores el tipo de
Los autores incluyen estudios transversales, que es el mejor diseño de estudio para evaluar
artículos adecuado?
la exactitud de una prueba diagnóstica. Aunque los autores lo señalan como criterio
PISTA: el mejor tipo
de inclusión, debemos comprobar después que los estudios incluidos finalmente tengan
de estudio es el que:
el diseño adecuado.
• Se dirige a la pregunta
objeto de revisión.
• Tiene un diseño
apropiado para
la pregunta.
3. ¿Crees que Sí ✓ No sé No
estaban incluidos
Los autores han realizado la búsqueda en Medline, Embase y PsycINFO. Se incluyen las
los estudios
fechas de búsqueda (hasta 1-9-2014) y términos de búsqueda (Alzheimer, Parkinson,
importantes
vascular, stroke, cognitive impairment y dementia), pero no la estrategia utilizada ni las
y relevantes?
plataformas de acceso a las bases de datos. La búsqueda se complementó con búsquedas
PISTA: busca:
manuales en las listas de referencias bibliográficas de los artículos incluidos y en Google
• ¿Qué bases de datos
Scholar. La búsqueda se restringió a estudios publicados en inglés.
se han usado?
• Si se han utilizado
bases específicas
de estudios
de diagnóstico.
• Seguimiento
de las referencias.
• Contacto personal
con expertos.
• Búsqueda de estudios
no publicados.
• Búsqueda de estudios
en idiomas distintos
del inglés.

4. ¿Crees que los Sí No sé ✓ No

autores de la
Los autores dicen que utilizan la herramienta QUADAS-2 para evaluar la calidad de los
revisión han hecho
estudios incluidos en la revisión. En la tabla 2 de características de los estudios se incluye
suficiente esfuerzo
para cada uno de los test y en cada uno de los dominios (selección de pacientes, prueba a
para valorar la
evaluar, prueba de referencia y flujo de pacientes) el porcentaje de estudios con alto riesgo
calidad de los
de sesgo. Se echa en falta más detalle de cómo han adaptado la herramienta QUADAS-2
estudios incluidos?
a la revisión con los criterios para definir en cada dominio si el riesgo de sesgo es alto,
PISTA: revisa:
bajo o no claro.
• ¿Qué herramienta
Los autores también incluyen en la tabla 2 una valoración de la calidad en una escala de
han utilizado para
8 puntos diseñada de acuerdo con las recomendaciones STARD (Standards for Reporting
valorar la calidad?
of Diagnostic Accuracy statement). Aquí los autores confunden calidad de los estudios
• Si han evaluado
con calidad del reporting. La declaración STARD es una iniciativa desarrollada
distintos dominios
para establecer directrices de cómo comunicar los estudios de exactitud de pruebas
en cuanto a selección
diagnósticas, pero no para la evaluación del riesgo de sesgo de estos estudios.
de pacientes, prueba
a evaluar, prueba
de referencia, flujo
de pacientes y tiempo
entre pruebas.
• Si se ha adaptado
la herramienta
a las peculiaridades
de la revisión.
• Si los resultados han
influido en la
realización
del metaanálisis
o en la interpretación
de los resultados.
5. Si los resultados Sí No sé No ✓
de los diferentes
El principal problema de la revisión es que los resultados de los diferentes estudios se
estudios han sido
han metaanalizado para obtener un resultado combinado cuando presentaban muchas
mezclados para
diferencias. Esto se puede apreciar en los forest plots de la figura 2 del artículo. Aunque
obtener un resultado
tomándolo con cautela como hemos visto en el capítulo, la cuantificación de la
combinado, ¿era
heterogeneidad medida con el I2 de Higgins fue de un 89 y 97% para sensibilidad
razonable hacer
y especificidad para el test Mini-Cog, del 92 y 94% para sensibilidad y especificidad para
eso?
el test MMSE y del 53 y 87% para sensibilidad y especificidad respectivamente en el test
PISTA: considera si:
ACE-R (forest plot figura 2).
• Los resultados de los
Las diferencias entre estudios o heterogeneidad podrían ser atribuibles a diferencias en la
estudios eran similares
población en cuanto a edad, nivel educativo, socioeconómico, etc.; diferencias en cuanto al
entre sí.
ámbito en que se ha realizado el estudio o por la prueba de referencia utilizada (v. tabla 2). Los
• Los resultados de todos
autores detectaron diferencias en los puntos de corte de positividad utilizados por los estudios
los estudios incluidos
(por ejemplo, para el MMSE el punto de corte para demencia más común [44% estudios]
están claramente
fue de 23 a 24, mientras que un 20% utilizaron un punto de corte de 25 a 26).
presentados.
Solo en el caso del MMSE el número de estudios incluidos permitió realizar un análisis
• Están discutidos los
de subgrupos para identificar como posibles fuentes de heterogeneidad (v. información
motivos de cualquier
suplementaria del artículo y comentario en pregunta 6) la región del estudio y el ámbito
variación de los
de reclutamiento de pacientes, sin encontrar diferencias significativas.
resultados.
(Continúa)


6. ¿Cuál es el Los resultados principales de la revisión se expresan como sensibilidad y especificidad y CP
resultado global promedio en la tabla 3 del artículo y en la figura 2. Aquí se presenta un resumen:
de la revisión? Test (tiempo Número Sensibilidad Especificidad
PISTA: considera: de aplicación) de estudios (n) (IC 95%) (IC 95%) CP+ CP–
• Si tienes claros los
resultados últimos MMSE (≤ 10 min) 102 (36.080) 81% (78 a 84) 89% (87 a 91) 7,5 0,21
de la revisión. AMT (≤ 10 min) 13 (5.273) 88% (82 a 92) 85% (81 a 89) 5,9 0,15
• ¿Cuáles son?
MoCA (≤ 10 min) 20 (4.647) 91% (84 a 95) 81% (71 a 88) 4,8 0,12
(Numéricamente,
si es apropiado.) 3MS (≤ 20 min) 6 (4.271) 86% (83 a 89) 85% (74 a 92) 5,8 0,17
• ¿Cómo están Mini-Cog (≤ 5 min) 9 (4.178) 91% (80 a 96) 86% (74 a 93) 6,6 0,10
expresados los
resultados? IQCODE long-form 15 (3.203) 84% (81 a 87) 82% (75 a 87) 4,7 0,19
(sensibilidad, (≤ 20 min)
especificidad, cocientes IQCODE short-form 7 (2.117) 89% (85 a 92) 82% (63 a 93) 4,9 0,14
de probabilidad [CP], (≤ 20 min)
etc.).
Verbal fluency 7 (3.038) 80% (73 a 86) 82% (73 a 88) 4,4 0,24
test (≤ 5 min)
MIS (≤ 5 min) 6 (2.635) 80% (68 a 86) 91% (84 a 96) 9,2 0,23
CDT Shulman 9 (2.096) 83% (75 a 89) 84% (69 a 92) 5,0 0,20
(≤ 5 min)
CDT Sunderland 9 (1.757) 76% (69 a 83) 85% (76 a 91) 5,1 0,28
(≤ 5 min)
ACE-R (≤ 20 min) 12 (2.070) 92% (90 a 94) 89% (84 a 93) 8,6 0,09
GPCOG (≤ 10 min) 5 (1.082) 92% (81 a 97) 87% (83 a 90) 6,8 0,10
En el suplemento del artículo se ofrecen resultados de:
• Un análisis de subgrupos (etable 3) considerando las variables región (América, Asia,
Europa) y ámbito de reclutamiento de pacientes (comunitario, clínica, hospital, atención
primaria, otros).
• Curva HSROC (efigure 1) del test MMSE en la detección de demencia, incluyendo
resultado combinado de sensibilidad y especificidad y elipse de confianza.
• Plano ROC (efigure 2) con los estimadores combinados de sensibilidad y especificidad y
sus correspondientes elipses de confianza para los test ACE-R, Mini-Cog Test y MMSE
para la detección de demencia.
En este caso, el abordaje más adecuado de análisis, dada la presencia de diferentes umbrales
de positividad entre los estudios, debería haberse orientado a estimar la curva ROC
resumen que subyace entre los estudios incluidos (curva SROC) para cada uno de los test
evaluados y evitar proporcionar un valor de sensibilidad y especificidad promedio, porque
no podemos conocer a qué punto de corte de la prueba diagnóstica corresponden.
7. ¿Cuál es la precisión En la tabla 3 del artículo se muestran los intervalos de confianza tanto para sensibilidad y
del resultado? especificidad como para los cocientes de probabilidad. En las figuras 1 y 2 del suplemento
PISTA: busca los también se describe la precisión con la representación gráfica de las elipses de confianza
intervalos de confianza (confidence regions). Pero insistimos en lo comentado en el punto 6 de que se debería
de las parejas de índices. haber evitado calcular una sensibilidad y especificidad promedio.
C) ¿Son los resultados Sí No sé No ✓
aplicables
Los resultados de la revisión no son claramente aplicables al escenario que se presenta. La
al escenario?
población incluida en la revisión es bastante heterogénea, incluyendo pacientes reclutados
en distintos ámbitos, y nuestro interés se centra en el ámbito particular de la atención
primaria. No define si eran participantes asintomáticos o bien presentaban algún tipo
de déficit cognitivo, probablemente incluya ambos. Otra dificultad es la variabilidad
en los puntos de corte de los test en los estudios incluidos, ¿qué punto de corte usó?
Probablemente establecer un único punto de corte válido para todos los pacientes sea
complejo, la valoración de la situación basal y su evolución con medidas repetidas en el
tiempo serán casi siempre las que determinen el verdadero positivo o negativo del cribado.

Bibliografía
1. Tsoi KKF, Chan JYC, Hirai HW, Wong SYS, Kwok TCY. Cognitive Tests to Detect Dementia: A
Systematic Review and Meta-analysis. JAMA Intern Med 2015;175(9):1450-8.
2. Roqué M, Martínez-García L, Solà I, Alonso-Coello P, Bonfill X, Zamora J. Toolkit of methodological
resources to conduct systematic reviews. F1000Research 2020;9:82.
3. Bossuyt PM, Irwig L, Craig J, Glasziou P. Comparative accuracy: assessing new tests against existing
diagnostic pathways. BMJ 2006;332(7549):1089-92.
4. Lijmer JG, Mol BW, Heisterkamp S, Bonsel GJ, Prins MH, van der Meulen JH, et al. Empirical evidence
of design-related bias in studies of diagnostic tests. JAMA 1999;282(11):1061-6.
5. Rutjes AWS, Reitsma JB, Di Nisio M, Smidt N, van Rijn JC, Bossuyt PMM. Evidence of bias and
variation in diagnostic accuracy studies. CMAJ 2006;174(4):469-76.
6. Leeflang MMG, Scholten RJPM, Rutjes AWS, Reitsma JB, Bossuyt PMM. Use of methodological search
filters to identify diagnostic accuracy studies can lead to the omission of relevant studies. J Clin Epidemiol
2006;59(3):234-40.
7. McInnes MDF, Moher D, Thombs BD, McGrath TA, Bossuyt PM, the PRISMA-DTA Group, et al.
Preferred Reporting Items for a Systematic Review and Meta-analysis of Diagnostic Test Accuracy Studies:
The PRISMA-DTA Statement. JAMA 2018;319(4):388-96.
8. Whiting PF, Rutjes AW, Westwood ME, Mallett S, Deeks JJ, Reitsma JB, et al. QUADAS-2: a revised
tool for the quality assessment of diagnostic accuracy studies. Ann Intern Med 2011;155(8):529-36.
9. Whiting PF, Sterne JAC, Westwood ME, Bachmann LM, Harbord R, Egger M, et al. Graphical
presentation of diagnostic information. BMC Med Res Methodol 2008;8:20.
10. Higgins JPT, Thompson SG, Deeks JJ, Altman DG. Measuring inconsistency in meta-analyses. BMJ
2003;327(7414):557-60.
11. Glas AS, Lijmer JG, Prins MH, Bonsel GJ, Bossuyt PMM. The diagnostic odds ratio: a single indicator
of test performance. J Clin Epidemiol 2003;56(11):1129-35.
12. Reitsma JB, Glas AS, Rutjes AWS, Scholten RJPM, Bossuyt PM, Zwinderman AH. Bivariate analysis of
sensitivity and specificity produces informative summary measures in diagnostic reviews. J Clin Epidemiol
2005;58(10):982-90.
13. Rutter CM, Gatsonis CA. A hierarchical regression approach to meta-analysis of diagnostic test accuracy
evaluations. Stat Med 2001;20(19):2865-84.
14. Walter SD. The partial area under the summary ROC curve. Stat Med 2005;24(13):2025-40.
15. Deeks JJ, Macaskill P, Irwig L. The performance of tests of publication bias and other sample size effects
in systematic reviews of diagnostic test accuracy was assessed. J Clin Epidemiol 2005;58(9):882-93.
16. Mulherin SA, Miller WC. Spectrum bias or spectrum effect? Subgroup variation in diagnostic test
evaluation. Ann Intern Med 2002;137(7):598-602.

Plana MN, Zamora J. Lectura crítica de revisiones sistemáticas de pruebas diagnósticas. En: Cabello Juan B,

C A P Í T U L O 15
sistemáticas de estudios
de pronóstico o riesgo
Miguel Maldonado Fernández ■ Borja Manuel Fernández Félix
Juan Bautista Cabello López
• Definir los distintos tipos de estudios pronósticos.

• Revisar el formato de pregunta clínica empleado específicamente en este tipo
de revisiones.
• Comentar los pasos que dan los autores de estas revisiones, haciendo hincapié
en los puntos más importantes para la lectura crítica de este tipo de revisiones.
Introducción
Hacer un pronóstico consiste en conocer el futuro. Los estudios de pronóstico buscan averiguar qué le
sucederá a un paciente afectado por una determinada circunstancia como una enfermedad, un factor
de riesgo o un tratamiento. Este tipo de estudios son especialmente importantes para los pacientes y
sus familiares. No obstante, los estudios de pronóstico son especialmente complejos y difíciles de llevar
a cabo. La lectura crítica de revisiones sistemáticas de estudios pronósticos posee unas peculiaridades
respecto a otro tipo de revisiones sistemáticas. Se deberá tener en cuenta el tipo de estudio de pronós-
tico analizado. La pregunta clínica tiene un formato PICO-TA. Se emplean herramientas específicas
para la extracción de datos de los estudios individuales (CHARMS-PF) y para el estudio del riesgo
de sesgo (QUIPS). La certidumbre en la evidencia (calidad de la evidencia) depende del riesgo de
sesgo en cada estudio individual y, además, del riesgo de sesgo de la propia revisión por factores como
la imprecisión, el sesgo de publicación o la existencia de evidencia indirecta, entre otros. GRADE es
una herramienta que mide la certeza en la evidencia. La heterogeneidad entre estudios pronósticos
es frecuente, por lo que se recomienda usar un modelo de efectos aleatorios para el metaanálisis y
presentar intervalos de predicción para la estimación del efecto. Las revisiones de factores pronós-
tico son a menudo complejas, pues suelen presentar dificultades tales como sesgo de publicación
o reporte selectivo, diferencias en la elección de los puntos de corte o distintos factores de ajuste.
Escenario
Formas parte de la comisión de guías y protocolos de tu hospital y en las últimas reuniones se
ha planteado como objetivo actualizar los protocolos generales de reanimación cardiopulmonar
(RCP) que llevan algunos años sin actualizar. En realidad piensan que será un proceso complejo
con múltiples estratos que incluye desde la revisión de la infraestructura institucional, los protocolos
(pre-, intra- y posparada), la actualización del sistema de recogida de datos en coherencia con los

15. LECTURA CRÍTICA DE REVISIONES SISTEMÁTICAS DE ESTUDIOS DE PRONÓSTICO... 183
estándares internacionales para registros de investigación sobre RCP (GWTG-R registry, UK

National Cardiac Arrest. The Utstein register: DOI: 10.1161/CIR.0000000000000710) y también
la promoción de campañas para generar reflexiones y cambios culturales al respecto en el hospital
y en el área de salud.
En todo caso, el grupo promotor de la comisión y los documentalistas han hecho una búsqueda
muy amplia y parece que hay muchos frentes que revisar. Entre los documentos que destacan
está una clásica recomendación de expertos de la American Heart Association (DOI: 10.1161/
CIR.0b013e31828b2770), y también aparecen bastantes estudios de factores pronósticos y una
interesante revisión sistemática que resume y sintetiza todos los estudios de ese tipo.
Fernando SM, Tran A, Wei Cheng, et al. Pre-arrest and intra-arrest prognostic factors asso-
ciated with survival after in-hospital cardiac arrest: systematic review and meta-analysis. BMJ.
2019;367:l6373.
Como saben de tu interés y de tus habilidades en la lectura critica de estudios, te encargan revisar
en profundidad ese artículo y comentarlo en la próxima sesión de la comisión.
De modo que te tocará opinar sobre:
1. ¿Qué factores influyen en el pronóstico de las paradas intrahospitalarias?
2. ¿Algunos de esos factores o grupos de factores deberían ser considerados en la elaboración
de la nueva estrategia?
Lee el artículo y contesta a esas preguntas.
¿Qué es pronosticar?
Hacer un pronóstico consiste en conocer el futuro. Por lo menos, desde un punto de vista etimoló-
gico. A los efectos de este capítulo, los estudios pronósticos son aquellos que buscan averiguar qué
le sucederá a un paciente afectado por una determinada circunstancia (una enfermedad, un factor de
riesgo, un tratamiento). Los estudios pronósticos tienen interés tanto para profesionales de la salud
como para pacientes y sus familiares, políticos y encargados de tomar decisiones sobre salud (1).
El pronóstico forma parte de la tríada de la práctica clínica: diagnóstico-tratamiento-pronós-
tico. En la época hipocrática el pronóstico era el elemento más importante de los tres (se conocía
poco de los elementos diagnósticos de las enfermedades, y el tratamiento en muchos casos se
limitaba al conocido primum non nocere). En el siglo xx cobró importancia el diagnóstico (las
opciones de tratamiento aún estaban bastante limitadas). Hoy día, los avances en el conocimiento
de los mecanismos de las enfermedades permiten conocer más íntimamente los mecanismos de las
enfermedades en un paciente concreto. Esto hace posible establecer un pronóstico más afinado para
una determinada persona, con unas características particulares. Además, han surgido con fuerza
técnicas para extraer y analizar cantidades ingentes de datos de salud (big data).
Los términos referentes a los estudios pronósticos eran tradicionalmente confusos. Para solucio-
nar este problema se creó la Estrategia en Investigación Pronóstica, en inglés PROGnosis RESearch
Strategy, conocida por su acrónimo PROGRESS (2). En esta Estrategia se propone clasificar los
estudios pronósticos en cuatro tipos distintos:
PROGRESS tipo I: estudios de pronóstico global. En estos estudios se analizan los resultados
reales en muestras de pacientes con una determinada enfermedad o situación de salud de
interés. Se llaman «globales» porque el resultado es una medida global, como los valores
medios de una medida de la enfermedad. Por ejemplo, «puntuación en el MINIMENTAL
test a los 12 meses» o «porcentaje que sigue sin poder trabajar a los 12 meses».
PROGRESS tipo II: estudios de factores pronósticos (3). Estudian qué características
(o factores) se asocian con cambios en resultados globales para los individuos del estudio.
PROGRESS tipo III: modelos pronósticos (4). Evaluación de modelos matemáticos
de predicción de riesgo que incorporan múltiples factores pronósticos.
PROGRESS tipo IV: predictores del efecto de un tratamiento (5). Estudian las características
que predicen si un individuo responderá o no a un determinado tratamiento.

En este capítulo nos ceñiremos a las revisiones sistemáticas de estudios pronóstico tipo II
(factores pronósticos). Un factor pronóstico puede definirse como una característica o variable del
paciente, que está asociada a una determinada probabilidad de sufrir un resultado relevante (por
ejemplo, sufrir un infarto). Para la estructura general de una revisión sistemática remitimos a los
lectores al capítulo 12 («Lectura crítica de revisiones sistemáticas sobre estudios de prevención o
tratamiento»). Muy resumidamente, los pasos de una revisión sistemática son (6):
■ Protocolo.
■ Búsqueda de los estudios individuales.
■ Evaluación del riesgo de sesgo en cada estudio individual seleccionado.
■ Extracción de los datos de cada estudio individual.
■ Síntesis de la «evidencia» (si es posible).
■ Diseminación de los resultados.
Puntos clave para la lectura de una revisión

sistemática de estudios pronósticos
PREGUNTA PICO-TA
Para definir adecuadamente la pregunta que busca responder la revisión sistemática es necesario
establecer el tipo de estudios que nos interesan según la clasificación PROGRESS. Recordemos
que, en este capítulo, hablaremos específicamente del PROGRESS tipo II. Los estudios de cohortes
prospectivas son los idóneos para llevar a cabo estas revisiones. No obstante, en ocasiones no se
dispone de cohortes prospectivas sino de otro tipo de estudios, como cohortes históricas.
En las revisiones sistemáticas de estudios de tratamiento se utiliza el formato PICO (Paciente,
Intervención, Control y Outcome o resultado) para construir la pregunta clínica. Para las revisiones
de estudios pronóstico se adapta la pregunta PICO al formato PICO-TS, en español PICO-TA,
que es el acrónimo de:
Población: población general en la que se estudiará el factor pronóstico.
Índice: factor pronóstico que se está analizando.
Comparador(es)/control(es): define dos conceptos: el comparador, otro factor de riesgo con el
que se desea comparar el índice pronóstico bajo revisión; o el confusor (cuando el propósito
no es comparativo) que es un factor de ajuste considerado en la estimación del efecto del
factor pronóstico bajo revisión.
Outcome: resultado o evento que se está intentando predecir (por ejemplo, mortalidad por
infarto agudo de miocardio).
Tiempo (Timing): cuándo se mide el factor pronóstico y en qué lapso de tiempo se predecirá
el outcome o desenlace.
Ámbito (Setting): el escenario donde se utilizará el factor pronóstico.
ESTRATEGIA DE BÚSQUEDA
La búsqueda de los estudios individuales es más compleja en las revisiones pronósticas por el hecho de
que los estudios no suelen estar etiquetados como «pronósticos» y, por lo tanto, existe el riesgo
de que no se detecten mediante una estrategia de búsqueda convencional. Otra dificultad añadida
es que no existen filtros metodológicos de búsqueda que hayan sido validados. Se han desarrollado
y validado filtros metodológicos para la identificación de estudios de modelos pronóstico (7), que
han mostrado relativa capacidad para identificar estudios de factores pronóstico.
Por lo tanto, por miedo a perder estudios primarios importantes, suele realizarse una estrategia
más amplia, con el inconveniente de que se obtienen muchos resultados que no son relevantes.
Cuando la pregunta de revisión se centra en un factor pronóstico, desenlace o población específica,

TABLA 15.1 ■ Dominios analizados en CHARMS-PF

Área o dominio Comentarios
Origen de los datos • (Ensayo clínico, estudio de cohortes, casos y controles, etc.)
Participantes • Elegibilidad de los participantes y método de selección

• Descripción de los participantes
• Detalles de los tratamientos recibidos, si fuese relevante
• Fechas de los estudios
Desenlaces (outcomes) que serán • Definición del desenlace y método para su medición
medidos • ¿Se han usado la misma definición y método de medición
en todos los participantes?
• ¿Desenlace único o combinado?
• ¿Hubo enmascaramiento para el desenlace?
• Tiempo hasta la aparición del desenlace
Predictores candidatos • Número y tipo de predictores (por ejemplo: características

demográficas, historia del paciente, exploración física, nuevas
pruebas diagnósticas, características de la enfermedad)
• Definición del predictor candidato y método para su medición
• Momento de la medición del factor predictor (o pronóstico)
• ¿Se enmascararon los factores para el resultado?
¿Se enmascararon entre sí?
• ¿Cómo se tratan los factores en el modelo de predicción?
(variable continua, categórica, transformación lineal,
transformación no lineal)
Tamaño de la muestra • ¿Se calculó el tamaño de la muestra? ¿Cómo?

• Número de participantes y de eventos
• Número de desenlaces/eventos por cada factor pronóstico
Datos que faltan • Número de participantes en los que falta algún valor
(incluyendo factores pronósticos y desenlaces)
• Número de participantes en los que falta algún dato para cada
uno de los factores pronósticos
• Datos de atrición. En estudios de supervivencia, número
de observaciones censuradas
• Cómo se manejaron los datos que faltan (imputación de datos
faltantes, análisis de casos completos, etc.)
Análisis • Tipo de modelo (logístico, lineal, Cox, etc.)

• Cómo se comprobaron las asunciones del modelo
• Método empleado para la selección de factores candidatos
en el modelo multivariante
• Método de selección de factores durante el modelado
multivariante (selección retrógrada o anterógrada) y criterios
para la selección (valor de la p; criterio de información
de Akaike)
• Métodos para el manejo de factores continuos (dicotomización,
categorización, lineal, no lineal), incluyendo los puntos de corte
elegidos y su justificación
Resultados • Estimaciones del efecto pronóstico, crudas y ajustadas, junto

con sus intervalos de confianza correspondientes
• Para cada estimación ajustada, indicar los factores de ajuste
Interpretación • Interpretación de los resultados presentados

• Comparación con otros estudios
Modificado de Riley 2019 (6).

Figura 15.1 Dominios analizados por QUIPS. (Modificado de Hayden 2013 [9]).
añadir estos términos en la estrategia de búsqueda reducirá considerablemente el número de

artículos identificados.
Sesgo de publicación y reporte selectivo

Uno de los problemas más importantes que nos encontramos en las revisiones sistemáticas de
estudios de factores pronóstico es el sesgo de publicación. Bien es sabido que las revistas científicas
son más proclives a publicar estudios que presentan resultados, digamos, estadísticamente «signifi-
cativos». Pero no menos importante es que los investigadores no envíen a publicar aquellos estudios
en los que no se encontraron los resultados esperados, y cuando estos se encontraron no es poco
frecuente que sea tras buscar y escarbar sobremanera en los datos, dando lugar al reporte selectivo.
Todo ello pone de manifiesto la importancia de los protocolos en la investigación del pronóstico.
PROTOCOLO
Al leer una revisión sistemática de estudios pronósticos se debería considerar si los autores han cum-
plido con sus objetivos iniciales. Si no lo han hecho, se podría estar incurriendo en algún tipo de
sesgo. El lector debería poder consultar dicha información en el protocolo. Este documento es un plan
detallado de lo que se va a hacer y cómo se va a llevar a cabo en la revisión sistemática. El protocolo
incluye el razonamiento y la justificación de la revisión (¿por qué hay que hacer esta revisión?); los
objetivos; los criterios de elegibilidad de los estudios; el método de extracción de datos; la evaluación
crítica; los métodos estadísticos para sintetizar la «evidencia» (el resultado global de la revisión); y la
redacción (report) clara y completa de los resultados. Se puede buscar el protocolo en PROSPERO,
un registro específico que depende de la Universidad de York (https://www.crd.york.ac.uk/prospero/),
o publicado en ciertas revistas científicas. Se trata, en cualquier caso, de ofrecer al lector de la revisión
la opción de contrastar los objetivos iniciales de los autores con lo que finalmente se presentó.

CÓMO SE HA EXTRAÍDO LA INFORMACIÓN DE CADA ESTUDIO

La herramienta CHARMS (CHecklist for critical Appraisal and data extraction for systematic
Reviews of prediction Modelling Studies) es una lista con los ítems que deben extraerse de los
estudios individuales que se incluyen en una revisión sistemática de estudios pronósticos (8). Aunque
CHARMS está diseñada para las revisiones de modelos pronósticos (es decir, los PROGRESS
tipo III), existe una adaptación para las revisiones de estudios de factores pronósticos, que recibe el
imaginativo nombre de CHARMS-PF (6). Los ítems incluidos vienen recogidos en la tabla 15.1.
RIESGO DE SESGO
El siguiente paso en la revisión es comprobar cuán creíble es la información que hemos encon-
trado, es decir, cuál es el riesgo de sesgo de cada uno de los estudios. Es probable encontrarnos en
algunas publicaciones «riesgo de sesgo». Para medir el riesgo de sesgo existe la herramienta QUIPS,
acrónimo de QUality In Prognosis Studies (9), que evalúa los siguientes «dominios» reportados
según CHRAM-PF (fig. 15.1):
■ Participación en el estudio. En este ítem se comprueba si la relación entre el factor pronóstico
y el desenlace puede ser diferente en los participantes en el estudio que estamos analizando,
comparado con la «población elegible» que no está en ese estudio. Por eso se describe la fuente
de la muestra extraída, las características basales de esa muestra, cómo se ha obtenido y durante
cuánto tiempo, y cuáles son los criterios de inclusión y exclusión. En resumen: los participantes
del estudio ¿son «similares» a la población donde usaremos los factores pronósticos?
■ Sesgo de atrición en el estudio. Analizaremos si la relación entre factor pronóstico y desen-
lace es probablemente muy distinta entre los que han concluido el estudio y aquellos que no
han llegado al final (o «se han perdido» por el camino).
■ Medición del factor pronóstico. Investigaremos si la medición del factor pronóstico se ha
llevado a cabo de manera diferente en los distintos niveles del desenlace (outcome) estudiado.
Si se midiese de modo más exhaustivo el factor pronóstico en los que han desarrollado el
desenlace comparado con los que no lo han desarrollado, podríamos encontrar que el factor
se relaciona con el desenlace pero que este hallazgo no sea cierto.
■ Medición del resultado. La medición del resultado o desenlace (outcome), ¿se ha realizado
de modo distinto en los diferentes niveles del factor pronóstico (es decir, más en los que han
estado expuestos al factor que entre los que no han estado expuestos, por ejemplo)?
■ Ajuste por otros factores. Comprobaremos si la relación entre el factor pronóstico y el
desenlace es probable que esté afectada por otra variable o factor que esté relacionado con
el factor pronóstico estudiado y con el desenlace. Es decir, estudiaremos si es posible que
existan factores de confusión.

■ Análisis estadístico y publicación. Consideraremos si el resultado (del estudio individual
que estamos analizando) sea espurio y realmente se deba a sesgos en el análisis estadístico o
en la publicación de resultados.
¿SE HA HECHO UN METAANÁLISIS?

El metaanálisis no siempre es el producto final de la revisión sistemática. Un metaanálisis solo se
debe llevar a cabo cuando los estudios identificados sean suficientemente robustos y comparables,
de modo que los resultados derivados de este tengan una interpretación y un impacto directo en
los cuidados de salud. El metaanálisis requiere de, al menos, dos estudios que estimen el mismo
parámetro. Cuando se agregan estudios de baja calidad, la evidencia también será de baja calidad.
Aunque nos vamos a centrar en el metaanálisis de datos agregados, es decir, de estimaciones
extraídas desde los estudios identificados en la búsqueda, una alternativa es el metaanálisis de datos

individuales de pacientes, el cual precisa de la información individual de los pacientes incluidos

en los estudios primarios.
Para el metaanálisis de datos agregados son varios los obstáculos que se suelen encontrar, y
que dificultan la interpretación de los resultados. Algunas de las dificultades más comunes en
los estudios de factores pronóstico son: primero, diferentes tipos de estimaciones, en este tipo de
estudios es frecuente encontrar la estimación del tamaño del efecto en términos de riesgo relativo
(RR), odds ratio (OR) o hazard ratio (HR) cuando la variable de resultado es dicotómica, o la
diferencia media cuando la variable es cuantitativa; segundo, estimaciones sin errores estándar,
cuando en los métodos de metaanálisis estándar se emplean para ponderar el peso de cada estudio;
tercero, estimaciones en diferentes tiempos de predicción: en ocasiones, los tiempos de predicción
de un mismo desenlace o el momento de medición del factor pronóstico bajo revisión difieren
entre estudios; cuarto, diferentes métodos o instrumentos de medida tanto para el desenlace
como para el factor pronóstico; quinto, mezcla de estudios en los cuales la estimación del efecto
fue ajustado en unos y crudo (o sin ajuste) en otros, y aunque todos los estudios reporten una
estimación del efecto ajustada el conjunto de variables de ajuste (confusores) frecuentemente
divergirá entre ellos. En este sentido, suele ayudar predefinir un conjunto básico de factores de
ajuste que represente un ajuste mínimo necesario para la inclusión del estudio, por ejemplo que
el efecto del factor pronóstico este ajustado, al menos, por género y edad; sexto, el manejo de
factores pronóstico de tipo continuo: algunos estudios podrían considerar una relación lineal,
otros ajustar tendencias no lineales, y otros establecer diferentes puntos de corte para categorizar
o dicotomizar el factor pronóstico bajo revisión. Cuando el punto de corte elegido es seleccionado
porque minimiza el p-valor asociado con el efecto pronóstico de interés, tenderá a sesgar los
resultados hacia un mayor efecto pronóstico. Cuando se categoriza o dicotomiza el factor pronós-
tico o desenlace de interés la decisión de los puntos de corte debe establecerse a priori. Muchos
de estos aspectos dirigen a sustancial heterogeneidad, causando que la estimación del efecto
pronóstico varíe entre estudios.
Por otra parte, en el caso de realizar el metaanálisis, dada la heterogeneidad inherente de los
estudios de factores pronóstico, es recomendado el uso de métodos de efectos aleatorios para
considerar la heterogeneidad no explicada entre estudios.
Un metaanálisis de efectos aleatorios combina las estimaciones del efecto del factor pronóstico
bajo revisión entre los estudios, obteniendo un efecto promedio (µ) y la desviación estándar a través
de los estudios (τ). Si Y i y var(Y i) denotan la estimación del efecto y su varianza en el estudio i,
en términos generales un modelo de metaanálisis de efectos aleatorios se puede especificar como:
Yi ∼ N(µ,var(Yi) + τ2)
Esta simpática fórmula indica que, según el modelo de efectos aleatorios, se tienen en cuenta
dos fuentes de variabilidad: la propia dentro de cada estudio y la variabilidad entre estudios.
Común a otros tipos de revisiones, existen diferentes métodos para estimar el modelo. El
modelo de efectos fijos utiliza habitualmente el método de Mantel-Haenszel, mientras que para
el modelo de efectos aleatorios el más frecuentemente utilizado por los investigadores es el método
de DerSimonian y Laird (10), usual en metaanálisis de ensayos clínicos y de especial utilidad en el
caso de los estudios de factores pronósticos por la heterogeneidad arriba señalada. En el contexto
de heterogeneidad de los estudios de factores pronóstico se recomienda el método de Hartung-
Knapp (11) —y, cuando el número de estudios que se van a combinar es pequeño, el método de
Hartung-Knapp-Sidik-Jonkman (12)—, dado que ha demostrado ser más robusto.
Para llevar a cabo el metaanálisis se recomienda emplear la escala original solo cuando el
estadístico estimado es la diferencia media (desenlace de tipo cuantitativo); cuando el estadístico
que se desea agregar es un RR, OR o HR, la escala apropiada para el metaanálisis es el logaritmo
neperiano. En este caso, el estadístico promedio y sus intervalos de confianza son estimados en
escala logarítmica y, posteriormente, se deben transformar de nuevo a la escala original.

HETEROGENEIDAD
Cuando la heterogeneidad entre los estudios identificados en la revisión sistemática es substancial,
la estimación promedio resultante del metaanálisis es difícil de trasladar a la práctica clínica. En
tales situaciones el hallazgo principal de la revisión es la propia heterogeneidad identificada entre
los estudios y la necesidad de investigar las posibles causas. La variabilidad entre los estudios puede
ser mostrada mediante un forest plot, preferiblemente sin el resultado de la estimación promedio
del efecto pronóstico del factor bajo revisión.
La heterogeneidad, como ya se ha mencionado en el capítulo 12, se puede cuantificar mediante el
estadístico I2, el cual mide el porcentaje de la variabilidad total debida a las diferencias entre estudios,
y cuyo rango de valores oscila entre 0 y 100%. Valores próximos a 0% indican poca heterogeneidad,
y a medida que aumenta, se incrementa la sospecha de heterogeneidad.
Si el metaanálisis se realiza a pesar de la presencia de heterogeneidad, es recomendable presentar
el intervalo de predicción de la estimación del efecto pronóstico. Dicho intervalo de predicción
indica el potencial valor del verdadero efecto pronóstico del factor en una nueva población a partir
de los resultados de la revisión. Técnicas bayesianas también pueden ser empleadas para obtener
inferencias predictivas. Por ejemplo, tras el metaanálisis se podría obtener la probabilidad de que
el verdadero efecto pronóstico del factor sea superior a un valor dado (p. ej., un HR > 1,3 para un
factor binario, que indica un incremento del riesgo de al menos un 30%).
Como en revisiones sistemáticas de intervenciones, análisis de subgrupos y metarregresión
pueden ser empleados para explorar y examinar las potenciales causas de heterogeneidad.
En ocasiones es preciso hacer un análisis a parte de algún subgrupo de estudios, que por algún moti-
vo nos interesan de forma especial. Por ejemplo, podemos querer hacer un análisis de los estudios
con poco riesgo de sesgo, excluyendo los que tienen un riesgo de sesgo elevado. O podemos querer
analizar estudios realizados exclusivamente en ancianos o en personas con o sin una determinada
característica, para comprobar qué resultado arroja el metaanálisis en ese caso.
GRADE (CERTIDUMBRE DE LA EVIDENCIA)

GRADE es el acrónimo de Grading of Recommendations Assessment, Development and Evalua-
tion (13). Es una herramienta que mide, por un lado, la fuerza de la evidencia científica y, por otro,
la fuerza de la recomendación basada en esa evidencia. La calidad de la evidencia o certidumbre
depende de dos factores. Por una parte, el riesgo de sesgo en cada uno de los estudios incluidos en
la revisión. Por otro, el riesgo de sesgo de la propia revisión, debido a factores como la imprecisión,
los sesgos de publicación, la evidencia indirecta, etc. GRADE analiza de forma individualizada
cada desenlace y cada factor pronóstico.
Conclusión
La lectura crítica de revisiones sistemáticas de estudios pronósticos posee unas peculiaridades
respecto a otro tipo de revisiones sistemáticas. Se deberá tener en cuenta el tipo de estudio de
pronóstico analizado. La pregunta clínica tiene un formato PICO-TA. La herramienta CHARMS
(CHecklist for critical Appraisal and data extraction for systematic Reviews of prediction Modelling
Studies) es una lista con los ítems que deben extraerse de los estudios individuales que se incluyen
en una revisión sistemática de estudios pronósticos. La herramienta QUIPS (QUality In Prognosis
Studies) se emplea para evaluar el riesgo de sesgo en estas revisiones. GRADE es una herramienta
que mide de modo independiente la certidumbre en la evidencia y la fuerza de la evidencia. Las
revisiones de estudios pronósticos tipo II enlazan con otros estudios tipo III y tipo IV (modelos

pronósticos y estudios predictores a tratamiento, y con estudios de medicina personalizada, que

influirán de forma determinante en el desenlace vital de nuestros pacientes.
Artículo
Fernando SM, Tran A, Wei Cheng, et al. Pre-arrest and intra-arrest prognostic factors asso-
ciated with survival after in-hospital cardiac arrest: systematic review and meta-analysis. BMJ.
2019;367:l6373. Disponible en: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6891802/.


sobre un tema No se describe específicamente la pregunta en formato PICO-TA
claramente definido? (en inglés, PICO-TS).
PISTA: un tema debe ser No obstante, del texto se recoge:
definido en términos • Pacientes: pacientes ingresados que han sufrido un paro cardíaco.
de (PICO-TA): Se incluyen los estudios con al menos un 80% de «adultos»,
• La Población de estudio. considerados como al menos de 16 años.
• Los Índices pronósticos. • Índice pronóstico: no se menciona ninguno específico. Factores
• Comparadores (si procede). preparada y factores intraparada.
• Los desenlaces considerados • Comparador/control: recuérdese que el comparador hace referencia
(Outcomes). a otro factor pronóstico con el que se compara el factor a estudio;
• Tiempo (factor y desenlace). mientras que el control es otro factor que se utiliza en el ajuste
• Ámbito. de la predicción con el factor de estudio. En esta revisión no existe
un comparador, es decir, se evalúa el efecto pronóstico de múltiples
factores sin un objetivo comparativo entre ellos. En cuanto a factores
de control (o ajuste), en el manuscrito no se hace referencia a ellos.
Sin embargo, en el protocolo se ha predefinido que los estudios
de factores pronósticos incluidos en la revisión deben haber ajustado
las estimaciones del efecto al menos por edad y sexo.
• Outcome: mortalidad intrahospitalaria a los 28 o 30 días.
• Timing: se evalúan por separado los factores medidos previos al paro
cardíaco y los factores medidos durante el paro cardíaco. El tiempo
de desenlace se especifica en el desenlace (outcome) de interés.
• Ámbito (Setting): ámbito hospitalario.
CONCLUSIÓN: sí.

2. ¿Buscaron los autores Sí ✓ No sé No

el tipo de artículos Los autores hacen referencia a la inclusión de estudios observacionales
adecuado? con diseño retrospectivo y prospectivo, ensayos clínicos aleatorizados
PISTA: el mejor «tipo y ensayos cuasi aleatorizados. Los estudios con un diseño prospectivo
de estudio» es el que: son considerados los mejores para responder a una pregunta
• Se dirige a la pregunta de factores pronóstico. Estos permiten una mejor definición de los
objeto de la revisión y tiene criterios de inclusión. La recogida de información, basal y durante el
el diseño apropiado. seguimiento, es más completa y estandarizada, tanto en forma como
• Tipo de estudio en la definición de factores y desenlaces bajo estudio. Esa diversidad
de pronóstico. contribuye a la heterogeneidad.
CONCLUSIÓN: sí.
3. ¿Crees que estaban Sí ✓ No sé No
incluidos los estudios Se llevó a cabo la búsqueda en Medline, PubMed, Embase, Scopus,
importantes Web of Science, y la Cochrane Database of Systematic Reviews.
y pertinentes? Se utilizó la herramienta Related Articles («artículos relacionados»)
PISTAS de PubMed para ampliar la búsqueda. La estrategia de búsqueda,
DE LA BÚSQUEDA: que se presenta en el material suplementario, fue diseñada por una
• ¿Qué bases de datos bibliotecaria experimentada en ciencias de la salud. Esta combina
bibliográficas se han términos específicos de la población bajo revisión, tales como cardiac
usado? ¿Qué estrategia arrest, y relacionados con la investigación en pronóstico, como
de búsqueda? prognostic o risk.
• Seguimiento Los autores de la revisión contactaron con los autores
de las referencias. de correspondencia de los estudios primarios, cuando estos no
• Contacto personal reportaron las estimaciones de los odds ratios, ajustados o crudos,
con autores. o los datos necesarios a partir de los cuales poder calcularlos.
• Búsqueda de estudios no Aunque en la estrategia de búsqueda no hay limitaciones idiomáticas,
publicados. solo se incluyen artículos en inglés. Aunque no consideramos que se
• Idiomas distintos del inglés. trate de un porcentaje relevante, sería interesante conocer cuántos
PISTAS estudios fueron descartados por estar escritos en otro idioma,
DE LA SELECCIÓN: en nuestra opinión presumiblemente pocos.
• Criterios de inclusión/ CONCLUSIÓN: sí.
exclusión.
• Selección estudios. ½.
• Extracción de datos ½
(usaron CHARMS-PF).
de la revisión han hecho
Los autores han valorado la calidad de los estudios mediante la

suficiente esfuerzo para herramienta QUIPS (QUality In Prognosis Studies), la herramienta
valorar la calidad de los recomendada para evaluar el riesgo de sesgo en este tipo de revisión
estudios incluidos? sistemática.
PISTA 1: QUIPS «riesgo El riesgo de sesgo se evalúa usando 31 preguntas divididas en seis
de sesgo» depende de seis dominios (población, atrición, medición de los factores pronósticos,
dominios: población, medición del desenlace, factores de ajuste y análisis estadístico),
atrición, medición y para dominio los estudios se clasifican en bajo, moderado y alto
de factores pronósticos, riesgo de sesgo.
medición de desenlaces, Se presentan los resultados en la tabla 7 del material adicional. Véase
confusión y análisis como, en la mayoría de los dominios, el riesgo de sesgo es bajo.
estadístico correcto. En otros, como el sesgo de atrición en Ballew, es moderado.
CONCLUSIÓN: sí.
(Continúa)


diferentes estudios han La heterogeneidad fue evaluada usando el estadístico I2, el test χ2
sido mezclados para para la homogeneidad y, visualmente, mediante los forest plots.
obtener un resultado El estadístico I2 era muy alto para varios de los metaanálisis realizados.
«combinado», ¿era Por ejemplo, en la evaluación de los factores pronóstico preparada: sexo
razonable hacer eso? masculino I2 = 66% o edad > 70 I2 = 69%; y de los factores intraparada:
PISTA: la heterogeneidad (I2) diagnóstico de síndrome coronario agudo I2 = 99%. Los autores indican
puede ser: que la heterogeneidad es debida a que en el metaanálisis se combinan
• Clínica. estudios de grandes registros nacionales con una variabilidad pequeña
• Metodológica. de la estimación del efecto y estudios pequeños con mayor variabilidad,
• Estadística . y justifican su uso basado en el solapamiento de las estimaciones
puntuales y los correspondientes intervalos de confianza al 95%. Sin
embargo, y ante la evidente presencia de heterogeneidad entre estudios,
hubiera sido de interés para el lector que en el metaanálisis se hubieran
presentado los intervalos de predicción, que informan del potencial
valor verdadero del efecto en un nuevo estudio.
Un análisis de sensibilidad, excluyendo del metaanálisis los estudios
pequeños de gran variabilidad, podría interesar al lector, de modo
que permita examinar esas potenciales causas de heterogeneidad.
CONCLUSIÓN: sí.
6. ¿Cuál es el resultado Los resultados para el análisis principal que evalúa la asociación
global de la revisión? entre los factores pronósticos preparada e intraparada con la odds
PISTA: considera: de supervivencia, se presentan en la tabla 2 y las figuras 2-3 (forest
• Valora para los desenlaces plots para los factores pronóstico preparada) y 4-5 (forest plots
positivos y también para los factores pronóstico intraparada).
los negativos. Para cada factor pronóstico estudiado se indican los estudios incluidos
• ¿Cuáles son los resultados en el metaanálisis, el tamaño del efecto en términos de odds ratios
para cada desenlace? y sus correspondientes intervalos de confianza al 95%,
• ¿Cómo están expresados los la heterogeneidad mediante el estadístico I2 y el grado de certeza
resultados RR, HR, etc.)? mediante la evaluación GRADE (tabla 15.2).
• ¿Muestran gráficos forest Factores preparada:
plots? El sexo masculino (OR = 0,84 [0,73 a 0,95] con grado de certeza
moderado), la edad avanzada (OR = 0,50 [0,40 a 0,62] para edad mayor
a 60 años y OR = 0,42 [0,18 a 0,99] para edad mayor a 70 años, ambos
con grado de certeza bajo), la existencia de una neoplasia concomitante
(OR = 0,57 [0,45 a 0,71] con grado de certeza alto) y la existencia de
enfermedad renal crónica (OR = 0,56 [0,40 a 0,78] con grado de certeza
alto) se relacionaron con un peor pronóstico. Otras comorbilidades
(insuficiencia cardíaca congestiva, enfermedad pulmonar obstructiva
crónica y diabetes mellitus) y el diagnóstico de sepsis a la admisión se
asociaron a un peor pronóstico en estudios individuales (sin metaanálisis).
Factores intraparada:
Los paros cardíacos ante testigos (OR = 2,71 [2,17 a 3,38]), la
monitorización (OR = 2,23 [1,41 a 3,52]), los paros cardíacos diurnos
(con plantilla al completo) (OR = 1,41 [1,20 a 1,66]), la fibrilación
ventricular (OR = 3,68 [2,68 a 5,05]) y la taquicardia ventricular
(OR = 3,76 [2,95 a 4,78]) se relacionaron con un mejor pronóstico. Todos
ellos con alto grado de certeza. Mientras que la asistolia (OR = 0,42
[0,32 a 0,56] con grado de certeza alto), la intubación traqueal (OR = 0,54
[0,42 a 0,70] con grado de certeza moderado) y la duración prolongada de
las maniobras de resucitación cardiopulmonar (OR = 0,12 [0,07 a 0,19]
con grado de certeza alto) se relacionaron con un peor pronóstico.

7. Para el conjunto En la revisión sistemática de ejemplo, dado que son varios los factores
de los estudios (en cada pronósticos bajo estudio, las siguientes cuestiones deben discutirse
desenlace concreto) para cada factor concreto.
• ¿Cuál es la precisión • ¿Cuál es la precisión de los resultados?
de los resultados? Para evaluar de forma crítica la precisión de los resultados debemos
• ¿Son consistentes los fijarnos en los intervalos de confianza de la estimación puntual del
resultados de los estudios efecto. Por ejemplo, para el factor pronóstico historia de malignidad
para cada desenlace? (preparada) la estimación puntual del pooled odds ratio es 0,57, con
• ¿Es indirecta la evidencia un intervalo de confianza al 95% relativamente ajustado (preciso),
en algún desenlace? entre 0,45 y 0,71. Sin embargo, para el factor edad ≥ 70 (preparada),
la estimación puntual del pooled odds ratio es 0,42, y su intervalo de
confianza mucho más holgado (impreciso), entre 0,18 y 0,99. Ver
tabla 2.
• ¿Son consistentes los resultados de los estudios para cada desenlace?
La consistencia de los resultados depende de la heterogeneidad entre
los estudios. Esta se puede valorar a partir de los valores del estadís-
tico I2, los test estadísticos de heterogeneidad u observando el grado
de solapamiento entre los intervalos de confianza de los estudios
identificados. En el caso de disponer de ellos, también podríamos
ayudarnos de los intervalos de predicción. El valor del estadístico
I2 en todos los factores pronóstico metaanalizados excede del 50%,
indicando un importante grado de heterogeneidad entre los estudios;
además, las potenciales causas de heterogeneidad no han sido
exploradas mediante análisis de subgrupos. Por tanto, la consistencia
de los resultados es moderada.
• ¿Es indirecta la evidencia en algún desenlace?
Cuando la definición del desenlace, el factor pronóstico o la
población bajo revisión diverge entre los estudios incluidos, podría
ser un síntoma de evidencia indirecta.
resultados en tu medio? Los pacientes y el ámbito donde se ha elaborado la revisión sistemática
PISTA: considera si: son, en principio, similares a los que encontraríamos en otros
• Los pacientes cubiertos hospitales de nuestro entorno.
por la revisión pueden ser CONCLUSIÓN: parece que sí, aunque desconocemos elementos
suficientemente diferentes como infraestructura, protocolos o entrenamiento del personal
de los de tu área. de los centros.
• Tu medio es muy diferente
a los del estudio.
9. ¿Se han considerado Sí No sé ✓ No

todos los resultados Sería interesante comprobar el papel de la telemedicina para detección
necesarios para tomar de paradas cardíacas, que parece que desempeñará un papel de
una decisión? importancia creciente. También convendría saber cuál es el nivel de
• ¿Qué te gustaría saber entrenamiento y formación del personal hospitalario en esta cuestión.
además de esto? Otra variable que se debe tener en cuenta es el tipo de planta
hospitalaria y sus características (médica/quirúrgica, etc.).
CONCLUSIÓN: no sé.
(Continúa)

10. ¿Crees que hay alguna Sí ✓ No sé No

medida que tomar en tu El manejo de las paradas cardíacas es complejo y depende de varios
caso? factores, que incluyen las características estructurales del propio
• Aunque no esté planteado hospital, las características y el entrenamiento del personal
explícitamente en la y los propios protocolos de manejo de las paradas.
revisión, ¿qué opinas? Conocer los factores pronósticos relacionados con la odds de supervivencia
es útil para afinar el diseño de protocolos y guías de actuación. Además,
a partir de los resultados de la revisión tenemos un interesante punto
de partida para el desarrollo de un modelo pronóstico que nos permita
estimar de manera individualizada la probabilidad de supervivencia a
una parada cardíaca según las características del paciente, así como la
probabilidad de parada en un paciente cuando ingresa (pre-arrest), con
la finalidad de prevenir o jerarquizar el riesgo.
CONCLUSIÓN: sí.
TABLA 15.2 ■ Tabla sumario de resultados GRADE por factores

Factor Certeza
estudiado y n.o Riesgo Evidencia en la Estimador
de estudios de sesgo Imprecisión Inconsistencia* indirecta evidencia** IC 95%
«Parada» No No No importante No Certeza 2,71
presenciada importante importante I2 = 68% importante GRADE (2,17-3,38)
por terceros alta
(4 estudios)
Paciente No No No importante No Certeza 2,23
monitorizado importante importante I2 = 97% importante GRADE (1,41-3,52)
(6 estudios) alta
Parada en No No No importante No Certeza 1,41
horario diurno importante importante I2 = 94% importante GRADE (1,20-1,66)
(5 estudios) alta
Ritmo inicial No No No importante No Certeza 5,28
susceptible de importante importante I2 = 96% importante GRADE (3,78-7,39)
desfibrilación alta
(12 estudios)
Intubación No No No importante Importante*** Certeza 0,54
durante importante importante I2 = 73% GRADE (0,42-0,70)
la parada moderada
(5 estudios)
Duración de la Importante No No importante No Certeza 0,12
resucitación importante I2 = 27% importante GRADE (0,07-0,19)
> 15 min alta
(2 estudios)
Explicaciones: *A pesar de altos valores de I2 hay alto grado de solapamiento entre las estimaciones puntuales
y los intervalos de confianza. **La mayor parte del peso en la estimación del efecto agrupado proviene
de estudios de bajo riesgo de sesgo, excepto para el factor «duración de la resucitación», que proviene de
estudios de moderado riesgo de sesgo. ***Tiempos de intubación variables y no están claras otras variables
de confusión que contribuyen a si el paciente está o no intubado.
La tabla (tomada del artículo) presenta algunas discrepancias respecto a la presentada por los autores
de la revisión en el material adicional (tabla suplementaria 9). Esto sugiere que se ha llevado a cabo un análisis
de sensibilidad o que por alguna otra razón se ha descartado algún estudio en el análisis final presentado en el
manuscrito. En cualquier caso, en ambas tablas la certeza en la evidencia de las estimaciones no cambia (es alta),
y aunque los OR difieren ligeramente (como es lógico con distinto número de estudios incluidos en el análisis),
la dirección del efecto es consistente en ambas tablas. Por lo tanto, no existen discrepancias esenciales.
No obstante, se ha escrito a los autores y editores para la justificación o corrección de estas inconsistencias.

Bibliografía
1. Riley RD, van der Windt DA, Croft P, Moons KGM. Prognosis Research in Health Care: Concepts,
Methods, and Impact. Oxford: Oxford University Press; 2019.
2. Hemingway H, Croft P, Perel P, Hayden JA, Abrams K, Timmis A, et al. PROGRESS Group. Prognosis
research strategy (PROGRESS) 1: a framework for researching clinical outcomes. BMJ 2013;346:e5595.
3. Riley RD, Hayden JA, Steyerberg EW, Moons KG, Abrams K, Kyzas PA, et al. PROGRESS Group. Prog-
nosis Research Strategy (PROGRESS) 2: prognostic factor research. PLoS Med 2013;10(2):e1001380.
4. Steyerberg EW, Moons KG, van der Windt DA, Hayden JA, Perel P, Schroter S, et al. PROGRESS
Group. Prognosis Research Strategy (PROGRESS) 3: prognostic model research. PLoS Med
2013;10(2):e1001381.
5. Hingorani AD, Windt DA, Riley RD, Abrams K, Moons KG, Steyerberg EW, et al. PROGRESS Group.
Prognosis research strategy (PROGRESS) 4: stratified medicine research. BMJ 2013;346:e5793.
6. Riley RD, Moons KGM, Snell KIE, Ensor J, Hooft L, Altman DG, et al. A guide to systematic review
and meta-analysis of prognostic factor studies. BMJ 2019;364:k4597.
7. Geersing GJ, Bouwmeester W, Zuithoff P, Spijker R, Leeflang M, Moons KG. Search filters for finding
prognostic and diagnostic prediction studies in Medline to enhance systematic reviews. PloS One
2012;7(2):e32844.
8. Moons KG, de Groot JA, Bouwmeester W, Vergouwe Y, Mallett S, Altman DG, et al. Critical appraisal
and data extraction for systematic reviews of prediction modelling studies: the CHARMS checklist. PLoS
Med 2014;11(10):e1001744.
9. Hayden JA, van der Windt DA, Cartwright JL, et al. Assessing bias in studies of prognostic factors. Ann
Intern Med 2013;158(4):280-6.
10. DerSimonian R, Laird N. Meta-analysis in clinical trials. Control Clin Trials 1986;7(3):177-88.
11. Hartung J, Knapp G. A refined method for the meta-analysis of controlled clinical trials with binary
outcome. Stat Med 2001;20(24):3875-89.
12. Röver C, Knapp G, Friede T. Hartung-Knapp-Sidik-Jonkman approach and its modification for random-
effects meta-analysis with few studies. BMC 2015;15:99.
13. Guyatt GH, Oxman AD, Vist GE, Kunz R, Falck-Ytter Y, Alonso-Coello P, et al. GRADE: an emerging
consensus on rating quality of evidence and strength of recommendations. BMJ 2008;336(7650):924-6.

Maldonado M, Fernández-Félix BM, Cabello JB. Lectura crítica de revisiones sistemáticas de estudios de
pronóstico o riesgo. En: Cabello Juan B, editor. Lectura crítica de la evidencia clínica, 2.ª ed. Barcelona:
Elsevier; 2022. p. 182-195.

C A P Í T U L O 16
Lectura crítica de evaluaciones
económicas en salud
Ana Ortega Eslava ■ M.a Dolores Fraga Fuentes ■ Eduardo López Briz
• Definir los tipos de estudios de evaluación económica.

• Justificar su importancia para evaluar la eficiencia de las intervenciones sanitarias.
• Resumir los términos clave para evaluar la validez de un estudio de evaluación
económica en el ámbito de la salud.
• Presentar los criterios que definen esa validez y sus consecuencias sobre la estimación
de la eficiencia de la intervención.
• Interpretar los resultados de los estudios de evaluación económica en términos
de la eficiencia de la intervención y de su relevancia.
Introducción
La evaluación económica de las intervenciones sanitarias puede ser definida como el análisis
comparativo de los cursos alternativos de acción en función de sus costes y de sus consecuencias para
la salud (1). Parece evidente por tanto que una evaluación económica completa incluye comparar
varias alternativas, aunque una de ellas sea no hacer nada, y comparar costes y efectos sobre la salud
de todas las consideradas. Aunque mirada con cierta suspicacia por los clínicos y por los ciudadanos
en general, la evaluación económica en salud proporciona extraordinarias herramientas para
comparar entre alternativas, para ser eficientes, es decir, para determinar cómo obtener el máximo
beneficio en salud de los recursos disponibles, con el objetivo último de maximizar la salud. Es un
reduccionismo tendencioso convertir el análisis de los programas de eficiencia de las intervenciones
sanitarias en sinónimo de recortes, y la evaluación económica debe ser vista como una forma
razonada y razonable de distribución de recursos que, por principio, son limitados. Claramente, y
aceptando esta limitación, hay que asumir que aquellos recursos empleados en una estrategia no
estarán disponibles para ser usados en otra, y se perderán los beneficios que se podían haber obtenido
destinando los recursos a esta última opción. A esto se lo conoce como coste de oportunidad, y los
clínicos tienen también la responsabilidad de hacer un uso eficiente de los recursos a su alcance.
Las raíces de la evaluación económica hay que buscarlas en la primera mitad del siglo xx de la
mano del economista italiano Pareto y de los británicos Kaldor y Hicks. Más tarde, hacia los años
sesenta y setenta, aparecen ya evaluaciones económicas desde la perspectiva del llamado «capital
humano» (o pérdida de productividad debida a la enfermedad), los análisis de coste-efectividad
y los trabajos pioneros de valoración de años de vida ajustados por calidad (AVAC) en los pro-
gramas de screening de la fenilcetonuria y del tratamiento de la hipertensión (2). Desde entonces,
la terminología y los métodos de la evaluación económica se han hecho muy familiares ya para la
toma de decisiones en el campo de la salud.

16. Lectura crítica de evaluaciones económicas en salud 197
Es cierto que antes de poner en marcha los análisis de evaluación económica deben estar claras
otras cuestiones previas: ¿puede funcionar la intervención, es decir, es eficaz?, ¿funciona, es decir,
es efectiva?, ¿el balance beneficio-riesgo es adecuado?, ¿puede llegar a las personas a las que va
destinada, es decir, está disponible, o lo que es lo mismo, se dispone de los recursos estructurales,
humanos y logísticos para poner la intervención en marcha, por ejemplo en el caso de un sistema
de cirugía robótica? Tras la determinación de estos aspectos previos e imprescindibles entra en
juego la economía de la salud para analizar costes y consecuencias, y ofrecer a los decisores el valor
económico del programa, considerando en todo momento que las inversiones en un programa
supondrán dejar de hacer inversiones en otros (coste de oportunidad).
A pesar de que la legislación ha recogido en España desde hace ya algunos años la necesidad de
la evaluación económica de medicamentos y otras tecnologías (3), firmemente defendida por algunos
colectivos de profesionales sanitarios y de economistas de la salud, existe un margen de mejora
tanto en su implantación como en su metodología y transparencia. Otros países (principalmente
el Reino Unido) tienen más claramente incorporada la evaluación económica de las intervenciones
como un estándar más en la evaluación de medicamentos, y parece que esto es ya la tendencia
internacional consolidada.
Por ello, y aunque tradicionalmente no ha figurado en los currículos académicos formativos de
los profesionales de la salud, el análisis crítico de la evaluación económica debe formar parte de
las habilidades del clínico para tomar decisiones en su práctica clínica. En las líneas que siguen
intentaremos mostrar que, al igual que se puede analizar críticamente un ensayo clínico sin saber
calcular matemáticamente la ubicua «p», es posible sacar conclusiones válidas para nuestro ejercicio
diario con la lectura crítica de los cada vez más abundantes estudios de evaluación económica.
Escenario
Tú eres un neumólogo junior (como se dice ahora, un A-4) de un hospital de tercer nivel que
es de referencia en tu comunidad autónoma en fibrosis pulmonar idiopática (FPI). Desde
que hiciste la residencia siempre te ha interesado el tema y has visto cómo se ha pasado de no tener
prácticamente tratamientos eficaces a disponer de dos fármacos con la indicación aprobada
por la Agencia Española de Medicamentos y Productos Sanitarios y financiada con criterios
específicos, pirfenidona y nintedanib. En el hospital estáis tratando algunos pacientes con
FPI y el jefe de servicio ha reestructurado el servicio tras tu llegada, asignándotelos a ti por
tu interés en el tema.
Tú conoces los ensayos clínicos de ambos fármacos, y sabes bien de su eficacia y de su
seguridad, pero has leído en el Informe de Posicionamiento Terapéutico (el IPT) que en la
selección de uno u otro medicamento «se tendrán en cuenta criterios de eficiencia». Sabes que
la eficiencia tiene que ver con aspectos de evaluación económica, y recuerdas que cuando eras
residente asististe a unos talleres con metodología CASPe acerca de la lectura crítica de estudios
de evaluación económica. Así que te decides a buscar un artículo sobre la eficiencia de nintedanib,
que encuentras fácilmente.
Rinciog C, Watkins M, Chang S, Maher TM, LeReun C, Esser D, et al. A Cost-Effectiveness
Analysis of Nintedanib in Idiopathic Pulmonary Fibrosis in the UK. PharmacoEconomics.
2017;35(4):479-491.
Desempolvas tus apuntes del taller y te decides a abordar la lectura crítica del artículo con el
fin de hacer una propuesta de protocolo, que considere criterios de eficiencia, que se deberá valorar
junto con otros profesionales en la comisión de farmacia y terapéutica en tu hospital.
Para ello, tras leer críticamente el artículo que has encontrado, responde a dos preguntas:
1. ¿Es eficiente utilizar nintedanib en lugar de pirfenidona o del mejor tratamiento de soporte
en el tratamiento de la FPI?
2. ¿Propondrás que nintedanib sea la primera elección de tratamiento de la FPI?


de evaluaciones económicas en salud
Los estudios de evaluación económica son de lectura poco amigable para los clínicos, generalmente
más acostumbrados a otro tipo de artículos y poco familiarizados con la terminología de la eco-
nomía de la salud. Por ello, parece necesario comentar y aclarar algunos elementos que aparecen
frecuentemente es este tipo de estudios y que ayudan a entenderlos.
TIPOS DE EVALUACIONES ECONÓMICAS

En todos los tipos de evaluaciones económicas la unidad de medida de los costes es la misma
(dinero), por lo que el tipo de evaluación realizada estará determinado, en gran medida, por el tipo
de resultado que los estudios desean incorporar.
Cuando las alternativas producen los mismos efectos sobre la salud, lo lógico es comparar sus costes
y elegir la alternativa de menor coste, lo cual se conoce como análisis de minimización de costes,
que implica demostrar primero la equivalencia entre las alternativas. Aunque en la práctica también
se utiliza este tipo de evaluación económica cuando no se han demostrado diferencias clínicamente
significativas entre las alternativas, considerando la incertidumbre en las posibles diferencias y las
consecuencias irreversibles en caso de no asumir diferencias cuando en realidad pudiera haberlas (4).
Sin embargo, es más frecuente que los tratamientos difieran en la eficacia o seguridad, y mientras
uno produce un determinado tamaño de efecto clínico (por ejemplo, mm de Hg disminuidos en el caso
de antihipertensivos, años de vida ganados en el caso de un tratamiento para el cáncer, etc.), el otro
produce otro determinado tamaño; en este caso resulta también intuitivo calcular cuál es el coste por
unidad clínica adicional obtenida con un tratamiento en lugar del otro, es decir, por mm de Hg dis-
minuido o por año de vida ganado. Este tipo de análisis se conoce como estudio de coste-efectividad.
Pero en las decisiones sobre la utilización de recursos sanitarios, en muchas ocasiones es necesario
comparar alternativas cuyos efectos sobre la salud han sido medidos en unidades diferentes, por
ejemplo, disminución de la tensión arterial en mm de Hg en antihipertensivos, disminución de la
sensación de dolor en una escala visual analógica, etc. ¿Cómo comparar pues la eficiencia de estos
tratamientos? Necesitamos una unidad de medida que sirva para los diferentes tratamientos y
englobe las consecuencias importantes para los pacientes, supervivencia y calidad de vida. Una de
las más utilizadas son los años de vida ajustados por calidad (AVAC, o QALY por sus siglas en
inglés). Los análisis de coste-efectividad en los que los efectos sobre la salud se expresan en AVAC
se conocen como estudios de coste-utilidad. Este tipo de estudios son los más recomendados.
Los AVAC se calculan como los años de vida multiplicados por un factor que representa la
calidad de vida llamado utilidad. Este valor de utilidad toma un valor de 0 (muerte) a 1 (mejor estado
de salud posible). Un rasgo importante de los AVAC es su carácter aditivo. Cuando un paciente pasa
por diferentes estados de salud con diferente calidad de vida, los AVAC totales vendrán dados por el
sumatorio de cada uno de los períodos temporales (expresado en años) multiplicado por la utilidad
de ese período (5). Esta unidad de medida no está exenta de limitaciones, pero por el momento
está considerada como la mejor aproximación disponible a una variable que recoja estos aspectos.
Por último, las evaluaciones económicas en las que tanto los costes como los efectos sobre la
salud se valoran en unidades monetarias se las conoce como estudios de coste-beneficio, pero son
menos utilizadas por la dificultad en valorar monetariamente los efectos sobre la salud.
En la tabla 16.1 se resumen las características de los principales tipos de evaluaciones económicas.
PERSPECTIVA
Es el punto de vista desde el que se realiza la evaluación económica. Las perspectivas más utilizadas son
la de la sociedad o la población, la del sistema sanitario, la del pagador del servicio, la de la institución

TABLA 16.1 ■ Tipos de evaluaciones económicas

Tipo Unidad Unidad
de evaluación de los de los efectos
económica costes sobre la salud Fortalezas Observaciones
Minimización € Los efectos Requiere menos La equivalencia

de costes sobre la salud datos terapéutica entre
son iguales las alternativas
o equivalentes debe estar definida
entre las
alternativas
Coste-efectividad € Unidades de Relaciona los El coste por unidad

efectividad costes del de efectividad
o unidades tratamiento (coste-efectividad
clínicas con la eficacia incremental)
habituales, terapéutica puede ser difícil
por ejemplo, según los de interpretar.
años de vida, resultados Las comparaciones
porcentaje de salud entre poblaciones
de pacientes que están y enfermedades
que responden, disponibles, no son posibles.
valor en una por ejemplo, Los resultados de
escala, número en los ensayos eficacia es posible
de días libres de clínicos que no capturen
síntomas, etc. todos los resultados
relevantes en salud
Solo utilizan una
medida de
resultado. Si se
utiliza más de una
medida, se considera
un análisis de
coste-consecuencias
Coste-utilidad € Supervivencia La medida de Este análisis requiere

corregida efectos sobre la mayor cantidad
por calidad la salud (p. ej., de datos de
de vida, por AVAC) mide todos los tipos
ejemplo, AVAC de manera de evaluación
(años de vida integral todos económica
ajustados los efectos Es posible que
por calidad) sobre la se requieran
salud de las suposiciones,

diferentes extrapolaciones
enfermedades, o modelos
lo que
facilita la
comparación
Coste-beneficio € € Acorde Útil para asignación

con la teoría de recursos
económica a nivel macro.
Poco utilizada
por la dificultad
en asignar valor
monetario a los
diferentes resultados
en salud

que provee el servicio (p. ej., el hospital), la del paciente, etc. Lógicamente, la perspectiva seleccionada
influye especialmente y de manera muy marcada en los costes que se incluyen en la evaluación.
En general, la perspectiva recomendada es la de la sociedad, ya que es la más amplia y la que
incluye mayor número de costes. Por ejemplo, incluye costes asociados con la pérdida de pro-
ductividad, costes asociados a la rehabilitación funcional (p. ej., los recursos dedicados al apoyo a
pacientes ciegos tras una enfermedad degenerativa) o los costes para el paciente (p. ej., cuidadores),
además de los costes para el sistema sanitario. Lo recomendable es dar diferenciados los resultados
desde el punto de vista de la sociedad y también desde la perspectiva del sistema sanitario. En la
práctica, lo más frecuente es utilizar la perspectiva del sistema sanitario (5), pero en las patologías
con unos costes elevados para el paciente, como en las enfermedades degenerativas, sería importante
considerar estos también, y realizar el análisis desde la perspectiva de la sociedad.
HORIZONTE TEMPORAL
El horizonte temporal del análisis se refiere al tiempo a lo largo del cual se van a incluir los efectos
de los tratamientos. Puede ser muy corto (por ejemplo, para procesos agudos sin consecuencias
posteriores) o toda la vida del paciente, como se hace en procesos crónicos y/o con consecuen-
cias mortales como el cáncer, la hepatitis, etc.
Es importante que el horizonte temporal escogido englobe todas las consecuencias importantes
y diferenciales entre las alternativas que se están comparando, aunque en ocasiones se limita por
la disponibilidad de los datos o la posibilidad de la estimación de los efectos futuros. Por ejemplo,
no sería adecuado utilizar el horizonte temporal de un ensayo clínico al evaluar medicamentos
para la degeneración macular, sino que habría que considerar toda la vida del paciente, ya que las
consecuencias, por ejemplo, la ceguera, perduran.
La elección de horizontes temporales diferentes puede llevar a resultados muy diferentes en la
evaluación económica.
SELECCIÓN DEL COMPARADOR

De manera similar a lo que ocurre con los ensayos clínicos, este es un aspecto clave en cualquier
evaluación económica. El comparador puede ser un tratamiento que se utilice para esa misma
indicación, la práctica clínica habitual, no hacer nada, el tratamiento más eficiente entre los que
existen, etc. Para poder aplicar los resultados de una evaluación económica a la práctica clínica es
importante que el comparador sea aquel que se utiliza en esta.
DIFERENCIA EN EFICACIA, EFECTIVIDAD Y SEGURIDAD

ENTRE LAS ALTERNATIVAS
La diferencia en eficacia, o mejor en efectividad (efecto en condiciones reales de uso), entre las
alternativas ha de ser valorada con cuidado. Esta información ha podido ser obtenida de ensayos
clínicos, revisiones sistemáticas, comparaciones indirectas, metaanálisis en red, etc. La lectura crítica
de esta información, de acuerdo con lo visto en otros capítulos de este libro, es crucial. Es necesario
valorar el beneficio clínico incremental en términos absolutos (por ejemplo, que con un tratamiento
los pacientes viven 3 años más), y no solo en términos relativos (por ejemplo, que un tratamien-
to aumenta la supervivencia un 12%), analizar la incertidumbre en el resultado (mediante, por ejemplo,
el intervalo de confianza de la estimación), y determinar no solo si las diferencias entre alternativas
son estadísticamente significativas, sino también si son clínicamente importantes.
Con frecuencia se requiere información que no está disponible en un único estudio o es necesario
realizar extrapolaciones de resultados a un horizonte temporal más amplio que los ensayos clínicos
para analizar todas las consecuencias importantes. Ello requiere realizar suposiciones o utilizar
modelos. Analizar críticamente estas asunciones y su plausibilidad biológica es importante, ya que

influyen en los resultados que después se obtengan de la evaluación económica. Cuando existe
incertidumbre o se realizan asunciones hay que analizar el efecto de estas en los resultados, lo cual
veremos más adelante en el análisis de sensibilidad.
Si la variable de efectividad que se utiliza en el análisis no es una variable final, como son la
supervivencia o la supervivencia corregida por calidad de vida, y se utilizan variables intermedias o
subrogadas (como el porcentaje de pacientes que responden, la supervivencia libre de progresión,
etc.), es necesario conocer la relación entre estas y las variables finales.
Finalmente, si el grupo de población de interés corresponde con un subgrupo de pacientes
determinado, la efectividad tiene que haberse medido en ese subgrupo de forma adecuada, con un
ensayo independiente o con un análisis de subgrupos adecuado.
MODELOS
Un modelo es una representación de la realidad (v. capítulo 20). Los modelos en evaluación econó-
mica son una particularidad de los modelos de decisión y tratan de aproximarse a la evolución de
las enfermedades, las condiciones habituales de uso de las intervenciones (medicamentos, cirugía,
etc.) y sus alternativas en el mundo real, con objeto de determinar y evaluar las consecuencias del
empleo de los medicamentos o intervenciones diversas. Pueden servir para deducir datos esperados
de recursos o efectos sobre la salud (bajo condiciones de incertidumbre).
Existen diferentes tipos de modelos, pero entre los más utilizados figuran los árboles de deci-
sión y los modelos de Markov. Los modelos de Markov representan el curso de la enfermedad
mediante diferentes estados de salud (reversibles o no) entre los cuales «transicionan» los pacientes.
Son particularmente útiles en enfermedades crónicas o con estados recurrentes. Los diferentes
tratamientos se diferenciarán en la probabilidad de «transicionar» entre los diferentes estados de
salud, por ejemplo, en pasar de un estado menos grave a uno más grave o de fallecer. Cada estado
de salud, además, suele tener asociados unos costes y una calidad de vida diferentes.
Se dispone de diferentes listas-guía para valorar la calidad de los modelos en evaluación eco-
nómica (6). Cuando valoramos la calidad de un modelo es importante contrastar que representa
de la mejor forma posible la realidad, que las asunciones tomadas las compartimos y que los datos
introducidos en el mismo son adecuados.
TIPOS DE COSTES
Los costes que se deben incluir, como se ha comentado, dependen de la perspectiva del análisis
(tabla 16.2). En la evaluación económica deben estar incluidos todos los costes relevantes y diferen-
ciales entre las alternativas, recogiendo de forma separada la cantidad de recursos consumidos y los
costes unitarios. Es importante que ambos se den de forma diferenciada, ya que es más frecuente la
similitud entre los recursos consumidos entre países con sistemas sanitarios similares que la de los
costes unitarios, de mucha mayor variabilidad. Por ello es importante conocer el desglose de estos
para poder aplicar una evaluación económica a nuestro entorno, valorando la similitud de ambos,
recursos consumidos y costes unitarios, con los datos de nuestro ámbito.
En la aplicación de la evaluación económica a un entorno es necesario conocer los costes reales
de las intervenciones, ya que en ocasiones los costes públicos de, por ejemplo, los medicamentos
(a precio notificado) no corresponden con los costes reales (a precio financiado), y estas diferencias,
muy notables a veces, pueden influir en la decisión de posicionamiento de los medicamentos.
TASAS DE DESCUENTO
La elección de un horizonte temporal superior a 1 año hace que sea necesario utilizar la llamada
tasa de descuento, medida que permite expresar los valores futuros en su valor equivalente del

TABLA 16.2 ■ Tipos de costes en evaluaciones económicas

Costes de la intervención
Perspectiva de la sociedad
Perspectiva del financiador público Perspectiva del paciente
Perspectiva
del proveedor
o financiador sanitario
Costes directos
Costes directos
no sanitarios
financiados Costes directos Pérdidas de
Costes directos sanitarios públicamente para el paciente productividad laboral
Atención sanitaria: Cuidados • Copagos Costes en que incurre

• Atención primaria profesionales: • Seguros privados el paciente/sociedad:
• Atención especializada • Cuidados • Atención sanitaria • Por mortalidad
• Enfermería personales privada prematura
• Servicios de urgencia formales • Material sanitario • Por morbilidad
• Hospital de día • Servicios • Transporte privado (incapacidad,
• Atención sanitaria sociosanitarios al centro sanitario absentismo,
domiciliaria • Cuidados presentismo,
• Otros servicios sanitarios profesionales jubilación anticipada)
Medicación • Cuidados • Subsidios
Hospitalizaciones personales por enfermedad*
Pruebas diagnósticas informales
Transporte medicalizado • Adaptación de
infraestructuras
*Los subsidios por enfermedad se considerarán desde la perspectiva del financiador público.
momento actual. Desde un punto de vista más relacionado con la teoría de la toma de decisiones,
Tversky y Kahneman demostraron que las personas tienen preferencia por una ganancia actual
frente a otra mayor futura (7). Y, por otro lado, todos preferimos posponer los costes. Ambos
aspectos quedan reflejados mediante la aplicación de la tasa de descuento. La tasa de descuento
debe aplicarse tanto a costes como a resultados para poder comparar costes y efectos que ocurren
en diferentes momentos en el tiempo. Aunque no hay un consenso total, usualmente se emplea
una tasa comprendida en torno al 3 y el 5%, se recomienda revisar este valor cada 5 años por si se
hubieran producido cambios en la economía del país (8) y analizar en el análisis de sensibilidad el
efecto de elegir una u otra tasa de descuento o de no aplicarla.
EXPRESIÓN DE RESULTADOS Y ANÁLISIS INCREMENTAL

El resultado de interés en las evaluaciones económicas es el análisis incremental o razón coste-
efectividad incremental (RCEI), calculado como la diferencia de costes de las alternativas dividido
por la diferencia de efectos sobre la salud de las mismas, y que representa cuánto cuesta proporcionar
una unidad de efectividad adicional al utilizar una alternativa en lugar de la otra (cuadro 16.1). Por
ejemplo, y como se analiza en el estudio que hemos escogido para la lectura crítica, cuánto cuesta
cada AVAC más que ganan los pacientes si se usa nintedanib en lugar de pirfenidona.

CUADRO 16.1 ■ Cálculo e interpretación de la razón coste-efectividad

incremental (RCEI)
¿Cómo se calcula e interpreta la razón o ratio coste-efectividad incremental (RCEI)?

Si CA = coste de la alternativa A; CB = coste de la alternativa B; EA = efectividad de la alternativa A,
y EB = efectividad de la alternativa B:
CA − CB
RCEI =
EA − EB
Ejemplo 1: si CA = 300 € por paciente y CB = 200 € por paciente, al tratamiento A responden el 35%
de los pacientes y al tratamiento B responden el 30% de los pacientes:
CA − CB 300 − 200
RCEI = = = 2.000 €
EA − EB 0,35 − 0,30
Si se utiliza A en lugar de B, costará 2.000 € obtener respuesta en un paciente más.
Ejemplo 2: si CA = 30.000 € por paciente y CB = 20.000 € por paciente, con A de media un paciente
vive 2,5 años de vida ajustados por calidad de vida (AVAC) y con B 2,3 AVAC:
CA − CB 30.000 − 20.000
RCEI = = = 50.000 €
EA − EB 2,5 − 2,3
Si se utiliza A en lugar de B, costará 50.000 € cada AVAC adicional ganado por los pacientes.
Figura 16.1 Plano coste-efectividad y su interpretación según el cuadrante. RCEI, razón coste-efectividad
incremental.
El plano coste-efectividad proporciona una vía de representación gráfica de los efectos y costes
incrementales y sus incertidumbres (fig. 16.1). Está representado por cuatro cuadrantes. El origen
del plano representa los costes y la efectividad del comparador frente al que se va comparar la nueva
alternativa (intervención). Los valores de los ejes horizontal y vertical son incrementales. En el
eje horizontal se recogen las diferencias en efectividad y en el eje vertical las diferencias de costes.

En función de cada cuadrante, la toma de decisiones es diferente. Por ejemplo, la situación que
permite conseguir maximizar la salud de la población a un coste más bajo es la del cuadrante sureste
(SE), alternativa más efectiva y menos costosa que el comparador, por lo que es una alternativa que
llamamos «dominante» (9).
Para ayudar a tomar decisiones sobre si es eficiente usar un fármaco u otro es necesario tener
definido cuánto se está dispuesto a pagar por un AVAC, valor que conocemos como umbral de
coste-efectividad. La mayor parte de los países no lo tienen explícitamente reconocido, y únicamente
en el Reino Unido, con su agencia NICE, es posible identificar un umbral que de manera general
se sitúa en 20.000-30.000 £ por AVAC (10). En España no está oficialmente establecido, pero
se manejan cifras en torno a 25.000-60.000 € por AVAC o incluso más bajas (5,11). El sentido
que tiene este umbral de coste-efectividad viene dado por el coste de oportunidad: si utilizáramos
intervenciones sanitarias con un coste por AVAC superior al umbral, esos recursos no estarían dis-
ponibles para otras intervenciones que proporcionarían más AVAC a los pacientes por el mismo
coste y la ganancia en AVAC no se maximizaría.
Finalmente, y aunque se escapa de los fines de estas líneas, debe considerarse también a la hora
de la toma de decisiones el impacto presupuestario que la intervención sanitaria va a producir en
el sistema sanitario, y si este se lo puede permitir.
Todas las evaluaciones económicas requieren utilizar datos, suposiciones, etc., que no conocemos
con absoluta seguridad y que, por lo tanto, están sujetos a incertidumbre. El análisis de sensibilidad
permite valorar el efecto de los supuestos iniciales en los resultados finales, haciendo variar estos
supuestos. Se debe decidir qué variables se analizarán, cuál será el grado de variación que puede
considerarse relevante y cómo de robustos o de sensibles a los cambios son los resultados finales.
Evidentemente, todas estas decisiones deben justificarse y apoyarse en datos objetivos (7).
El análisis de sensibilidad puede ser univariante (si se cambia el valor utilizado en la evaluación
económica para una única variable por otros posibles valores de esa variable, sin modificar los
valores de las demás variables, por ejemplo en lugar de utilizar un valor del 30% para la respuesta a
un tratamiento utilizar otros valores posibles, por ejemplo entre el 10 y el 40%; se pueden realizar
varios análisis de sensibilidad univariantes cambiando los valores de diferentes variables pero
de una en una, no varias variables a la vez) o multivariante (si se cambian los valores de varias
variables a la vez). Por otro lado, el análisis de sensibilidad puede ser determinístico (se cambia
el valor de las variables por valores puntuales, en el ejemplo anterior 30% por 10% o por 40%)
o probabilístico (se cambian los valores de las variables o parámetros por valores aleatorios, de
entre los posibles, de acuerdo a su probabilidad). Se recomienda en general realizar un análisis
multivariante probabilístico. El resultado de este análisis se suele representar en el plano coste-
efectividad como una nube de puntos de los posibles valores de diferencia de costes y diferencia
de efectividades entre alternativas (posibles valores de ratio coste-efectividad) calculados al
cambiar los valores de las diferentes variables o parámetros por sus posibles valores. Y se puede
ver y calcular qué probabilidad hay de que el resultado de coste-efectividad esté por debajo de
un valor, por ejemplo 30.000 €/AVAC, y por tanto qué probabilidad hay de que un tratamiento
sea coste-efectivo, lo que se puede representar mediante las curvas de aceptabilidad. Un ejemplo
de ambas representaciones del análisis de sensibilidad multivariante probabilístico y de curva de
aceptabilidad se puede ver en el artículo que se analiza a continuación. Pero no todas las variables
o escenarios de interés se pueden incluir siempre en el análisis de sensibilidad probabilístico. Es
importante analizar si los resultados o las decisiones cambian al cambiar los posibles valores de
las variables o parámetros, cuáles son las variables que hacen cambiar los resultados, que se valore
el efecto de todas las variables relevantes sobre las que hay incertidumbre y que se valore el efecto
de todos los escenarios relevantes.

Artículo
Rinciog C, Watkins M, Chang S, Maher TM, LeReun C, Esser D, et al. A Cost-Effectiveness
Analysis of Nintedanib in Idiopathic Pulmonary Fibrosis in the UK. PharmacoEconomics.
2017;35(4):479-491. Disponible en: https://link.springer.com/article/10.1007/s40273-016-0480-2.

En el cuadro 16.2 se muestra la plantilla CASPe contestada para este artículo concreto (12).
CUADRO 16.2 ■ Evaluación crítica del artículo propuesto (plantillas CASPe) (12)
A) ¿Es válida esta evaluación?

1. ¿Está bien definida Sí ✓ No sé No
la pregunta u objetivo Se trata de un análisis de coste-efectividad (en realidad, de coste-utilidad)
de la evaluación? en el que se comparan los costes y efectos de nintedanib frente a los
PISTA: la pregunta debe tratamientos disponibles en la actualidad (pirfenidona, N-acetilcisteína)
aclarar: y el mejor cuidado de soporte (MCS) en fibrosis pulmonar idiopática.
• Cuál es la perspectiva Se trata de una evaluación económica completa que compara varias
del análisis. opciones en cuanto a sus costes y efectos sobre la salud.
• Si es una evaluación La perspectiva del análisis es la del sistema de salud británico. Aunque se
económica completa dice que «The analysis was conducted from a UK NHS and Personal
(compara costes y efectos) Social Services perspective», en el análisis de costes solo aparecen
o incompleta. costes derivados de la atención sanitaria, pero debería haberse explicado
• Si se evalúa una sola opción qué tipo de servicios se incluyeron.
o se comparan varias El horizonte temporal escogido es el total de la vida de los pacientes,
alternativas. lo que parece adecuado.
• Cuál es el horizonte El artículo es una adaptación de la solicitud que el laboratorio presentó
temporal. a NICE y al Scottish Medicines Consortium para su aprobación
y financiación pública.
2. ¿Existe una descripción Sí No sé ✓ No
suficiente de todas las El artículo utiliza un modelo de Markov con diferentes estados de salud
alternativas posibles entre los que los pacientes transicionan: muerte, exacerbación aguda y
y sus consecuencias? progresión de la enfermedad definida como disminución de la función
PISTA: pulmonar (medida por el %CVF predicho). Los autores asumen que
• ¿Se define bien el árbol
pueden cambiar al estado «muerte» desde cualquier punto del modelo

de decisión (o equivalente) o cuando el %CVF predicho baja por debajo del 40%. La figura 1 del
de las actuaciones que se artículo podría presentar de forma más clara las probabilidades de
deben seguir? transición entre los estados.
• ¿Se describe la intervención La distribución inicial de pacientes en las distintas categorías de
o intervenciones, quién capacidad vital forzada (CVF) puede no ser correcta (online resource 1),
hará, a quién se aplica, ya que por encima del 80% no cabría iniciar tratamiento con
dónde y con qué frecuencia? nintedanib ni con pirfenidona, de acuerdo con las recomendaciones.
Ello supondría eliminar del modelo un 25,9% de pacientes.
No sabemos si este aspecto ha sido tenido en cuenta.
No parece constar tampoco cuándo interrumpir el tratamiento1.
Las intervenciones, aparecen descritas cuáles son y cómo se aplicarán,
a excepción del mejor cuidado de soporte.
Los comparadores son adecuados.
(Continúa)
¿Cómo se evalúan costes y consecuencias?

3. ¿Existen pruebas de Sí No sé ✓ No
la efectividad, La eficacia de los tratamientos se determinó basándose en los ensayos
de la intervención clínicos publicados con nintedanib, pirfenidona y N-acetilcisteína.
o del programa evaluado? En ausencia de comparaciones directas entre ellos, se llevó a cabo
PISTA: ex profeso un metaanálisis en red (MER) con un total de nueve
• La efectividad puede estudios para estimar de manera comparativa la supervivencia global,
probarse a partir de las exacerbaciones agudas, el decaimiento de la función pulmonar, la
ensayos clínicos, a partir supervivencia libre de progresión y la prueba de la distancia recorrida
de investigación de síntesis en 6 min (estas dos últimas no fueron consideradas en el análisis
(revisiones sistemáticas) final). Además, se analizaron dos tipos de eventos adversos (EA)
o a partir de otros tipos graves (cardíacos y gastrointestinales), y las tasas de interrupción del
de estudios. tratamiento debida a EA. Dado que el MER no está publicado, se hizo
• Frecuentemente, las ad hoc y no se basó en una revisión sistemática, su fiabilidad disminuye.
evaluaciones económicas Ninguno de los medicamentos fue mejor que placebo en supervivencia
han de integrar diversos global. En seguridad, y según el MER, nintedanib presentó más
tipos de conocimiento EA gastrointestinales que placebo y N-acetilcisteína más eventos
a partir de distintos tipos serios cardíacos. Nintedanib y pirfenidona fueron mejores que
de estudios. placebo en deterioro de la función pulmonar y nintedanib también
en exacerbaciones agudas (tabla 1 del artículo). Con respecto a la
comparación entre nintedanib y pirfenidona, no hubo diferencias de
eficacia, ni tampoco en los EA cardíacos ni en la tasa de interrupciones
totales, aunque sí en los EA gastrointestinales, en los que nintedanib fue
peor que pirfenidona (OR 3,96; IC 95% 1,18-14,51) (online resource 2).
Los datos de supervivencia fueron tomados de los ensayos de nintedanib
y pirfenidona, y tuvieron que realizar una extrapolación de la
supervivencia a un horizonte temporal mayor mediante modelos,
cuyos resultados contrastaron con datos de estudios observacionales.
Asumieron que las exacerbaciones agudas aumentaban el riesgo
de muerte con un HR de 1,4 por ciclo. El dato del riesgo de
exacerbaciones en MCS lo tomaron del riesgo estimado por el
investigador (no del comité independiente) del grupo del placebo
del ensayo INPULSIS. Los autores dicen que clínicos revisaron los
supuestos incluidos en su modelo, pero es importante que el lector
valore si reflejan la realidad.
Los autores señalan que los resultados de su MER son concordantes con
otros anteriormente publicados (online resource 2), aunque comentan
que la definición de exacerbación cambió entre los distintos estudios,
dificultando la comparación indirecta.

4. ¿Los efectos Sí ✓ No sé No
de la intervención Dado que se trata de un estudio de evaluación económica de coste-utilidad
(o intervenciones) se (o coste-efectividad, como se denomina en el título), los efectos de
identifican, se miden y la intervención se miden en términos de AVAC. Los autores recogen
se valoran o consideran (tabla 4 del artículo) las «utilidades» del modelo en función del %CVF
adecuadamente? predicho según el cuestionario EQ-5D, así como las «disutilidades»
PISTA: o decrementos de la calidad de vida por los EA, lo que en principio
• Los efectos pueden ser parece correcto.
simples (control adecuado de
la TA) o alternativamente
puede utilizarse lo que se
denomina el «constructo
efecto», que consiste en
agrupar varias medidas
del efecto en una sola;
posteriormente medirlo de
modo adecuado y realizar
un juicio de valor sobre su
calidad.
• Los efectos se miden en
unidades naturales (años
de vida), unidades más
complejas (años ajustados
por calidad, AVAC o QALY)
o traslaciones de estas
a unidades económicas.
5. ¿Los costes en Sí ✓ No sé No
que se incurre por Los costes considerados incluyeron los correspondientes a la adquisición
la intervención de los medicamentos, al tratamiento de los EA, a las pruebas de
(intervenciones) función hepática, al seguimiento convencional, al uso de oxígeno,
se identifican, se a los de la exacerbación aguda y a los cuidados paliativos en el final
miden y se valoran de la vida. Los costes unitarios fueron tomados del Servicio Nacional
adecuadamente? de Salud británico (tabla 4 del artículo).
PISTA: Consideraron los costes de nintedanib y pirfenidona como iguales (precio
• Habitualmente deben de lista 71,7 £/día; 79,6 €/día según cambio de agosto de 2020). En
identificarse los recursos España los precios son menores para ambos fármacos a precio de venta de
necesarios (medicamentos, laboratorio (PVL), con una diferencia de 1,69 €/día a favor de nintedanib.
personal, etc.), medirlos El resto de los costes considerados están descritos, referenciados y son
en unidades adecuadas y
razonables. El coste por ciclo de cuidados paliativos al final de la

calcular el precio de estas vida se describe en el texto como 3.921 £/ciclo, y en la tabla 4 figura
unidades. Idealmente se 2.560,84 £, sin especificar las causas de la diferencia. Esto debería
deben documentar estos haberse explicado y debería quedar clara la duración de los ciclos.
recursos por separado. Es frecuente (y deseable) en las evaluaciones económicas reseñar de
• Los costes se definen de manera separada los recursos consumidos y los costes unitarios de cada
diferentes modos (directos uno, de forma que el lector pueda saber si esos datos son similares a los
médicos o no, indirectos, suyos, a lo publicado, etc. En el artículo aparece (tabla 6) directamente
intangibles, etc.) y pueden el producto de coste por cantidad, sin que podamos conocer esta.
medirse o estimarse Aunque en el material suplementario 5 dan información relativa a
de diferentes modos. estos recursos, se podían haber presentado de forma más clara y tabulada
por alternativas para facilitar la valoración por el lector. Los recursos
consumidos fueron tomados del ensayo INPULSIS, y los recursos
incurridos en el contexto de un ensayo pueden diferir de los que se dan
en la práctica clínica, lo cual debe ser valorado por el lector.
(Continúa)
6. ¿Se aplican tasas de Sí ✓ No sé No

descuento a los costes Se aplicó una tasa de descuento del 3,5% anual tanto a los AVAC como
de la intervención/es? a los costes, con corrección de medio ciclo.
¿Y a los efectos?
7. ¿Cuáles son los Sí ✓ No sé No
resultados de la De acuerdo con los datos de la tabla 6, los costes fueron de 20.029,23 £
evaluación? (MCS), 80.474,37 £ (pirfenidona) y 78.350,71 £ (nintedanib). Los
PISTA: AVAC ganados fueron respectivamente de 3,0999, 3,4509 y 3,5013.
• Qué unidades usan Con respecto a la relación coste-efectividad incremental (RCEI):
(coste-año de vida, coste • Pirfenidona vs. MCS → 172.208 £.
QALY, beneficio neto). • Nintedanib vs. MCS → 145.310 £.
• Los resultados idealmente • Nintedanib vs. pirfenidona → nintedanib dominante (más AVAC
deben ser consecuencia de ganados, menor coste).
un análisis incremental: (La figura 4 no representa costes incrementales y AVAC/QALY
se relacionan los costes incrementales, sino valores de costes y de AVAC/QALY.)
incrementales (los generados Los autores afirman que nintedanib «domina» a pirfenidona, con costes
por el uso de una alternativa más bajos y más AVAC ganados, a expensas del menor número de
en vez de la otra) con los exacerbaciones de nintedanib vs. placebo que de pirfenidona vs.
efectos utilidades o beneficios. placebo (OR 0,56; IC 95% 0,35-0,89 vs. OR 1,10; IC 95% 0,43-2,85,
respectivamente). Este análisis no queda demasiado claro, ya que la
mayoría de los costes provienen de los costes de adquisición (aprox.
74%) de ambos fármacos y a pesar de que en la tabla 4 se asume el
mismo precio de lista para ambos (71,7 £/día) hay una diferencia en
la tabla 6 de 59.121,16 – 57.582,92 = 1.538,24 £, que no se explica.
Hablar de mayor eficacia de nintedanib frente a pirfenidona es algo
pretencioso.
Por otro lado, el coste por las exacerbaciones agudas es muy similar para
pirfenidona y nintedanib (1.486,63 £ y 1.127,31 £ respectivamente)
y eso no explica la diferencia de eficiencia. Esta diferencia habrá que
buscarla tal vez (no explicado por los autores) en la repercusión que
sobre los AVAC tienen las exacerbaciones, con un total de AVAC
de 3,4509 para pirfenidona y de 3,5013 para nintedanib, pero en estas
cifras hay evidentemente contribución de otras variables.
Finalmente, llama la atención que en el análisis de RCEI se tomen
en consideración las diferencias entre nintedanib y pirfenidona
consideradas aisladamente frente a placebo en las exacerbaciones
agudas para explicar las diferencias (tabla 1), cuando en el MER
(online resource 2) no se observan diferencias en la comparación de este
parámetro entre ambos fármacos (OR 0,51, IC 95% 0,18-1,46).

8. ¿Se realizó un Sí ✓ No sé No
análisis adecuado Se hizo un análisis de sensibilidad determinístico univariante de 14
de sensibilidad? escenarios diferentes con valores extremos definidos por los IC 95%
PISTA: de varios parámetros para comparar nintedanib con MCS (fig. 3).
• Es decir, cuánto cambiaría El modelo fue sensible a las probabilidades de mortalidad y a las
el resultado si en un exacerbaciones.
modelo cambiamos variables Además (online resource 8) se llevaron a cabo otros análisis adicionales.
relacionadas con los costes o Para la comparación de nintedanib con pirfenidona los resultados
con la efectividad o con otras fueron sensibles a la mortalidad, las exacerbaciones agudas, con
circunstancias de uso. resultados que variaban desde situación de nintedanib dominante
• ¿Cambiaron todas las hasta situación de valores de RCEI por encima de 100.000 £/AVAC.
variables sobre las que También al momento de suspensión del tratamiento con pirfenidona.
existe una incertidumbre Como se ha comentado en la pregunta 2, uno de los análisis de
importante? sensibilidad incluyó los costes y beneficios en términos de AVAC si la
población que se tratara fuera la que tuviera un %CVF predicho entre
80 y 50%, con interrupción del tratamiento por debajo de esta última
cifra. En ambos supuestos, nintedanib es dominante con respecto
a pirfenidona de acuerdo con los autores.
También realizaron un análisis de sensibilidad probabilístico
multivariante. El scatter plot hecho con 1.000 simulaciones (fig. 4)
muestra que las nubes de nintedanib y pirfenidona se solapan casi
completamente entre ellas, y se sitúan por encima de MCS en costes
incrementales para toda ganancia de AVAC. Y en la figura 5 se muestra
cómo la terapia más coste-efectiva si estamos dispuestos a pagar menos
de 140.000 €/AVAC es el MCS, y la probabilidad de nintedanib de ser
coste-efectivo, si estamos dispuestos a pagar más que esta cantidad,
es menor del 60%.
C) ¿Ayudarán los resultados a la compra o implantación de servicios para nuestra población
o nuestros pacientes?
9. ¿Sería el programa Sí No sé ✓ No
igualmente efectivo En principio, la efectividad del programa debería ser similar. En España
en tu medio? se restringió la indicación a la población de los ensayos clínicos donde
PISTA: considera si la se había mostrado mayor beneficio: «FPI leve-moderada, con solicitud
perspectiva utilizada para trasplante pulmonar o no candidatos al mismo, patrón no
es la adecuada y aplicable obstructivo ni borderline –con una razón FEV1/CVF superior a 0,8–,
a tu contexto. y DLCO predicho de 35-90%»2.
Puesto que el artículo hace la evaluación económica principalmente
de nintedanib frente a pirfenidona y MCS sobre el conjunto de la
población diagnosticada de FPI (no se consideran criterios de inicio

ni deparada), no podemos saber cómo quedaría en la población
restringida de pacientes indicada en el párrafo anterior. Cabe deducir
que, al disminuir los costes (porque en España son menores) y mejorar
los AVAC ganados (dado que se usaría en la población con mayor
beneficio), la RCEI será menor, pero seguiría sin ser coste-efectiva
para la mayor parte de los umbrales de coste-efectividad.
Si nintedanib y pirfenidona son equivalentes desde el punto de vista de la
eficacia y la seguridad (como se desprende del MER en Online resource 2),
en la práctica se podría hacer un análisis de minimización de costes.
La perspectiva es la adecuada para la resolución del escenario, sin
perjuicio de que puedan llevarse a cabo otras evaluaciones económicas
con perspectiva social.
(Continúa)

10. ¿Serían los costes Sí No sé ✓ No

trasladables a tu medio? Otros estudios publicados trasladados a Francia (13) y Bélgica (14)
mostraron resultados prácticamente superponibles, aunque usaron
el mismo modelo adaptado a los costes del país. Otra evaluación
económica hecha en Francia, pero con un modelo diferente, en el
que pirfenidona presentaba menos costes de adquisición y mayor
cantidad de AVAC ganados, concluía que pirfenidona era dominante
sobre nintedanib (15). Parece por tanto que el modelo es muy sensible
a los costes de adquisición de los fármacos y la estimación de ganancia
de AVAC, y que existe elevada incertidumbre en la valoración.
Las diferencias entre los costes de adquisición de pirfenidona y nintedanib
son bastante relevantes. Un artículo de 2016 (16) hecho en España
analizaba los costes de la FPI con un horizonte anual (recuérdese
que en el artículo el horizonte es vida entera) y daba datos de coste
de cuidados paliativos de 488,07 €/año (2.560,84 £ por ciclo en el
artículo), y unos costes totales medios según gravedad de la enfermedad
de 26.435,1 €/año (entre 20.029,3 £ y 80.474,37 £ en el artículo).
11. ¿Vale la pena aplicarlos Sí No sé ✓ No
a tu medio? Algunas incertidumbres acerca de la aplicación del modelo (p. ej.,
la aplicación universal en lugar de la restringida a ciertos subgrupos
de pacientes, el modelo basado en un MER de dudosa fiabilidad, las
diferencias con los costes en nuestro medio, el no dar información
detallada de los recursos consumidos, etc.) hacen que sea difícil
aplicarlo a nuestro medio y tomar una decisión basada en los datos
que aporta el artículo. Aunque en la población incluida en el artículo
es bastante probable que el uso de nintedanib no sea coste-efectivo,
tampoco en nuestro medio de acuerdo al análisis de sensibilidad.
1
Algunas guías (la de NICE para pirfenidona, por ejemplo https://www.nice.org.uk/guidance/TA504/
chapter/1-Recommendations) recomiendan interrumpir el tratamiento con el fármaco cuando el
%CVF predicho se reduce un 10% o más en períodos anuales.
2
Disponible en: https://www.aemps.gob.es/medicamentosUsoHumano/informesPublicos/docs/
IPT-nintedanib-Ofev.pdf.
Resolución del escenario

El artículo comentado puede ser calificado globalmente como de buena calidad. Se trata de la
adaptación para ser publicada en una revista de la evaluación económica que se presentó en el Reino
Unido con objeto de conseguir la financiación por parte del sistema de salud. Finalmente, esta
financiación se consiguió tras limitar las indicaciones (inicio en pacientes con %CVF predicho entre
50-80% e interrupción si este disminuía más de un 10% en 1 año) y conseguir rebajas en el precio
mediante lo que los británicos denominan un patient access scheme (PAS) confidencial, es decir, un
precio de financiación diferente al precio públicamente conocido. Este sistema es similar al español,
donde disponemos también de precio notificado (público) y precio financiado (confidencial) para
ciertos medicamentos de alto impacto económico y social.
Es difícil aplicar los resultados del artículo a un medio diferente al británico, ya que, como
se ha visto, el resultado de la comparación entre nintedanib y pirfenidona es muy sensible al
coste de ambos, se carece de ensayos clínicos de comparación directa entre ambos fármacos y,
en consecuencia, existe una importante incertidumbre acerca de sus eficacias relativas. Si, como
parecen indicar los distintos metaanálisis en red, la eficacia de nintedanib y pirfenidona cuando se

comparan de manera indirecta es similar, en la práctica cabría pensar en un análisis económico del
tipo de minimización de costes para escoger la alternativa de menor coste, y no en un coste-utilidad
como el del artículo. En cuanto a la comparación frente al mejor cuidado de soporte (MCS), el
resultado indica que nintedanib proporcionaría más AVAC a los pacientes que este, pero a un
coste muy elevado, y no sería coste-efectivo con los datos del estudio y probablemente tampoco
si utilizáramos los costes en España. Además, el resultado es muy sensible a la estimación de la
supervivencia, sobre la que existe mucha incertidumbre. Por ello, para poder recomendar el uso
en nuestro entorno en lugar del MCS sería necesario disponer de más información respecto a los
resultados a largo plazo, en especial en mortalidad, elegir los pacientes que más se beneficien y
una reducción en el coste.
Aunque los clínicos están cada vez más familiarizados con la terminología y la metodología de
la evaluación económica de las intervenciones sanitarias, ciertos aspectos constituyen todavía (tal
vez deliberadamente) arcanos insondables para los profanos. Sin embargo, las principales cuestiones
necesarias para evaluar críticamente un artículo de este tipo pueden responderse con plantillas de
lectura crítica como la que aquí hemos propuesto.
Por tanto, y de acuerdo con la lectura crítica del artículo de Rinciog et al. que has hecho, no parece
muy claro que nintedanib sea más eficiente que pirfenidona en el tratamiento de la FPI, y el uso de
cualquiera de ellos frente al MCS vendrá condicionado por una reducción del coste, los resultados a
largo plazo y la selección de los pacientes que más se beneficien para que su uso sea coste-efectivo.
Bibliografía
1. Drummond MF, Stoddart GL, Torrance GW. Methods for the economic evaluation of health care pro-
grammes. Oxford: Oxford University Press; 1996.
2. Blumenschein K, Johannesson M. Economic evaluation in healthcare. A brief history and future direc-
tions. PharmacoEconomics 1996;10(2):114-22.
3. Ley 29/2006, de 26 de julio, de garantías y uso racional de los medicamentos y productos sanitarios. BOE
núm. 178 de 27 de julio de 2006.
4. Alegre del Rey EJ, Fénix Caballero S, Castaño Lara R, Sierra García F. Evaluación y posicionamiento de
medicamentos como alternativas terapéuticas equivalentes. Med Clin (Barc) 2014;143(2):85-90.
5. Ortega Eslava A, Marín Gil R, Fraga Fuentes MD, López-Briz E, Puigventós Latorre F (GENESIS-
SEFH). Guía de evaluación económica e impacto presupuestario en los informes de evaluación de
medicamentos. Guía práctica asociada al programa MADRE v4.0. Madrid: SEFH; 2016. Disponible en:
http://gruposdetrabajo.sefh.es/genesis.
6. Philips Z, Ginnelly L, Sculpher M, Claxton K, Golder S, Riemsma R, et al. Review guidelines for
good practice in decision-analytic modelling in health technology assessment. Health Technol Assess
2004;8(36):1-158.
7. Kahneman D, Tversky A. Prospect Theory: an analysis of decision under risk. Econometrica 1979;47(2):263-92.
8. Prieto L, Sacristán JA, Pinto JL, Badia X, Antoñanzas F. del Llano J por el grupo ECOMED. Análisis
de costes y resultados en la evaluación económica de las intervenciones sanitarias. Med Clin (Barc)
2004;122(11):423-9.
9. Ortega Eslava A, Fraga Fuentes MD. Farmacia Hospitalaria y Farmacoeconomía. 100 preguntas más
frecuentes. Madrid: EDIMSA; 2014.
10. McCabe C, Claxton K, Culyer AJ. The NICE cost-effectiveness threshold: what it is and what that means.
Pharmacoeconomics 2008;26(9):733-44.
11. Sacristán JA, Oliva J, Campillo-Artero C, Puig-Junoy J, Pinto-Prades JL, Dilla T, et al. ¿Qué es una
intervención sanitaria eficiente en España en 2020? Gac Sanit 2020;34(2):189-93.
12. Cabello JB por CASPe. Plantilla para ayudarte a entender una Evaluación Económica. En: CASPe. Guías
CASPe de Lectura Crítica de la Literatura Médica. Alicante: CASPe; 2005.
13. Porte F, Cottin V, Catella L, Luciani L, Le Lay K, Bénard S. Health economic evaluation in idiopathic
pulmonary fibrosis in France. Curr Med Res Opin 2018;34(10):1731-40.
14. Rinciog C, Diamantopoulos A, Gentilini A, Bondue B, Dahlqvist C, Froidure A, et al. Cost-Effectiveness
Analysis of Nintedanib Versus Pirfenidone in Idiopathic Pulmonary Fibrosis in Belgium. Pharmacoecon
Open 2020;4(3):449-58.

15. Clay E, Cristeau O, Chafaie R, Pinta A, Mazaleyrat B, Cottin V. Cost-effectiveness of pirfenidone

compared to all available strategies for the treatment of idiopathic pulmonary fibrosis in France. J Mark
Access Health Policy 2019;7(1):1626171.
16. Morell F, Esser D, Lim J, Stowasser S, Villacampa A, Nieves D, et al. Treatment patterns, resource use and
costs of idiopathic pulmonary fibrosis in Spain – results of a Delphi Panel. BMC Pulm Med 2016;16:7.
Disponible en: https://doi.org/10.1186/s12890-016-0168-6.

Ortega A, Fraga MD, López E. Lectura crítica de evaluaciones económicas en salud. En: Cabello Juan B, editor.

C A P Í T U L O 17
Calidad, confianza o certeza
en la evidencia
Juan Bautista Cabello López ■ Jaime Latour Pérez
• Comprender el concepto de calidad, confianza o certeza de un cuerpo de evidencia

según GRADE.
• Clarificar el concepto de certeza en sus diferentes niveles.
• Conocer la escala GRADE para medir la certeza en la evidencia.
• Señalar algunas de las características esenciales de la metodología GRADE que son
relevantes para aplicación a la clínica y para elaborar las recomendaciones de las guías
de práctica clínica.
• Aprender los fundamentos del proceso de valoración de la calidad de la evidencia.
Introducción
Las preguntas PICO son la unidad básica para estructurar el conocimiento clínico e inspiran la
estructura de los diferentes tipos de estudio que son adecuados para producir ese conocimiento.
La evidencia clínica puede presentarse en diferentes documentos de evidencia, como vimos en el
capítulo 4 a propósito de la pirámide 5.0. Estos documentos se organizan en torno a una estructura
de preguntas PICO en unos casos como pregunta única (estudios primarios, sinopsis o revisiones
sistemáticas) y en otros se organizan como un catálogo de múltiples preguntas PICO, relacionadas
con las diferentes situaciones (diagnóstico, pronóstico, tratamiento, etc.) que plantean una condición
clínica particular. Este modo de organización es el usado en las «recomendaciones basadas en la
evidencia» (guías de práctica clínica) que señalábamos como tercer piso de la pirámide 5.0. Otros
sumarios de evidencia (por ejemplo, los libros electrónicos) se organizan de modo análogo en torno
a grupo de preguntas PICO de una condición clínica, aunque incorporan conocimiento preclínico.
Los diferentes documentos de evidencia pueden ofrecer en unos casos evidencia cruda o sin
evaluar y en otros ofrecen la evidencia previamente evaluada, es decir, que incorporan juicios de
valor sobre la calidad de la evidencia para las correspondientes preguntas PICO que incluyen en
los documentos.
En los casos en los que se muestra la evidencia cruda (estudios primarios) es necesario realizar su
lectura crítica para juzgar el valor de esa evidencia y decidir, en su caso, si aplicarla a la acción clínica
o juzgarla e incluirla en una revisión sistemática (es lo que hemos tratado en los capítulos del 5 al
10). En los casos en los que se ofrece la evidencia ya evaluada, para poder confiar en la calidad de
la evidencia contenida en esos documentos necesitamos saber qué criterios y qué procedimientos
usan las personas que juzgan la calidad de la evidencia y qué escala o método emplean para expresar
ese juicio de valor. Hemos tratado de esta situación en los capítulos del 11 al 16, y dedicaremos este
capítulo 17 a esa escala, esos procedimientos y esos criterios de juicio.
De modo análogo, cuando los documentos incluyen «recomendaciones para la práctica basada
en la evidencia», necesitamos saber qué criterios y procedimientos usan los grupos de personas
(paneles) que las formulan, para combinar las evidencias con otros valores individuales y colectivos,
y decidir sobre la dirección y la fuerza de esas recomendaciones. A esos criterios y procedimientos
para formular las recomendaciones para la práctica dedicaremos el capítulo 18.
Calidad, confianza o certeza en la evidencia

Por calidad de evidencia entendemos la confianza que tenemos en que la estimación del efecto
medida en el «cuerpo de evidencia» correspondiente a una pregunta PICO sea el auténtico (1). La
calidad de la evidencia es, por tanto, algo que se predica de todo un conjunto de estudios capaces
de contestar a una pregunta clínica PICO y no de un estudio individual.
El término «calidad de la evidencia» fue propuesto por GRADE en sus inicios, más adelante se
utilizó el de «confianza en la evidencia» y más recientemente plantea el uso preferente de certeza
o certidumbre en la evidencia (2). Los tres términos se refieren en realidad al mismo concepto,
aunque las palabras tienen matices diferentes.
Calidad es un constructo teórico que incluye otros elementos o componentes: por ejemplo, la
calidad de un ensayo clínico aleatorio (ECA) incluye la validez interna y externa, la calidad de la
escritura, la pertinencia del estudio, la corrección bioética e incluso las estrategias de difusión del
ECA. Además, la palabra tiene diferentes connotaciones prácticas en el contexto de las organi-
zaciones clínicas. Confianza, por su parte, tiene un matiz psicológico de percepción de seguridad,
pero sobre todo es una palabra fuertemente vinculada a los modos de expresar la precisión de las
estimaciones (intervalos de confianza). Certeza o certidumbre tiene un sentido más de racionalidad
y es la que se usa con preferencia en el libro. Aunque certeza y certidumbre son sinónimos, cuando
se usa en positivo certeza es más común, mientras que en negativo es más usado incertidumbre.
El concepto incorpora tres niveles distintos: el primero es el riesgo de sesgo, el segundo es la
propia certeza valorada en cuerpo de evidencia y el tercero es un matiz que relativiza el concepto
anterior según el contexto de decisión:
■ Riesgo de sesgo. Se refiere al riesgo de desviación de la estimación obtenida en el estudio res-
pecto de la correcta, es decir, al juicio de valor sobre la validez interna del estudio. Este juicio
ha de realizarse individualmente para cada uno de los desenlaces importantes, para cada uno de
los estudios incluidos en la revisión sistemática, para el conjunto de los estudios de la revisión
y para el método de combinación de los estudios. En el caso de las revisiones sistemáticas es
particularmente crítico que los juicios de valor sobre el riesgo de sesgo sean concordantes entre
los investigadores que juzgan los estudios. Por ello, para minimizar las discrepancias al juzgar
ese riesgo, se han desarrollado diferentes instrumentos según el tipo de estudios que incluya
la revisión sistemática, es decir, según el tipo de pregunta PICO que trate de contestar. Esos
instrumentos se han mencionado en capítulos previos y se resumirán más adelante.
■ Además de ese riesgo de sesgo de cada estudio y del grupo de estudios, el conjunto de
estudios nos ofrece una valiosa información grupal, sobre la que podemos juzgar la «certeza»
en ese cuerpo de evidencia entendida como la certeza que tenemos en que esa estimación
conjunta sea la realmente correcta (GRADE). Esa certeza en la evidencia tiene en cuenta el
riesgo de sesgo de los estudios de la revisión, y también valora otros aspectos del conjunto de
los estudios, tales como la «consistencia» de los resultados entre estudios, la «precisión»
de la estimación en los estudios y en el conjunto (medida por el intervalo de confianza), la
incorporación de «evidencias indirectas», o la posible existencia de «sesgo de publicación».
■ Elementos de contexto. Este concepto de certeza en la evidencia puede usarse, en un contexto
de investigación, como si fuera un elemento intrínseco vinculado a las características de la

evidencia disponible (es decir, epistemológico), de este modo lo hacemos por ejemplo en
una revisión sistemática. Pero también puede usarse en el momento de la elaboración de

17. Calidad, confianza o certeza en la evidencia 215
recomendaciones de una guía de práctica clínica, con escenarios para grupos amplios de
pacientes, o también en el contexto de la práctica clínica con los riesgos, valores y preferencias
del paciente en un escenario concreto y bien definido (2,3). Y hoy sabemos que la calidad de
la evidencia varía con el contexto. En estos casos la certeza nos parecerá alta, moderada, baja
o muy baja dependiendo de los factores antes mencionados y de las decisiones que debamos
tomar (riesgos, alternativas, costes, aceptabilidad, etc.). Habrá decisiones que por su contexto
no precisen de una seguridad o certeza en la evidencia muy alta, y otras, en cambio, que exijan
una alta certeza para tomarlas. Por ejemplo, un tratamiento que ofrece una reducción absoluta
de la mortalidad del 1% en una revisión sistemática con estudios adecuados y estimación
poco precisa pero consistente, con apenas efectos secundarios y precio relativamente barato,
en un país desarrollado, puede calificarse de certeza moderada en que ese efecto justifica esa
decisión. Sin embargo, la misma evidencia en un país en desarrollo podría no ser suficiente.
Otro ejemplo sería el caso de un paciente con fibrilación auricular no valvular en el que
podríamos generar con el paciente un umbral a partir del cual una decisión es preferible.
Exploraríamos las preferencias sobre cuánta protección (disminución del riesgo de ictus res-
pecto de su riesgo basal) necesitaría para aceptar los efectos desfavorables de la anticoagulación
(sangrados, cambio de vida, visitas analíticas, etc., también adaptado a sus riesgos basales
para estos eventos). Si la intensidad del efecto preventivo se encuentra por muy encima de
ese umbral, nos bastaría una certeza en la evidencia moderada para elegir anticoagulación;
en cambio, si se encuentra cerca del umbral, necesitaríamos una alta certeza para elegirla.
En suma, podemos decir que la certeza en la evidencia significa, en el caso de las revisiones
sistemáticas (escenario poco contextualizado), en qué medida estamos seguros de que un efecto
estimado es correcto considerando todo el conjunto de los aspectos del cuerpo de evidencia. En el
caso de las guías de práctica clínica o de la clínica (escenario claramente contextualizado) significa
en qué medida un efecto estimado en un cuerpo de evidencia ofrece certeza suficiente para justificar
una recomendación (en dirección y fuerza) o una decisión clínica determinada.
Escala GRADE de certeza en la evidencia

El interés por la jerarquización de la evidencia se inició en Canadá en 1979 (4). Desde entonces se
han usado múltiples instrumentos para este propósito, generando con ello una cierta dispersión y
una notoria confusión. Una revisión sistemática en 2002 ampliada en 2008 (5,6) identificó hasta
50 instrumentos diferentes usados para este fin, que, puntuados por los expertos metodólogos,
produjeron una destacada ventaja en las puntuaciones usadas en dos de ellos: GRADE (Grading of
Recommendations, Assessment, Development, and Evaluations) y SIGN (Scottish Intercollegiate
Guidelines Network). Finamente, el panel propuso usar el primero, y estimular su desarrollo y difu-
sión, tarea que actualmente continúa el grupo de trabajo GRADE (www.gradeworkinggroup.org).

El método ha sido adoptado por múltiples organizaciones productoras de evidencia o de guías
de práctica, de modo que su uso se ha extendido con extraordinaria rapidez.
Para expresar la certeza de la evidencia GRADE (1) propone una escala ordinal con cuatro
categorías decrecientes, que se representa con los símbolos o letras que se muestran en el cuadro 17.1
y cuyo significado describimos:
■ Alta certeza, A o ⊕⊕⊕⊕: significa que es poco probable que nuevos estudios cambien el
efecto estimado, es decir, confiamos bastante en esta estimación del efecto, es evidencia
prácticamente cerrada.
■ Moderada certeza, B o ⊕⊕⊕⊝ : aunque confiamos que nuestra estimación está cerca del
auténtico efecto, es posible que nuevos estudios puedan cambiar de modo sustancial la
estimación del efecto, es decir, aunque estamos relativamente seguros, aún es evidencia abierta.
■ Baja certeza, C o ⊕⊕⊝⊝: Creemos que el auténtico efecto puede ser muy distinto del que
hemos observado o, en términos de futuro, es probable que una nueva investigación tenga
gran impacto y cambie nuestra estimación de la evidencia.
CUADRO 17.1 ■ Escala GRADE para la certeza en la evidencia
Certeza en la evidencia
■ Alta certeza (⊕⊕⊕⊕ o A). Estamos seguros de que el efecto mostrado en los estudios refleja el
efecto real existente.

■ Moderada certeza (⊕⊕⊕⊝ o B). Estamos bastante seguros de que el efecto mostrado en los
estudios está cerca del auténtico efecto real.

■ Baja certeza (⊕⊕⊝⊝ o C). Creemos que el auténtico efecto puede diferir significativamente del
estimado en estos estudios.

■ Muy baja certeza (⊕⊝⊝⊝ o D). Es casi seguro que el auténtico efecto difiere del que ofrecen
estos estudios.
■ Muy baja certeza, D o ⊕⊝⊝⊝: estamos realmente inseguros sobre estos resultados o, de otro
modo, es casi seguro que una nueva investigación cambie por completo los resultados de la
estimación. Dicho en términos prácticos, carecemos de evidencia sólida.
Características esenciales de esta metodología

Las características de esta metodología son las siguientes.
FLEXIBLE
La metodología GRADE está orientada a elaborar documentos para ayudar a la decisión clínica
más que a jerarquizar epistemológicamente la evidencia. Como hemos comentado en capítulos
precedentes, las preguntas clínicas pueden ser de diferente naturaleza (pronóstico, diagnóstico,
tratamiento, organización, etc.), y ya sabemos que la naturaleza de la pregunta condiciona el tipo
de diseño de estudio necesario para su contestación óptima.
Los métodos de jerarquización de la evidencia tradicionales usan el diseño del estudio como el
criterio fundamental para calificar la evidencia (epistemológico), y por ello los ensayos aleatorios
(o revisiones sistemáticas de ECA) ocupan, en esos métodos, los puestos superiores de la jerarquía. Sin
embargo, es obvio que para preguntas de riesgo, pronóstico, exactitud de test diagnósticos, reglas de
predicción clínica, etc., ese diseño no es el adecuado y son preferibles los estudios observacionales.
Incluso algunos desenlaces que pueden estudiarse mediante ECA (por ejemplo, los efectos adversos
de una intervención con período de latencia largo) pueden ser estudiados más adecuadamente
mediante estrategias observacionales (estudio de cohortes) que a través de los ECA.
Aunque el método GRADE se desarrolló inicialmente para las comparaciones entre alterna-
tivas: terapéuticas, preventivas, o de rutas con diferentes estrategias, etc., es decir, para preguntas
contestables con diseños ECA, siempre consideró la necesidad de incluir evidencia de naturaleza
observacional porque ese abordaje es imprescindible para la construcción de conocimiento clínico.
Así pues, de manera progresiva se van desarrollando nuevas variaciones del método GRADE para
valorar la calidad de la evidencia para diagnóstico, pronóstico, riesgo y otras preguntas clínicas
genuinamente observacionales (7-10). Esta versatilidad, junto con la capacidad de modular la
calificación de la evidencia (al alza o a la baja) según otros criterios que abajo veremos, dota al
método GRADE de una flexibilidad extraordinaria.
ENFOCADO A LOS «CONCEPTOS ESTIMADOS» EN CADA ESTUDIO

La característica esencial de GRADE es que el proceso se centra en las estimaciones sobre las que
se predica la certeza en la evidencia, y que difieren ligeramente según el tipo de estudio.

Así, en el caso de los ECA se centra en los desenlaces clínicos (es outcome-céntrico) y considera tanto
los beneficiosos como los indeseados. Aunque de los tres tipos de desenlaces señalados en el capítulo 3
(críticos para la decisión, importantes, pero no críticos, y no importantes), GRADE incorpora solo los desen-
laces «críticos para la decisión» e «importantes-no críticos», y no toma en consideración los no importantes.
Por otra parte, la arquitectura de estudio en los ECA permite probar simultáneamente el efecto
de la intervención sobre varios desenlaces. Sin embargo, la influencia de los detalles del diseño y
la conducción sobre la validez del estudio es diferente para cada desenlace (p. ej., la ausencia de
cegamiento puede ser esencial si consideramos un desenlace subjetivo como un síntoma, pero será
menos relevante si analizamos un desenlace como mortalidad o infarto de miocardio). Por tanto,
la certeza en la evidencia no puede predicarse de un estudio determinado (y menos de un diseño
en general de estudio) sino que debe valorarse y juzgarse para cada desenlace específico.
En cuanto a los estudios de pronóstico, en las fases iniciales se explora uno o varios desenlaces,
y una serie de factores. En estos casos el juicio sobre la certeza en la evidencia debe realizarse para
cada desenlace y para cada uno de los factores estudiados en cada desenlace (9). Por ejemplo, el
desenlace puede ser mortalidad y la certeza de la evidencia se predicará sobre la estimación de ella
o sobre un factor concreto (según se trate de estudio tipo I o II de pronóstico). Para el caso de los
estudios pronósticos tipo III (reglas de predicción para pacientes individuales) la certeza se predica
sobre la regla en su derivación y las sucesivas validaciones internas y externas (11).
En cuanto a los estudios de diagnóstico, el asunto es algo más complejo, porque los estimadores
de exactitud son al menos dos (sensibilidad y especificidad), y no se relacionan directamente con
resultados de pacientes, sino que tienen un papel de variables subrogadas: en efecto, identificar
correctamente enfermos o sanos depende de las consecuencias que derivan de ello y de la estrategia
en la que se incluya la prueba. Por ejemplo, en la prueba genética del cromosoma 4 para el diagnós-
tico de la Corea de Huntington, con independencia de su exactitud, las consecuencias clínicas
dependen por una parte de que es incurable, pero también de que se transmite a la descendencia. Por
ello será distinto si se trata de pacientes con sospecha de enfermedad que si se trata de un estudio
familiar, o screening prenatal o preimplantación. Las diferentes opciones para calificar la certeza de
las estimaciones deberán tratar de orientarse a los resultados de paciente (12-15). Ello siempre es
complejo en los estudios de exactitud, es más factible en los de impacto o de consecuencias clínicas
del uso del test que adoptan típicamente un modelo de ensayo clínico aleatorio.
INTEGRADOR
La escala GRADE no se aplica habitualmente a estudios individuales (no es un modo de leer
críticamente un artículo sobre un estudio primario), sino que valora el cuerpo de evidencia sobre
una cuestión PICO para sus diversos desenlaces posibles tomados separadamente, y ello tiene dos
consecuencias distintas, según el contexto:

1. Si se trata de RS, es posible que algunos estudios incluidos en la revisión no hayan estudiado
algunos desenlaces «críticos» o «importantes-no críticos» y, por tanto, esos estudios no con-
tribuirán a la estimación combinada de ese particular desenlace.
2. Si se trata de GPC (que contendrán múltiples preguntas PICO, cada una de ellas con diversos
desenlaces, es posible que algunos de los desenlaces críticos o importantes-no críticos no
hayan sido objeto de estudio en la RS seleccionada. En tal caso, puede ser necesario usar
otra revisión, realizar su propia RS ad hoc o usar estudios observacionales (esto puede ocurrir
para desenlaces como efectos adversos, especialmente si son raros o tardíos).
TRANSPARENTE
El método, tras analizar la calidad de la evidencia para cada uno de los desenlaces, condensa el
proceso en una tabla llamada perfil de evidencia (evidence profile), que ofrece la información explícita

de la certeza en la evidencia para cada desenlace y los juicios sobre cada uno de los aspectos usados
para realizar esa clasificación (riesgo de sesgo, imprecisión, inconsistencia, evidencia indirecta y
sesgo de publicación), así como los criterios usados para degradar o elevar la certeza en la evidencia
(tabla 17.1). Asimismo, ofrece los estimadores del efecto absolutos y relativos. Un resumen de ese
perfil suele ofrecerse también (Summary of Findings [SoF]).
El acceso a ambas tablas se ofrece en las modernas guías como enlace directo, lo que permite
disponer, a golpe de click, de las estimaciones absolutas y relativas del efecto para cada desenlace
con la evidencia actualizada, ponderada y justificada mediante el sistema GRADE. Por ejemplo, en
la tabla 17.1 se muestra un perfil de evidencia sobre la recomendación n.o 4 de la guía de práctica
clínica sobre prevención de trombosis (16) en pacientes críticos, la tabla esta reelaborada a partir
del repositorio de GRADE, al que se llega con click directo desde la recomendación 4.a de la guía.
De este modo GRADE ofrece un sistema transparente y explícito que permite acceso directo
a la evidencia evaluada y faculta el discurso argumental clínico para deliberar sobre la certeza de
la evidencia asignada. Por tanto, es una herramienta de gran interés para su uso en la clínica, para
panelistas de las GPC, para grupos que traten de usar la evidencia para adaptar la guía a su ámbito
o para usar la evidencia contenida en la guía en el desarrollo de vías clínicas.
Evaluando la calidad de la evidencia

Para la valoración de la calidad de la evidencia correspondiente a cuerpo de evidencia de una
pregunta PICO, GRADE usa un proceso flexible a partir de un razonamiento en dos fases.
CALIFICACIÓN INICIAL
El primer paso consiste en asignar la certeza del desenlace o factor en estudio a una de las cuatro
categorías ordinales de GRADE descritas previamente (v. cuadro 17.1). Para esa calificación inicial
nos basamos en las evidencias existentes sobre la calidad epistemológica de cada uno de los diseños
de estudio según los diferentes tipos de preguntas clínicas PICO.
De este modo si se trata de estrategias de comparación entre alternativas terapéuticas, preventi-
vas, o de rutas clínicas con diferentes estrategias, etc., el diseño adecuado es el ECA. Por tanto, si la
pregunta es de esa naturaleza y se contesta con ECA (revisión sistemática de ECA), la calificación
inicial será de alta calidad (⊕⊕⊕⊕) A; si se contesta con un observacional, la calificación inicial que
ofreceremos será baja calidad (⊕⊕⊝⊝) B. Recuérdese que la unidad de valoración es el desenlace,
por tanto, enjuiciaremos la calidad del cuerpo de evidencia para cada desenlace, considerando las
características de los estudios de la revisión de ECA que contribuyen a él (fig. 17.1).
Si se trata de una pregunta sobre exactitud de un test diagnóstico, el diseño que se debe elegir
es el de estudio de corte transversal (llamado single gate) o «tipo cohorte», aunque carezca de
dimensión temporal. Por tanto, si para una pregunta de exactitud diagnóstica se usa ese diseño, la
calificación inicial será de alta calidad (⊕⊕⊕⊕). A veces un test diagnóstico es usado dentro de
una estrategia clínica y es posible compararla con otra estrategia que no lo contenga, en ese caso
se puede valorar el impacto clínico de la elección de ese test, el diseño correcto será el ECA y, en
su caso, lo consideraremos evidencia de alta calidad (⊕⊕⊕⊕). No obstante, las llamadas pruebas o
test diagnósticos en la clínica pueden tener multiplicidad de objetivos: así, el mismo test es usado
como marcador pronóstico y el diseño adecuado sería, entonces, un estudio de cohorte, y en otras
ocasiones puede ser utilizado el test como indicador de la efectividad del tratamiento y ser usado
como outcome subrogado de un ECA (p. ej., el pro-BNP).
Si se trata de estudios de pronóstico, estos estudios pueden tener finalidades distintas: en unos
casos tratan de estimar el riesgo o probabilidad de un desenlace determinado, y entonces el diseño
que se ha de elegir será un estudio de cohortes y la RS de estudios de cohorte será considerada ini-
cialmente como evidencia de alta calidad (⊕⊕⊕⊕). Otras veces se trata de identificar la importancia

17. Calidad, confianza o certeza en la evidencia

TABLA 17.1 ■ Perfil de evidencia. Profilaxis de trombosis en pacientes críticos. Cualquier tipo de heparina frente a no prevención
Tipo de Riesgo Evidencia Sesgo Efecto Efecto Certeza en Importancia

estudio y n.° de sesgo Inconsistencia indirecta Imprecisión de publicación relativo absoluto la evidencia clínica
Mortalidad (por todas las causas)
ECA, 2 No serio No seria No seria Sí, seria NO RR 0,89 –32 × 1.000 ⊕⊕⊕⊝ CRÍTICA
(0,78-1,02) (–64 a +6) Moderada
Embolismo pulmonar
ECA, 3 Sí, serio No seria No seria No seria NO RR 0,53 –9 × 1.000 ⊕⊕⊕⊝ CRÍTICA
(0,28-0,98) (–14-0) Moderada
Trombosis venosa profunda proximal
ECA, 1 No serio No seria No seria Sí, seria NO RR 0,86 –8 × 1.000 ⊕⊕⊕⊝ CRÍTICA
(0,59-1,25) (–14 a +15) Moderada
Sangrado mayor
ECA, 2 No serio No seria No seria Sí, seria NO RR 1,01 0 × 1.000 ⊕⊕⊕⊝ CRÍTICA
(0,40-2,54) (–24 a +76) Moderada
Trombocitopenia inducida por heparina
ECA, 1 Serio No seria No seria Sí, seria NO RR 1,49 30 ×10.000 ⊕⊕⊝⊝ CRÍTICA
(0,59-3,78) (–25 a +171) Baja
Perfil de evidencia en el que se muestran, para cada desenlace, el tipo y número de estudios incluidos, los elementos juzgados (columnas 2-6) y la certeza en la evidencia
(columna 9). En este caso ha sido degradada un escalón para mortalidad, embolismo pulmonar, trombosis venosa profunda proximal, sangrado mayor y dos escalones para
trombocitopenia inducida por heparina. Se muestran también el efecto relativo (columna 7), que es claro para embolismo pulmonar y al límite para mortalidad y trombosis venosa
profunda (en ambos casos, intervalo amplio: imprecisión), y los efectos absolutos (columna 8), expresando cuántos eventos se evitan, con su intervalo de confianza. Todos los
desenlaces son de importancia CRÍTICA para la toma de decisiones.
219
Figura 17.1 Proceso de evaluación de la evidencia y realización de recomendaciones. ECA, ensayo clínico
aleatorio.
de algún o algunos factores riesgo o características concretas sobre un desenlace determinado, y

en esos casos también los estudios de cohortes (o RS de estudios de cohortes) nos proveerán de
evidencia de alta calidad (⊕⊕⊕⊕) A.
En otras ocasiones, un conjunto de esos factores de riesgo de un desenlace son agrupados,
estructurados y ponderados para formar una regla de predicción clínica, que nos permite usar esa
información en la predicción de eventos para nuestro paciente individual. Independientemente de
cómo se generan las reglas, su validación tiene cierto parecido con el diagnóstico en el sentido de
que valoramos la capacidad de la regla para clasificar pacientes con una determinada condición
(enfermedad o desenlace); en los casos del diagnóstico, la enfermedad es concurrente en el tiempo,
en el caso del pronóstico el desenlace (o la enfermedad si hablamos de prevención) ocurrirá en el
futuro: es, por tanto, no concurrente.
Clásicamente, estas reglas se construyen y validan a partir de diseños de cohortes y de revisiones
sistemáticas que agrupan la evidencia sobre una regla determinada o comparan diferentes reglas
alternativas, y lo hacen un método muy similar al de las revisiones sistemáticas de estudios de
diagnóstico. En otras ocasiones, si se trata de evaluar el impacto clínico del uso de esas reglas el
modelo de estudio sería de ECA y las RS de ECA.

En resumen, la calificación inicial se basa en la adecuación del estudio a la pregunta PICO

formulada; naturalmente, dada la cantidad matices existentes en las preguntas clínicas, pueden
producirse ciertas hibridaciones y solapamientos de arquitecturas de los estudios usados. Por
ello cabe esperar mejoras graduales en la metodología y el diseño de los estudios y cambios y
adaptaciones sucesivas en los modos de valorar la calidad de la evidencia.
AJUSTE FINAL: «THE DEVIL IS IN THE DETAILS»

Tras la valoración inicial de la certeza del cuerpo de evidencia hay que «ajustar» la calificación
inicial considerando otros detalles del diseño, la conducción y el análisis de los estudios, y también
la información de «perspectiva» que nos ofrece el conjunto de los resultados de los estudios.
Por ello, en una segunda fase hay que realizar el ajuste mediante otros criterios, y puede hacerse
en dos direcciones: en unos casos, la calidad de la evidencia a partir de diseños adecuados (a priori)
puede ser degradada por detalles y resultados de los estudios del cuerpo de evidencia.
En otras ocasiones, evidencias basadas en diseños aparentemente subóptimos pueden ser
promovidas por la claridad o coherencia de los resultados y otros detalles de contexto.
Ajustes a la baja
Hay cinco grandes factores que pueden restar la calidad de la evidencia estimada inicialmente, es
decir, degradar la calificación inicial en la escala.
Riesgo de sesgo. La existencia de defectos en el diseño, conducción o análisis de los estudios puede
comprometer su validez (clásicamente llamada validez interna) y según su importancia pueden
hacernos disminuir la certeza en la evidencia uno o dos grados en la escala ordinal respecto de la
calificación inicial.
Los sesgos son específicos de cada diseño de estudio, y en el contexto de las revisiones sis-
temáticas se valorarán mediante los instrumentos específicos de riesgo de sesgo (17-23) que hemos
mencionado y descrito en los sucesivos capítulos del 12 al 15 y se ofrecen en la tabla 17.2.
Evidencia indirecta. Puede adoptar diferentes formas: en unos casos, la evidencia proviene de
una comparación indirecta, es decir, A es mejor que B, y B mejor que C, luego A es mejor que C,
o alternativamente A y B comparadas con placebo, pero no entre sí.
En otros casos se trata de ligeros cambios en el PICO: las poblaciones son muy diferentes
(diferente gravedad de la enfermedad o distintos tratamientos asociados), o las intervenciones
TABLA 17.2 ■ Instrumentos para valorar el riesgo de sesgo en revisiones sistemáticas (RS)
Tipo de estudios de la RS Instrumento
RS de ensayos aleatorios Cochrane Risk of Bias 2 (RoB2) (17)
RS con metaanálisis en red (MER) Cochrane Risk of Bias 2 (RoB2) +

valoración del MER (18,19)
RS de estudios de exactitud diagnóstica QUADAS (Quality assessment of diagnostic

accuracy studies) (20)
RS de estudio de pronóstico (estudio de factores II) QUIPS (Quality in prognosis studies) (21)
RS de estudio de pronóstico III y IV PROBAST (Prediction model Risk of Bias

Assessment Tool) (22)
RS de estudios de ensayos no aleatorios ROBINS I (Risk of Bias In Non-randomized

Studies) (23)

o comparaciones son algo diferentes (diferente dosis de una u otra droga) y, en ocasiones, son
diferentes modos de medir el desenlace, o se miden algunos a través de una variable subrogada.
Un caso especial de evidencia indirecta es el de los estudios de exactitud de test diagnósticos.
Como se mencionó, en esos estudios los desenlaces de exactitud (verdaderos positivos y falsos posi-
tivos, verdaderos negativos y falsos negativos, y sus variantes) no son, en sentido estricto, desenlaces
directos de pacientes (pueden considerarse subrogados) y desde la perspectiva de GRADE tienen
una relación distante con la decisión clínica en función del contexto: unas veces son importantes
para la decisión y otras no. Este aspecto debe ser considerado al evaluar la evidencia de este tipo
de preguntas.
Imprecisión. Cuando los estudios incluyen relativamente pocos pacientes, y especialmente si

ocurren pocos eventos, los intervalos de confianza son muy amplios, eso obliga a bajar la puntuación
GRADE, porque esa evidencia podría cambiar si nuevos estudios con más efectivos tuvieran otros
resultados. Por ello, un intervalo de confianza amplio, especialmente cuando incluye el umbral
de decisión, disminuye su credibilidad y sugiere reducir la calidad de la evidencia en al menos
un escalón. Adicionalmente, GRADE considera que puede haber imprecisión con IC estrechos,
cuando estos se basan en un número muy reducido de eventos: en estos casos, el resultado es
estadísticamente significativo a expensas de un efecto implausible, exageradamente grande (efecto
de estudios pequeños) y debe ser contemplado con escepticismo.
Inconsistencia. La existencia de diferentes estimados del efecto entre los distintos estudios requiere
estudiar la heterogeneidad, especialmente si el o los estudios inconsistentes pueden cambiar la
dirección del efecto. Cuando no encontramos una explicación satisfactoria para ello, hay que poner
en duda la estimación y bajar uno o dos niveles la puntuación de calidad.
Sesgo de publicación. Si existen dudas al respecto, la calidad de la evidencia se resiente; es par-

ticularmente probable cuando hay pocos estudios en la revisión y pueden surgir dudas en estudios
financiados por la industria farmacéutica o de dispositivos, si bien no hay una evidencia clara de
que el tipo de financiación produzca de modo sistemático este tipo de sesgo, aunque sí de reporte
selectivo o datos perdidos (24).
Ajustes al alza
También la calificación inicial de la evidencia puede ser elevada en razón de diferentes criterios,
relacionados con la contundencia, la estructura o la coherencia de los resultados con el marco de
conocimiento existente; en suma, son elementos argumentales adicionales que hacen más creíble
un resultado (aumenta nuestra certeza). Los tres casos que hay que señalar son:
■ Cuando el efecto estimado es muy grande y es consistente entre estudios, se puede aumentar
uno o dos grados la calidad la evidencia. Por ejemplo, en una RS observacional (25) de la
profilaxis del tromboembolismo con anticoagulantes orales en pacientes con sustitución
valvular, la OR fue de 0,17 (IC 95%: 0,13-0,24), que es tan intensa y plausible que debe
considerarse evidencia de alta calidad.
■ Existencia de relación dosis-respuesta. Por ejemplo, el riesgo de sangrado en pacientes con
sobredosificación de anticoagulantes orales procede de estudios observacionales (cohortes),

pero el hecho de que cuanto mayor es la sobredosificación más riesgo de sangrado existe,
aumenta nuestra confianza en la evidencia sobre ese efecto adverso de la anticoagulación (26).
■ Plausibilidad de un factor de confusión. A veces, la existencia de factores de confusión cuyo
efecto va en contra del efecto detectado hace más creíble el efecto detectado: es decir, su
hubiéramos sido capaces de eliminar la confusión el efecto observado sería aún mayor.
■ En estudios de pronóstico, una distribución temporal de eventos coherente con los modelos
esperables permite también elevar la calificación de la evidencia.

Recapitulando
La comprensión e interpretación de la evidencia previamente evaluada es sin duda una habilidad
necesaria para la lectura de guías de práctica clínica y otros sumarios de evidencia, y por tanto una
habilidad esencial para el desempeño clínico.
El método GRADE permite graduar la certeza en la evidencia disponible sobre cada una de las
preguntas PICO contenidas en las guías y otros documentos de evidencia preevaluada usando una
escala ordinal con cuatro categorías: alta, moderada, baja y muy baja. La gradación de la calidad de la
evidencia se realiza en dos pasos, con una primera aproximación guiada por los diseños a priori ade-
cuados y una segunda fase en la que se ajusta la calidad: unas veces degradándola y otras elevándola.
Los elementos que se deben considerar que pueden degradar la calidad de la evidencia son: El
riesgo de sesgo (diferente para cada tipo de diseño), la inconsistencia del efecto, la medición indirecta
del efecto, la imprecisión de la estimación del efecto y la existencia o el riesgo de sesgo de publicación.
Los elementos que pueden elevar la calidad de la evidencia son: efectos muy notorios, relación
dosis-respuesta, plausibilidad en relación con los factores de confusión, o las secuencias temporales
coherentes en estudios de pronóstico.
El método GRADE para evaluar la calidad de la evidencia es un método flexible, centrado en
los desenlaces de paciente, integrador de la evidencia y transparente para la deliberación.
Bibliografía
2. Hultcrantz M, Rind D, Akl EA, Treweek S, Mustafa RA, Iorio A, et al. The GRADE Working Group
clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4-13.
3. Guyatt GH, Oxman AD, Kunz R, Vist GE, Falck-Ytter Y, Schünemann HJ. What is «quality of evidence»
and why is it important to clinicians? BMJ 2008;336(7651):995-8.
4. The periodic health examination. Canadian Task Force on the Periodic Health Examination. Can Med
Assoc J 1979;121(9):1193-254.
5. West S, King V, Carey TS, Lohr KN, McKoy N, Sutton SF, et al. Systems to rate the strength of scientific
evidence. Evid Rep Technol Assess (Summ) 2002;47:1-11.
6. Shukle V, Bai A, Milne S, Wells G. Systematic review of the evidence grading system for grading level
of evidence. Ger J Evid Qual Health Care 2008;102:43-56.
7. Shea BJ, Reeves BC, Wells G, Thuku M, Hamel C, Moran J, et al. AMSTAR 2: a critical appraisal tool
for systematic reviews that include randomised or non-randomised studies of healthcare interventions,
or both. BMJ 2017;358(j4008).
8. Gopalakrishna G, Mustafa RA, Davenport C, Scholten RJPM, Hyde C, Brozek J, et al. Applying Grading
of Recommendations Assessment, Development and Evaluation (GRADE) to diagnostic tests was cha-
llenging but doable. J Clin Epidemiol 2014;67(7):760-8.
9. Huguet A, Hayden JA, Stinson J, McGrath PJ, Chambers CT, Tougas ME, et al. Judging the quality of
evidence in reviews of prognostic factor research: adapting the GRADE framework. Syst Rev 2013;2(1):71.
10. Iorio A, Spencer FA, Falavigna M, Alba C, Lang E, Burnand B, et al. Use of GRADE for assessment
of evidence about prognosis: rating confidence in estimates of event rates in broad categories of patients.
BMJ 2015;350:h870.
11. Khalifa M, Magrabi F, Gallego B. Developing a framework for evidence-based grading and assessment
of predictive tools for clinical decision support. BMC Med Inform Decis Mak 2019;19(1.). [Fecha de
última consulta: 7 de noviembre de 2020] Disponible en: https://bmcmedinformdecismak.biomedcentral.
com/articles/10.1186/s12911-019-0940-7.
12. Hultcrantz M, Mustafa RA, Leeflang MMG, Lavergne V, Estrada-Orozco K, Ansari MT, et al. Defi-
ning ranges for certainty ratings of diagnostic accuracy: a GRADE concept paper. J Clin Epidemiol
2020;117:138-48.
13. Schünemann HJ, Mustafa RA, Brozek J, Steingart KR, Leeflang M, Murad MH, et al. GRADE guidelines:
21 part 1. Study design, risk of bias, and indirectness in rating the certainty across a body of evidence for
test accuracy. J Clin Epidemiol 2020;122:129-41.

14. Schünemann HJ, Mustafa RA, Brozek J, Steingart KR, Leeflang M, Murad MH, et al. GRADE
guidelines: 21 part 2. Test accuracy: inconsistency, imprecision, publication bias, and other domains for
rating the certainty of evidence and presenting it in evidence profiles and summary of findings tables.
15. Schünemann HJ, Mustafa RA, Brozek J, Santesso N, Bossuyt PM, Steingart KR, et al. GRADE guidelines:
22. The GRADE approach for tests and strategies-from test accuracy to patient-important outcomes and
recommendations. J Clin Epidemiol 2019;111:69-82.
16. Schünemann HJ, Cushman M, Burnett AE, Kahn SR, Beyer-Westendorf J, Spencer FA, et al. American
Society of Hematology 2018 guidelines for management of venous thromboembolism: prophylaxis for
hospitalized and nonhospitalized medical patients. Blood Adv 2018;2(22):3198-225.
17. Sterne JAC, Savović J, Page MJ, Elbers RG, Blencowe NS, Boutron I, et al. RoB 2: a revised tool for
assessing risk of bias in randomised trials. BMJ 2019;366:l4898.
18. Puhan MA, Schunemann HJ, Murad MH, Li T, Brignardello-Petersen R, Singh JA, et al. A GRADE
Working Group approach for rating the quality of treatment effect estimates from network meta-analysis.
BMJ 2014;349(5):g5630-g15630.
19. Salanti G, Del Giovane C, Chaimani A, Caldwell DM, Higgins JPT. Evaluating the Quality of Evidence
from a Network Meta-Analysis. Tu Y-K, editor. PLoS ONE. 2014;9(7):e99682.
20. Whiting PF, Rutjes AWS, Westwood ME, Mallett S, Deeks JJ, Reitsma JB, et al. QUADAS-2: a revised
tool for the quality assessment of diagnostic accuracy studies. Ann Intern Med 2011;155(8):529-36.
21. Hayden JA, van der Windt DA, Cartwright JL, Côté P, Bombardier C. Assessing bias in studies of
prognostic factors. Ann Intern Med 2013;158(4):280-6.
22. Moons KGM, Wolff RF, Riley RD, Whiting PF, Westwood M, Collins GS, et al. PROBAST: A Tool to
Assess Risk of Bias and Applicability of Prediction Model Studies: Explanation and Elaboration. Ann
Intern Med 2019;170(1):W1.
23. Sterne JA, Hernán MA, Reeves BC, Savović J, Berkman ND, Viswanathan M, et al. ROBINS-I: a tool
for assessing risk of bias in non-randomised studies of interventions. BMJ 2016;355:i4919.
24. Sterne JA. Why Cochrane risk of bias tool should not include funding source as a standard item. Cochrane
Datab Syst Rev 2013;12(ED000076).
25. Cannegieter SC, Rosendaal FR, Briët E. Thromboembolic and bleeding complications in patients with
mechanical heart valve prostheses. Circulation 1994;89(2):635-41.
26. Hellenbart E, Faulkenberg K, Finks S. Evaluation of bleeding in patients receiving direct oral anticoagu-
lants. Vasc Health Risk Manag 2017;13:325-42.

Cabello JB, Latour J. Calidad, confianza o certeza en la evidencia. En: Cabello Juan B, editor. Lectura crítica
de la evidencia clínica, 2.ª ed. Barcelona: Elsevier; 2022. p. 213-224.

C A P Í T U L O 18
Recomendaciones basadas
en la evidencia
Jaime Latour Pérez ■ Juan Bautista Cabello López
• Describir la aproximación GRADE para la formulación de recomendaciones basadas

en la evidencia.
• Explicar los conceptos de dirección y fuerza de la recomendación.
• Interpretar las recomendaciones formuladas en formato GRADE.
Aplicando la evidencia
En capítulos anteriores se ha comentado cómo se generan los perfiles de evidencia a partir de las
revisiones sistemáticas de la literatura. Estos perfiles de evidencia proporcionan información sintética
sobre la magnitud del efecto promedio de la intervención sobre los diversos desenlaces clínicos, así
como de la certeza (el grado de evidencia) que tenemos de que esos efectos se encuentran dentro
de ciertos límites. En este capítulo abordaremos el problema de cómo aplicar esa información para
formular recomendaciones basadas en la evidencia.
Los fundadores de la medicina basada en la evidencia (MBE) advertían que la evidencia promedio
obtenida a partir de la literatura científica no se debía aplicar de forma mecánica, sino que era
necesario particularizarla para el paciente individual mediante el buen juicio clínico, teniendo en
cuenta las circunstancias, los valores y las preferencias del paciente (1,2).
Estas advertencias han sido frecuentemente ignoradas por algunos redactores de guías de práctica
clínica que equiparaban un grado de evidencia alto con un grado de recomendación alto, mientras
que una calidad de la evidencia baja equivalía a un grado de recomendación bajo. Esta confusión
entre grado de evidencia y grado de recomendación ha llegado al extremo de negar la posibilidad
de hacer recomendaciones en ausencia de evidencia.
La aproximación GRADE (Grading of Recommendations Assessment, Development and
Evaluation) proporciona una estructura racional para pasar de la evidencia a las recomendaciones.
Esta aproximación se diferencia de otros sistemas de jerarquización de la evidencia en diversos
aspectos.
En primer lugar, GRADE establece una clara diferenciación entre grado de evidencia y fuerza de
la recomendación. Ello permite que existan recomendaciones fuertes con bajo soporte evidencial, así
como recomendaciones débiles (o en contra) a pesar de la existencia de pruebas claras de efectividad.
En segundo lugar, mientras que la mayoría de estos sistemas consideraban un solo desenlace
clínico, las recomendaciones en GRADE se toman sobre la base de todos los desenlaces clínicos
críticos (v. fig. 17.1), teniendo en cuenta el peso relativo de los efectos beneficiosos y de los efectos
adversos.

Por último, el proceso de establecer las recomendaciones es transparente. Se puede discrepar

de él, pero los juicios implicados en el proceso de establecer el grado de evidencia y la fuerza de la
recomendación son explícitos.
En sus documentos más recientes, GRADE ha refinado estos conceptos señalando que, cuando
estamos decidiendo acerca de si la certeza es suficiente para apoyar una intervención, lo importante
no es la confianza en la estimación del efecto, sino la confianza en que los efectos están dentro de
unos umbrales concretos, y esos umbrales no son fijos, sino que cambian con el contexto (3). Por
ejemplo, tal como se señalaba en el capítulo 17, una intervención farmacológica puede estar res-
paldada por evidencia alta en un país desarrollado, pero esa misma evidencia puede ser inadecuada
en un país no desarrollado donde su coste de oportunidad es prohibitivo.
Dirección y fuerza de la recomendación (4-7)

Con toda esta información disponible, procedente en su mayor parte de revisiones sistemáticas de
la literatura, los panelistas de la guía de práctica clínica emiten un juicio sobre el tamaño relativo
de las consecuencias deseables y de las consecuencias indeseables asociadas a la intervención.
DIRECCIÓN DE LA RECOMENDACIÓN
Si los beneficios de la intervención considerados conjuntamente superan a los daños (beneficio
neto positivo) se establece una recomendación a favor; en caso contrario (beneficio neto negativo)
se establece una recomendación en contra (fig. 18.1).
FUERZA DE LA RECOMENDACIÓN
La fuerza de la recomendación depende de lo desequilibrada que esté la balanza entre beneficio y
daño. Si creemos que la balanza está claramente desplazada hacia uno de los lados (las consecuencias
favorables o las desfavorables), estableceremos una recomendación fuerte (a favor o en contra de la
intervención). Si la balanza solo está ligeramente desplazada hacia uno de los lados estableceremos
una recomendación débil (a favor o en contra de la intervención) (8) (fig. 18.2).
Figura 18.1 Dirección de la recomendación.

18. Recomendaciones basadas en la evidencia 227
Figura 18.2 Categorías de recomendación.
Este balance entre los efectos favorables y los desfavorables es un continuo; sin embargo,
GRADE categoriza este continuo en cuatro grupos:
1. Recomendación fuerte a favor de la intervención (↑ ↑) o 1.
2. Recomendación débil a favor de la intervención (↑?) o 2.
3. Recomendación débil en contra de la intervención (↓?) o 2.
4. Recomendación fuerte en contra de la intervención (↓↓) o 1.
Obsérvese que mientras que el grado de evidencia tiende a ser universal (los perfiles de evidencia
cambian poco dependiendo del ámbito de aplicación), la recomendación tiende a particularizarse.
Por ejemplo, una misma intervención puede tener una recomendación fuerte en un subgrupo de
pacientes de alto riesgo y una recomendación débil en pacientes de bajo riesgo, con gradiente
beneficio-riesgo más equilibrado.
Determinantes de la fuerza de la recomendación (4,5,9)

La fuerza de la recomendación depende de varios factores, no solo de la calidad de la evidencia
(tabla 18.1):
■ En primer lugar, depende de la magnitud de los efectos deseables y los efectos indeseados,
teniendo en cuenta las estimaciones típicas de los valores y preferencias («Balance de efectos
deseable e indeseados» o trade-off o «beneficio neto» de la intervención). Una diferencia
grande entre los efectos deseables y los indeseables favorece una recomendación fuerte, mien-
tras que un gradiente pequeño favorece una recomendación débil.
■ En segundo lugar, la fuerza de la recomendación depende del grado de certeza acerca del
efecto, es decir, la calidad de la evidencia: una calidad de la evidencia alta favorece una
recomendación fuerte, mientras que una calidad de evidencia baja indica mayor incertidumbre
sobre el trade-off, lo que favorece una recomendación débil. Así, un beneficio neto favorable
puede recibir una recomendación débil en caso de que la calidad de la evidencia sea baja.
■ Tercero, la fuerza de la recomendación depende de la confianza en la estimación de los
valores y preferencias de los pacientes y de su variabilidad: Una gran incertidumbre acerca

de las preferencias o una gran variabilidad de las preferencias entre los pacientes favorece una
recomendación débil.
■ Cuarto, en muchos casos hay que tomar en cuenta el consumo de recursos: una intervención
asociada a un bajo consumo de recursos es más fácil que reciba una recomendación fuerte
que una intervención que requiere un importante consumo de recursos.

TABLA 18.1 ■ Factores que influyen en el grado de recomendación

Favorece una Favorece una
Factor recomendación fuerte recomendación débil
Balance entre efectos Diferencia grande entre efectos Gradiente pequeño

deseables y adversos deseables e indeseables entre riesgo-beneficio
Calidad de la evidencia Calidad de evidencia alta Calidad de evidencia baja
Valores y preferencias Escasa variabilidad Gran variabilidad

o incertidumbre en valores o incertidumbre en valores
y preferencias y preferencias
Costes (asignación de recursos) Bajo consumo de recursos Mayor consumo de recursos
Otros factores: equidad, aceptabilidad, factibilidad.

Modificado de Guyatt GH, et al. Going from evidence to recommendations. BMJ. 2008;336(7652):1049-1051.
Una de las críticas a la práctica basada en la evidencia más extendida es la de que conduce al
nihilismo terapéutico cuando no se dispone de evidencia de calidad (10,11). Esta crítica es ina-
propiada, por dos razones: 1) las recomendaciones pueden hacerse en ausencia de evidencia de alta
calidad, y 2) las recomendaciones no se basan solamente en el grado de evidencia.
Además de los cuatro anteriores, dependiendo del ámbito y perspectiva de la decisión, puede
ser necesario considerar otros determinantes, como la equidad, la aceptabilidad o la factibilidad.
Por ejemplo, la equidad es un factor importante que se debe considerar en las decisiones en
el ámbito de la salud pública; los costes que han de tenerse en cuenta en las decisiones de
salud pública o de cobertura sanitaria son diferentes a los costes en recomendaciones clínicas
individuales; etc. El grupo GRADE ha creado unas tablas detalladas (Evidence-to-Decision
frameworks) para facilitar a los panelistas la elaboración de recomendaciones transparentes en
diversos ámbitos (9).
Interpretación de la fuerza de la recomendación

¿Qué significan los términos recomendación fuerte y recomendación débil para el clínico y para
los gestores y decisores políticos?
RECOMENDACIÓN FUERTE
Las recomendaciones fuertes, en la medida que suponen un claro desequilibrio a favor (o en
contra) de los beneficios, son las que seguiría la inmensa mayoría (más del 90%) de los pacientes
que estuvieran bien informados. Esta situación exime al clínico de explorar minuciosamente las
preferencias del paciente, y por tanto no necesita recurrir a ayudas a la decisión. Habitualmente
estas recomendaciones se formulan mediante la expresión «recomendamos […]».
Para los gestores y decisores políticos, este claro desequilibrio entre beneficio y daño indica que
las variaciones observadas probablemente no están justificadas y, por tanto, estas recomendaciones
son candidatas a ser consideradas como criterio de calidad.
Una recomendación fuerte no indica, sin embargo, que se trate de una prioridad que debe ser
implantada. Por ejemplo, en decisiones sobre políticas de salud hay que considerar, además, la
prevalencia-carga de sufrimiento, el potencial de mejora (vulnerabilidad), las dificultades de su
implantación, los problemas asociados de equidad o el coste total.

RECOMENDACIÓN DÉBIL
En el caso de una recomendación débil, la relación beneficio-daño no está tan claramente desviada
hacia uno de los lados, lo que indica que es posible que no sea adecuada para todos los pacientes.
Por eso, aquí el término «recomendamos» se sustituye habitualmente por «sugerimos» y se aconseja
que las recomendaciones hagan referencia al entorno y al riesgo basal.
En condiciones de recomendaciones débiles se impone una decisión compartida con el paciente,
para asegurarnos de que la decisión es acorde con los valores y preferencias del paciente. El uso de
ayudas a la decisión en este caso puede ser muy útil. En la figura 18.3 se presenta un gráfico para
ilustrar al paciente el efecto de una dosis oral de corticoides sobre el outcome quedar libre de dolor
a las 24 h (12).
Desde el punto de vista del gestor o decisor político, una recomendación débil indica que las
variaciones observadas podrían estar justificadas y, por lo tanto, el cumplimiento de estas recomen-
daciones no debe usarse como criterio de calidad.
El término «recomendación débil» es a menudo malinterpretado. En efecto:
■ Recomendación débil no significa falta de evidencia: por ej. puede haber nivel de evidencia
alto, pero con gradiente beneficio-riesgo estrecho, y la balanza puede decantarse hacia uno
u otro lado dependiendo de las preferencias o el riesgo basal.
■ Recomendación débil no significa que se puede ignorar: son auténticas recomendaciones,
solo que requieren una aplicación más cuidadosa. Por ello se aconseja que el enunciado de la
recomendación utilice formas verbales activas («sugerimos») en vez de las pasivas («se puede
aplicar»).
Debido a estas dificultades, en lugar del término recomendación débil algunos prefieren utilizar
sinónimos como recomendación condicional, cualificada o discrecional.
RECOMENDACIONES FUERTES CON EVIDENCIA BAJA

Un grado de evidencia bajo indica que la estimación del efecto es muy incierta. Entonces, ¿cómo
puede haber recomendaciones fuertes con bajo nivel de evidencia?
Consideremos el siguiente ejemplo. Algunos estudios observacionales han descrito que el uso
de aspirina en niños con varicela se asocia con síndrome de Reye. Aunque la evidencia es de baja
Figura 18.3 Ayuda a la decisión. (Tomado y modificado de Aertgeerts 2017 [19]).

calidad, el efecto de aspirina y paracetamol son similares. Por tanto, por precaución, se establece
una recomendación fuerte (1D) a favor del paracetamol (6).
El grupo GRADE ha enumerado otras cuatro situaciones paradigmáticas, que se pueden
consultar en la bibliografía de este capítulo (5). Fuera de estas situaciones, las recomendaciones 1D
suelen ser incorrectas, bien por mala clasificación de la fuerza de la recomendación (recomendaciones
débiles clasificadas como fuertes) o por mala clasificación del grado de evidencia (evidencia alta o
moderada clasificada como evidencia baja o muy baja).
Es frecuente que, ante la ausencia de ensayos aleatorizados sobre un tratamiento, se le asigne
automáticamente un nivel de evidencia bajo. Esta práctica supone una insuficiente comprensión
del concepto de evidencia en GRADE como grado de convicción. Por ejemplo, se ha comentado
repetidas veces que no existen ensayos aleatorizados sobre la efectividad del paracaídas para
prevenir la muerte por precipitación desde un aeroplano. ¿Significa esto que el grado de evidencia
de la efectividad de los paracaídas es bajo? Aunque no se haya hecho una búsqueda formal, los
panelistas están convencidos de que la evidencia indirecta confirma sobradamente el beneficio
neto del paracaídas. Y, además, el ejercicio de recoger toda la evidencia indirecta para soportar la
recomendación sería oneroso e improductivo.
Estas situaciones en las que el balance beneficio-daño es concluyente y no se justifica el esfuerzo
de un estudio cuantificar el nivel de evidencia, se conocen como «declaraciones de buena práctica
clínica». Muchas veces estas declaraciones de buena práctica se identifican al intentar formularlas
en negativo. Veamos dos ejemplos:
1. «We recommend starting prompt diagnostic assessment [of hyponatremia]. (GRADE 1D)»
(13) [Sería difícil recomendar no hacerlo].
2. «Patients [who are prescribed] oral bowel-cleansing agents should receive clear instructions
regarding oral fluid intake (including an appropriate volume) and these instructions should
also be provided in writing (evidence: GRADE 1D)» (14) [Un ensayo aleatorizado con un
grupo control sería inético].
En estos casos, GRADE recomienda no clasificar la evidencia (15).
IMPORTANCIA DEL CONTEXTO. UMBRALES DE DECISIÓN

La definición de grado de evidencia propuesto inicialmente por GRADE se refería al grado de
confianza que nos merecía la estimación del efecto: «the extent of our confidence that the estimates
of the effect are correct or are adequate to support a particular decision or recommendation» (16).
Recientemente, el grupo GRADE ha clarificado este concepto señalando que lo que medimos no
es nuestra confianza en la estimación puntual del efecto, sino nuestra confianza en que esos efectos
se encuentran dentro de unos umbrales adecuados (17). Y esos umbrales dependen del contexto
sanitario y de la pregunta.
Veámoslo con un ejemplo hipotético: la administración de dos antiagregantes plaquetarios frente
a uno solo en pacientes con accidente cerebrovascular transitorio. Supongamos que se dispone de
ensayos clínicos amplios, con más de 5.000 pacientes, y no existen problemas de riesgo de sesgo,
inconsistencia, evidencia indirecta o sesgo de publicación. La estrategia de doble antiagregación
reduce el riesgo de ictus en 19 casos por mil, pero aumenta el riesgo de hemorragia severa en 15
por 1.000 (IC 95%, 5-40 por mil), sin efecto sobre la mortalidad, y el panel de revisores considera
que no hay otros outcomes relevantes. Según la información recopilada por los revisores, la mayoría
de los pacientes consideran que el daño asociado a un ictus equivale al de tres hemorragias graves.
De acuerdo con estas preferencias el riesgo de hemorragia máximo aceptable para aplicar el
nuevo tratamiento sería de 57 hemorragias por 1.000 (19 × 3) (línea segmentada derecha en la
figura 18.4). El límite superior del IC 95% de hemorragia es de 40 por mil, que queda por debajo
del umbral. Por lo tanto, no hay razones para degradar la calidad de la evidencia por imprecisión.
El beneficio neto supera al daño y la recomendación sería a favor, con un nivel de evidencia alto.

Figura 18.4 Aumento absoluto del riesgo de hemorragia.
Imaginemos ahora un paciente con aversión a la hemorragia, para el cual un ictus es equivalente
a 1 hemorragia. En este nuevo contexto el umbral cambia, y ya no es de 57 sino de solo 19 por
mil. Ahora el límite superior del riesgo hemorrágico se solapa con el umbral, por lo que debemos
degradar por imprecisión. Ahora no tenemos seguridad de que el beneficio sea mayor que el daño,
lo que aconsejaría probablemente una recomendación débil.
Obsérvese que la evidencia empírica es la misma. Sin embargo, al cambiar el contexto cambia
el grado de evidencia y, en este caso, también la fuerza de la recomendación. Este ejemplo ilustra
también que el grado de evidencia no mide la certeza en la estimación, sino la certeza de que el
efecto se encuentre dentro de un rango determinado.
En el ámbito de la práctica clínica individual y de las guías de práctica clínica se hace necesaria
esta aproximación «totalmente contextualizada», en la que los umbrales están determinados por todos
los desenlaces críticos. Para cada desenlace, las puntuaciones representan nuestra confianza en que
la dirección del efecto (positiva o negativa) no diferirá entre un lado del rango de certeza y el otro.
Otras veces, como ocurre en las revisiones sistemáticas o en estudios de evaluación de tecnologías,
no se requiere este grado de contextualización. Estos estudios pueden limitarse a proporcionar la
estimación del efecto y sus intervalos de confianza. Frecuentemente es útil definir unos umbrales
a priori para clasificar el efecto como ausente, trivial, pequeño, moderado, grande.
Una aplicación práctica

A continuación, vamos a aplicar esta metodología para establecer recomendaciones a un escenario
ficticio planteado en el capítulo 12.
ESCENARIO
Acude a tu centro de salud una paciente de 17 años con un dolor de garganta de intensidad
considerable, que le impide concentrarse para estudiar las pruebas de acceso a la Universidad, que
tiene que hacer de forma inminente.
La paciente no tiene alergias medicamentosas ni otras patologías de interés. A la exploración no
encuentras signos de absceso periamigdalino y únicamente evidencia una orofaringe eritematosa.
Su madre, muy preocupada por la situación de la paciente, te pide algún tratamiento que mitigue
el dolor a la mayor brevedad, para que su hija pueda continuar con su estudio al máximo nivel. Una
amiga íntima le ha comentado que su hija mejoró muchísimo cuando «le administraron cortisona».
¿Darías una dosis de corticoide oral, para mejorar el dolor de garganta en la opositora adolescente?
Encuentras una nueva guía (12) (https://doi.org/10.1136/bmj.j4090) realizada con metodología
GRADE, que se apoya en una reciente revisión sistemática (18) (http://dx.doi.org/10.1136/bmj.
j3887).

RESULTADOS DE LA REVISIÓN
Contexto
La revisión sistemática incluyó tanto a pacientes atendidos en departamentos de urgencias (54%)
como en entornos de atención primaria (46%). La mayoría de los estudios se centraron en adultos
(60%); los estudios pediátricos (2% de los pacientes) no incluyeron niños menores de 5 años, por
lo que la recomendación no puede aplicarse a estas edades tempranas. También había adecuada
representación de pacientes con distintos grados de dolor, y de pacientes que habían recibido o no
antibioterapia, sin efecto de subgrupo.
No estaban bien representados en la revisión los pacientes con episodios recurrentes de dolor de
garganta, los pacientes con dolor de garganta tras cirugía o intubación, los pacientes con mononu-
cleosis infecciosa ni los pacientes inmunocomprometidos.
Podemos considerar por tanto que nuestra enferma está bien representada en la revisión sis-
temática.
Balance efectos beneficiosos-adversos

En promedio, el tratamiento mejoró el dolor, pero no de forma importante. Los principales
desenlaces considerados por los panelistas figuran en la tabla 18.2
Los corticoesteroides aumentan la posibilidad de una resolución completa del dolor a las 24 y
48 h, reducen la gravedad del dolor y acortan el tiempo hasta el inicio del alivio del dolor (pruebas
de calidad GRADE de alta a moderada).
El panel tuvo menos confianza en si los corticoesteroides redujeron el uso de antibióticos, debido
a la falta de mejoría o al empeoramiento de los síntomas en pacientes a los que no se les recetaron
antibióticos inmediatamente al consultar al médico (evidencia de baja calidad GRADE) o en que
los corticoesteroides redujeron el tiempo promedio para la resolución completa del dolor (evidencia
de baja calidad GRADE).
Es poco probable que los corticoesteroides reduzcan la recurrencia o la recaída de los síntomas
o los días perdidos de la escuela o el trabajo (evidencia de calidad moderada GRADE).
Es poco probable que una dosis única de corticoesteroides cause eventos adversos graves. Los
ensayos aleatorios no informaron ningún evento importante atribuible a los corticoesteroides de
dosis única (evidencia de calidad moderada GRADE).
TABLA 18.2 ■ Efectos considerados por los panelistas

Desenlace Corticoides Placebo Diferencia Grado de evidencia
Desaparición del dolor a 24 h 224 100 +124 ⊕⊕⊕⊝

Moderada
Desaparición del dolor a 48 h 608 425 +183 ⊕⊕⊕⊕

Alta
Tiempo de resolución del dolor 33 h 44 h –11,1 h ⊕⊕⊝⊝

Baja
Prescripción de antibióticos 468 564 –96 ⊕⊕⊝⊝

Baja
Recurrencia de los síntomas No diferencias IMPORTANTES ⊕⊕⊕⊝

Moderada
Efectos adversos No diferencias IMPORTANTES ⊕⊕⊕⊝

Moderada

El panel también consideró la evidencia de estudios observacionales que usaron dosis más
altas de esteroides. El panel estuvo de acuerdo en que tales eventos parecían poco probables con
esteroides de dosis única.
Preferencias y valores
El panel consideró que existía una gran variabilidad en la cantidad de reducción en la gravedad del
dolor o el tiempo para completar la resolución del dolor que cada paciente consideraría importante.
Los pacientes que valoran mucho la reducción de los síntomas en cualquier cantidad (como los
pacientes con menor tolerancia al dolor o con síntomas graves) son más propensos a aceptar recibir
corticoesteroides.
La recomendación débil para los corticoesteroides también refleja las preocupaciones que el panel
tenía con la aceptabilidad. Específicamente, ¿cuán aceptable es tratar una afección que generalmente
no es grave y es autolimitada con un medicamento que muchos pacientes, médicos y otras partes
interesadas saben que casi siempre se usa para enfermedades más graves?
Problemas prácticos y otras consideraciones

Los riesgos pueden superar los beneficios cuando se administran dosis acumulativas mayores de
corticoesteroides a pacientes que experimentan múltiples episodios de dolor de garganta, ya sea
a través de múltiples visitas o para pacientes que se automedican si se les prescribe más de una
pastilla para su episodio anterior. Para mitigar este problema, los médicos deben administrar el
medicamento en el consultorio si es posible o recetar solo una dosis por visita.
Costes y recursos
El panel se centró en la perspectiva del paciente más que en la de la sociedad al formular la
recomendación. Dado el bajo coste de los corticoesteroides para tratar el dolor de garganta, es
poco probable que la implementación de esta recomendación tenga un impacto importante en los
costes para los financiadores de la salud. El tratamiento es barato y es probable que se ofrezca en
el contexto de una consulta que se habría realizado de todos modos. Sin embargo, sigue siendo
incierto si puede aumentar la proporción de pacientes que visitan a un médico para obtener una
prescripción de corticoesteroides.
CONCLUSIONES DEL PANEL

Los panelistas acordaron hacer una recomendación débil a favor de dar una dosis oral de dexametasona:
■ La dirección de la recomendación es a favor de los corticoides porque se considera que, en el
paciente típico, pesan más las consecuencias deseables que las indeseables.
■ La recomendación es débil porque existe una gran variabilidad en los valores, lo que obliga
a particularizar el beneficio-daño.
Finalmente, tras deliberar con la paciente con la ayuda de gráficos como el de la figura 18.3 (19)
y constatar que la enferma está preocupada por la interferencia que el dolor de garganta pueda tener
en la realización del examen de selectividad, se decide administrar una dosis única de dexametasona
oral de 10 mg en la consulta.
Bibliografía
1. Sackett DL, Rosenberg WM, Gray JA, Haynes RB, Richardson WS. Evidence based medicine: what it
is and what it isn’t. BMJ 1996;312(7023):71-2.
2. Eisenberg JM. Globalize the evidence, localize the decision: evidence-based medicine and international
diversity. Health Aff (Millwood) 2002;21(3):166-8.
3. Hultcrantz M, Rind D, Akl EA, Treweek S, Mustafa RA, Iorio A, et al. The GRADE Working Group
clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4-13.

4. Andrews J, Guyatt G, Oxman AD, Alderson P, Dahm P, Falck-Ytter Y, et al. GRADE guidelines: 14.
Going from evidence to recommendations: the significance and presentation of recommendations. J Clin
Epidemiol 2013;66(7):719-25.
5. Andrews JC, Schunemann HJ, Oxman AD, Pottie K, Meerpohl JJ, Coello PA, et al. GRADE guidelines:
15. Going from evidence to recommendation-determinants of a recommendation’s direction and strength.
J Clin Epidemiol 2013;66(7):726-35.
7. Neumann I, Santesso N, Akl EA, Rind DM, Vandvik PO, Alonso-Coello P, et al. A guide for health
professionals to interpret and use recommendations in guidelines developed with the GRADE approach.
8. Cabello JB, Latour J. De la evidencia a la recomendación: GRADE. En: Cabello-López JB, editor. Lectura
crítica de la evidencia clínica. Barcelona: Elsevier; 2015.
9. Alonso-Coello P, Oxman AD, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, et al. GRADE
Evidence to Decision (EtD) frameworks: a systematic and transparent approach to making well informed
healthcare choices. 2: Clinical practice guidelines. Gac Sanit 2018;32(2):166.e1-166.e10.
10. Straus SE, McAlister FA. Evidence-based medicine: a commentary on common criticisms. CMAJ
2000;163(7):837-41.
11. Samarkos MG. The philosophy of Evidence-based medicine. Hospital Chronicles 2006;1(1):27-35.
12. Aertgeerts B, Agoritsas T, Siemieniuk RAC, Burgers J, Bekkering GE, Merglen A, et al. Corticosteroids
for sore throat: a clinical practice guideline. BMJ 2017;358:j4090.
13. Spasovski G, Vanholder R, Allolio B, Annane D, Ball S, Bichet D, et al. Clinical practice guideline on
diagnosis and treatment of hyponatraemia. Intensive Care Med 2014;40(3):320-31.
14. Connor A, Tolan D, Hughes S, Carr N, Tomson C. Consensus guidelines for the safe prescription and
administration of oral bowel-cleansing agents. Gut 2012;61(11):1525-32.
15. Guyatt GH, Schünemann HJ, Djulbegovic B, Akl EA. Guideline panels should not GRADE good practice
statements. J Clin Epidemiol 2015;68(5):597-600.
16. Balshem H, Helfand M, Schunemann HJ, Oxman AD, Kunz R, Brozek J, et al. GRADE guidelines: 3.
Rating the quality of evidence. J Clin Epidemiol 2011;64(4):401-6.
17. Guyatt GH, Oxman AD, Kunz R, Brozek J, Alonso-Coello P, Rind D, et al. GRADE guidelines 6. Rating
the quality of evidence--imprecision. J Clin Epidemiol 2011;64(12):1283-93.
18. Sadeghirad B, Siemieniuk RAC, Brignardello-Petersen R, Papola D, Lytvyn L, Vandvik PO, et al.
Corticosteroids for treatment of sore throat: systematic review and meta-analysis of randomised trials.
BMJ 2017;358:j3887.
19. Aertgeerts B, Brignardello-Petersen R, Agoritsas T. Corticosteroids for acute sore throat. MAGIC
Evidence Ecosystem Foundation 2017. [Fecha de última consulta: 6 de febrero de 2021] Disponible en:
https://app.magicapp.org/#/guideline/JjXYAL/section/j79pvn.

Latour J, Cabello JB. Recomendaciones basadas en la evidencia. En: Cabello Juan B, editor. Lectura crítica de
la evidencia clínica, 2.ª ed. Barcelona: Elsevier; 2022. p. 225-234.

C A P Í T U L O 19
Guías de práctica clínica
y otros sumarios de evidencia
José Ignacio Pijoan Zubizarreta ■ Antonio Jesús Martín Mateos
Juan Maza Solano
• Presentar las guías de práctica clínica como documentos que contienen

recomendaciones sobre la práctica clínica.
• Dar algunas pautas que ayuden a identificar y valorar las recomendaciones basadas
en la evidencia científica contenidas en las guías.
• Proponer un esquema de aproximación clínica a la lectura de una guía.
• Presentar los sumarios de evidencia actualizados regularmente y los sistemas integrados
de apoyo a la decisión como fuentes de evidencia con recomendaciones útiles
para la práctica clínica.
• Presentar un marco conceptual de las relaciones entre las guías, los sumarios
y los sistemas útil para su uso en la toma de decisiones clínicas.
Introducción
Hace ya 25 años, sir Iain Chalmers, reputado investigador británico en servicios sanitarios y uno de
los fundadores de la colaboración Cochrane, reflexionó en un artículo sobre qué pediría, poniéndose
en la piel de un paciente, de la investigación en salud y de los investigadores. Razonaba que lo que
básicamente pedía y esperaba era que las decisiones que los profesionales tomaran respecto a su
problema clínico estuvieran fundamentadas en evidencias de buena calidad y fiables. Consideraba
que dichas evidencias deberían provenir mayoritariamente de revisiones sistemáticas actualizadas
del conocimiento existente, aun sabiendo de las frecuentes limitaciones y carencias existentes en el
cuerpo de conocimiento y de la necesidad de cierto «ejercicio de fe» para admitir sin ambigüedades
que un resultado en salud se debe indiscutiblemente a la intervención que hemos realizado o aplicado.
Adicionalmente consideraba que los profesionales asistenciales y los investigadores clínicos debían
enfocarse muy específicamente en los aspectos/resultados realmente relevantes para los pacientes (1).
La práctica clínica fundamentada en la mejor evidencia disponible (PBE) sobre los aspectos
relevantes para los pacientes representa un enfoque necesario desde una perspectiva profesional,
social y ética para satisfacer las necesidades y los deseos de los pacientes (al menos de un paciente
como Chalmers). La capacidad de lectura y evaluación crítica de la evidencia clínica disponible
es uno de sus pilares. Es evidente que los autores de este libro consideramos imprescindible el
desarrollo de habilidades profesionales en esta área e intentamos suministrar al lector motivación
y herramientas para su consecución.
Sin embargo, incluso adalides de la PBE consideran que es poco realista esperar que los clínicos
acudan preferentemente a las piezas básicas de evidencia (estudios primarios) y realicen un ejercicio

de lectura crítica de la misma. Postulan que en los currícula en PBE se enfatice la identificación de
fuentes de información con evidencias preprocesadas (sintetizadas y a veces presentadas en forma
de mensajes clave), la comprensión de la evidencia contenida en las mismas y su utilización (2).
La actual producción y diseminación masiva de información científica sobre la práctica clínica (de
calidad y aplicabilidad muy variable) también dificulta poner en práctica el ideal de buscar y valorar
preferentemente los estudios primarios, por un exceso claro de oferta. Se considera adicionalmente
que las síntesis rigurosas y transparentes de la evidencia clínica aportan estimaciones más consis-
tentes de los efectos de las intervenciones y que, por tanto, deben de ser utilizadas, si disponibles, de
forma habitual. Por todo ello se han ido generando y adaptando progresivamente nuevos formatos
de organización, presentación y comunicación de la evidencia científica sobre la práctica clínica
que pretenden, en cierta forma, ayudar a gestionar eficientemente ese exceso y facilitar el poder
encontrar la información más adecuada para cada situación.
Estos documentos utilizan para ello las siguientes estrategias:
■ Ante la sobreproducción de información, evalúan, filtran y resumen la información más
relevante y de mayor calidad (más fiable) disponible.

■ Ante la continua variación en el cuerpo global de evidencia existente (rápida producción y
obsolescencia de la información), desarrollan procedimientos de actualización continua o

periódica de los documentos elaborados.
■ Ante la necesidad de combinar en la práctica cotidiana esa información evaluada con ele-
mentos adicionales que la pongan en valor y contexto (opiniones, preferencias y valores del
paciente y su entorno, valores sociales, disponibilidad y uso de recursos, etc.) incorporan en
el documento elementos de valoración del contexto y métodos de integración explícita
de los mismos con la síntesis del conocimiento seleccionada.
■ Ante la necesidad de facilitar directamente la toma de decisiones allá donde se necesita
(point-of-care evidence), desvían el foco tradicional de los documentos (presentación de

las evidencias), poniendo énfasis especialmente en la producción de una sugerencia o
recomendación final, más que en la mera presentación de la información, que, no obs-
tante, sigue formando parte del documento para permitir su lectura y valoración. Además,
permiten el acceso rápido a las recomendaciones a través del uso de las plataformas y
redes tecnológicas disponibles y la creación de formatos favorecedores de su uso (friendly
interfaces).
Dentro de esta tipología de documentos de nivel superior de integración y difusión de la
evidencia científica, la pirámide 5S de Alper y Haynes (3) señala tres niveles: en el nivel 3 figuran
las recomendaciones desarrolladas sistemáticamente (relacionadas con lo que se denominan guías de
práctica clínica basadas en la evidencia [guidelines]); en el cuarto nivel (desde la base), los llamados
sumarios de evidencia (summaries), y finalmente, en la cúspide (nivel 5) figuran los sistemas inte-
grados de apoyo a la decisión clínica (systems). De estos tres tipos fundamentales de documentos
vamos a tratar en este capítulo.
Para ello, vamos a partir de lo que sería hoy en día el mayor nivel alcanzable de apoyo a
una práctica clínica sostenida en la mejor evidencia clínica disponible: un sistema inteligente e
interactivo de apoyo a la decisión que se integre con las fuentes de información habituales que
maneja el decisor a nivel clínico u organizativo. A partir de este marco ideal, que comentaremos
brevemente, procederemos a explorar lo que aportan actualmente los otros dos tipos de documentos
de evidencias comentados.
Sistemas de apoyo a la decisión clínica basados

en la evidencia como ideal de referencia
Estos sistemas consistirían básicamente en plataformas tecnológicas que almacenan la síntesis
del cuerpo de conocimiento actualizado existente sobre una serie de problemas clínicos junto con

19. Guías de práctica clínica y otros sumarios de evidencia 237
enlaces inteligentes a otras fuentes naturales de información sobre la práctica clínica (generalmente,
la historia clínica electrónica, sistemas de petición de pruebas complementarias, de prescripción
electrónica, bancos de imágenes, etc.). El sistema suministra el conocimiento sintetizado en un
formato amigable (recomendaciones, avisos, recordatorios, enlaces a fuentes de evidencia adecuadas
al problema, etc.), a demanda del profesional o interactivamente en el momento en que el sistema
detecta la existencia de un contexto susceptible de utilización del mismo. Esto último, en general,
se produce a través de la identificación de operaciones rutinarias del usuario (identificar un síntoma,
declarar un diagnóstico, pedir una prueba complementaria, indicar un tratamiento, etc.), en las que
la presentación de esa evidencia sintetizada y adaptada es potencialmente pertinente para apoyar
una toma de decisiones y acciones mejor informadas.
Estos sistemas, por tanto, deben suministrar recomendaciones o sugerencias de decisión, basadas
en síntesis actualizadas de la evidencia de mayor calidad y adaptadas al contexto. Evidentemente,
un sistema de estas características que funcione en tiempo real y pueda usarse en el punto de
decisión de manera natural y fluida puede llegar a ser un gran aliado del profesional sanitario y
puede, potencialmente, favorecer una práctica más «científica», efectiva, segura y eficiente e incluso
favorecer la toma de decisiones compartida con los pacientes.
Este ideal no está todavía plenamente desarrollado, aunque hay avances parciales (v. más
adelante). Es evidente también que estos sistemas necesitan apoyarse en un desarrollo robusto de los
procedimientos necesarios para sintetizar, combinar, actualizar e integrar la información proveniente
de la investigación clínica. Es aquí donde entran en juego los niveles tres y cuatro del modelo 5S.
Guías para la práctica clínica y recomendaciones

basadas en la evidencia
Las guías de o para la práctica clínica (GPC, guías clínicas o simplemente guías) son documentos
que formulan recomendaciones o consejos sobre decisiones que se han de tomar en la asistencia
a un problema clínico concreto. Su objetivo es facilitar y optimizar las decisiones por parte del
profesional minimizando su incertidumbre y ayudar al paciente a participar en las mismas (4).
Estos documentos deben cubrir tres aspectos clave para ser realmente útiles: i) utilizar la mejor
evidencia clínica disponible, adecuadamente seleccionada y sintetizada; ii) no quedarse en la mera
presentación de dicha síntesis, sino utilizarla como base para el apoyo a la decisión final sobre/
con el paciente o grupos de pacientes, y iii) presentar de una forma adecuada su producto final, la
recomendación de acción, de forma que sea fácilmente identificable y aplicable.
Existen muchos formatos y tipos de documentos que incluyen recomendaciones para los
profesionales asistenciales u organizadores de la asistencia sobre qué hacer o no hacer: editoriales,
artículos de revisión, etc. Incluso los estudios originales en su apartado de discusión pueden hacer
propuestas sobre cómo aplicar la información obtenida en el estudio. Pero el objetivo específico
primordial de las guías es influir directamente en la práctica, en las decisiones con el paciente, a
través de recomendaciones razonadas, basadas en contenidos y criterios explícitos y aplicables en
situaciones y contextos claramente identificables.
Dentro del escenario de sobreproducción y exceso comentado previamente, existen guías que
no ajustan global o parcialmente sus procedimientos en relación con los tres aspectos comentados o
que emiten recomendaciones y consejos basados exclusiva o principalmente en opiniones colegiadas,
consensos o en revisiones ad hoc, no sistemáticas de la evidencia (5).
Por lo tanto, debemos abordar el asunto de si se puede considerar que las recomendaciones
contenidas en una guía están basadas en la mejor evidencia disponible y son desarrolladas a través
de un proceso de elaboración transparente y fiable. Es decir, debemos tener algún criterio global
sobre la validez de la guía en su conjunto para posteriormente abordar la validez y aplicabilidad
de cada una de sus recomendaciones (o de aquellas que nos interesen). Para ello utilizaremos dos
perspectivas: por un lado, una presentación de los elementos clave componentes de las guías con

una referencia a los estándares considerados como deseables para cada uno de ellos, y por otro, una
identificación de algunos elementos e instrumentos valorativos sobre la adecuada construcción de
guías propuestos desde diversas instituciones y organizaciones.
COMPONENTES DE UNA GPC CON RECOMENDACIONES BASADAS

EN EVIDENCIAS
Una guía que produzca recomendaciones basadas en la evidencia debe incluir los siguientes
elementos:
1. Un tema bien definido: generalmente es una enfermedad o entidad clínica aceptada e
identificable (cáncer de mama), pero puede ser un subtipo del problema clínico (cáncer de
mama avanzado) o un aspecto concreto de su manejo clínico (uso de los bisfosfonatos en el
cáncer de mama con metástasis óseas). También puede ser un síntoma o conjunto de síntomas
(dispepsia). Se debe definir apropiadamente la condición clínica objeto de la guía. Para ello se
suelen utilizar definiciones estandarizadas o establecidas por métodos de consenso. También
debe quedar claro el alcance que los autores de la guía quieren dar a la misma, es decir, en
qué aspectos específicos se van a centrar (p. ej., ámbito de atención primaria exclusivamente,
enfoques no quirúrgicos, contextos con escasez de recursos, etc.).
2. Un conjunto de preguntas importantes para la práctica asistencial de esa condición clínica,
sobre las que se va a centrar la guía. Deben ser formuladas de forma que faciliten la identi-
ficación y selección de los resultados clínicos de mayor interés (outcomes). También deben
facilitar la plena identificación de las decisiones alternativas consideradas y la organización de
la búsqueda de las evidencias existentes. El formato PICO o sus variantes PICOT/PICOD
cumplen de forma satisfactoria estos requisitos. Una guía puede construir preguntas dirigidas
a diferentes necesidades para la atención clínica del problema (estrategias diagnósticas,
elección de terapéuticas, valoración pronóstica, información para pacientes y familiares, etc.).
3. Una revisión de las fuentes de evidencia disponibles para responder a las preguntas plan-
teadas.
4. El ideal es desarrollar revisiones sistemáticas de calidad para cada pregunta planteada,
basándose en los resultados clínicos determinados previamente como suficientemente
importantes para las decisiones. A veces hay que hacer varias revisiones en paralelo, en
función de los desenlaces clínicos considerados o las alternativas que se van a valorar. Si ya
existen revisiones sistemáticas de calidad y actualizadas sobre el tema de la guía, se evitará
mucho trabajo en el desarrollo de la misma, aunque generalmente las existentes requerirán
revisión y actualización o simplemente no serán apropiadas como soporte de la guía (6).
Cuando las revisiones realizadas demuestran la escasez o ausencia de evidencia de calidad
suficiente para poder apoyar de forma consistente la generación de recomendaciones, la guía
debe indicarlo de forma clara y señalar o bien que no se puede hacer una recomendación o
que esta se basa en evidencias de poca calidad. En estos casos pueden utilizarse niveles bajos
de evidencia (consensos de expertos, etc.), pero, si es así, la guía debe reflejarlo de forma
clara. Por lo tanto, una guía basada en la evidencia puede incorporar opiniones (de hecho,
siempre lo hacen), aunque bien identificadas como tales y, a ser posible, con información
sobre el soporte de las mismas (7).
5. Información sobre el método empleado para valorar la calidad de la evidencia encontrada,
es decir, el grado de confianza en la estabilidad de los efectos estimados de las intervenciones
frente a resultados de nuevas investigaciones. Se han propuesto y aplicado diversos sistemas
de clasificación jerárquica de los niveles de evidencia. El más utilizado actualmente es el
sistema propuesto por GRADE con cuatro niveles (8), basado en la valoración de una
serie de elementos en la evidencia agregada sobre cada outcome clínico relevante. Para más
información sobre el mismo, acudir a los capítulos 17 y 18 de este libro.

6. Un resumen de las evidencias encontradas. Generalmente se presenta en forma de tablas

que especifican la magnitud de los efectos de las intervenciones seleccionadas sobre los
diferentes resultados, la precisión estadística de los mismos, junto con información adicional
sobre los tipos de diseño de los estudios fuente y otros elementos. Idealmente debe cubrir los
resultados positivos y los negativos y también debe indicar el grado de confianza en
los efectos estimados, sobre la base del sistema de gradación y clasificación de la evidencia
predeterminado. La existencia de una síntesis estadística de los resultados (metaanálisis)
ayuda a la evaluación de la información encontrada (estimación sintética de la magnitud
de los efectos), pero no siempre es posible ni deseable. Una síntesis cualitativa es siempre
posible y de gran utilidad para tener una perspectiva de la cantidad de información existente,
de los tipos de diseño de los estudios, los resultados medidos y patrones en el balance global
entre resultados favorables y desfavorables. GRADE ha desarrollado dos tipos de tablas
que permiten presentar esta información en un formato sintético y útil para una valoración
por tipo específico de desenlace clínico. Las tablas de resumen de hallazgos (Summary of
Findings, SoF) presentan la calidad global de la evidencia, la frecuencia de ocurrencia del
desenlace para cada alternativa evaluada y la magnitud del efecto absoluto y relativo de una
alternativa frente a otra, con información de su precisión. Las tablas de evidencia (Evidence
Profile, EP), amplían la información con mayor detalle sobre la valoración de los elementos
componentes de la calidad de la evidencia (v. capítulo 17).
7. Información sobre el procedimiento y elementos utilizados para realizar la integración entre
la información científica existente y las recomendaciones que se van a generar. El paso entre
el conocimiento existente y la acción que se selecciona y ejecuta es crítico y está mediado por
una compleja combinación de mecanismos cognitivos y emocionales. De forma esquemática
se pueden considerar tres grupos de factores que interactúan de forma dinámica: factores del
paciente, factores del profesional y factores del contexto en que se desarrolla la interacción
entre los dos (9). Por lo tanto, el procedimiento utilizado para elaborar una recomendación a
partir de un cuerpo de evidencia científica debe ser lo más explícito posible y considerar
y ponderar, además de la calidad de la evidencia seleccionada y sintetizada, los riesgos y
beneficios asociados a cada intervención y el resto de factores del contexto de aplicación
que modulan la decisión final. Aunque no es el único enfoque existente, el marco «eviden-
ce to decision (EtoD)» propuesto por GRADE está siendo mayoritariamente utilizado
precisamente por ser explícito y permitir realizar de forma estructurada y reproducible esta
importante transición, incorporando valoraciones de muchos de los aspectos que se sabe
influyen en la toma de decisión (10). Este marco puede adaptarse además en función de si la
decisión se refiere a un problema clínico individual o se plantea desde una perspectiva grupal
o poblacional. Cabe recalcar, una vez más, que cada recomendación deberá ligarse a una de
las preguntas planteadas inicialmente y a los resultados clínicos relevantes predeterminados

en los pasos previos.
8. Las recomendaciones propiamente dichas, que son el producto final de las guías, el instru-
mento para informar y orientar la decisión de acción sobre el problema clínico, organizativo
o de salud pública que se afronta. Las recomendaciones son frases u oraciones enunciativas
de tipo positivo o negativo. Una recomendación debe ser muy clara y no dejar lugar a
dudas sobre cuál es la intervención/acción recomendada o desaconsejada, cuándo y a quién
aplicarse. La forma en la que la recomendación está redactada debe reflejar la fuerza de la
misma (grado de énfasis que se pone en la misma basándose en la confianza que se tiene en
que su aplicación es beneficiosa en términos netos). Uno de los problemas tradicionales de
las recomendaciones de las guías ha sido el inconsistente uso de las palabras y la vaguedad en
algunos términos (si está indicado, si se considera apropiado, etc.), que favorecen una inter-
pretación y aplicación errática de las mismas. Una vez más, la propuesta del grupo GRADE
ha aportado claridad y un enfoque sistemático a la elaboración de las recomendaciones

desde una perspectiva semántica, y, más importante, ha favorecido una interpretación y

aplicabilidad más homogénea de las mismas. Idealmente, la guía debe proporcionar también
algunas orientaciones sobre cómo aplicar las recomendaciones, clarificar las áreas de mayor
incertidumbre y propugnar áreas de investigación preferente.
9. Información adicional relevante que frecuentemente se ubica en anexos o documentos
adicionales: las estrategias de búsqueda de las evidencias, los estudios seleccionados y los
resultados cuantitativos y cualitativos de las revisiones, con sus correspondientes metaanálisis
si se han desarrollado. Otra información también de interés incluye datos sobre el promotor
de la guía, los autores y grupos de trabajo, el tipo de financiación, los procedimientos de
identificación y la resolución de conflictos de interés, los procedimientos para la actualización
de la información y su periodicidad, etc.
CRITERIOS Y CONSIDERACIONES SOBRE LA CALIDAD

DE LAS GUÍAS
La producción de numerosas GPC siguiendo enfoques y métodos muy heterogéneos para su construc-
ción y difusión y presentando recomendaciones inconsistentes, cuando no claramente contradictorias
(11), ha generado frecuentemente más confusión que claridad entre los profesionales y ha causado
cierta desconfianza respecto a su utilidad. También ha desencadenado una serie de iniciativas para
intentar cambiar esta situación y marcar pautas para conseguir que la evidencia científica relevante
para la práctica clínica se organice y difunda de una forma rigurosa y transparente.
Entre ellas, podemos destacar la del Institute of Medicine (IOM) americano (actualmente la
National Academy of Medicine), que publicó dos textos clave con recomendaciones sobre criterios
de calidad que deberían cumplir las revisiones sistemáticas de la evidencia (12) y unas GPC «de
fiar» (13). En el cuadro 19.1 podemos ver un resumen esquemático de las características generales
que debe presentar el proceso de confección de guías para que estas sean consideradas como fiables
e informadas por la mejor evidencia disponible.
Otras organizaciones internacionales de referencia en el campo de la mejora de la calidad,
difusión y utilización de las guías (Guidelines International Network [GIN], National Guideline
CUADRO 19.1 ■ Resumen de requisitos que debe cumplir una guía fiable
■ Transparencia total en la descripción de los objetivos, procedimientos, métodos y sobre la existencia
y resolución de posibles conflictos de interés.
■ Equipos multidisciplinares que actúen de forma complementaria e integrada.
■ Uso de revisiones sistemáticas como fundamento para la síntesis de la evidencia disponible.
■ Gradación explícita de la calidad de las evidencias disponibles.
■ Identificación y descripción de los déficits de conocimiento y/o de la baja calidad de los mismos
en aspectos clave de cara al establecimiento y gradación de las recomendaciones.
■ Proceso explícito y participativo de descripción y evaluación de los riesgos y beneficios potenciales
de cada recomendación frente a sus alternativas. Consideración clara de los valores asignados a
dichos beneficios y riesgos por diversos perfiles implicados en las decisiones (pacientes, clínicos,
gestores, etc.). Gradación explícita de la fuerza que acompaña a cada recomendación.
■ Procesos rigurosos y transparentes de revisión externa multidisciplinar de cada paso crítico.
■ Declaración sobre el período de presunta validez de la guía y los mecanismos y plazos de actuali-
zación.
■ Establecimiento de sistemas de vigilancia y alerta ante la posible aparición de nuevos resultados
relevantes de la investigación clínica, realizando modificaciones adecuadas en la guía cuando haya
nuevas evidencias que cambien la situación.
Modificado de IOM 2011 (13).

Clearinghouse [NGC]) han elaborado documentos similares y establecido a partir de ellos criterios
para incluir o no una guía en sus repertorios web. En el ámbito español, GuíaSalud, fruto de un
acuerdo entre el Ministerio de Sanidad y las Comunidades Autónomas para apoyar la mejor asistencia
sanitaria a través de la promoción y la difusión de guías de práctica clínica y otros documentos de
evidencia entre los profesionales del Sistema Nacional de Salud (SNS) y los pacientes (https://portal.
guiasalud.es/), también ha elaborado diversos documentos metodológicos en relación con las GPC.
Al mismo tiempo, se han creado instrumentos para valorar la calidad de una guía, con la espe-
ranza de que los usuarios y decisores seleccionen aquellas de más alta posición en el ranking y de
estimular a su vez una mejora en la forma en que las guías se generan y comunican (v. cuadro 19.1).
Entre los instrumentos creados, los más utilizados son los desarrollados por la organización AGREE
(https://www.agreetrust.org/): AGREE II (23 ítems en 6 áreas o dominios) es el instrumento de
referencia, pero debido a su extensión se ha creado una versión reducida: AGREE-GRS (Global
Rating Scale), con cuatro preguntas de valoración de aspectos concretos de la calidad de la guía,
una valoración global de su calidad y dos preguntas al usuario sobre su acuerdo con usar la guía
en su práctica y recomendarla a sus pares. Los autores del instrumento consideran que, usada por
dos evaluadores de la guía y siguiendo sus instrucciones, permite discriminar de forma razonable
guías de mayor o menor calidad.
En realidad, utilizar estos instrumentos requiere, además de un cierto tiempo, conocimiento
metodológico, y raramente son utilizados fuera del ámbito de la epidemiología clínica, la inves-
tigación en servicios sanitarios o en calidad asistencial. AGREE-GRS puede ser utilizado en el
ámbito de un grupo con interés por identificar y utilizar las mejores recomendaciones basadas
en evidencias científicas y en el que haya al menos una persona con cierta experiencia en lectura
crítica y metodología epidemiológica (por ejemplo, en un centro de salud, servicio hospitalario,
club de lectura, etc.).
Recientemente, el instituto ECRI de EE. UU., continuador del desaparecido NGC, ha incorpo-
rado el TRUST (Transparency and Rigor Using Standards of Trustworthiness) scorecard (https://
guidelines.ecri.org/about-trust-scorecard). Es un sistema de puntuación basado en estrellas (hasta
5, como con los hoteles o las críticas cinematográficas) que considera los aspectos propuestos por
el IOM y es aplicado a todas las nuevas guías que incorpora a su repertorio, ayudando, al menos
teóricamente, a la selección de las guías más rigurosas (14).
Sin embargo, el mayor impacto sobre los procedimientos que actualmente se están utilizando
en el desarrollo, la valoración y la aplicación de las GPC procede probablemente del trabajo del
grupo GRADE. La metodología GRADE (https://gdt.gradepro.org/app/handbook/translations/
es/handbook.html) ha incidido sobre varios aspectos clave de las guías: i) la valoración de la calidad
de o la confianza en la evidencia científica disponible sobre el efecto de las decisiones alternativas
sobre resultados clínicos relevantes y en relación con problemas bien especificados; ii) la cons-
trucción de recomendaciones operativas a partir de esa valoración, y iii) la creación de un marco

lógico explícito de interpretación de las recomendaciones que clarifica sustancialmente el contexto
de aplicación a nivel individual o grupal. Dado que existen dos capítulos dedicados a esos aspectos,
remitimos al lector a dichos capítulos (v. capítulos 17 y 18).
Consideraciones adicionales sobre el uso de las guías

USOS DE LAS GUÍAS
Aunque originalmente las guías han tenido como objetivo primordial ayudar en la toma de decisio-
nes con el paciente individual o con los pacientes con un determinado problema clínico, actualmente
pueden ser utilizadas para diversos propósitos, entre los que mencionamos:
■ Establecimiento de estrategias, protocolos y vías clínicas. Estos son muchas veces ins-
trumentos clave de uso y adaptación de las recomendaciones de una o más GPC a contextos
asistenciales específicos.

■ Soporte científico de programas de vigilancia, control y prevención de enfermedades desde

una perspectiva de salud pública.
■ Creación y aplicación de estándares de calidad y adecuación asistencial que disminuyan la
importante variabilidad habitual en la asistencia prestada a un mismo problema clínico en
diferentes contextos y por diferentes profesionales.
■ Instrumentos docentes en el proceso formativo de profesionales de la asistencia clínica, la
salud pública y la organización de los sistemas sanitarios, especialmente en la formación
postgrado.
■ Financiación de procesos asistenciales y/o establecimiento de cartera de servicios en los sis-
temas sanitarios.
■ Decisiones judiciales en procesos de litigación y demanda por posibles procedimientos asis-
tenciales no justificados o resultados desfavorables inesperados.
GUÍAS CUANDO LA EVIDENCIA ES ESCASA O INCOMPLETA

Cuando el cuerpo de evidencia disponible en relación con una pregunta clínica es amplio y de
alta calidad, la o las recomendaciones de las guías suelen acompañarse de un alto grado de certeza
sobre su efecto beneficioso (o perjudicial) global. Desgraciadamente es muy frecuente encontrar
que la evidencia sobre la eficacia y/o seguridad absolutas o relativas de numerosas intervenciones
es escasa, incompleta, incongruente o simplemente ausente, especialmente si nos interesa la asis-
tencia a subgrupos de pacientes específicos, complejos o atípicos. Algunos autores incluso plantean
si el desarrollo de las GPC, con numerosas recomendaciones basadas en consensos más que en
evidencias, está alejando la práctica clínica real del ideal de la PBE y devolviéndola a una denostada
práctica basada en la autoridad (15).
Ya hemos comentado brevemente que en toda GPC basada en la evidencia existen etapas en las
que el establecimiento de juicios de valor es necesario (valoración de los riesgos de sesgo, del valor
de estimaciones del efecto provenientes de estudios observacionales, consideración del balance entre
riesgos y beneficios, etc.). Esta situación, aunque no deseable, es inevitable y debe ser abordada
con transparencia y rigor. El primer paso para ello es su reconocimiento y declaración explícita,
explicando cómo se ha abordado por parte del equipo de desarrollo de la guía y sus recomendaciones
(7). El concepto de PBE señala explícitamente que debe haber una integración de la mejor evidencia
disponible con la experiencia clínica y la consideración de los valores del paciente. Cuando hay
escasez de la primera, hay que poner énfasis especial en la segunda, teniendo como referencia los
valores individuales y de contexto.
Un aspecto importante es que la composición del equipo de desarrollo de la guía sea equili-
brada de forma que se asegure la consideración de los múltiples aspectos y perspectivas relevantes:
experiencia clínica, rigor metodológico, consideraciones organizativas y económicas, visión de los
pacientes, etc. Se deben de utilizar técnicas reconocidas de discusión y establecimiento de consensos
(técnicas Delphi y relacionadas) con clara documentación de cómo se han llevado a cabo los mismos.
GUÍAS «EN TIEMPO REAL»

Es fácil deducir de lo que se presenta como el ideal para construir GPC basadas en la evidencia
que el tiempo y los recursos humanos y organizativos requeridos son muy importantes. Se estima que
una revisión sistemática Cochrane necesita entre 1 y 2 años para completarse. Lógicamente,
si una guía debe fundamentarse en una serie de revisiones (adaptadas a partir de alguna existente
o generadas de novo), se deduce que el tiempo de ejecución puede ser incluso superior. Ello puede
claramente limitar la utilidad de las guías, especialmente en áreas clínicas en las que existe una
tasa alta de generación de nuevo conocimiento que puede modificar frecuentemente el cuerpo

de evidencia, sustrato de la guía. También pueden aparecer nuevos problemas o necesidades que
requieren de consejos y recomendaciones de generación rápida (como ejemplo, la miríada de
preguntas clínicas, organizativas y de salud pública planteadas por la emergencia generada por la
aparición de la gripe aviar [H5N1] o por la actual pandemia inducida por el SARS-Cov-2). En
estas circunstancias se necesitan las recomendaciones en un plazo corto, pero intentando mantener
el rigor de las mismas.
Existen diversas experiencias de elaboración y difusión de recomendaciones desarrolladas de
forma explícita y sistemática en plazos muy inferiores, generalmente de pocos meses desde el plan-
teamiento de la necesidad de información (16) y propuestas sobre procedimientos de elaboración
de las mismas (17). Son denominadas de varias formas: guías rápidas, guías provisionales (interim
guidelines), guías cortas, etc. Algunas de las estrategias adoptadas para conseguirlo son descritas
en el cuadro 19.2.
Es remarcable que estamos asistiendo en la última década a una verdadera explosión de pro-
puestas de estrategias alternativas de elaboración de síntesis de la evidencia dirigidas a: i) acortar
sensiblemente el plazo entre la expresión de la necesidad de conocimiento y la presentación de la
evidencia en forma apropiada para ser usada en guías u otros sumarios de evidencia; ii) dar rápida
respuesta a la aparición de nuevo conocimiento con potencial de influir en las recomendaciones
de práctica clínica, y/o iii) proporcionar consejo en situaciones de emergencia con niveles de
evidencia muy preliminares y cambiantes. Aunque no existe todavía un acuerdo total en torno
a su nomenclatura y a qué las define y diferencia, es un campo de gran actividad metodológica
por parte de diversos grupos y organizaciones y que sin duda va a afectar de forma sustancial
a los procedimientos de elaboración, difusión y uso de las futuras guías. Mencionaremos las
revisiones rápidas, las revisiones «vivas» o continuas (lively reviews), las revisiones de alcance o
perspectiva (scoping reviews: realizan una exploración amplia y mapeo de las evidencias sobre
un tema, buscando conceptos, términos, identificando carencias en el conocimiento, fuentes de
información, etc.) y las revisiones «en paraguas» (umbrella reviews: revisiones de revisiones y
metaanálisis existentes). Remitimos al lector interesado en conocer más sobre estos tipos de
revisiones al capítulo 11.
CUADRO 19.2 ■ Algunos métodos utilizados en las revisiones rápidas

(en contraste con las revisiones sistemáticas tradicionales) y en la elaboración
de recomendaciones rápidas a partir de ellas, para maximizar la eficiencia
en tiempo y recursos
■ Creación de grupos que trabajan en paralelo sobre tareas diferentes (panel de elaboración de las pre-
guntas, grupo que selecciona los desenlaces que se han de valorar, grupo de búsqueda de las
evidencias, utilización de revisiones existentes, etc.) bajo la coordinación de un grupo multidis-
ciplinar que sigue procedimientos explícitos predeterminados y puede colaborar en la realización

de algunas de las tareas o actuar como grupo revisor.
■ No publicación del protocolo de la revisión de soporte.
■ Restricción en las fuentes de búsqueda de la evidencia (fundamentalmente revisiones sistemáticas,
no búsqueda de literatura gris, etc.).
■ Simplificación de algunos pasos en la revisión (solo una persona para seleccionar los estudios o
extraer los datos, no búsqueda de literatura gris, etc.).
■ Utilización intensa de la tecnología para tener frecuentes contactos virtuales entre los diversos
grupos a través de videoconferencias y correo electrónico, para minimizar reuniones presenciales,
más costosas y complejas de organizar.
■ Uso frecuente de técnicas de establecimiento de consensos y de votaciones cuando los consensos
son difíciles de alcanzar en puntos críticos del desarrollo de la guía y enlentecen el proceso.
■ Uso frecuente de otras técnicas auxiliares (encuestas sobre valores y preferencias, metaanálisis en
red, etc.).

Existe una propuesta inicial, apoyada por el grupo GRADE, con los pasos necesarios o recomen-
dados en la elaboración de una guía que produzca recomendaciones en un tiempo más adecuado
a la necesidad que pretende satisfacer (18).
GUÍAS EN PACIENTES COMPLEJOS

Las GPC se centran generalmente en elaborar recomendaciones sobre un problema clínico espe-
cífico, enriquecidas, pocas veces, con alguna indicación sobre el tratamiento o manejo de pacientes
con algunas patologías estrechamente relacionadas, como puede ser, por ejemplo, el manejo clínico
y terapéutico de la hipertensión arterial en pacientes con diabetes o insuficiencia renal. De hecho,
se menciona la utilización de guías enfocadas en la atención clínica de pacientes con un único pro-
blema (raros en nuestro entorno) como una de las razones de la polimedicación y excesivo número
de consultas que configuran los cuidados sanitarios actuales de muchas patologías crónicas (19).
Un problema de base es que una gran parte de la evidencia de alto nivel sobre medidas preventi-
vas o terapéuticas proviene de ensayos clínicos que, casi como regla general, excluyen la participación
de pacientes con múltiples patologías. Esto hace que frecuentemente la evidencia sobre los efectos de
las intervenciones en esos pacientes sea escasa y de baja calidad. Aspectos adicionales que se deben
considerar incluyen la posibilidad de interacciones medicamentosas, problemas de cumplimiento de
los tratamientos y recomendaciones y los posibles cambios de escala en la relación riesgo-beneficio
y en los valores, expectativas y preferencias de pacientes con casi infinitas posibles combinaciones
de diversas patologías y diferentes grados de afectación de sus vidas por ellas.
Existen recomendaciones generales que promueven que se considere la realidad de la multi-
morbilidad desde el principio y en cada una de las etapas de generación de las recomendaciones
basadas en la evidencia, y algunas sociedades científicas han establecido procedimientos para el
desarrollo de recomendaciones de la práctica en pacientes con algunas comorbilidades de frecuente
asociación con las patologías de interés para las guías (20).
Es este un territorio complejo, en el que se debe maximizar la obtención de evidencia útil para las
decisiones clínicas a partir de todas las fuentes de información disponibles (estudios observacionales,
registros clínicos, metaanálisis con datos individuales, etc.) y en el que es imprescindible potenciar
la capacidad de clínicos y pacientes para poder compartir la información existente y los valores
relevantes de contexto en una toma de decisiones conjunta.
IMPLEMENTACIÓN DE LAS GUÍAS-PROBLEMAS, LIMITACIONES

Y ESTRATEGIAS
Tradicionalmente se ha reconocido el escaso grado de implantación de las recomendaciones
de las guías y el largo proceso de transferencia del conocimiento a la práctica rutinaria (21). A pe
sar de los importantes avances conseguidos en la forma de organizar, sintetizar y presentar este
conocimiento, sigue persistiendo esta brecha. Se han enumerado diferentes factores que pueden
explicar esta situación (22,23): algunos son achacables a la propia calidad de las guías en su
contenido o la claridad y aplicabilidad de sus recomendaciones; otros a las rutinas y resistencias
al cambio por parte de las organizaciones, profesionales y pacientes y a la dificultad real por parte
de todos estos actores de aplicar a contextos y problemas específicos recomendaciones genéricas;
también se mencionan la rápida obsolescencia de muchas recomendaciones en determinadas áreas,
la necesidad de una integración fácil y directa con los procesos rutinarios, etc. Las evidencias
existentes sobre el efecto de la aplicación de las guías sobre los desenlaces clínicos son, por otra
parte, escasas e inconsistentes (24). Solo comentaremos aquí que se está trabajando activamente
en intentar cambiar esta situación desde diferentes perspectivas: por un lado, disciplinas jóvenes
como la transferencia del conocimiento y la ciencia de la implementación abordan por un lado
el mapeo de los elementos componentes del proceso de transformación del conocimiento en

decisiones y acciones (25) y la elaboración de estrategias fundamentadas en modelos teóricos

para influir efectivamente en puntos críticos como son el desaprendizaje y abandono de prácticas
inefectivas o dañinas, bendecidas por la rutina y la tradición y su sustitución por otras apoyadas
en un conocimiento científico de sus consecuencias. Por otro, se están elaborando formatos que
faciliten el acceso a las recomendaciones y a sus evidencias de soporte de forma más rápida y
natural, utilizando lenguajes adaptados a los diferentes usuarios, interfaces intuitivas, documentos
y técnicas auxiliares de soporte (como las ayudas a la decisión compartida, reglas de decisión
clínica, etc.) (26) y todo el arsenal de soportes de comunicación actuales (apps, webs, mensajería
electrónica, etc.). En este sentido, es importante considerar a los sumarios de evidencia y los
incipientes sistemas de apoyo a la decisión como instrumentos clave para acercar las recomen-
daciones derivadas de las GPC y otras fuentes de evidencia al punto crítico, que es aquel en el
que se toman las decisiones. Comentaremos sobre ello en breve.
REPERTORIOS DE GPC Y ESTRATEGIAS DE BÚSQUEDA

La clásica búsqueda secuencial de GPC, distinguiendo entre recursos que almacenan, que evalúan
o desarrollan, es muy tediosa para el clínico y hace que pierda una gran cantidad de tiempo. La
disponibilidad de las guías en línea permite actualmente desarrollar una búsqueda de guías más
eficiente, viéndose favorecida por el desarrollo de sumarios y metabuscadores. Por otro lado, existen
repositorios específicos de guías clínicas, siendo de especial interés aquellos que evalúan y realizan
sinopsis, ya que las sinopsis de guías clínicas quedan frecuentemente excluidas en la búsqueda de
los metabuscadores y en los sumarios. De esta forma se evita tener que hacer la búsqueda en bases
de datos más complejas, o en la web de las sociedades u organizaciones científicas que las elaboran.
Repositorios de guías
Hay una serie de recursos de repositorios de GPC elaboradas con metodología MBE (27). Cada
vez más frecuentemente las guías pueden ser publicadas como artículos en revistas patrocinadas por
sociedades científicas, pero podemos localizarlas en estas bases de datos, pues en ellas han podido
ser evaluadas, referenciadas o resumidas.
■ ECRI Guidelines Trust es actualmente el repositorio en línea más importante de GPC. Es
de acceso libre y gratuito, aunque precisa registro. ECRI Guidelines Trust ha sido creado por
el mismo equipo que desarrolló y mantuvo la National Guideline Clearinghouse™ (NGC)
de la Agency for Healthcare Research and Quality durante más de 20 años. Las GPC son
previamente evaluadas para asegurar su rigor metodológico y transparencia, por lo que
contiene exclusivamente guías «basadas en la evidencia». Además de almacenarla y ofrecer
enlace directo a la guía original, tras la evaluación desarrollan una sinopsis o «guía breve» y
una evaluación de la confianza en el rigor en su desarrollo mediante la herramienta «ECRI’s

TRUST Scorecard». Puedes acceder desde https://guidelines.ecri.org/.
■ Canadian Medical Association Infobase: (CMA infobase). Base de datos de guías recopila-
das por la Asociación Médica Canadiense y producidas por distintas organizaciones médicas
nacionales y provinciales, sociedades profesionales, agencias gubernamentales y paneles de
expertos. Se accede desde https://joulecma.ca/cpg/homepage.
■ Australia’s Clinical Practice Guidelines Portal. Desarrollada por el National Institu-
te of Clinical Studies, dependiente del National Health and Medical Research Council
(NHMRC), recoge las guías elaboradas en Australia. Las guías son seleccionadas previa
una evaluación metodológica que utiliza criterios similares a los de ECRI. Se accede desde
http://www.clinicalguidelines.gov.au/.
■ Guideline Central. Resúmenes de guías actualizadas. Desde ella se accede a los antiguos
resúmenes de la NGC. Para acceder a otras guías exige suscripción de pago. Acceso en https://
www.guidelinecentral.com/summaries/.

■ GuíaSalud. Fruto de una alianza entre el Ministerio de Sanidad y las CC. AA., es un
repertorio mantenido por el Instituto Aragonés de la Salud. En 2003 fue adoptada por el
Consejo Interterritorial de Sanidad como instrumento de mejora de la calidad en el SNS.
Recopila y presenta un catálogo con las GPC elaboradas en el SNS. Se accede desde http://
www.guiasalud.es. La inclusión de las GPC del catálogo se realiza basándose en criterios
metodológicos. Contiene además otros productos basados en la evidencia, materiales para
pacientes, etc.
Sumarios
Los sumarios enlazan las recomendaciones de práctica con los documentos que contienen las
evidencias de soporte, muy especialmente con las GPC, presentando a su vez un apartado de
referencias de las guías revisadas que respaldan la información desarrollada en el tema y un enlace
directo a las guías clínicas originales. Destacan especialmente DynaMed (https://www.dynamed.
com/home), UpToDate (https://www.uptodate.com/home) y Best Practice (https://bestpractice.
bmj.com/info/) (28). De esta manera, el uso de los sumarios es una de las formas más eficientes de
localizar GPC. Sin embargo, hay que tener en cuenta que no todas las guías que encontraremos
en estos sumarios están basadas en la evidencia, a diferencia de las accesibles en la base de datos
ECRI Guidelines Trust.
Metabuscadores
Los metabuscadores desarrollan una búsqueda simultánea de los diferentes documentos de eviden-
cia, presentándonos mediante unos filtros o etiquetas los correspondientes a guías clínicas. Este tipo
de recurso se ha transformado en una de las mejores herramientas para localizar guías. ACCESSSS
(https://www.accessss.org/), TRIP Database (https://www.tripdatabase.com/), Evidencias en
Medicina (http://www.adimbe.org/evidenciasenmedicina/) y NICE Evidence Search (https://
www.evidence.nhs.uk/), te permiten localizarlas mediante filtros o etiquetas. Al igual que en los
sumarios, no todas las GPC que encontremos en los metabuscadores están basadas en la evidencia,
a diferencia de la base de datos ECRI Guidelines Trust.
Base de datos generales

Las bases de datos genéricas o generales disponen de campos, filtros o descriptores que pueden
facilitarnos la localización de guías clínicas, aunque debemos valorar críticamente los documentos
recuperados. En PubMed, la forma más precisa y rápida para localizar guías es introducir en el
box de búsqueda nuestros términos de búsqueda seguidos de guideline* [ti] OR guideline [pt]
(fig. 19.1). Si utilizamos solo el filtro de tipo de artículo guideline visible desde la pantalla de
resultados en el menú lateral, o lo introducimos desde el Mesh «Guideline» [Publication Type],
incluye Practice guideline, se pueden excluir algunas citas relevantes que aún no han completado
el proceso de indexación de Medline, de igual forma que ocurre si lo hacemos desde la pantalla de
resultados seleccionando el filtro de tipo de artículo guideline, en la barra lateral.
Podemos concluir que una estrategia de búsqueda eficiente de GPC puede iniciarse con ECRI
Guidelines Trust, acudiendo posteriormente a los sumarios y metabuscadores, posteriormente a
las bases de datos originales y por último a los repertorios de los centros que las desarrollan. En
nuestro entorno, GuíaSalud es un portal que también debe ser explorado, pues las guías existentes,
si están desarrolladas con rigor y actualizadas, pueden reflejar mejor nuestro entorno asistencial,
cultural y social.
Lectura clínica de una guía de práctica clínica

Ya hemos comentado que existen diversas herramientas que pueden servir de ayuda para valorar la cali-
dad formal de una guía clínica, es decir, el grado de cumplimiento de los estándares y recomendaciones

definidos por diversos grupos de trabajo y organizaciones. Estas herramientas no son prácticas
para ser utilizadas por un profesional en su práctica asistencial individual, pues requieren tiempo y
conocimientos metodológicos importantes. Además, las GPC son generalmente documentos extensos
y complejos, con varios apéndices y elementos anexos que contienen recomendaciones y un soporte
de evidencias preevaluadas, no susceptibles por tanto de una lectura crítica al uso, similar a la de un
estudio original.
Figura 19.1 Ejemplo de búsqueda de GPC en PubMed: A. Búsqueda del término de interés. B. Búsqueda
del tipo de documento requerido (si utilizamos el tipo en el título y como tipo de publicación, maximizamos
la eficacia de la búsqueda).
(Continúa)

Figura 19.1 (Cont.) C. Combinación de las dos búsquedas con AND. La búsqueda nos mostrará las GPC que
incluyan el término «dispepsia» en el título y/o resumen y estén descritas o clasificadas como guías. PubMed
ha identificado 66 documentos que, a priori, cumplen el perfil de búsqueda.
Lo importante, por tanto, es valorar si la guía ha seguido de forma global un proceso riguroso
de construcción, usando algunas de las claves que hemos comentado anteriormente, para decidir
si la guía parece, a priori, fiable. Esto puede ser especialmente útil si existen varias guías publicadas
y vigentes sobre el mismo tema, algo bastante frecuente en algunas patologías. Tras esta valoración
debemos proceder automáticamente a comprobar si nos parece válida y útil para la resolución de
nuestra pregunta clínica concreta, es decir, hacer una lectura con enfoque clínico. Para ello hay
varios pasos que debemos llevar a cabo:
1. Encontrar nuestra pregunta en la guía. Si está formulada en formato PICO, será fácil
ver hasta qué punto la pregunta de la guía corresponde a nuestra duda decisional y por tanto
hasta qué punto podremos utilizar la/s recomendaciones sobre la misma. Es clave en ese paso
valorar qué resultados clínicos se han seleccionado como relevantes en la guía y si alguno
o varios de esos resultados son relevantes para nuestra práctica y para nuestro paciente o
problema concreto.
2. Identificar el cuerpo de evidencia presentado y el procedimiento de búsqueda del mismo.
Habrá que decidir sobre si el proceso de búsqueda parece sistemático, exhaustivo y apropiado
para encontrar evidencias directamente relacionadas con el tipo de pregunta planteada.
Aunque lo ideal es una revisión sistemática rigurosa y actualizada de estudios de alto nivel,
eso frecuentemente no es factible y hay que valorar cómo han abordado aquellas áreas de
escasa evidencia o de evidencia de baja credibilidad. Considerar si es probable que hayan
aparecido posteriormente nuevas piezas de evidencia no incluidas por no ser una búsqueda
actualizada.
3. Valorar la evidencia presentada: para cada desenlace crítico o importante hay que considerar
el resultado (magnitud del efecto o asociación), su precisión y la calidad/certeza de dicha
evidencia, que nos informará sobre la estabilidad del resultado estimado y su «resistencia» a

nuevas investigaciones. Aquí saber interpretar las tablas de evidencia y los resúmenes de los
hallazgos es clave.
4. Ver cómo se han definido y valorado los efectos beneficiosos y los perjudiciales de las inter-
venciones alternativas y cómo se ha determinado el equilibrio entre ellos, para los diferentes
resultados clínicos relevantes. Hay que considerar si este proceso es similar al que nosotros
hubiéramos realizado o, por el contrario, han incluido (o dejado de incluir) elementos y
aspectos que crees que tú, tu entorno de trabajo y tu paciente no hubierais considerado
(o hubierais considerado con toda seguridad) y si los «pesos» dados a cada elemento parecen
razonables.
5. Por último, deberemos centrarnos en las recomendaciones y considerar: su claridad, grado
de conexión directa con la pregunta de inicio y énfasis (fuerza) de la misma. A partir de ello,
deberíamos pensar si podemos hacer nuestra esta recomendación (o planteársela al paciente)
y si creemos que seguir la misma maximiza las probabilidades de un resultado clínico satis-
factorio (beneficio superior a daño). Nuestra intervención dependerá de la respuesta a esta
reflexión. Puede ser útil la existencia de documentos y herramientas auxiliares que ayuden
a presentar la información sobre la recomendación en lenguaje asequible para el paciente y
su entorno y/o a intentar establecer un diálogo y una decisión discutida y compartida.
Sumarios de evidencia
Debido a la falta de tiempo, a las dificultades de localización de las evidencias y a su constante
actualización, los clínicos recurren cada vez más a las herramientas de información en línea, pero
necesitan información de buena calidad y fácil de usar. Para ser considerados sumarios (resúmenes
sintetizados para la consulta clínica) deben ofrecer la información resumida y clasificada por
condiciones clínicas y/o por especialidades clínicas, con evidencia previamente evaluada y a través
de procesos de selección, lectura y presentación consistentes (3). Los sumarios extraen la evidencia
de guías clínicas, revisiones sistemáticas y estudios originales (es decir, de todos los niveles de
documentos de evidencia), constituyen un recurso altamente eficiente para localizar la evidencia
de las revisiones sistemáticas y GPC, ya que son referenciadas en su elaboración constituyendo su
principal arquitectura. Los sumarios difunden las recomendaciones clínicas, de tal forma que el
clínico, ante una determinada condición clínica, obtiene de forma sencilla recomendaciones basadas
en la evidencia incluso de diferentes guías. También pueden incorporar búsquedas adicionales de
evidencias por sus equipos editores para completar áreas donde la evidencia encontrada es débil o
pueden también incorporar opiniones y consensos de clínicos expertos. Estos equipos pueden reali-
zar además una revisión periódica de un grupo seleccionado de revistas de diferentes especialidades.
El objetivo de los sumarios es responder a las preguntas que surgen en el punto de atención al
paciente (28,29). Para ello deben ofrecer la información con una interfaz sencilla de utilizar y bien
estructurada, rápidamente accesible y completa, por lo que tienden a organizar la información del
modo tradicional en la enseñanza médica y en los textos clínicos (algunos pueden ser considerados
libros electrónicos con soporte multimedia y actualización frecuente).
Los textos en línea destinados a ser utilizados en el punto de atención se han ido desarrollando
en estos últimos años por diversas empresas editoriales, debido a que se va imponiendo su uso en
la cultura médica, favorecido por el desarrollo de los dispositivos móviles que permiten su consulta
en cualquier lugar y momento. No todos reúnen las mínimas condiciones necesarias para ser
considerados un recurso de «evidencia previamente evaluada», desconociéndose si la información
está basada en la evidencia y si está actualizada. El clínico desea obtener de forma inmediata la
información, pero sin comprometer su fiabilidad y calidad, lo que obliga a evaluar la validez de los
denominados recursos de información en el punto de atención.
Una revisión sistemática reciente sobre las herramientas para validar la confiabilidad de los
sumarios concluye que no existe una herramienta estándar validada (30). Otro trabajo (28) evaluó

la validez de 26 sumarios en diversas dimensiones, concluyendo que BMJ Best-Practice, DynaMed

y UpToDate obtenían la mayor puntuación en todas las dimensiones, siendo algunos sumarios
poco fiables.
Strauss (27) propone una sencilla prueba previa de cribado para evaluar si un sumario en línea
pudiera estar basado en la evidencia y actualizado:
■ Ofrece recomendaciones para la atención de los pacientes citando las evidencias mediante
referencias directas accesibles que las respaldan.

■ Las fechas de publicación de las referencias más recientes no tienen más de 2 o 3 años.
Algunos de estos sumarios presentan también documentos auxiliares para ayudar a informar a
los pacientes en un lenguaje adaptado y herramientas de apoyo a la formación a nivel pre- o post
graduado. En general son productos comerciales bajo el formato de suscripción renovable, a nivel
individual o institucional. Constituyen hoy en día un mercado muy importante y competitivo,
lo cual hace que estos sumarios se adapten y evolucionen frecuentemente, en un afán de ser más
atractivos y demandados cada día. También hace que algunos de estos sumarios hayan maximizado
su usabilidad en todo tipo de plataformas tecnológicas y su facilidad de integración en las historias
clínicas electrónicas. Aunque algunas de ellas se autoproclamen sistemas computarizados de apoyo
a la decisión clínica, no cumplen actualmente todos los requisitos que hemos comentado al inicio
(v. apartado «Sistemas de apoyo a la decisión clínica basados en la evidencia como ideal de referencia»).
Recapitulando
La asistencia a los problemas de los pacientes y la organización, gestión y provisión de servicios
sanitarios es cada vez más compleja y sus necesidades de información cada vez mayores. La existencia
de un crecimiento exponencial, aparentemente sin límite, en el número de estudios y publicaciones,
lejos de ser una solución, puede haberse convertido en un problema. Para afrontarlo existe un
movimiento de creación de documentos que sinteticen la información más relevante (síntesis),
se están desarrollado métodos para ofrecer al profesional recomendaciones de decisión aplicables
en el lugar y momento donde se necesitan (GPC basadas en las síntesis de evidencias) y se están
generando documentos y plataformas de sumarios de las evidencias, que organizan, integran y
presentan las recomendaciones y las evidencias sintetizadas de soporte y las aproximan al punto de
atención a través de los soportes tecnológicos actuales. Ello favorece que la información relevante
y de calidad esté en el momento y lugar adecuados, promoviendo su uso.
Se están realizando también avances en la integración de todos estos recursos en los sis-
temas y procesos de trabajo rutinario: historias clínicas electrónicas, generación de diagnósticos,
petición de pruebas de imagen y complementarias, prescripción, etc., a través de lo que se llama, un
tanto vagamente, sistemas computarizados de apoyo a las decisiones clínicas. Aunque hay todavía
importantes barreras y limitaciones en su funcionalidad y utilidad (31), el próximo futuro va a ver,
sin duda, un aumento de su presencia en las tomas de decisión y las acciones de los profesionales
de la salud. No debemos de perder de vista, sin embargo, el hecho de que, sin una sólida base
en forma de investigación clínica de calidad, sobre preguntas relevantes y comunicada de forma
apropiada (la base de la pirámide), no será posible tampoco una sólida calidad científica y humana
de la atención al paciente.
Bibliografía
1. Chalmers I. What do I want from health research and researchers when I am a patient? BMJ
1995;310(6990):1315-8.
2. Lehane E, Leahy-Warren P, ÓRiordan C, Savage E, Drennan J, ÓTuathaigh C, et al. Evidence based
practice education for healthcare professions: an expert view. BMJ Evid Based Med 2019;24(3):103-8.
3. Alper BS, Haynes RB. EBHC pyramid 5.0 for accessing preappraised evidence and guidance. Evid Based
Med 2016;21(4):123-5.

4. Woolf SH, Grol R, Hutchinson A, Eccles M, Grimshaw J. Clinical guidelines: potential benefits,
limitations, and harms of clinical guidelines. BMJ 1999;318(7182):527-30.
5. Bruder E, Howes DW. rFVIIa in trauma: a review and opinion-based guidelines. Trauma 2007;9(4):237-43.
6. Whitlock EP, Lin JS, Chou R, Shekelle P, Robinson KA. Using Existing Systematic Reviews in Complex
Systematic Reviews. An Intern Med 2008;148:776-82.
7. Schünemann HJ, Zhang Y, Oxman AD. Distinguishing opinion from evidence in guidelines. BMJ
2019;366:l4606.
8. Balshema H, Helfanda M, Schünemann HJ, Oxman AD, Kunze R, Brozek J, et al. GRADE guidelines:
3. Rating the quality of evidence. J Clin Epidemiol 2011;64(4):401-6.
9. Hajjaj FM, Salek MS, Basra MKA, Finlay AY. Non-clinical influences on clinical decision-making: a
major challenge to evidence-based practice. J R Soc Med 2010;103(5):178-87.
10. Alonso Coello P, Oxman AD, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, et al. Marco
GRADE de la evidencia a la decisión (EtD): un enfoque sistemático y transparente para tomar decisiones
sanitarias bien informadas. 2: Guías de práctica clínica. Gac Sanit 2018;32(2):167.e1-167.e10.
11. Gaminde I, Hermosilla T. Los problemas de calidad de las guías de práctica clínica. Boletín de Información
Terapéutica de Navarra 2012;20(1). [Fecha de última consulta: 23 de octubre de 2020] Disponible en: http://
www.navarra.es/NR/rdonlyres/192A434C-D95A-494F-ACC8-F59516F12F0F/219802/Bit_v20n1.pdf ).
12. Eden J, Levit L, Berg A, Morton S, editors. Institute of Medicine (US) Committee on Standards for
Systematic Reviews of Comparative Effectiveness Research. Finding What Works in Health Care:
Standards for Systematic Reviews. Washington, D. C.: National Academies Press; 2011.
13. IOM (Institute of Medicine). Clinical Practice Guidelines We Can Trust. Washington, D. C.: National
Academies Press; 2011. [Fecha de última consulta: 22 de octubre de 2020] Disponible en: https://pubmed.
ncbi.nlm.nih.gov/24983062/.
14. Jane JJ, Cunningham S, Lohr K, Shekelle P, Shiffman R, Robbins C, et al. Developing and Testing the
Agency for Healthcare Research and Quality’s National Guideline Clearinghouse Extent of Adherence
to Trustworthy Standards (NEATS) Instrument. Ann Intern Med 2019;170(7):480-7.
15. Lefevre M. From Authority- to Evidence-Based Medicine: Are Clinical Practice Guidelines Moving us
Forward or Backward? Ann Fam Med 2017;15:410-2.
16. Agoritsas T, Farhoumand PD, Siemieniuk R, Heen AF, Lytvyn L, MacDonald H, et al. The BMJ Rapid
Recommendations: towards a new model for the production of clinical practice guidelines. Rev Med Suisse
2019;9(15):149-55.
17. Schünemann HJ, Hill SR, Kakad M, Vist GE, Bellamy R, Stockman L, et al. Transparent Development
of the WHO Rapid Advice Guidelines. PLoS Med 2007;4(5):787-93.
18. Morgan RL, Florez I, Falavigna M, Kowalski S, Akl EA, Thayer KA, et al. Development of rapid
guidelines: 3. GIN-McMaster Guideline Development Checklist extension for rapid recommendations.
Health Research Policy Syst 2018;16:63. Disponible en: https://doi.org/10.1186/s12961-018-0330-0.
19. Hughes LD, McMurdo MET, Guthrie B. Guidelines for people not for diseases: the challenges of applying
UK clinical guidelines to people with multimorbidity. Age and Ageing 2013;42:62-9.
20. Wilson KC, Gould MK, Krishnan JA, Boyd CM, Brozek JL, Cooke CR, et al. ATS Guideline Metho-
dology Working Group. An Official American Thoracic Society Workshop Report. A Framework for
Addressing Multimorbidity in Clinical Practice Guidelines for Pulmonary Disease, Critical Illness, and
Sleep Disorders. Ann Am Thorac Soc 2016;13(3):S12-21.
21. Morris ZS, Wooding S, Grant J. The answer is 17 years, what is the question: understanding time lags in
translational research. J R Soc Med 2011;104:510-20.
22. Gené-Badia J, Gallo P, Cais J, Sánchez E, Carrión C, Arroyo L, et al. The use of clinical practice guidelines
in primary care: professional mindlines and control mechanisms. Gac Sanit 2016;30(5):345-51.
23. Reschovsky JD, Rich EC, Lake TK. Factors Contributing to Variations in Physicians’ Use of Evidence
at The Point of Care: A Conceptual Model. J Gen Intern Med 2015;30(Suppl. 3):S555-561.
24. Lugtenberg M, Burgers JS, Westert GP. Effects of evidence-based clinical practice guidelines on quality
of care: a systematic review. Qual Saf Health Care 2009;18:385-92.
25. Graham ID, Logan J, Margaret B, Harrison MB, Straus SE, Tetroe J, et al. Lost in Knowledge Translation:
Time for a Map? J Cont Educ Health Professions 2006;26(1):13-24.
26. Van der Weijden T, Pieterse AH, Koelewijn-van Loon MS, et al. How can clinical practice guidelines be
adapted to facilitate shared decision making? A qualitative key-informant study. BMJ Quality & Safety
2013;22:855-63.

27. Straus E, Glasziou P, Richardson WS, Haynes RB. Evidence-based medicine. How to Practice and Teach
EBM. 5th ed. Edinburgh: Elsevier; 2018.
28. Kwag KH, González-Lorenzo M, Banzi R, Bonovas S, Moja L. Providing Doctors With High-Quality
Information: An Updated Evaluation of Web-Based Point-of-Care Information Summaries. J Med
Internet Res 2016;18(1):e15.
29. Banzi R, Liberati A, Moschetti I, Tagliabue L, Moja L. A review of online evidence-based practice point-
of-care information summary providers. J Med Internet Res 2010;12(3):e26.
30. Lenaerts G, Bekkering GE, Goossens M, De Coninck L, Delvaux N, Cordyn S, et al. Tools to Assess the
Trustworthiness of Evidence-Based Point-of-Care Information for Health Care Professionals: Systematic
Review. J Med Internet Res 2020;22(1):e15415.
31. Sutton RT, Pincock D, Baumgart DC, et al. An overview of clinical decision support systems: benefits,
risks, and strategies for success. Digit Med 2020;3:17. Disponible en: https://doi.org/10.1038/s41746-
020-0221-y.

Pijoan JI, Martín AJ, Maza J. Guías de práctica clínica y otros sumarios de evidencia. En: Cabello Juan B, editor.

C A P Í T U L O 20
Lectura crítica de estudios clínicos
in virtuo/in silico: modelos-simulaciones,
inteligencia artificial y big data
Juan Bautista Cabello López
• Definir el concepto estudio in virtuo/in silico.

• Definir modelos/simulaciones, su función en el conocimiento.
• Explorar los modelos por computador en la investigación médica y clínica.
• Diferenciar los modelos según objetivos, funcionamiento interno (inteligencia artificial [IA])
y los tipos de datos usados, big data (BD).
• Plantear una aproximación a la lectura crítica de este tipo de estudios.
Introducción
Las respuestas a las preguntas clínicas se obtienen, como en los demás ámbitos de la ciencia,
mediante tres grandes tipos de estrategias: las observacionales, las experimentales y un grupo especial
de estudios a caballo entre las anteriores categorías.
La primera estrategia, la observacional, es el método más antiguo y tradicional tanto en la ciencia
como en la clínica, estos diseños despliegan su estructura de estudio para contestar, mediante la
observación (transversal, longitudinal o mixta) tipos de preguntas clínicas de diversa naturaleza,
la mayoría de las cuales son preguntas esenciales y solo abordables mediante la observación: por
ejemplo, preguntas de prevalencia, riesgo, pronóstico, exactitud diagnóstica, etc.
La estrategia experimental, por su parte, es algo más reciente y sin duda supone un enorme salto
epistemológico en la validez de los estudios clínicos; sin embargo, por su naturaleza de cambio
intencional en la naturaleza para observar el efecto, estos estudios solo son adecuados para preguntas
que comportan intervenciones, sean estas preventivas, terapéuticas, de impacto de diagnóstico,
organizativas, intervenciones complejas, etc. Por lo demás, es sabida la existencia de restricciones
éticas o fácticas a las intervenciones experimentales en la clínica.
El tercer grupo se encuentra entre lo observacional y lo experimental, toma elementos de ambos,
pero sin pertenecer a ninguno de los dos. Este grupo comprende los llamados «experimentos
naturales», en los que una conjunción de factores circunstanciales permite reordenar los datos y verlos
como un experimento no intencional, y la «investigación cualitativa», que, desde otras posiciones
paradigmáticas y usando diversos marcos teóricos, explora otro tipo de preguntas de naturaleza
experiencial. Ambos estilos tienen larga tradición en las ciencias sociales, en la enfermería, en la
epidemiología, en la investigación en servicios de salud y naturalmente en la clínica.
Estos tres grupos de diseños permiten la agrupación y síntesis de estudios en revisiones sis-
temáticas, que incorporan una visión amplia y global de la evidencia existente sobre las preguntas

clínicas determinadas, ofrecen un plus de validez al probar las hipótesis en diversos bancos de prueba,
y permiten hacer (si agregativas) estimaciones combinadas de los efectos de las intervenciones, de
las observaciones y síntesis de las experiencias cualitativas.
Más allá de esos tres grandes tipos de estrategias para la construcción de evidencia y de sus
correspondientes revisiones sistemáticas, se encuentra otro tipo de métodos que usan algunas de
las capacidades de la moderna computación y que van tomando una importancia creciente en
todos los ámbitos de la ciencia y en la clínica, son los «modelos o simulaciones» por computador.
Estos estudios generan un ámbito nuevo de investigación esencialmente distinto de los anteriores
por cuanto construyen un conocimiento con unos vínculos con la realidad que podríamos llamar
«especiales». Este grupo de estudios han sido llamados estudios in virtuo o in silico, para remedar
los clásicos modos in vitro e in vivo de los estudios en biología y ciencias médicas.
A esos estudios dedicaremos este capítulo: en una primera parte, trataremos la taxonomía y
definición general de los modelos, haremos una breve descripción de su papel en áreas biomédicas
preclínicas, para realizar después una definición y caracterización de los modelos in virtuo/in silico
en la clínica. En una segunda parte, más pragmática, abordaremos la aproximación a la lectura
crítica de esta forma emergente de evidencia clínica.
Taxonomía: ¿estudios in virtuo/in silico?

Virtual es un adjetivo polisémico cuyo significado es: que tiene la virtud de acción potencial,
futura, implícita, tácita, o también como algo con existencia aparente no real. Probablemente ese
último significado de «no real» es el que predomina cuando hablamos del uso de virtual en áreas de
tecnología que progresivamente va ampliando su campo semántico en áreas sociales y profesionales.
De ese modo se generan realidades virtuales como simulaciones de realidad o entornos virtuales
en distintas áreas (sociedades, en empresa, educación, sanidad, clínica, aprendizaje de habilidades,
sociedades virtuales, bibliotecas virtuales, etc.).
Por su parte, in silico es un neologismo construido en pseudolatín que hace alusión al material
constituyente de los chips clásicos. Se usa ampliamente el término en ingeniería de computación y
originalmente es aplicado a las simulaciones por ordenador que modelizan los procesos naturales o
de laboratorio (en todas las ciencias naturales, así como en ciencias sociales). Para los más estrictos
no se incluyen en esta categoría los cálculos hechos por ordenador sin especificar complejidad,
aunque para otros autores, más inclusivos, in silico se refiere a cualquier aplicación de tecnologías
basadas en ordenador: algoritmos, sistemas, minería de datos o análisis de datos.
Ambos nombres provienen de áreas de ingeniería y biología a partir de una inspiración cruzada.
En biología, tradicionalmente los estudios con modelos pueden realizarse in vitro (aludiendo al
vidrio de los tubos o placas), es decir, con elementos vivos pero no entidades organizadas (tejidos,
células, membranas, etc.) o in vivo o con organismos vivos completos, así habrá diferentes modelos
de animales para estudio de diferentes patologías fiados a la idoneidad del modelo para el problema.
La investigación clínica, aunque destino final de ese conocimiento, sería un caso particular de
organismos vivos completos. A esta gradación se suma, procedente de la ingeniería, la categoría de
in virtuo/in silico, donde los estudios son realizados mediante modelos o simulaciones por computador
de organismos, órganos o procesos.
Los ingenieros (1), por su parte, se inspiran en la biología para clasificar sus estudios: in vitro
cuando realizan sus experimentos de software en ambiente controlado (software lab) y/o en grupos
selectos; in vivo cuando sus estudios de ingeniería de software se realizan en ambientes habituales
u organizaciones similares a las normales. Se trata de estudios in virtuo cuando se precisa de
interacción entre participantes y modelos computarizados que realizan la simulación de uno u otro
modo: son estudios experimentales con usuarios generalmente entrenados y en ambiente de control.
Finalmente hablan de in silico cuando los usuarios que interactúan son sustituidos por elementos
o subprogramas «inteligentes» y autónomos, pero dentro del computador.

20. LECTURA CRÍTICA DE ESTUDIOS CLÍNICOS IN VIRTUO/IN SILICO 255
En Medline, el término in silico se incluye dentro del Medical Subject Headings (MeSH)
«computer simulation» (Computer-based representation of physical systems and phenomena) y aparece
en 1987. La primera aparición del in silico en palabras clave en un artículo biomédico fue en 1991
en el estudio que modelizaba la adquisición automática (mediante autoaprendizaje) de datos
de secuenciación de genoma de E. coli (2). En Embase, in silico se incluye en EMTREE como
«computer-based models»; fue incluido en 1978.
Por su parte, in virtuo no existe en MeSH, aunque sí su adjetivo «virtual», que no es MSH pero
se incluye en el MeSH «use interface computer» y aparece en 1991, en cambio «virtual reality»
aparece como MeSH en 2018.
En resumen, aunque tengan ciertas áreas de solapamiento y se usen con frecuencia de modo
indistinto (3) los términos no son superponibles y el más usado es in silico. En áreas de ingeniería,
como señalábamos, la diferencia esencial es que in virtuo alude a existencia de interacción entre
hombre y computador o al lugar donde el hombre interacciona con él (o entornos virtuales) mien-
tras que in silico se refiere al uso de computador exclusivamente; es decir, el ordenador también
sustituye al papel del hombre en las interacciones con la máquina y sería un concepto relativamente
más sofisticado. Sin embargo, es precisamente la capacidad de interacción con el modelo in silico
la que permite la realización de experimentos sobre el modelo en entorno virtual y también en
aprendizajes supervisados en algunos casos. Por ello usaremos indistintamente «estudios in virtuo/
in silico» conociendo sus diferencias y matices, pero sabiendo de su cercanía.
En las dos direcciones, la biología inspirando a la ingeniería y viceversa, subyace el problema de
la reducción de la realidad por la elección de los modelos, e implícitamente plantean la reflexión
sobre el problema de las traslaciones del conocimiento de un área a otra o dentro de cada área,
como veremos con la validación de los modelos.
Modelos o simulaciones y su función

en el conocimiento
En esencia, un modelo o simulación es una reproducción simplificada de un sistema, real o conje-
turado; estos modelos son instrumentos tradicionales profusamente usados en todas las ciencias.
De manera general, los modelos se diseñan para imitar la estructura y el comportamiento
del «sistema diana», con un cierto nivel de simplificación respecto de la realidad, pero con una
definición explícita de las partes constitutivas del modelo (que se llaman «entidades») y una des-
cripción detallada de los diversos comportamientos e interacciones de esas partes y del modelo en
su conjunto que son denominados «enunciados legales» (o reglas de funcionamiento), aludiendo
a las leyes o fundamentos científicos que gobiernan el modelo (cada una de sus entidades y el
conjunto) (4,5).
En suma, un modelo en ciencia es un diseño basado en conocimientos previos (sean de naturaleza

observacional o experimental) del sistema que se pretende imitar tanto en su estructura como en su
comportamiento. Para imitar necesitamos saber cómo es el sistema diana en sus constituyentes y en
su organización, cómo funciona, cómo responde a cambios espontáneos, cómo logra sus objetivos,
etc. Al mismo tiempo, los modelos permiten la observación y manipulación de sus componentes y
ese conocimiento contribuye al ajuste y la consolidación del modelo y a la mejor comprensión del
fenómeno o sistema modelado.
En términos de significado, el modelo es una interpretación de la realidad que la explica desde
posiciones marco determinadas y puede variar según las perspectivas de enfoque: por ejemplo, la
construcción de un modelo de un sistema hidráulico para gestión de humedales será diferente para el
ingeniero que lo impregnará de su visión técnica, aunque tenga reflexiones ecológicas, que para
el biólogo que lo realizará desde una visión de las sostenibilidad del entorno y de la gestión de la
biodiversidad. Por eso, un modelo determinado no es la única representación válida de esa realidad,
y para un modelo hay diversas maneras posibles de ser válido (5,6).

En cuanto a su complejidad, los modelos tienen un amplio espectro: puede ser un esquema
simple, un dibujo, un modelo con alto nivel de concreción mecánica o con exquisita formulación
matemática, hasta modelos absolutamente abstractos como los modelos causales de Rothman (7)
o los modelos exposómicos de causalidad (3); los propios modelos de análisis matemático que
usamos en la investigación clínica contienen implícita una propuesta de estructura y de relación de
los datos de la realidad que analizamos.
En cualquier caso, los modelos guardan una relación de «compleja proximidad» e interrelación
con las teorías científicas con las que a veces se identifican. En cierto modo porque actúan como
entidades representacionales de la teoría. Es decir, desempeñan un papel como metáforas explicativas
que permiten la comprensión, la investigación, la enseñanza, ayudan a la difusión por su valor docen-
te y por el contenido simbólico y en cierto modo determinan el éxito social de las teorías. ¿Podríamos
entender igual la estructura del ADN sin la imagen de Watson & Crik? o ¿entenderíamos igual el
modelo de «causa componente-causa suficiente» sin los conocidos diagramas de tartas de Rothman?
Al margen de esta función representacional (semántica) y de comunicación, de aprendizaje y
enseñanza (epistémica) y de su función simbólica (semiótica), las funciones esenciales de los modelos
en ciencia son dos: la explicación y la predicción (5,8).
1. Explicación. Se refiere a que el modelo explica externamente el fenómeno que es parte del
mundo real y que trata de representar, e internamente explica la existencia y las relaciones
de los elementos o entidades constitutivas del modelo y su funcionamiento general. De ese
modo, porque comprendemos el modelo podemos comprender mejor lo modelizado.
2. Predicción. La segunda finalidad del modelo es la predicción de fenómenos a partir de
la información del modelo y de las respuestas a situaciones o cambios de las condiciones
iniciales o sobrevenidas.
Una característica esencial de un modelo, relacionada con las dos anteriores, es la capacidad de
control entendida en, al menos, dos sentidos. En un sentido permite el «control» de los elementos
(o variables) que pueden influir en la relación de otros elementos o variables entre sí (confusión). En
otro sentido, permite las intervenciones (experimentación), lo que supone un mejor conocimiento de
las relaciones del modelo y de sus mecanismos, simula posibles cambios en las condiciones internas
o externas del modelo, es decir, el control contribuye a la explicación y a la predicción.
Subyace en todo modelo un marco teórico implícito o explicito que afecta a los anteriores
aspectos y que se relaciona con las asunciones que hacemos para elaborar el modelo y para su
utilización, así como si estas son consistentes a través del modelo y para otros funcionamientos en
el exterior. Por ejemplo, aun cuando hay diversos modelos para predicciones meteorológicas a largo
plazo, las asunciones no son demasiado distintas, aunque puedan serlo los resultados. En cambio,
un caso clásico donde ese marco teórico es determinante es el de los modelos económicos, donde
las posiciones a priori influyen en la construcción del modelo y naturalmente en la interpretación
de sus predicciones.
Modelos o simulaciones por ordenador

en la investigación biomédica
y en la investigación preclínica
De modo análogo, un modelo o simulación por ordenador es un programa que imita o simula un
sistema diana, que puede ser un sistema o fenómeno natural biológico, astrofísico, meteorológico,
social o clínico y que generalmente es producto de la cooperación entre científicos e ingenieros
de perfil diverso, en la medida en que precisa incorporar e integrar los conocimientos actualizados de
múltiples áreas. La difusión de estos modelos por todas las áreas de la investigación y en todos los
órdenes de la vida es, sin duda, una característica de nuestro siglo.
En el mundo preclínico, o biomédico, existe un enorme crecimiento de la generación de modelos
por ordenador aplicados en unos casos a «células virtuales simples» usadas para la experimentación

de funciones fisiológicas determinadas o de fisiopatología (por ejemplo, flujo en canales iónicos,

estudio de canalopatías, o de receptores celulares simulados) y en órganos o funciones virtuales
(simulaciones del corazón para electrofisiología). También se ha realizado un importante esfuerzo
en la identificación de relaciones de asociación causal entre genética y enfermedades o características
fenotípicas en unos casos desde visiones explicativas reduccionistas y en otros considerando a los sis-
temas biológicos desde una perspectiva sistémica, tratando de integrar en modelos computacionales
datos «omics» (genómicos, proteómicos, etc.), factores ambientales (exposómicos) y datos clínicos
para intentar predecir la expresión de enfermedad fenotípica (pato-fenómeno) (9).
En efecto, la secuenciación del genoma estimuló la búsqueda de asociaciones entre genes
(o polimorfismos) y múltiples enfermedades (10), inicialmente con estudios de polimorfismos de
simples nucleótidos (SNP), pero el desarrollo de la capacidad de secuenciación produjo los estudios
GWAS (Genome Wide Association Studies), que trataban de estudiar la asociación entre una
gran cantidad de polimorfismos y enfermedades a partir de arquitecturas de estudio de casos y
controles simples, o anidados en cohortes, obtenidas a su vez de grandes bases de poblaciones o de
bases de datos genéticas de instituciones de investigación con una estrategia de fuerte cooperación.
Problemas con la consistencia de los hallazgos, la propia variabilidad genética y la discreta fuerza
de las asociaciones encontrada indujo a la realización de revisiones sistemáticas de esos GWAS
(11) y finalmente replantear y modificar los criterios de asociación (12) para este tipo de estudios,
de modo que actualmente constituyen un terreno relativamente controlado. Sin embargo, la dis-
tancia entre genes y enfermedades es demasiado larga y el trayecto se ha tratado de completar
estudiando los mecanismos intermedios mediante las que llamábamos tecnologías «omics» o de
moléculas relacionadas con los genes o con las exposiciones (aductoma, metaboloma, transcriptoma,
proteoma, metaboloma, exposoma, epigenoma, etc.), sobre las que los estudios han proliferado con
formatos análogos a los citados y también con agregaciones de estudios en forma de revisiones
sistemáticas (13-16).
Una visión más «sistémica» trata de investigar conjuntamente esas relaciones, usando modelos
computacionales y estadísticos capaces de incluir y manejar la complejidad del sistema a partir de
aproximaciones a los datos, en unos casos guiadas por patrones preconcebidos y exploración en los
datos (data-driven top down) y en otros desde los datos realizando simulaciones en el sistema hasta
encontrar patrones o agregaciones (model-driven bottom up). Se trata de una investigación orientada
a mecanismos de enfermedad y buscando modelos intelectuales explicativos, incorporando modelos
causales más sofisticados (3) y combinando reducción con sistematicidad, pero que ha logrado tras-
laciones importantes a la clínica (9), y es posible que esta aproximación pueda cambiar en el futuro
nuestra visión y clasificación de las enfermedades como entidades nosológicas, actualmente basada
en las capacidades de observación fenotípica y agrupación sindrómica (17).
En áreas algo más próximas a la clínica se usa el término in silico medicine (o medicina com-
putacional) refiriéndose a tecnologías de modelización o simulación que se orientan directamente

a la prevención, diagnóstico, pronóstico, la elección o control del tratamiento, o al manejo de la
enfermedad (18). Pero en realidad la proximidad con la actividad clínica de las áreas incluidas en
ese epígrafe es muy variable, así incluye macroproyectos de fisiología o fisiopatología virtual (19), la
construcción de pacientes virtuales por ejemplo para la diabetes mellitus tipo I (20), los modelos-
simulaciones para la investigación en fármacos (in silico trials) desde una visión académica (21) o
del desarrollo de fármacos desde una perspectiva de la industria (22). Un subsiguiente subdominio
de esa in silico medicine sería también el de las normas para el desarrollo o la regulación del uso de
productos, dispositivos o intervenciones médicas mediante modelos computarizados (23), o de sis-
temas para el control de la seguridad de los fármacos (24), etc.
En resumen, in silico medicine es un campo en continua expansión que incorpora múltiples áreas
con diferente proximidad y variables relaciones con la clínica. Por ello procede enfocar la definición
de estudios clínicos in virtuo/in silico como aquellos en los que el núcleo de la construcción del
conocimiento clínico orientado a paciente (POEM) está directamente vinculado a modelos o

simulaciones por computador. Esto supone delimitar cuál es el núcleo al que nos referimos, es
decir, que áreas consideramos incluibles como modelos clínicos relacionados con decisiones sobre
pacientes y que áreas consideramos que son excluibles, aunque el límite pueda ser difuso.
Consideramos excluibles los sistemas generales de ayuda a la decisión clínica por su carácter de
mosaico y excesiva amplitud de objetivos (25). Excluimos también los estudios de síntesis, aunque
puedan valerse de modelos computacionales para el manejo de las bases, la lectura y el análisis auto-
mático, así como los estudios sobre macro-registros tradicionales de diversa naturaleza pese a que
usen también modelos para el manejo de la información, que consideramos instrumentales, hacemos
salvedad de los que puedan incorporarse o relacionarse como big data (BD). Excluimos asimismo los
estudios sobre asociaciones genéticas basados en modelos (genética computacional), excepto cuando
sus resultados se incluyan en modelos predictivos o de riesgo. Descartamos también los estudios
que usen modelos como parte instrumental de otros estudios, por ejemplo, centrales automáticas de
randomización o de minimización o seguimiento inteligente de pacientes de un estudio o análisis
automáticos en línea, etc. También descartamos los estudios realizados íntegramente a través de
Internet, en sus diversas variantes, aunque los consideramos de enorme interés metodológico y ético
creemos que es también un uso instrumental (26). De análogo modo excluimos el uso de realidad
virtual (RV) como intervención en ensayos clínicos u otras arquitecturas de estudio, frecuentes en
psicología y psiquiatría (27), así como en estudios de entrenamiento en habilidades: quirúrgicas,
clínicas, docentes, etc. (28); en todos ellos consideramos la RV elemento del estudio, pero no del
núcleo del estudio. Finalmente consideramos en la frontera dos situaciones: en primer lugar, los
in silico trials, que mencionamos previamente en la medida en que, por el momento, son instrumento
de ayuda a partes del diseño del trial (en fases iniciales para simular tamaños, desenlaces, o de
extrapolación de dosis, poblaciones, fases, o de adaptación o simulación de desenlaces negativos)
y en todo caso precisan validación estándar en pacientes (21,23,29). Y en segundo los estudios
en los que en alguna rama (o algunas) se incluye la comparación de estrategias de IA o machine
learning. Es claro que muchas de estas exclusiones, en particular las dos últimas, son transitorias
por lo impredecible del devenir del conocimiento y la tecnología en esta área.
Modelos o simulaciones por ordenador

en la investigación clínica: estudios clínicos
in virtuo/in silico
Centrados ya en estos estudios de modelos-simulaciones directamente vinculados al núcleo del
conocimiento para la práctica clínica, estos estudios se dirigen a las acciones clínicas básicas: diag-
nóstico, pronóstico o riesgo, o toma de decisiones sobre tratamiento, prevención u organización. Este
grupo de estudios cabe clasificarlo según tres grandes ejes: El primer eje es el objetivo o finalidad
del modelo, es decir, qué función clínica trata de imitar (o mejorar), el segundo es la estructura y el
modo en el que el modelo hace su trabajo, es decir, cuáles son sus «entidades» o elementos cons-
titutivos y sus «enunciados» o reglas de funcionamiento, y la tercera sería el tipo y la calidad de los
datos usados para «alimentar» estos modelos. Veamos, pues, esos ejes (tabla 20.1).
FINALIDAD U OBJETIVO DEL MODELO

En relación con la finalidad hay dos tipos básicos de modelos clínicos, según se orienten a la cons-
trucción de evidencia primaria o a la integración de evidencias para las decisiones clínicas.
Modelos para construcción de evidencia primaria
Se trata de modelos orientados a la construcción de evidencia primaria sobre preguntas clínicas
estructuradas (con formato PICO o análogos) y con arquitecturas de estudio adecuadas para las
preguntas correspondientes.

TABLA 20.1 ■ Ejes diferenciales de los modelos clínicos in silico/in virtuo

Finalidad u objetivo Modos de funcionamiento
del modelo del modelo Tipo de datos usado
Generación de evidencias • Modelos o algoritmos • Variables «desenlace»

primarias*: de inteligencia artificial de pronóstico o diagnóstico
• Modelos predictivos (machine learning) que • Variables «predictoras»
de diagnóstico, pronóstico realizan de modo autónomo usadas en el sentido amplio
o riesgo la derivación y validación del término
• Modelos de predicción de las reglas diagnósticas • Big data (BD) que combina
de respuesta al tratamiento. o de predicción variables de diversa
Medicina de precisión • Los algoritmos se basan procedencia y calidad
en modelos diversos: árboles heterogénea
de decisión, random forest,
redes neurales, deep
learning, support vector
machine, etc.
Integración de evidencias. Modelos predefinidos, • Evidencias consolidadas:

Modelos de análisis ajustados e interactivos: diagnósticas, pronósticas,
de decisión: • Árboles de decisión de tratamiento
• Diagnóstico • Redes neurales • Evidencias de valores
• Pronóstico • Modelos de Markov y exploración de preferencias
• Tratamiento • Simulaciones Montecarlo • Análisis sobre los costes,
• Análisis económicos • Otros utilidades y beneficios
*No se incluyen aquí los modelos tradicionales predictivos (reglas de predicción), diagnósticos y pronósticos
que comparten objetivos, pero se diferencian en que el proceso de modelización clásico es planeado
y controlado por el investigador y en que se utilizan datos consistentes de predictores y desenlaces.
Modelos predictivos de diagnóstico, pronóstico o riesgo. Una buena parte de los modelos com-
putacionales clínicos se enfocan a la predicción, lo cual incluiría, en sentido amplio: el diagnóstico,
el pronóstico y el riesgo, que, en realidad, tienen todos ellos una estructura lógica similar, veamos.
Desde un punto de vista conceptual diagnóstico y pronóstico se enfrentan a un problema
análogo: identificar una condición (entidad nosológica) o un desenlace «B» a partir de un factor
«A» (test o un factor pronóstico o de riesgo. En el caso del diagnóstico test A y condición B son
concurrentes, mientras que, en el caso del pronóstico o riesgo, primero es el factor A (que suele
llamarse exposición) y pasado un tiempo t ocurre el desenlace B. A puede ser un grupo de factores
(diagnósticos o pronósticos) pero B ha de ser un desenlace o condición concreta.
Pero A y B pueden ejercen diferentes funciones según el marco que escojamos. Por ejemplo,
A puede ser una condición genética que se asocia con un factor de riesgo B (que sería el desenlace
en ese caso). El factor de riesgo (B), por su parte, lo es porque se asocia con la aparición de una
enfermedad C, o B puede en caso de que la enfermedad ya esté desarrollada ejercer como factor
pronóstico de otro desenlace de la enfermedad. De este modo anidado la identificación de factores
de riesgo, a diferente nivel, diagnóstico, riesgo o pronóstico son en realidad un proceso similar.
Por ejemplo, una exposición puede ser un factor externo (dieta, tabaco o la contaminación),
pero también una condición fenotípica (hipercolesterolemia) o genotípica como BRCA1 o BRCA2
(Breast Cancer gene A) para el cáncer de mama, o β-MCH (beta Myosin Heavy Chain)
para miocardiopatía hipertrófica. Una exposición puede también ser una enfermedad ya declarada
miocardiopatía hipertrófica (fenotípica) o una condición concreta dentro de esa enfermedad (hiper-
trofia septal asimétrica severa) cuyo pronóstico queremos estudiar. En los primeros casos estamos
hablando de factores de riesgo clásicos (dieta, tabaco, colesterol); en los segundos, de factores de
riesgo genético (BRCA1 y BRCA2, β-MCH) que suelen actuar de modo complejo y precisar de

otros factores modificadores, epigenéticos o exposómicos y en el último caso cuando hablamos de

hipertrofia severa o β-MCH nos referimos a factores pronósticos.
Los desenlaces pueden ser la aparición de factores de riesgo fenotípicos si la exposición es factores
de riesgo genotípicos (v. gr. hipercolesterolemia) o exposómicos; o la aparición de enfermedad
(v. gr. cardiopatía isquémica si la exposición es un factor fenotípico como la hipercolesterolemia)
u otros desenlaces como la muerte u otras complicaciones si estudiamos factores pronósticos (como
podría ser enfermedad multivaso o la hipertrofia ventricular severa o β-MCH).
Todas esas cosas pueden ser factores predictivos, pero también combinaciones de varias de ellas
pueden actuar como elementos predictivos. Además, una gran cantidad de datos de registros de
actividad clínica, o de otra naturaleza, y datos personales o sociales incluidos en múltiples huellas
digitales que dejamos e incluso el Internet de las cosas; en suma, los BD pueden ser datos para la
predicción. En realidad, las nuevas visiones sobre qué es o puede ser un factor de riesgo o factor
pronóstico son poco conservadoras: «un factor pronóstico es cualquier medida, en personas con
una condición de salud determinada, que se asocie con un desenlace clínico subsiguiente» (30) o
concurrente si hablamos de diagnóstico.
Modelos para la predicción de efecto del tratamiento en un individuo concreto o estratifi-

cación de respuesta al tratamiento. Un apartado esencial de la actividad clínica, más allá de
predecir o vaticinar, es la elección del tratamiento, que es una acción subsiguiente al estableci-
miento del diagnóstico, y es un intento de modificar el pronóstico en sus diversas dimensiones.
Es claramente la actividad que más dudas y preguntas genera tanto para el clínico como para el
paciente. El papel de los modelos predictivos para la ayuda a elegir el tratamiento puede verse
de dos modos.
En los ensayos clínicos, el efecto de asociación de un tratamiento se expresa en términos relativos:
riesgo relativo (RR) o hazard ratio (HR) para todo el grupo de pacientes del estudio. Sin embargo,
hay pacientes que al tener más riesgo absoluto del desenlace que se ha de prevenir se beneficia-
rían más del tratamiento concreto que otros que tienen menor riesgo absoluto y que se beneficiarían
menos del tratamiento o en los que se alteraría el balance riesgo-beneficio si el tratamiento tiene
efectos colaterales importantes. Por ejemplo, si un fármaco reduce la mortalidad un 50% y asumimos
que es así en todo el grupo del estudio, un paciente con un riesgo basal de mortalidad del 10%
pasará por efecto del fármaco al 5%, mientras que uno con riesgo basal 1% pasaría a 0,5%. El uso
de modelos de predicción con estudios de pronóstico tipo III permite el cálculo del riesgo basal
del desenlace de la mortalidad o el evento en cuestión de modo individualizado y también el riesgo
basal individualizado para desarrollar efectos no deseables del tratamiento; por ello ayuda a decidir
sobre el balance riesgos y beneficios del efecto del tratamiento (31,32).
En otro sentido, hay factores determinados que influyen en la respuesta al tratamiento en el
sentido de que cambian el efecto del tratamiento (cambian el RR o HR), aunque no sean, en sí
mismos, factores pronósticos. Un caso clásico es el HER-2 (receptor del factor epidérmico del
crecimiento 2) en el cáncer de mama, que fue inicialmente descrito como factor pronóstico, pos-
teriormente se comprobó que confiere una especial sensibilidad al tratamiento con trastuzumab
respecto a grupos sin ese factor. Este es otro concepto de predicción distinto, pues la mayoría de
los factores pronósticos usuales no predicen una respuesta diferencial al tratamiento y, al contrario,
hay factores que aún sin valor pronóstico confieren especial respuesta al tratamiento.
En cualquier caso y generalizando, un factor (condición genética, factor de riesgo, factor pronós-
tico o factor diferencial del tratamiento) o una combinación de esos factores, puede identificar
perfiles para la estratificación de la respuesta a un tratamiento determinado, la identificación de
esos perfiles de predicción es el objetivo de los modelos de predicción de respuesta al tratamiento.
Este es el sustrato de la denominada «medicina de precisión» (33): la adaptación de los trata-
mientos médicos a las características individuales de cada paciente, al clasificar los individuos en
subpoblaciones que difieren en su susceptibilidad a una enfermedad concreta y a los tratamientos

concretos. De ese modo la intervenciones preventivas o terapéuticas deben ser concentradas en

aquellas personas que se beneficiarían de ellas, y evitadas en aquellas que no se beneficiarán,
ahorrando gastos y efectos secundarios. Debe distinguirse de la llamada medicina personalizada,
que alude a las características genéticas, pero con atención especial a las preferencias, creencias y
actitudes del paciente y al contexto social (34).
En realidad, la medicina de precisión tiene una visión más integradora e imagina un sistema
de salud que descansa esencialmente en los datos clínicos, evidencias clínicas, elementos analíticos
diversos y sistemas de información y de computación. El ecosistema que se quiere construir, capaz
de sostener esa medicina de precisión, va más allá de los genes o moléculas y de su visión más o
menos determinística y se centra en la inclusión de la genómica y otras tecnologías moleculares
(«omics») en un contexto de salud digital en sentido amplio que incluye sistemas de información y
modelización de decisión a gran escala y a pequeña con inclusión de perfiles, valores y preferencias
colectivas e individuales.
Modelos de integración de evidencias: modelos de análisis de decisiones

Este segundo gran grupo de modelos son modelos integrativos que incorporan evidencias de mayor
o menor calidad a procesos de decisión formalmente modelizados (análisis de decisiones clínicas), así
integran evidencia que ofrece estimaciones sobre las probabilidades de diferentes desenlaces en cada
una de las rutas de decisión o transiciones entre estados de salud. Incorporan asimismo valoración
sobre las utilidades o sobre cómo de buenos o de malos son los diferentes desenlaces posibles de
las decisiones, y usando el producto de probabilidades y utilidades estiman el «valor esperado de
cada decisión» correspondiente para elegir las rutas con mejor valor esperado.
Se usan para modelizar estrategias de diagnóstico, para la elección de tratamiento o de rutas de
acción clínicas y son especialmente usadas en el análisis económico de las acciones clínicas o de salud.
Estos modelos de análisis de decisiones clínicas (mencionados en el capítulo 16) son de gran
utilidad para la reflexión sobre grupos de pacientes: para, como escribe Kahneman, «pensar des-
pacio» (35), y tienen un valor explicativo y de control al menos sobre las decisiones, en la medida
en que es posible la observación del comportamiento del modelo y al ofrecer análisis de sensibilidad
de diversas vías permite evaluar el papel de las diferentes variables esenciales que influyen en el
modelo. Naturalmente, los modelos asumen posiciones teóricas diversas sobre los modos en que
los humanos toman decisiones y teorías sobre el valor de las cosas, sobre las utilidades, etc. (36,37),
pero sin duda son instrumento consolidado y de gran utilidad.
MODOS DE FUNCIONAMIENTO DEL MODELO

El segundo eje de clasificación es el tipo de modelo habitualmente usado, que difiere ligeramente
según se trate de construcción o de integración de evidencias.
Modelos de construcción de evidencias primarias

Como hemos comentado anteriormente, la construcción de evidencia por el modelo se orienta a
predicción, diagnóstico, pronóstico, riesgo y estratificación de la respuesta al tratamiento, en estas
tareas hay notables progresos con modelos clásicos (fig. 20.1).
Figura 20.1 Modelos predictivos clásicos (diagnóstico y pronóstico).

Como señalamos en capítulos previos, las evidencias para predicción se construyen a partir de
estudios de cohortes (prospectivos o retrospectivos) para los estudios de pronóstico, ocasionalmente
de casos y controles para riesgo y estudios transversales para los de diagnóstico. Este escenario de
predecir a partir de combinación de factores ya ha sido comentado a propósito de las reglas
de predicción clínica (v. capítulo 8). Como señalábamos al hablar de ellas, el desarrollo incluye la
derivación de la regla que se realiza mediante modelos matemáticos tradicionales (con entidades y
enunciados definidos) en grupos de derivación, posteriormente la validación interna en subgrupos
de la población de derivación dividiéndola mediante diversos modos (splitting, bootstrap, cross
validation) obteniendo indicadores de calibración (porcentaje de predichos frente a observados) y
de discriminación: curvas receiver operating characteristics (ROC) o área bajo curva [AUC]). Pos-
teriormente es preciso hacer la validación en otras poblaciones diferentes o validación externa, etc.
—ver detalles en capítulo 8 o en referencia (38)—.
Para la derivación y validación de estos instrumentos de predicción ha crecido exponencialmente
el uso de modelos de inteligencia artificial. Hablamos de IA cuando la máquina (modelo del
ordenador) intenta realizar funciones cognitivas similares a las del ser humano. La IA puede ser
estrecha o focal, cuando se orienta a una tarea definida; general, cuando se refiere a la capacidad
de realizar múltiples tareas diferentes, y superinteligencia artificial (SIA), cuando incluye, además
de las tareas citadas, capacidades artísticas, decisionales, emocionales, morales, etc. Una de las cua-
lidades esenciales del humano es aprender, y la parte de la IA que trata del aprendizaje de las
máquinas se llama machine learning (ML) y tiene la característica de que realiza el aprendizaje sin
la intervención «directa» del humano (39,40), el término ML ha tenido fortuna y es el más usado
en la literatura clínica desplazando incluso al de IA.
El aprendizaje de la máquina puede ser «aprendizaje supervisado»: en el que el modelo recibe
información sobre los inputs y outputs correctos y va adaptando iterativamente su desempeño según
esos resultados, para los análisis usan modelos de regresión, árboles de decisión simples o múltiples
o redes neurales. Es un modo muy usado en medicina, aunque no siempre, superan al análisis por
humanos porque en ocasiones los sesgos de etiquetado (por humanos) se trasladan al modelo.
También puede ser «aprendizaje no supervisado» en el que el modelo identifica patrones dentro de
los datos, sin guía externa, y de acuerdo con modelos de análisis matemático generalmente clúster,
componentes principales, factorial, etc. En este modo el algoritmo puede identificar diversos
patrones de agrupamiento de los datos, el significado de esas agrupaciones no siempre está claro y
elegir cuál es el adecuado puede ser difícil. Un tercer modo es el aprendizaje con refuerzos (positivos
o negativos), en el que la máquina va identificando las rutas más adecuadas según reciba premios
o castigos tras múltiples iteraciones (39).
El algoritmo de IA engloba en su conjunto el procedimiento descrito de derivación y validación
de las reglas y obtiene hiperparámetros del proceso que le permiten ir modificando el modelo para
ajustarlo adecuadamente al objeto de maximizar la capacidad predictiva y discriminante (39,40).
El algoritmo se basa, a su vez, en modelos matemáticos diversos ordenados de diferentes modos,
pero el proceso desde los datos a la predicción está autogobernado; este es un elemento disruptivo
que lo diferencia de los modelos de predicción clásicos (fig. 20.2). Aquí las entidades y enunciados
del modelo no son del todo transparentes.
Figura 20.2 Modelos predictivos in silico (diagnóstico y pronóstico).

Figura 20.3 Modelos integradores.
Hay un creciente catálogo de éxitos de estos modelos especialmente en el reconocimiento de

patrones en radiología y anatomía patológica (41), estratificación del cáncer (42,43) y evidentes
promesas de progreso en múltiples áreas, aunque todavía no hay evidencia de que estos modos de
análisis mejoren siempre las formas clásicas (44,45). Entre otras razones porque no tenemos una
manera clara de reportar, valorar críticamente, agregar o comparar estas nuevas evidencias.
Modelos integradores de evidencias

El segundo tipo de modelos trata de representar los conflictos de decisión integrando evidencias
en forma de probabilidades y utilidades o preferencias para identificar las rutas decisionales más
deseables en términos de salud. En sus formas más sencillas usan estrategias de árbol de decisiones,
pero pueden usar otras, como redes neurales o más frecuentemente modelos de Markov con
simulaciones Montecarlo (46,47) sobre una cohorte imaginaria (fig. 20.3).
Son modelos muy consolidados e incorporan conocimiento y saberes explícitos sobre trayectorias
clínicas o de salud y evidencias sobre desenlaces y sobre utilidades e información sobre preferencias.
Adicionalmente se elaboran en interacción con la máquina eligiendo el modelo, sus ramas o
transiciones de estado de salud, y manipulando los resultados mediante la simulación de otros
escenarios para realizar los análisis de sensibilidad. Todo ello les concede una cierta transparencia
y percepción de validez aparente (35,46,47).
TIPO DE DATOS USADOS

El tercer eje de reflexión sobre los modelos es el tipo de datos usado, que como se infiere de lo
anterior, difiere según el tipo de modelo.
En los modelos de integración de evidencias los datos que se van a integrar proceden general-
mente de estrategias de investigación: estudios primarios de diseño clásico y revisiones sistemáticas
de diseño tradicional. Son evidencias ya elaboradas con un grado de certidumbre variable según los
casos, pero son legibles críticamente y por tanto cabe hacer juicios de valor sobre ellas. Los demás
elementos del modelo proceden de evidencias sobre valores o preferencias, de estimaciones de

costes o de traslaciones de desenlaces clínicos a unidades intercambiables (años de vida ajustados
por calidad [AVACS]) o a unidades monetarias en el caso de estudios de coste-beneficio.
Por el contrario, los modelos que construyen evidencia, usan datos de procedencia mucho más
diversa y sobre todo más fluidos. Aunque en teoría la IA pueda realizarse sobre bases de datos
usuales, en realidad estos modelos in silico precisan de grandes bases de datos donde se puedan
entrenar y validar los algoritmos al menos en sus fases iniciales. Esta relación con BD es casi una
característica distintiva de los nuevos modelos, aunque el término es algo difuso y procede definirlo.
BD designa a un conjunto de bases de datos, estructuradas y no estructuradas, que resultan
extremadamente grandes y complejas para que el tradicional software para bases, algoritmos y
repositorios puedan manejarlo (48). En realidad, incluye múltiples datos: de investigación, datos
de historia de salud, registros específicos de enfermedades, de fármacos, de visitas a consultas;
datos genómicos y otros datos «omics» de biobancos, bancos de datos de ensayos clínicos, bancos
de imágenes de anatomía patológica, radiológicas, ecográficas, datos fisiológicos y un largo etcétera.

También datos de comportamientos como visitas a la web u otras y también datos del Internet de
las cosas (movilidad, frecuencia cardíaca, electrocardiograma, oximetría del reloj o de otros dis-
positivos portables) obtenidos en un instante transversal pero también gradualmente en modos
más longitudinales, etc. (48-50).
Sus características esenciales se resumen con la regla de las 3 V: La primera V es el «volumen»:
son inmensamente grandes para su manejo por métodos normales; la segunda V es la «velocidad»
referida a la transmisión y a la capacidad creciente de generación de datos, y la tercera V es la
«variedad», que se refiere a la diversidad del tipo de datos, de su procedencia y de los modos de
medición de los mismos (40). Esa diversidad supone por ejemplo que coexistan datos de inves-
tigación muy básica (v. gr., de genéticos) o datos epidemiológicos de alta calidad (registros pobla-
cionales o específicos de enfermedades), con datos de naturaleza más fluida como las variaciones
de la frecuencia cardíaca o la temperatura obtenidas del reloj u otros dispositivos.
En resumen, los objetivos, pero sobre todo el modo de funcionamiento y los datos de estos
modelos, están conformando un nuevo escenario de construcción de conocimiento clínico que
aunque centrado en los aspectos esenciales es algo diferente del escenario del clínico tradicional.
En efecto, la relación de este nuevo conocimiento con la realidad es más distante, y la aplicación
más compleja. Para los clínicos esto implica la necesidad de abordar la lectura de estos tipos de
estudio in virtuo o in silico que forman ya parte del presente de la clínica y sin duda van a configurar
su futuro.
Cómo abordar la lectura de estudios clínicos

in virtuo/in silico
Los fundamentos para la lectura de estos tipos de estudios no difieren, en lo esencial, de la aproxi-
mación a la lectura crítica de otros estudios. Las cuestiones por dilucidar son tres: 1) son válidos los
resultados del estudio; 2) cuáles son esos resultados, y 3) pueden ayudarnos con nuestras decisiones
sobre pacientes.
Una cuestión previa es, nuevamente, ¿cómo deben ser escritos los artículos sobre estas inves-
tigaciones para que puedan ser leídos adecuadamente? y también para que puedan ser integrados
en revisiones sistemáticas de estudios de esta naturaleza, es decir, cuáles son las convenciones para
el reporte de estos estudios. Entendiendo que la escritura acorde con las convenciones no garantiza
validez del estudio, esa debe ser juzgada mediante lectura crítica. En ambos aspectos, reporte y
lectura, la situación es diferente entre los modelos que integran evidencia y los que las construyen.
Los modelos integradores de evidencias tienen una larga tradición de publicación y uso vin-
culados al análisis de las decisiones médicas y sobre todo a los análisis económicos donde son el
instrumento habitual (v. capítulo 16). Para estos modelos se dispone de elaboradas recomendaciones
para ordenar su diseño o realización y amplias convenciones para su correcta publicación (51,52).
Asimismo, existe un grupo de instrumentos diseñados para la ayuda a la lectura crítica en contextos
clínicos (53,54) que el lector interesado puede consultar y cuya descripción aquí se aleja de nues-
tros objetivos.
En cuanto a los modelos para generar evidencia, este es terreno es menos firme porque está
aún en construcción. En realidad, los modelos y las reglas de predicción (clásicos) son cada vez
más comunes en la clínica y muestran alto nivel de sofisticación, aunque discreto rigor en su
descripción y comunicación. En respuesta al mal reporte de estos estudios se planteó en 2015 la
iniciativa TRIPOD (the Transparent Reporting of a Multivariable Prediction Model for Individual
Prognosis or Diagnosis statement) (55), que ha clarificado notablemente este campo. Sin embargo,
la incorporación de la IA y los BD en los modelos de predicción hace necesario una extensión de
esas convenciones de reporte, por cuanto muchos de los procesos o pasos de esos estudios están
parcialmente ocultos tras el machine learning y porque el tipo de datos usado es peculiar, por ello se
ha anunciado la nueva extensión llamada TRIPOD-ML, que esperamos en breve (56).

De modo análogo, en áreas que planteamos como frontera, la de los silico trials, se han publicado
recientemente las guías para el reporte de ensayos que involucraran a IA: the CONSORT-AI
Extension (57) y ya existen documentos marcos de instituciones como European Medicines
Agency (EMA) o Food and Drug Administration (FDA) tratando de lograr una regulación de
esta área (58).
La lectura crítica de las reglas y modelos de predicción clínica tradicionales fue comentada en sus
aspectos esenciales en el capítulo 8 (que sugerimos releer). En el contexto de revisiones sistemáticas
de ese tipo de estudios y para la valoración del riesgo de sesgo de los estudios se usa un instrumento
específico, PROBAST, que mejora la consistencia entre evaluadoras y que el lector especialmente
interesado puede consultar (59). Ambos documentos son pertinentes en este contexto.
Aquí trataremos de reflexionar sobre los aspectos específicos de la lectura de modelos de
predicción realizados mediante modelos in silico (IA/Machine learning).
Lectura crítica de evidencias predictivas

in virtuo/in silico
Seguiremos una aproximación CASPe a partir de 10 preguntas, con la que el lector ya está familia-
rizado. Las 6 primeras preguntas se refieren a la validez del estudio, la pregunta séptima se refiere
genéricamente a cuáles son los resultados, y las tres últimas atañen a la aplicación a la clínica de
los resultados.
1. ¿ESTÁ CLARAMENTE DEFINIDA LA FINALIDAD DEL ESTUDIO

CLÍNICO IN SILICO?
Con independencia del uso de IA o BD, la evidencia que pretende construir debe ser identificada
como primer paso. Dicha finalidad será elaborar predicciones, sean diagnósticas o pronósticas, en
sus diversas formulaciones posibles. En ocasiones el objetivo puede ser mixto y combinar modelos
que generen inicialmente predictores o grupos o de predictores de espectro y posteriormente
realicen el cálculo pronóstico individual o de respuesta al tratamiento, en combinaciones diversas.
Entonces será necesario estructurar las partes del estudio y si procede fraccionar la lectura por
finalidad y en su conjunto.
En todo caso hay que identificar la pregunta PICO o análogas, sea explícita o subyacente,
y si procede reconstruirla. Es imprescindible clarificar los elementos: la población estudiada, el
grupo de factor/es predictor/es y el desenlace, así como el tiempo del estudio y el ámbito al que
se refiere.
Generalmente, las preguntas deben surgir de unos fundamentos de conocimiento o evidencias
conocidas que le brinden verosimilitud, la hagan pertinente y aporten una red argumental para
explicar los hallazgos. Los modelos que estudian relaciones causales se orientan a la estimación de
asociaciones y el objetivo es hacer estimaciones del efecto de asociación, que deben complementar
con reflexiones causales en una red argumental. Los modelos predictivos son distintos por naturaleza:
su finalidad es predecir, no importa mucho cómo, y se evalúan por lo bien que predicen, no por su
capacidad explicativa.
2. ¿LA ARQUITECTURA DE ESTUDIO ES LA ADECUADA

PARA ESE TIPO DE PREGUNTA PICO?
En este sentido valen los comentarios sobre diseño de estudio realizados en los capítulos 6, 7 y 8.
Para estudios de diagnóstico se prefiere un diseño de corte transversal, y en el caso de predicción
estudios de cohortes idealmente prospectivos, aunque con frecuencia el uso de grandes bases de
datos o de grandes registros empuja hacia el diseño de cohortes retrospectivas.

A menudo necesitaremos disponer de más información, no siempre explícita, sobre los datos y
su estructura para responder de modo preciso a esta pregunta, probablemente las próximas normas
para el reporte de estos estudios ayuden en esto (56). Sea como fuere, es imprescindible valorar
cuidadosamente cada elemento de esa estructura de estudio y juzgar si esta arquitectura es coherente
con la pregunta que se formula, y en el caso de estudios anidados o con diversos objetivos valorar
cómo se adapta cada parte de la arquitectura a las correspondientes preguntas. Hay una general
prevención o un cierto vértigo en relacionar datos del genoma u otros «omics» con otros datos
demasiado fluidos como los procedentes de BD, en ese sentido enmarcar las preguntas en estructuras
de estudio epidemiológico clásicas puede ser de ayuda, como proponen Khoury y Ioannidis (50).
3. ¿CUÁL ES LA PROCEDENCIA DE LOS DATOS

QUE USA EL MODELO?
La tercera cuestión concierne a las posibles dificultades con los datos en diferentes sentidos:
■ Tipos de datos: los datos posibles son de diferente naturaleza (estructurada, semiestructurada
o desestructurada), pueden tener diversas asunciones para su medición y en buena parte son
datos observacionales; además, los procesos de medición pueden ser muy diferentes en las
distintas variables predictoras o en los desenlaces. Hay tener presente que mientras en la
investigación clásica se usan cohortes cuidadosamente construidas para mitigar los sesgos,
estos nuevos datos emergentes están habitualmente menos pulidos porque su finalidad era
distinta. Hay que reflexionar sobre la naturaleza de los datos, el proceso de medición y las
influencias del medidor u observador. Posiblemente este es un aspecto en el que los futuros
estándares de publicación también ayudarán.
■ Pero además los datos son almacenados en formas diversas y en múltiples bases de datos, no
siempre compatibles, y siempre es posible cometer errores en el manejo o la transferencia de

datos en esas cantidades (duplicados, corrupción, ruido, registros incompletos, etc.). Habitual-
mente, los científicos de datos (data scientist) realizan procesos sistemáticos de limpieza, filtrado,
exploración de consistencia e identificación de patrones de calidad de los datos durante los
procesos de minería de datos (data mining). Esos procesos de ingeniería deben ser explícitos
(o estandarizados) en los reportes y valorados por el lector con cuidadosa visión clinimétrica.
■ Un tercer aspecto de los datos es la descripción e identificación de datos perdidos, que, como
siempre en epidemiología clínica, resulta esencial para cualquier tipo de diseño y especial-
mente si es longitudinal. Esta es una cuestión principal que necesita la máxima atención.
■ Una cuestión final es la caducidad de los datos. Aunque intuitivamente parece que disponer
de registros de actividad clínica de muchos años mejoraría las predicciones de los modelos,
hay estudios que sugieren que existe una caducidad en los datos (especialmente los de origen
clínico) y que su vida media es bastante corta (60,61), de modo que ampliar los períodos de
acúmulo de datos no mejora necesariamente las predicciones. Este es un asunto que merece
más investigación, pero debe ser considerado por el lector.
4. ¿CUÁLES SON LAS POBLACIONES, LOS PREDICTORES

Y LOS DESENLACES?
Con independencia de su naturaleza y depuración, los datos tienen un papel operativo concreto
y un significado representacional (62). Las bases de datos «representan» a una población deter-
minada que hay que tener en cuenta (por ejemplo, pueden incluir información genética o clínica
de perfiles o razas diferentes o áreas geográficas muy distintas, interrelacionadas o aisladas, etc.),
y podrán corresponder a un ámbito determinado de un sistema de salud (por ejemplo, población
rural, o pacientes de atención primaria, registros poblacionales o específicos, etc.). Todo ello tiene
importancia para comparar las sucesivas validaciones del modelo en muestras más alejadas de la de

validación inicial. Pero sobre todo será crítico para juzgar sobre la aplicabilidad a una población o
grupo clínico determinado.
Las variables predictoras pueden ser muy diversas y cualquiera de ellas (o grupo de ellas) podría
ser incorporada en un modelo y esperar a ver si funciona. En la modelización tradicional, la elección
de candidatos a predictores o combinación de ellos se realiza de acuerdo con los conocimientos
disponibles y guiado por hipótesis, o argumentos estadísticos. Sin embargo, en los modelos machine
learning este proceso es en cierto modo autónomo (con argumentos estadísticos internos) y selec-
cionados por el modelo. Eso genera cierta perplejidad con algunos predictores que exige reflexión
final de contexto.
Finalmente, hay que evaluar los desenlaces, que en el caso del diagnóstico hay que plantearse
si se midieron de modo «cegado» y si la medición del desenlace depende en alguna medida de los
predictores (o de su conocimiento), y en el caso del pronóstico valen los comentarios sobre la calidad
de la medición, sobre su cegamiento y sobre todo la identificación de las pérdidas mencionada en
el punto anterior. Es fácil comprender que en este tipo de datos puede ser complejo disponer de
toda esa información que es capaz de afectar a la validez del estudio de diagnóstico o de pronóstico.
5. ¿CÓMO ES EL MODELO?
Es difícil para el clínico juzgar sensatamente cómo es la estructura del algoritmo, el modo de
aprendizaje y su sustrato matemático (regresión logística, Cox, cluster, componentes, etc.). Son
asuntos de naturaleza ingenieril en los que probablemente debamos ir mejorando o al menos
aprendiendo lo básico. Sí es esencial disponer de estándares para la descripción del modelo y sobre
la versión determinada del algoritmo reportado, para poder planear estrategias de validación externa
(ver su reproducibilidad en otras bases de datos o en otras poblaciones o en otros ámbitos) o para
compararlos con otros modelos con similar propósito.
En la modelización tradicional la elección del modelo depende de cómo los datos o la realidad
se adaptaban a las asunciones del mismo. Ajustar el modelo e incorporar o mantener un factor
predictor depende de argumentos matemáticos en el sentido de cuánta variabilidad del modelo
explicaba un factor determinado (estudiada paso a paso, hacia delante o hacia atrás), pero también
del sentido biológico y sentido clínico. Esto le daba al proceso una cierta validez que podríamos
llamar «aparente». Sin embargo, el machine learning hace opaco el proceso de modelización y eso
genera dudas: son realmente Black-box models. Así, estos modelos detectan asociaciones fuertes no
guiadas por hipótesis y ello hace que a veces sus interpretaciones sean unas veces incomprensibles
y otras absolutamente obvias para un clínico: por ejemplo, que la asistencia a consultas paliativas
es fuertemente predictora de mortalidad (61).
Probablemente este es uno de los temas que más incomoda al investigador clínico, acrecentado
por las dificultades en el reporte de los modelos arriba mencionado (56).
6. ¿ES VÁLIDO EL MODELO?

Hay dos preguntas distintas aquí, una es si el modelo es correcto, es decir, si sus ecuaciones internas
y procesos de ajuste están en orden (verificación), y otra diferente es si el modelo funciona correc-
tamente, es decir, si hace el trabajo para el que fue concebido, que es lo que llamamos validación
con sus vertientes interna y externa.
La verificación se escapa de los límites del lector clínico y posiblemente sea inadecuado su
reporte (quizás estandarización por ingenieros sea lo correcto). La validación interna y externa
fue comentada previamente en el capítulo 8 y no difiere esencialmente de lo allí comentado. Lo
diferencial es que en la IA el procedimiento de derivación y validación es iterativo (hasta encontrar
los mejores predictores), autónomo y opaco. Posteriormente se han de realizar otras validaciones
externas, preferiblemente amplias, en otras bases de datos.

Con todo, la evidencia que ofrezca el modelo constituirá solo una pieza simple de evidencia, no
definitiva pero sí susceptible de ser incluida en revisiones sistemáticas de modelos para preguntas
análogas y modelos similares (59) que mejoren la información sobre la validez.
7. ¿CUÁLES SON LOS RESULTADOS?

El modelo debe ofrecer los resultados de la calibración (o relación entre probabilidades predichas
por el modelo y las observadas) y la capacidad de discriminación, generalmente mediante una curva
ROC y la correspondiente área bajo curva (AUC) con sus intervalos de confianza y el estadístico «c».
Adicionalmente, para predicción individual debe ofrecerse la información que permita la
particularización del cálculo al paciente individual.
8. ¿ES APLICABLE EL MODELO EN MI MEDIO, A MIS PACIENTES?

La contestación a esta pregunta engloba las reflexiones sobre poblaciones y bases de datos realizadas
en puntos anteriores. Es probable que las bases de datos usadas en los procesos hayan sido diferentes,
o de diferentes poblaciones, etc. Procede reflexión prudente para la decidir su aplicación. Puede
ser de ayuda explorar cómo ha sido la validación externa y si ha sido suficientemente «amplia», es
decir, en diversas poblaciones.
En realidad, esta pregunta debe formularse en condicional, es decir ¿sería aplicable teóricamente
a nuestro medio o paciente? Pero hay otros elementos que influirán en la aplicabilidad y que
comentamos a continuación.
9. ¿HAY QUE VER OTRAS COSAS SOBRE APLICABILIDAD?

Además de lo anterior hay que plantearse si es fácil o cómodo implementar el uso del modelo en
la actividad clínica: si tiene una interfaz amigable, sencilla, intuitiva; si es incluible en mis rutinas;
si está conectada a mis programas de uso clínico, y si aporta algo más de ayuda a mi trabajo.
Un asunto clave para decidir sobre la aplicabilidad es saber en qué medida el nuevo modelo
mejora la función predictiva que realiza, diagnóstica o pronóstica, respecto de otros instrumentos
clínicos nuevos o tradicionales. Por ejemplo, si hablamos de un modelo machine learning para
diagnóstico precoz de sepsis, para valorar su aplicabilidad será preciso comparar sus resultados con
las otras estrategias usadas, sean tradicionales o nuevas (63).
Pero, además, en el diagnóstico y pronóstico (como vimos en el capítulo 17) el valor de clasificar
con exactitud depende de las consecuencias que se derivan de ello y de la estrategia clínica en que
el modelo se incluya. Por ejemplo, algún modelo de la revisión citada puede ser estupendo para
el diagnóstico precoz de la sepsis, pero lo realmente relevante para el resultado del paciente es la
instauración de tratamiento precoz, que determinará si mejoramos la mortalidad (63). Por ello,
para opinar realmente sobre aplicabilidad, hay que comparar los desenlaces de pacientes en rutas
clínicas alternativas que incluyan o no estos instrumentos.
10. ¿SIRVE DE AYUDA A LA DECISIÓN?

Esta cuestión es, finalmente, la más importante sobre la que hay que meditar.
Se sabe bien que el uso de riesgos y probabilidades implica un esfuerzo cognitivo que desincentiva
su uso por los clínicos y que plantea problemas para explicárselo a los pacientes. La solución que
usan la mayoría de las reglas de predicción clásicas es incorporar una ayuda o sugerencia de decisión
en función de las predicciones y de las posibles rutas de decisión, es decir, esto implica el uso de
análisis de decisiones para ofrecer consejo o ayuda a la decisión. El mismo argumento vale para
estos modelos in silico de diagnóstico o pronóstico (63,64).

Esto vincula los dos tipos de modelos de los que hemos hablado en el capítulo: la evidencia de
los modelos predictivos in silico puede y debe ser incorporada en modelos de análisis de decisión.
Posteriormente, las decisiones óptimas podrán incorporarse a sistemas de ayuda que faciliten el
uso de la mejor evidencia en la clínica. Estos sistemas de ayuda a la decisión clínica a los que ahora
nos referimos (25,64), que en vez de reflexionar y pensar despacio como citábamos líneas arriba
(35), ayuden a pensar rápido y actuar, como es habitual en la clínica.
Conclusión
Los modelos clásicos en la ciencia y en la medicina han evolucionado vertiginosamente y hay
una explosión de conocimiento construida en el mundo computacional (in virtuo o in silico). Los
modelos clínicos in silico, de construcción o integración de conocimiento, también participan de
ese fenómeno que plantea un nuevo horizonte de progreso en la comprensión, en la predicción y
en la integración de evidencias clínicas para mejorar el cuidado de los pacientes.
Sin embargo, las posibilidades inmensas de estos nuevos métodos y el entusiasmo que a veces
generan necesitan de la reflexión atemperada y crítica que distinga bien lo que es solo innovación
de lo que es realmente progreso.
Si ya era necesario ser cautos al leer la evidencia tradicional sacada de la realidad clínica y escrita
negro sobre blanco, con los estudios in silico será preciso aprender a reportarlos adecuadamente, y
será aún más necesario leerlos críticamente e integrarlos en revisiones sistemáticas de esa evidencia
y, cuando proceda, incorporarlos en las decisiones clínicas.
Agradecimientos
Agradezco a Fernando Carballo Álvarez, Jaime Latour Pérez, Javier Jaén Olasolo, José Ignacio
Emparanza Knorr, Eduardo Lopez Briz, Miguel Maldonado Fernández, Borja Fernández Félix
y Juan Jerónimo Cabello Prieto sus comentarios a versiones previas de este manuscrito. Procede
el eximente habitual.
Bibliografía
1. Horta GT, Oliveira M. Contributions of In Virtuo and In Silico Experiments for the Future of Empirical
Studies in Software Engineering Contributions of In Virtuo and In Silico Experiments for the Future.
J Syst Software 2007;80(1):16-31.
2. Danchin A, Médigue C, Gascuel O, Soldano H, Hénaut A. From data banks to data bases. Res Microbiol
1991;142(7):913-6.
3. Phyllis Illari, Russo F. Causality. Oxford: Oxford University Press; 2014.
4. Adúriz-Bravo A. A ́Semantic’ View of Scientific Models for Science Education. Sci Educ 2013;22(7):1593-
611.
5. Oh P, Oh SJ. What Teachers of Science Need to Know about Models: An overview. Int J Sci Educ
2011;33:1109-30.
6. Gutiérrez R. Lo que los profesores de ciencias conocen y necesitan conocer acerca de los modelos:
aproximaciones y alternativas. Rev Bio-Grafía Escr Sobre Biol Su Enseñ 2014;7(13):37-66.
7. Rothman KJ. Causes. Am J Epidemiol 1976;104(6):587-92.
8. Mario Bunge. Method, model and matter. Dordecht/Boston: D Reidel Publishing Company; 1972.
9. Wang RS, Maron BA, Loscalzo J. Systems medicine: evolution of systems biology from bench to bedside:
Clinical implications of systems biology. Wiley Interdiscip Rev Syst Biol Med 2015;7(4):141-61.
10. Ho DSW, Schierding W, Wake M, Saffery R, O’Sullivan J. Machine Learning SNP Based Prediction for
Precision Medicine. Front Genet 2019;10. [Fecha de última consulta: 12 de octubre de 2020]. Disponible
en: https://www.frontiersin.org/article/10.3389/fgene.2019.00267/full.
11. Khoury MJ, Bedrosian SR, Gwin M, Higgins JPT, Ioanidis JPA, Litle J. Human Genome Epidemiology.
Oxford: Oxford University Press; 2010.
12. Ioannidis JP, Boffetta P, Little J, O’Brien TR, Uitterlinden AG, Vineis P, et al. Assessment of cumulative
evidence on genetic associations: interim guidelines. Int J Epidemiol 2008;37(1):120-32.

13. Wainberg M, Sinnott-Armstrong N, Mancuso N, Barbeira AN, Knowles DA, Golan D, et al. Opportu-
nities and challenges for transcriptome-wide association studies. Nat Genet 2019;51(4):592-9.
14. Brandes N, Linial N, Linial M. PWAS: proteome-wide association study—linking genes and phenotypes
by functional variation in proteins. Genome Biol 2020;21(1.). [Fecha de última consulta: 12 de octubre de
2020]. Disponible en: https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02089-x.
15. Birney E, Smith GD, Greally JM. Epigenome-wide Association Studies and the Interpretation of Disease-
Omics. PLOS Genet 2016;12(6):e1006105.
16. Yap IKS, Brown IJ, Chan Q, Wijeyesekera A, Garcia-Perez I, Bictash M, et al. Metabolome-Wide
Association Study Identifies Multiple Biomarkers that Discriminate North and South Chinese Populations
at Differing Risks of Cardiovascular Disease: INTERMAP Study. J Proteome Res 2010;9(12):6647-54.
17. Loscalzo J, Kohane I, Barabasi A. Human disease classification in the postgenomic era: A complex systems
approach to human pathobiology. Mol Syst Biol 2007;3(1):124.
18. Insigneo Institute for in silico Medicine. In Silico Medicine: Definition, History, Institutions, Main
Achievements. [Fecha de última consulta: 10 de agosto de 2020]. Disponible en: https://insigneo.org/
in-silico-medicine-definition-history-institutions-main-achievements/.
19. STEP Consortium. Siported by the European comission. Seeding the EuroPhysiome: A Roadmap to
the Virtual Physiological Human. 2007. [Fecha de última consulta: 10 de agosto de 2020]. Disponible
en: https://www.vph-institute.org/upload/step-vph-roadmap-printed-3_5192459539f3c.pdf.
20. The Epsilon Group-TEG. T1DMS. (Type I Diabetes Mellitus Simulator). A Groundbreaking tool for
type 1 diabetes treatment R&D. [Fecha de última consulta: 10 de agosto de 2020]. Disponible en: https://
tegvirginia.com/software/t1dms/.
21. Viceconti M, Henney A, Morley-Fletcher E. In silico clinical trials: how computer simulation will trans-
form the biomedical industry. Int J Clin Trials 2016;3(2):37.
22. Pricewaterhouse Coopers. Pharma 2020: Virtual R&D Which path will you take? 2020. [Fecha de última
consulta: 10 de agosto de 2020]. Disponible en: https://www.vph-institute.org/upload/pwc-pharma2020-
virtualrd-final_519245021a53a.pdf.
23. Viceconti M, Pappalardo F, Rodriguez B, Horner M, Bischoff J, Musuamba Tshinanu F. In silico trials:
Verification, validation and uncertainty quantification of predictive models used in the regulatory evaluation
of biomedical products. Methods 2020. Disponible en: http://www.sciencedirect.com/science/article/pii/
S1046202319302452.
24. Natsiavas P, Malousi A, Bousquet C, Jaulent MC, Koutkias V. Computational Advances in Drug Safety:
Systematic and Mapping Review of Knowledge Engineering Based Approaches. Front Pharmacol
2019;10. [Fecha de última consulta: 8 de octubre de 2020]. Disponible en: https://www.frontiersin.org/
article/10.3389/fphar.2019.00415/full.
25. Greenes RA, Bates DW, Kawamoto K, Middleton B, Osheroff J, Shahar Y. Clinical decision support
models and frameworks: Seeking to address research issues underlying implementation successes and
failures. J Biomed Inform 2018;78:134-43.
26. Brice A, Price A, Burls A. Creating a database of internet-based clinical trials to support a public-led
research programme: A descriptive analysis. Digit Health 2015;1. 2055207615617854.
27. Dascal J, Reid M, IsHak WW, Spiegel B, Recacho J, Rosen B, et al. Virtual Reality and Medical Inpatients:
A Systematic Review of Randomized, Controlled Trials. Innov Clin Neurosci 2017;14(1–2):14-21.
28. Alaker M, Wynn GR, Arulampalam T. Virtual reality training in laparoscopic surgery: A systematic review
& meta-analysis. Int J Surg Lond Engl 2016;29:85-94.
29. Pappalardo F, Russo G, Tshinanu FM, Viceconti M. In silico clinical trials: concepts and early adoptions.
Brief Bioinform 2019;20(5):1699-708.
30. Riley RD, Hayden JA, Steyerberg EW, Moons KGM, Abrams K, Kyzas PA, et al. Prognosis Research
Strategy (PROGRESS) 2: Prognostic Factor Research. PLoS Med 2013;10(2):e1001380.
31. Steyerberg EW, Moons KGM, van der Windt DA, Hayden JA, Perel P, Schroter S, et al. Prognosis
Research Strategy (PROGRESS) 3: Prognostic Model Research. PLoS Med 2013;10(2):e1001381.
32. Hingorani AD, Windt DA, Riley RD, Abrams K, Moons KGM, Steyerberg EW, et al. Prognosis research
strategy (PROGRESS) 4: Stratified medicine research. BMJ 2013;346(1):e5793.
33. Ginsburg GS, Phillips KA. Precision Medicine: From Science To Value. Health Aff (Millwood)
2018;37(5):694-701.
34. Hamburg MA, Collins FS. The path to personalized medicine. N Engl J Med 2010;363(4):301-4.
35. Daniel Kahneman. Pensar rápido, pensar despacio. Barcelona: Random House; 2012.

36. Djulbegovic B, Elqayam S. Many faces of rationality: Implications of the great rationality debate for
clinical decision-making. J Eval Clin Pract 2017;23(5):915-22.
37. Reyna VF. Theories of Medical Decision Making and Health: An Evidence-Based Approach. Med Decis
Making 2008;28(6):829-33.
38. Waljee AK, Higgins PDR, Singal AG. A Primer on Predictive Models. Clin Transl Gastroenterol
2014;5(1):e44.
39. Beunza JJ, Puertas E, Condes E. Inteligencia artificial en entornos sanitarios. Barcelona: Elsevier; 2020.
40. Muthalaly RG, Evans RM. Applications of Machine Learning in Cardiac Electrophysiology. Arrhythmia
Electrophysiol Rev 2020;9(2):71-7.
41. Chang HY, Jung CK, Woo JI, Lee S, Cho J, Kim SW, et al. Artificial Intelligence in Pathology. J Pathol
Transl Med 2019;53(1):1-12.
42. Hueman MT, Wang H, Yang CQ, Sheng L, Henson DE, Schwartz AM, et al. Creating prognostic systems
for cancer patients: A demonstration using breast cancer. Cancer Med 2018;7(8):3611-21.
43. Kawakami E, Tabata J, Yanaihara N, Ishikawa T, Koseki K, Iida Y, et al. Application of Artificial Inte-
lligence for Preoperative Diagnostic and Prognostic Prediction in Epithelial Ovarian Cancer Based on
Blood Biomarkers. Clin Cancer Res 2019;25(10):3006-15.
44. Christodoulou E, Ma J, Collins GS, Steyerberg EW, Verbakel JY, Van Calster B. A systematic review
shows no performance benefit of machine learning over logistic regression for clinical prediction models.
45. Nagendran M, Chen Y, Lovejoy CA, Gordon AC, Komorowski M, Harvey H, et al. Artificial intelligence
versus clinicians: systematic review of design, reporting standards, and claims of deep learning studies.
BMJ 2020;368:m689.
46. Sox HC, Higgins MC, Owens DH. Medical Decision Making. 2nd ed. Chichester: John Wiley & Sons;
2013.
47. Sonnenberg FA, Beck JR. Markov Models in Medical Decision Making: A Practical Guide. Med Decis
Making 1993;13(4):322-38.
48. Hong L, Luo M, Wang R, Lu P, Lu W, Lu L. Big Data in Health Care: Applications and Challenges.
Data Inf Manag 2018;2(3):175-97.
49. Snyder M, Zhou W. Big data and health. Lancet Digit Heath 2019;1(E252–E254).
50. Khoury MJ, Ioannidis JPA. Big data meets public health. Science 201428;346(6213):1054-1055.
51. Weinstein MC, O’Brien B, Hornberger J, Jackson J, Johannesson M, McCabe C, et al. Principles of Good
Practice for Decision Analytic Modeling in Health-Care Evaluation: Report of the ISPOR Task Force
on Good Research Practices—Modeling Studies. Value Health 2003;6(1):9-17.
52. Husereau D, Drummond M, Petrou S, Carswell C, Moher D, Greenberg D, et al. Consolidated Health
Economic Evaluation Reporting Standards (CHEERS) statement. Int J Technol Assess Health Care
2013;29(2):117-22.
53. Richardson WS, Detsky AS. Users’ guides to the medical literature. VII. How to use a clinical decision
analysis. A. Are the results of the study valid? Evidence-Based Medicine Working Group. JAMA
1995;273(16):1292-5.
54. Richardson WS, Detsky AS. Users’ guides to the medical literature. VII. How to use a clinical decision
analysis. B. What are the results and will they help me in caring for my patients? Evidence Based Medicine
Working Group. JAMA 1995;273(20):1610-3.
55. Collins GS, Reitsma JB, Altman DG, Moons KGM. Transparent reporting of a multivariable prediction
model for individual prognosis or diagnosis (TRIPOD): the TRIPOD statement. BMJ 2015;350(4):g7594.
56. Collins GS, Moons KGM. Reporting of artificial intelligence prediction models. The Lancet
2019;393(10181):1577-9.
57. Liu X, Rivera SC, Moher D, Calvert MJ, Denniston AK. Reporting guidelines for clinical trial reports
for interventions involving artificial intelligence: the CONSORT-AI Extension. BMJ 2020;370:m3164.
58. Schwalbe N, Wahl B. Artificial intelligence and the future of global health. Lancet Lond Engl
2020;395(10236):1579-86.
59. Moons KGM, Wolff RF, Riley RD, Whiting PF, Westwood M, Collins GS, et al. PROBAST: A Tool to
Assess Risk of Bias and Applicability of Prediction Model Studies: Explanation and Elaboration. Ann
Intern Med 2019;170(1):W1.
60. Chen JH, Alagappan M, Goldstein MK, Asch SM, Altman RB. Decaying relevance of clinical data
towards future decisions in data-driven inpatient clinical order sets. Int J Med Inf 2017;102:71-9.

61. Machine Learning. Prediction in Medicine — Beyond the Peak of Inflated Expectations. Machine
Learning and Prediction in Medicine — Beyond the Peak of Inflated Expectations. N Engl J Med
2017;376:2507-9.
62. Benke K, Benke G. Artificial Intelligence and Big Data in Public Health. Int J Environ Res Public Health
2018;15(12):2796.
63. Fleuren LM, Klausch TLT, Zwager CL, Schoonmade LJ, Guo T, Roggeveen LF, et al. Machine learning
for the prediction of sepsis: a systematic review and meta-analysis of diagnostic test accuracy. Intensive
Care Med 2020;46(3):383-400.
64. Peiffer-Smadja N, Rawson TM, Ahmad R, Buchard A, Georgiou P, Lescure FX, et al. Machine learning
for clinical decision support in infectious diseases: a narrative review of current applications. Clin Microbiol
Infect 2020;26(5):584-95.

Cabello JB. Lectura crítica de estudios clínicos in virtuo/in silico: modelos-simulaciones, inteligencia artificial
y big data. En: Cabello Juan B, editor. Lectura crítica de la evidencia clínica, 2.ª ed. Barcelona: Elsevier;
2022. p. 253-272.


Lectura Crítica de La Evidencia Clínica, 2. Edición

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Lectura Crítica de La Evidencia Clínica, 2. Edición

Cargado por

Copyright:

Formatos disponibles

2.

Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de

Todos los derechos reservados.

Reserva de derechos de libros

Servicios editoriales: Gea Consultoría Editorial, S.L.

Cómo citar este libro:

Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de

A Casti, mi amante y amada esposa, compañera del alma, compañera.

Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de

Sir Ian Chalmers

Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de

Fernando Carballo Álvarez

Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de

Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de

Víctor Abraira Santos M.ª Teresa González Gil

M.ª Luisa Montes Ramírez Ana Royuela Vicente

Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de

Una historia clínica

© 2022. Elsevier España, S.L.U. Reservados todos los derechos 1

las unidades de investigación clínica agrupadas en la Red Española de Unidades de Investigación

¿Hay que leer críticamente en el siglo xxi?

Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de

Una preocupación creciente

Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de

Cómo citar este capítulo:

Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de

• Reflexionar sobre la lectura y sus peculiaridades en el contexto de la investigación

Lectura y sus especificidades en el contexto

© 2022. Elsevier España, S.L.U. Reservados todos los derechos 5

DIMENSIÓN TEXTUAL SIMPLE

DIMENSIÓN RELACIONAL (INTRA- E INTERTEXTUAL)

Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de

DIMENSIÓN SOCIAL Y CULTURAL

mala conducta científica, retractación, réplica, superposición y duplicidad de publicaciones,

cación, con la industria, anuncios y publicidad, etc.).

animales o en seres humanos. Este último, obviamente, afecta de manera específica a la

estudios, a facilitar su lectura y la valoración crítica de su validez, o a propiciar su aplicación a

Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de

CUADRO 2.1 ■ Guías para la escritura de estudios clínicos*

*Recopiladas en EQUATOR (http://www.equator-network.org/).

CUADRO 2.2 ■ Registros de ensayos clínicos aleatorios

Lectura crítica en el contexto clínico

siones 1.a-3.a) para adentrarse en la realización de juicios de valor (dimensión 4.a).

valores (dimensión 5.a).

Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de

Aprendiendo a leer críticamente

Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de

lógicamente, el primer punto de los instrumentos de lectura.

señalábamos, se dedica a justificar el marco de conocimiento que da sentido a esa pregunta.

INSTRUMENTOS PARA LA LECTURA CRÍTICA

Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de

CUADRO 2.3 ■ Utilidad de la lectura crítica

Saber hacer lectura crítica te permitirá:

considerar si es realmente razonable seguir con tu estudio.

un tema difícilmente se agota y siempre hay algún matiz de interés.

y te pongas a la tarea de diseñar tu propio estudio primario.

(ellos podrán verla en publicaciones de resúmenes o revistas secundarias).

RS, revisión sistemática.

Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de

Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de

CONFRONTANDO INTERPRETACIONES, DELIBERANDO

Descargado para Anonymous User (n/a) en National Autonomous University of Mexico de

Cómo citar este capítulo: