Lectura Crítica de La Evidencia Clinica PDF

LECTURA CRÍTICA
DE LA EVIDENCIA CLÍNICA
Cómo citar este libro:
Juan B Cabello por CASPe. Lectura crítica de la evidencia clínica. Barcelona: Elsevier; 2015.
COLECCIÓN CUIDADOS DE SALUD AVANZADOS
Directora Loreto Maciá Soler
LECTURA CRÍTICA
DE LA EVIDENCIA CLÍNICA
Juan Bautista Cabello López

© 2015 Elsevier España, S.L.U.
Avda. Josep Tarradellas, 20-30, 1.°
08029 Barcelona, España
Fotocopiar es un delito (Art. 270 C.P.)

Para que existan libros es necesario el trabajo de un importante colectivo (autores, traduc-
tores, dibujantes, correctores, impresores, editores...). El principal beneficiario de ese esfuerzo
es el lector que aprovecha su contenido.
Quien fotocopia un libro, en las circunstancias previstas por la ley, delinque y contribuye
a la «no» existencia de nuevas ediciones. Además, a corto plazo, encarece el precio de las ya
existentes.
Este libro está legalmente protegido por los derechos de propiedad intelectual. Cualquier
uso fuera de los límites establecidos por la legislación vigente, sin el consentimiento del editor,
es ilegal. Esto se aplica en particular a la reproducción, fotocopia, traducción, grabación o
cualquier otro sistema de recuperación y almacenaje de información.
ISBN (versión impresa): 978-84-9022-447-2

ISBN (versión electrónica): 978-84-9022-642-1
Depósito legal (versión impresa): B. 8.213-2015

Depósito legal (versión electrónica): B. 8.214-2015
Servicios editoriales: Gea Consultoría Editorial, s. l.
Advertencia
Las ciencias de la salud son un área en constante evolución. Aunque deben seguirse unas
precauciones de seguridad estándar, a medida que aumenten nuestros conocimientos gra-
cias a la investigación básica y clínica habrá que introducir cambios en los tratamientos y en
los fármacos. En consecuencia, se recomienda a los lectores que analicen los últimos datos
aportados por los fabricantes sobre cada fármaco para comprobar las dosis recomendadas,
la vía y duración de la administración y las contraindicaciones. Es responsabilidad inelu-
dible del médico determinar las dosis y el tratamiento más indicados para cada paciente,
en función de su experiencia y del conocimiento de cada caso concreto. Ni los editores
ni los directores asumen responsabilidad alguna por los daños que pudieran generarse a
personas o propiedades como consecuencia del contenido de esta obra.
El Editor
In memóriam
A Casti,
mi amante y amada esposa,
compañera del alma, compañera
Juan B. Cabello
A Casti, quien desde la discreción fue esencial en cada una de las

actividades de CASPe. Su excelente competencia y su capacidad de
organización nos facilitaron enormemente el buen funcionamiento
de los proyectos. Su calidez, bondad y accesibilidad hacían que todos,
a pesar de nuestra enorme dispersión geográfica, nos sintiéramos siempre
cohesionados y bien coordinados. Siempre estarás en nuestro recuerdo
y en nuestro corazón
Marisa Montes por todos los miembros de CASPe

Página deliberadamente en blanco
Índice de contenidos
Presentación de la colección Cuidados de Salud Avanzados ix

Prólogo xi
Tablero de dirección xv
Agradecimientos xvii
Colaboradores xix
1 ¿Por qué la lectura crítica? 1

AMANDA BURLS, JOSÉ IGNACIO EMPARANZA KNÖRR Y JUAN BAUTISTA CABELLO LÓPEZ
2 Lectura crítica para la práctica clínica basada en la evidencia 7

JUAN BAUTISTA CABELLO LÓPEZ Y JOSÉ IGNACIO EMPARANZA KNÖRR
3 Formulando preguntas para la práctica clínica 21

JUAN BAUTISTA CABELLO LÓPEZ Y JOSÉ IGNACIO EMPARANZA KNÖRR
4 Lectura crítica de estudios de tratamiento.

Ensayos clínicos aleatorios 35
EDUARDO LÓPEZ BRIZ, JOSÉ IGNACIO PIJOAN ZUBIZARRETA
Y JUAN BAUTISTA CABELLO LÓPEZ
5 Lectura crítica de estudios de tratamiento. Revisiones sistemáticas

de ensayos clínicos aleatorios 63
VICENTE RUIZ GARCÍA, RAFAEL CARBONELL SANCHÍS E IRATXE URRETA BARALLOBRE
6 Lectura crítica de estudios de diagnóstico 87

ANA ROYUELA VICENTE, MARÍA LUISA MONTES RAMÍREZ
Y ANTONIO JESÚS MARTÍN MATEOS
7 Lectura crítica de estudios de pronóstico. Estudios de cohortes 101

VÍCTOR ABRAIRA, ALFONSO MURIEL GARCÍA Y MARÍA LUISA MONTES RAMÍREZ
8 Lectura crítica de estudios de reglas de predicción clínica 117

JOSÉ IGNACIO EMPARANZA KNÖRR Y ALFONSO MURIEL GARCÍA
9 Lectura crítica de estudios cualitativos 133

ALEJANDRA CANO ARANA Y TERESA GONZÁLEZ GIL
vii
viii ÍNDICE DE CONTENIDOS
10 Documentos de evidencia. El sistema 6S. Evidencia a pie

de cama (sumarios point of care) y guías de práctica clínica 157
JUAN BAUTISTA CABELLO LÓPEZ, FERNANDO CARBALLO ÁLVAREZ,
EUKENE ANSUATEGI ZENGOTITABENGOA Y MARIMAR ÚBEDA CARRILLO
11 De la evidencia a la recomendación. GRADE 181

JUAN BAUTISTA CABELLO LÓPEZ Y JAIME LATOUR PÉREZ
Presentación de la colección
Cuidados de Salud Avanzados
Cuidados de Salud Avanzados es una colección de monografías dirigidas

a profesionales de la salud y estudiantes de posgrado, máster y doctorado,
dentro del ámbito de las ciencias de la salud. Su orientación recoge
las cuatro funciones que la Organización Mundial de la Salud otorga a las
profesiones sanitarias: asistencial, docente, investigadora y gestora.
Actualmente, la formación sanitaria tiene tres niveles para todas las
titulaciones (grado, máster y doctorado), además de las especialidades
propias de cada disciplina. El nivel de grado otorga competencias para el
ejercicio de una profesión, por lo que existen grandes diferencias forma-
tivas entre titulaciones. Sin embargo, en niveles de formación superior, la
orientación de los estudios máster hacia una especialización o formación
superior, ya sea con perfil profesional o investigador, a la que tienen acceso
en condiciones de igualdad todos los titulados universitarios de grado,
permite que la literatura de consulta resulte más homogénea. Lo mismo
sucede en los programas de doctorado. Los requisitos y las exigencias
formativas e investigadoras no distinguen entre titulaciones de origen,
de manera que la bibliografía de consulta debe cumplir unos mínimos
acordes con la formación superior requerida, útil para todos los ámbitos
de la salud y que considere la formación de grado previa con el fin de que
no se repitan competencias.
Todas las monografías han sido escritas por autores de reconocido pres-
tigio en su ámbito, que han constituido equipos de trabajo con expertos en el
área, de manera que el objetivo principal de la colección queda garantizado:
ser una referencia de consulta y apoyo docente dirigida a posgraduados en
el ámbito de las ciencias de la salud.
Loreto Maciá Soler
ix
Prólogo
Permitidme que presente este libro recordando una experiencia personal.

En 1969, cuando era un joven médico, viajé a Gaza para trabajar en un
campo de refugiados palestino. Era joven, entusiasta y tenía las mejores
intenciones, pero, durante mi estancia en la franja, aprendí una dura lección:
aun cuando actuamos con la mejor de las intenciones, médicos y enfermeras
causamos, en ocasiones, más daño que bien. Un ejemplo propio: ¿debería
haber dado antibióticos como medida profiláctica a niños con sarampión?
Siguiendo las enseñanzas de mis profesores en la Facultad de Medicina,
no lo hice. Como consecuencia, con casi total certeza, algunos niños con
sarampión de la franja de Gaza sufrieron y, posiblemente, murieron innece-
sariamente porque les negué el acceso a antibióticos profilácticos en 1969 y
1970, pese a que ya existían seis ensayos, todos publicados antes de mi viaje
a Gaza, que mostraban que prescribir antibióticos a niños con sarampión
puede reducir el riesgo de que desarrollen neumonía.
Estoy lejos de ser el único profesional sanitario que ha perjudicado a sus
pacientes al seguir las prácticas estándar o las enseñanzas de los expertos.
Tal y como Antman y sus colegas (JAMA, 1992) demostraron de manera
dramática: «El uso del conocimiento sobre terapias que pueden salvar
vidas se ha retrasado, a veces más de una década, al tiempo que ciertos
tratamientos han seguido siendo recomendados mucho después de que
hubiera ensayos que mostraban que eran perjudiciales».
En los últimos años, para los clínicos se ha vuelto algo más sencillo
encontrar y actuar sobre la base de la evidencia recogida, organizada y
revisada sistemáticamente. Aun así, sigue existiendo una enorme bre-
cha entre la evidencia disponible y la práctica clínica, lo cual representa
un gran desperdicio de los ya de por sí escasos recursos destinados a la
sanidad y la investigación, y ello priva a los pacientes de recibir los mejores
cuidados posibles. La educación tradicional de médicos, enfermeras y otros
profesionales sanitarios ha fracasado en la tarea de enseñar las habilidades
necesarias para la práctica clínica basada en la evidencia, pese a que hay
pruebas de que esta produce mejores resultados en los pacientes que los
cuidados médicos estándar (Emparanza et al., 2015, en prensa).
Este libro enseña las habilidades necesarias para incorporar a la práctica
clínica los mejores conocimientos disponibles sobre procedimientos clínicos
esenciales como diagnóstico, pronóstico y tratamiento. Ha sido escrito
pensando especialmente en los clínicos, quienes, con los pacientes, son
los usuarios más importantes de la investigación en salud. Este libro es
xi
xii PRÓLOGO
también una herramienta de valor incalculable para profesores, tutores de

residentes e investigadores, y ayudará a los jóvenes clínicos a comprobar si
el tratamiento o la prueba diagnóstica que se les ha enseñado es realmente
lo mejor para su paciente.
La obra ha sido escrita por médicos, enfermeras y documentalistas invo-
lucrados en la enseñanza de habilidades de lectura crítica a clínicos desde
hace más de una década a través de CASPe (Critical Appraisal Skills Pro-
gramme España). Los autores lo son también de varias revisiones sistemá-
ticas para The Cochrane Collaboration, y han participado en el desarrollo y
la actualización de métodos como la aproximación GRADE para evaluar la
evidencia y hacer recomendaciones en las guías, y la valoración de las reglas
de predicción clínica y los métodos adecuados para estudios de pronóstico.
La intención primordial del libro es la de ayudar a quienes tienen que
tomar decisiones clínicas o de salud a adquirir las habilidades necesarias
para asegurarse de que las decisiones se toman usando la mejor evidencia
disponible. A mí me hubiera gustado tener un libro así al principio de mi
ejercicio clínico. Con las habilidades que hubiera podido adquirir gracias
a él, quizás hubiera hecho menos daño y más bien a mis pacientes.
Forgive me if I introduce this book with a personal story. In 1969 as a young

doctor I went to work in a Palestinian refugee camp in Gaza. I was young, keen and
had the very best of intentions. However, during my time in Gaza I learnt a very
hard lesson: even when we are acting with the very best of intentions, doctors and
nurses sometimes do more harm than good. Here is one personal example: should
I have given antibiotics prophylactically to children with measles? In accordance
with what my teachers at medical school had told me, I did not. As a result some
children developing measles in the Gaza Strip in 1969 and 1970 almost certainly
suffered and possibly died unnecessarily because I withheld prophylactic antibiotics.
Yet there were six controlled trials, all reported before I went to Gaza, that showed
that prescribing antibiotics for children with measles can reduce their risk of
developing pneumonia.
I am far from the only health professional who has misguidedly followed standard
practice or expert teaching to the detriment of my patients. As Antman and his co-
lleagues (JAMA, 1992) demonstrated so dramatically: “Advice on some life-saving
therapies has been delayed for more than a decade, while other treatments have
been recommended long after controlled research has shown them to be harmful.”
Over recent years it has become somewhat easier for clinicians to find and act
on systematically collected, collated and appraised research evidence. Yet there
remain large gaps between research evidence and practice. This wastes scarce
research and health care resources and deprives patients of good care. Traditional
medical, nursing and other health care professionals’ training has failed to teach
clinicians the skills needed for evidence-informed practice, despite the fact that there
is evidence that evidence-based practice is associated with better patient outcomes
than standard hospital care (Emparanza et al 2015 In Press).
Prólogo xiii
This book covers the skills needed to incorporate in clinical practice clinical
knowledge about essential clinical procedures, such as diagnosis, prognosis and
treatment. It has been designed particularly for clinicians, who, together with
patients, are one of the two most important users of health research. However, the
book will also be an invaluable tool for teachers, clinical trainers and producers of
health research. It will help young clinicians check whether what they have been
taught is in fact the best treatment or diagnostic test for their patient.
The book has been written by doctors, nurses and information specialists invol-
ved in teaching critical appraisal skills to clinicians for over a decade through the
Spanish Critical Appraisal Skills Programme. The authors are producers of syste-
matic reviews for The Cochrane Collaboration and contributors to the development
and use of up-to-date best practice and methods, for example, the GRADE approach
to assessing evidence and making recommendations in guidelines, the appraisal of
clinical prediction rules, and methods recommended for prognostic studies.
The book is intended to help anyone who has to take decisions about health or
health care to acquire the skills needed to help make sure that their decisions are
informed by the best available evidence. I wish I had access to such a book in my
early clinical career. With the skills I could have learnt from this book I might have
done less harm and more good for my patients.
Sir Iain Chalmers

Cofundador de The Cochrane Collaboration
(Traducción de Juan Jerónimo Cabello Prieto)
Tablero de dirección
En cierto modo este libro es varios libros, pero sobre todo es dos libros. El
lector queda invitado a elegir una de las dos posibilidades que señalamos
en estas letras, a las que llamamos tablero de dirección, alusión que el lector
sin duda entenderá.
El primer libro se puede leer como un libro de métodos de investigación
clínica, aunque visto desde la perspectiva del lector del estudio y no desde
la del diseñador. Ese libro está constituido por el texto de los capítulos del
primero al undécimo. El lector puede escoger también el orden de lectura,
pero conviene saber que algunos capítulos contienen, a modo de muñeca
rusa, otros precedentes. Por ejemplo, para leer el capítulo 5 es preciso haber
leído el 4, y es preciso haber leído ambos para comprender el capítulo 11.
De modo análogo, para leer el 10 es conveniente haber leído del 4 al 8, y
la lectura del capítulo 3 es esencial para dar sentido a todos los capítulos
posteriores. Por su parte, los capítulos 1 y 2 pueden funcionar como piezas
individuales, pero leídas al inicio le dan otra dimensión a lo restante. Un
caso especial es el capítulo 9, que trata de la lectura de la investigación
cualitativa y que, por sustentarse en un paradigma diferente, no depende
de otros capítulos.
El segundo libro se puede ver como un libro de trabajo sobre habilidades
de lectura crítica de los diferentes tipos de estudios clínicos. Este segundo
libro se encuentra en parte en este texto y en parte en la nube, y por ello el
procedimiento de lectura es un poco más complejo. Veamos:
En primer lugar, será necesario leer el texto del capítulo correspondiente,
incluido el escenario clínico.
A continuación, será preciso bajar de internet el artículo elegido para
ese escenario y realizar su lectura crítica. En este sentido, hemos elegido
artículos de revistas de acceso libre. Si se maneja la versión electrónica de
este libro, se accederá al artículo por el hipertexto, y si se usa una versión en
soporte tradicional, será preciso acceder desde un navegador a la dirección
web correspondiente.
Asimismo, se necesitará el material CASPe de lectura para los diferentes
tipos de estudios; son las llamadas plantillas, que facilitarán la lectura crítica
del estudio correspondiente. Estas plantillas pueden bajarse libremente
desde el sitio web de CASPe (http://redcaspe.org/drupal/?q=node/29).
Con esos tres componentes el lector podrá hacer su propia lectura crítica,
sea de modo individual, sea en un grupo o en un club de lectura. Una vez
realizada esta, el lector puede consultar en el libro las notas de lectura crítica
xv
xvi TABLERO DE DIRECCIÓN
sobre el artículo elegido en cada capítulo. Estas notas han sido elaboradas
por los autores correspondientes, lo cual permitirá al lector comparar su
lectura con la de los autores.
Para este segundo uso como libro de trabajo, valen las reflexiones sobre
el orden de lectura comentadas para el primer libro. Es asimismo posible
elegir practicar sobre itinerarios específicos de lectura crítica: sobre trata-
mientos (capítulos 3, 4, 5 y 11), sobre diagnóstico (capítulos 3 y 6) o sobre
pronóstico (capítulos 3, 7 y 8).
Abierto este abanico de posibilidades, invitamos al lector a elegir el mejor
modo de usar este libro y, porque entendemos la lectura como un proceso
activo, sugerimos empezar a decidir desde este mismo instante.

Agradecimientos
Nuestro agradecimiento a Manuel Alós (jefe del Servicio de Farmacia

del Hospital Clínico de Valencia) por sus sugerencias sobre el capítulo 4.
Nuestro agradecimiento especial a Virginia Martínez, secretaria de
Coordinación de CASPe y auténtica coordinadora del libro. Su capacidad
organizativa nos ha permitido sobrevivir en medio del fuego cruzado de
archivos entre autores; sus habilidades de filóloga han sido de gran utilidad,
y el cariño con el que ha conducido todo el proceso es absolutamente
emocionante.
xvii
Colaboradores
Víctor Abraira
Unidad de Bioestadística Clínica, Hospital Universitario Ramón y Cajal. Madrid,
España.
Miembro de CASPe. Madrid, España.
Eukene Ansuategui Zengotitabengoa
Bibliotecaria-documentalista. Biblioteca, Hospital Universitario Donostia.
San Sebastián, España.
Coordinadora de BusCASPE. País Vasco, España.
Amanda Burls
Professor of Public Health. Health Services Research and Management Division,
School of Health Sciences, City University London. Londres, Reino Unido.
Servicio de Cardiología, Hospital General Universitario de Alicante. Alicante,
España.
Senior fellow. Centre for Evidence Based Medicine, Oxford University. Oxford,
Reino Unido.
Director de CASPe. España.
Alejandra Cano Arana
España.
Miembro de CASPe, Enfermería.
Fernando Carballo Álvarez
Profesor titular. Medicina Interna, Departamento de Medicina, Universidad
de Murcia. Murcia, España.
Jefe del Servicio de Aparato Digestivo. Hospital Clínico Universitario Virgen
de la Arrixaca. Murcia, España.
Coordinador de CASPe, Medicina Digestiva.
Rafael Carbonell Sanchís
Servicio de Otorrinolaringología, Hospital de Sagunto. Sagunto (Valencia), España.
Miembro de CASPe. Comunidad Valenciana, España.
José Ignacio Emparanza Knörr
Unidad de Epidemiología Clínica, Hospital Donostia. San Sebastián, España.
Senior fellow. Centre for Evidence Based Medicine, Oxford University. Oxford,
Reino Unido.
Coordinador de CASPe. País Vasco, España.
Teresa González Gil
Profesora ayudante doctor. Sección Departamental de Enfermería, Departamento
de Cirugía, Facultad de Medicina, Universidad Autónoma de Madrid. Madrid,
España.
xix
xx COLABORADORES
Jaime Latour Pérez

Jefe del Servicio de Medicina Intensiva, Hospital General Universitario de Elche.
Elche (Alicante), España.
Profesor asociado. Medicina Clínica, Universidad Miguel Hernández. Elche
(Alicante), España.
Miembro de CASPe. Comunidad Valenciana, España.
Eduardo López Briz
Profesor asociado asistencial. Farmacia y Tecnología Farmacéutica, Facultad
de Farmacia, Universidad de Valencia. Valencia, España.
Jefe de la Sección de Farmacia, Hospital Universitario La Fe. Valencia, España.
Coordinador de CASPe, Farmacia.
Antonio Jesús Martín Mateos
Servicio de Otorrinolaringología, Hospital Puerta del Mar. Cádiz, España.
Coordinador de e-CASPe.
María Luisa Montes Ramírez
Facultativo especialista. Medicina Interna, Unidad de VIH, Hospital Universitario
La Paz. Madrid, España.
Alfonso Muriel García
España.
Coordinador de CASPe. Madrid, España.
Miembro de CIBERESP. España.
José Ignacio Pijoan Zubizarreta
Unidad de Epidemiología Clínica, Hospital Universitario Cruces. Barakaldo
(Vizcaya), España.
Miembro de CASPe. País Vasco, España.
Ana Royuela Vicente
España.
Vicente Ruiz García
Facultativo especialista. Unidad de Hospitalización a Domicilio, Hospital
Universitario La Fe. Valencia, España.
Coordinación CASPe. España.
Marimar Úbeda Carrillo
Bibliotecaria-documentalista. Biblioteca, Hospital Universitario Donostia.
San Sebastián, España.
Coordinadora BusCASPE. País Vasco, España.
Iratxe Urreta Barallobre
Unidad de Epidemiología Clínica, Hospital Universitario Donostia. San Sebastián,
España.
Miembro de CASPe. País Vasco, España.
C A P Í T U L O
1
¿Por qué la lectura crítica?
Amanda Burls, José Ignacio Emparanza Knörr
y Juan Bautista Cabello López
Parece no haber ningún estudio tan fragmentado, / ninguna hipótesis
tan trivial, / ninguna lista de referencias tan sesgada o tan egoísta, / ningún di-
seño tan retorcido, / ninguna metodología tan mala, / ninguna presentación de
resultados tan imprecisa, oscura o contradictoria, / ningún análisis tan autocom-
placiente, / ningún argumento tan circular, / ninguna conclusión tan insignificante
o injustificada, / y ninguna gramática ni sintaxis tan ofensiva o molesta / que evite
que un artículo termine siendo publicado. Drummond Rennie (1)
UNA HISTORIA CLÍNICA
Los trabajos de John E. Wennberg, en la década de los ochenta, sacaron a

la luz importantes variaciones sistemáticas en la práctica clínica que no eran
explicables por las diferencias en las características de los pacientes, las ne-
cesidades, los valores y preferencias, o la disponibilidad de los recursos. La
conclusión, inevitable, era que se debían a que no todos los profesionales de
la salud estaban proporcionando los mejores cuidados a sus pacientes. En
algunos casos, simplemente no había evidencias concluyentes con las que
informar la práctica clínica pero, en muchos otros casos, inquietantemente,
la evidencia simplemente no era trasladada a la práctica. Este fracaso,
colectivo, en la obligación intelectual de identificar la mejor evidencia y en
el imperativo ético de asegurar que la práctica sea informada por la mejor
evidencia disponible está en el nacimiento del movimiento de los cuidados
de Cuidados de Salud Basados en la Evidencia (EBHC).
Uno de los problemas identificados era que las personas que tomaban
decisiones no eran capaces de interpretar la evidencia de las publicaciones
científicas. En tal sentido, en la Universidad de McMaster (Canadá), desde
principios de los ochenta se afanaban en la búsqueda de cauces para la
© 2015. Elsevier España, S.L.U. Reservados todos los derechos

2 LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA
aplicación de la evidencia a la práctica clínica y habían desarrollado un pro-

grama sistemático sobre cómo leer las publicaciones científicas. Por ello, un
grupo de Oxford fue hasta McMaster y a la vuelta, tomando la experiencia,
combinándola con tradiciones locales y con la ayuda de Larry Chalmers,
diseñaron el Critical Appraisal Skills Programme (CASP).
En paralelo, con el empuje de Muir Gray e Iain Chalmers, nacieron en
Oxford múltiples iniciativas para promover los cuidados basados en la
evidencia, entre las que cabe destacar el Centre for Evidence Based Medicine
(CEBM), dirigido por David Sackett, y la Cochrane Collaboration (quizás
la más exitosa de las iniciativas). Ambas actuaron como instituciones re-
ferentes para la implantación de la práctica basada en la evidencia a este
lado del Atlántico.
Entre tanto, en España, desde 1987 el Fondo de Investigación Sanitaria
del Instituto de Salud Carlos III afrontó la tarea de formar una cohorte de
epidemiólogos clínicos. Estos epidemiólogos clínicos empezaron a desarro-
llar su labor en la mayoría de los hospitales españoles; en ellos se crearon
las unidades de investigación clínica agrupadas en la Red Española de
Unidades de Investigación (REUNI). Uno de los epidemiólogos clínicos
(Juan Cabello) fue comisionado y financiado por el Carlos III para una es-
tancia en Oxford, con el fin de estudiar cómo se priorizaba la investigación
para su mejor uso clínico. En Oxford, Muir Gray encargó a Amanda Burls
(entonces directora del CASP) ser mentora de Juan Cabello, y así fue como
en 1996 se inició la colaboración.
Tras ese contacto surgió CASP España (CASPe) en 1997, que desde
entonces ha enseñado en más de 600 talleres en el sistema de salud español
y ha contribuido a la creación del CASP International, que ha vehiculado
la extensión de CASPe por múltiples países (México, Perú, Argentina,
Polonia, Hungría, etc.).
En paralelo, en 1997, Juan Cabello y Amanda Burls organizaron un
grupo en español en los cursos «How to teach Evidence Based Medicine»
de Oxford, que se han venido celebrando durante 15 años y en los que se
han formado más de una centena de colegas españoles e hispanoamerica-
nos. La mayoría de los autores de este libro participaron en esos talleres y
aprendieron a enseñar en Oxford.
En 2008, invitada por Paul Glasziou, Amanda Burls asumió el puesto de
directora del programa de posgrado en EBHC de la Universidad de Oxford,
al que añadió una dimensión internacional, impulsando la revitalización
del máster en EBHC, tarea en la que hasta 2013 participaron con entusias-
mo los autores de este capítulo. Visto en perspectiva, no hay duda de que
fue la auténtica época de oro del máster en cuanto a densidad relacional,
crecimiento académico e innovación educativa.
Había que mencionar todo esto, porque este libro es una obra colectiva
que recoge el saber de los autores pero, sobre todo, los matices, experiencias,
debates y reflexiones surgidas en las discusiones con los participantes en
1. ¿Por qué la lectura crítica? 3
los talleres CASPe, en los grupos hispanoparlantes de los cursos «How to

teach EBM» y en las sucesivas ediciones del máster de Oxford. A todos ellos
agradecemos su tiempo, su talento, su generosidad, su ardor en la discusión
y sus desvelos por la búsqueda de soluciones a los problemas de aplicar el
conocimiento a la clínica.
Como sabemos que este trayecto marca nuestra perspectiva de análisis,
y como queremos ser explícitos, hemos de declarar que vemos el conoci-
miento, tanto en su aplicación como en su generación y priorización, desde
una perspectiva clínica.
Pero, contado así, esto parecería una historia de viejos guerreros recor-
dando sus batallas. Por ello debemos preguntarnos si 20 años después aún
vale la pena hacer lectura crítica. Veamos.
¿HAY QUE LEER CRÍTICAMENTE EN EL SIGLO XXI?
Los clínicos somos tradicionalmente unos grandes productores y con-

sumidores de literatura. Se estima que existen actualmente más de 40.000
revistas médicas en circulación en el mundo. Los artículos publicados en
las revistas más prestigiosas se registran en bases de datos, siendo la más
empleada la base de datos Medline, de la US National Library of Medicine.
Cuenta actualmente con más de 20 millones de registros, que aumentan a
un ritmo de más de 700.000 artículos por año, a partir de las 5.653 revistas
que indexa (julio de 2014).
Además de las revistas biomédicas, los clínicos acuden con frecuencia
a los libros, que, si bien pueden no estar «a la última», pueden resolver
las dudas quizás de un modo parcial pero eficiente. Es el modo clásico, al
menos de las generaciones pasadas, en el que hemos aprendido: leyendo
en los libros. Sin embargo, es poco probable que sirvan para satisfacer la
necesidad de conocimiento más allá de lo básico. En efecto, los libros están
© Elsevier. Fotocopiar sin autorización es un delito.
poco actualizados y habitualmente no bajan al detalle de los estudios que

tratan de preguntas específicas.
Volvamos, pues, a las revistas. Las principales revistas reciben un vo-
lumen de artículos para ser publicados muy superior al espacio editorial
disponible, haciendo por ello que la selección sea una tarea inexcusable.
Para ello utilizan tanto el criterio del editor (pertinencia, originalidad y
novedad del estudio, etc.) como el criterio de otros médicos que evalúan
los artículos. Es lo que conocemos como el proceso de revisión por pares
o peer-review. Naturalmente, una pregunta inmediata que surge es: si ya
existe el proceso del peer-review, ¿por qué es necesario saber (y sobre todo
practicar) la lectura crítica?
Una primera razón, muy importante, es que los estudios (2) para evaluar
la bondad del sistema peer-review no han sido capaces de demostrar su
efecto en la mejora de la calidad de los artículos seleccionados.
En análogo sentido, la Unidad de Información e Investigación en Salud

(HIRU) del Departamento de Epidemiología Clínica de la Universidad de
McMaster publica varias revistas secundarias: ACP Journal Club, EBM Jour-
nal, EB Nursing y EB Mental Health. Su trabajo consiste en proporcionar al
clínico artículos importantes, de utilidad en su práctica diaria. Escrutan sis-
temáticamente 170 revistas, seleccionan artículos, los evalúan críticamente
y los resumen (sinopsis) y publican en las cuatro revistas citadas. En el año
2000, las 170 revistas escrutadas publicaron 60.352 artículos. El número total
de artículos que fueron ofrecidos tras el proceso sistemático descrito fue de
4.132, lo que supone que solo el 6,85% de los publicados aprobó. Conside-
rando solo las 20 revistas con mayor factor de impacto, aprobó el 7,3% de
los artículos. Ni que decir tiene que todas ellas cuentan con un proceso
de peer-review, que, sin embargo, no fue capaz de discriminar suficiente-
mente la calidad de los artículos (3). La situación ha llevado a Drummond
Rennie, editor de la revista JAMA, a declarar: «Si el peer-review fuera un
fármaco, nunca se hubiera autorizado su salida al mercado».
Parece obvio que no podemos fiarnos del nombre de la revista o del
proceso del peer-review para admitir como válidos y aplicables los resulta-
dos publicados. Necesitamos ser capaces de discernir qué artículo ofrece
una respuesta válida, con resultados importantes y aplicables a nuestra
necesidad de conocimiento.
A simple vista, parecería que el progreso en el mundo editorial de la
evidencia y su nueva estructura del conocimiento: con las mencionadas
revistas de resúmenes (sinopsis), mejores sistemas de evidencia pree-
valuada, guías de práctica clínica (GPC) cada vez mejor elaboradas, etc.,
podrían reducir la necesidad de la lectura crítica. Sin embargo, el horizonte
para el desarrollo completo de esos sistemas de ayuda aún está lejos y, en
todo caso, hay dos argumentos para seguir aprendiendo lectura crítica.
Uno es que la producción de esos sumarios, guías y sistemas de ayuda
precisa, justamente, la cooperación de clínicos con habilidades de lectura
crítica; quizás en el futuro colaborar en compartir el conocimiento sea tan
apreciado como otras actividades de la clínica. El otro es que la interpre-
tación con profundidad y hondura de las GPC no es posible sin, al menos,
un nivel medio de lectura crítica. Por tanto, parece que el desarrollo de los
sistemas de apoyo a la decisión basada en la evidencia, lejos de alejar la
necesidad de la lectura crítica, la hace aún más necesaria, tanto a nivel sis-
témico como para el desempeño clínico personal o grupal.
UNA PREOCUPACIÓN CRECIENTE
Pero hay algunas amenazas que inciden sobre este escenario, en efecto.
En 2004, Marcia Angell, ex editora del New England Journal of Medicine,
tras dejar el puesto, escribió el libro The truth about drug companies (4). En
1. ¿Por qué la lectura crítica? 5
él describía la disolución de los límites entre facultades de Medicina, hos-

pitales docentes y otras instituciones con la industria farmacéutica que
infiltraba todos los procesos, y que generaba conflictos de intereses cruzados
con repercusiones sobre la validez y la transparencia de la investigación.
Angell escribe: «Los condescendientes arguyen que esas transgresiones lega-
les de las farmacéuticas podrían estar justificadas porque su objetivo primario
es cuidar los intereses de sus inversores, simplemente es que han llegado dema-
siado lejos. Sin embargo, clínicos, facultades y organizaciones profesionales son
depositarias de la confianza de pacientes y ciudadanos, a quienes se deben».
En 2006, Richard Smith (editor de BMJ de 1979 a 2004, uno de los impul-
sores de las publicaciones open access, creador de la base de datos de case
reports y de la revista open-access Cases Journal) escribió otro libro esencial,
The trouble with medical journals (5). En él, relata en primera persona cómo
el sistema peer review no es realmente capaz de mejorar la calidad de lo
publicado y, asimismo, describe cómo los intereses industriales enajenan
la investigación y corrompen el sistema de autorías utilizando escritores
fantasmas (los llamados «negros» en el argot o ghost-writters) y reflexiona
con profundidad sobre la compleja relación de las revistas médicas con los
ciudadanos y los medios de comunicación.
En esa última dirección, Ben Goldacre, doctor y columnista de The
Guardian, publicó en 2009 el libro Bad Science (6), que recoge muchos de
los errores y creencias injustificadas sobre salud, y, más recientemente,
en 2013, publicó Bad Pharma (7), en el que insiste, en lenguaje ciudadano, en
los problemas que los intereses de la industria producen sobre la validez y
la transparencia de la investigación clínica o, como él escribe, «los efectos
secundarios de la industria farmacéutica».
Aún más recientemente, Peter Gotzsche (director del centro Cochrane
Nórdico, bien conocido por las controversias sobre el cribado con mamo-
grafía) escribió en 2013 Deadly medicines and organised crime (8). El libro
(prologado por Richard Smith y por Drummond Renie) incide con especial
dureza en los conflictos de la industria con los investigadores, la academia

y las revistas médicas, y es, realmente, un catálogo de errores y malas
conductas frecuentemente con resultados fatales en términos de salud.
Esta enumeración de casos es exponente de la creciente preocupación
de estas personas (probablemente las más influyentes en el mundo de
la edición médica de los últimos años) y refleja los conflictos de valores
implícitos en las diferentes formas de ver el conocimiento en salud. Todo
parece indicar que uno de los actores del escenario de la salud (la industria)
está en situación de clara dominancia respecto de los otros tres (sistemas de
salud, clínicos y pacientes-ciudadanos), e impone sus valores sin contem-
plación. Parece que el mundo editorial se incomoda, los clínicos dudan, los
ciudadanos desconfían. Hay, en suma, una crisis de confianza en todo este
mundo, que no parece capaz de dar con la tecla para garantizar la validez,
la difusión y el acceso al conocimiento en salud.
Para ese nuevo escenario, la lectura crítica constituye un elemento de

transformación intelectual para los clínicos, pero también para ciudadanos,
pacientes y gestores, porque, en esencia, propone una reconquista de la
libertad de pensamiento y una vía de emancipación a través del empo
deramiento individual, profesional y social.
Por ello, realmente la pregunta adecuada a nuestro tiempo no es si hay
aún que leer críticamente, sino, ¿realmente es posible en el siglo xxi leer de otro
modo? ¿Es prudente leer crédulamente la evidencia clínica?
Bibliografía
1. Rennie D. Editorial Peer Review in Biomedical Publication. The First International Con-
gress. JAMA. 1990;263(10):1317.
2. Jeferson T, Rudin M, Brodney S, Davidoff F. Editorial peer review for improving the quality
of reports of biomedical studies. Cochran Database Syst Rev. 2007;(2):MR000016.
3. McKibbon KA, Wilczynski NL, Haynes RB. What do evidence-based secondary journals
tell us about the publication of clinically important articles in primary healthcare journals?
BMC Medicine. 2004;2:33.
4. Angels M. The truth about drug companies. How They Deceive Us and What to Do About
It. New York: Random House; 2004.
5. Smith R. The trouble with medical journals. London: The Royal Society of Medicine Press
Ltd.; 2011.
6. Goldacre B. Bad science. London: Fourth State; 2009.
7. Goldacre B. Bad Pharma. London: Fourth State; 2012.
8. Gotzsche PC. Deadly medicines and organized crime. How the Big pharma has corrupted
healthcare. London: Radcliffe Publishing; 2013.
Cómo citar este capítulo:

Burls A, Emparanza JI, Cabello JB. ¿Por qué la lectura crítica? En: Cabello Juan B, editor. Lectura
crítica de la evidencia clínica. Barcelona: Elsevier; 2015. p. 1-6.
C A P Í T U L O
2
Lectura crítica para la práctica
clínica basada en la evidencia
y José Ignacio Emparanza Knörr
OBJETIVOS DEL CAPÍTULO

• Reflexionar sobre la lectura y sus peculiaridades en el contexto
de la investigación biomédica.
• Definir y caracterizar la «lectura crítica de la evidencia clínica».
• Tratar el aprendizaje de la lectura crítica y los diferentes instrumentos
para hacer lectura crítica.
• Reunir en una tabla las diferentes utilidades de las habilidades de lectura
crítica.
INTRODUCCIÓN
El modo de transmitir el saber fue objeto de discusión desde la anti-

güedad clásica. Sócrates defendía la transmisión oral y Platón también
defendía las ventajas de la oralidad, aunque nos informaba de ello por
escrito en Fedro. Para rizar el rizo, lo hacía usando un esquema literario
de diálogo que recuerda la agilidad del debate entre personas y tiene, por
ello, evidentes connotaciones orales. Sea como fuere, existe una larga tradi-
ción en la transmisión del saber por escrito y, desde luego, es la forma usual
en la transmisión del conocimiento científico y médico. En consecuencia,
si deseamos usar las evidencias científicas para el mejor cuidado de los
pacientes, hemos de acceder a ese conocimiento que se transmite a través
de la literatura médica.

También señalaba Platón que el texto no elige a su lector y debe ser

interpretado; esa interpretación de los textos (hermenéutica) era, hasta
hace poco, un saber reservado a los iniciados (escribas, sabios, sacerdotes,
etc.), en contraste, al menos aparente, con la situación actual. Lo cierto
es que, aunque tenga presunción de veracidad («lo escrito, escrito está»;
San Juan, XIX, 22), la clave siempre estuvo y está en la interpretación de
lo escrito y, puesto que la interpretación es cosa de humanos, el deba-
te sobre las interpretaciones es la esencia de la auténtica comprensión
de los textos.
De la interpretación de los textos que contienen la evidencia para la
práctica clínica trata esta obra en general, y este capítulo trata de fijar el
marco para leer el resto del libro.
LA LECTURA Y SUS ESPECIFICIDADES

EN EL CONTEXTO DE LA LITERATURA BIOMÉDICA
La lectura es un proceso de gran complejidad cognitiva (1), y existen

muchas maneras de leer tanto en la vida común como en la actividad clínica
(mecánica, literal, comprensiva, etc.). Por otra parte, hay diversos modos de
enfocar conceptualmente la lectura (aproximaciones lingüística, cognitiva
o social, etc.). En cualquiera de esos enfoques teóricos es posible reconocer
varias dimensiones (2) en el proceso lector. Revisaremos esas dimensiones
de la lectura y reflexionaremos sobre sus equivalentes en la lectura de do-
cumentos de la literatura científico-médica y, en especial, en algunas de
las convenciones que configuran el marco social en el que se produce el
fenómeno lector. Tales dimensiones son las que se indican a continuación.
DIMENSIÓN TEXTUAL SIMPLE

Se refiere a la interpretación de lo escrito (directamente o tras la pronun-
ciación). Se trata de procesar el sentido primario del texto a partir de las
palabras contenidas y también de otros elementos, como la puntuación,
título, anotaciones, etc. En esta dimensión, para la literatura biomédica
valen las convenciones de escritura generales del idioma que se trate.
DIMENSIÓN RELACIONAL (INTRA- E INTERTEXTUAL)

Esta dimensión comprende las relaciones sintácticas o semánticas que
existen dentro del texto. Por ejemplo, las relaciones sintácticas del interior
del texto serían las frases, párrafos, pronombres, paréntesis, etc. En cuanto a
las relaciones semánticas, cabe destacar el reconocimiento de estructuras y
estrategias que hacen explícita la relación del texto y las informaciones que
lo acompañan (tablas, figuras, referencias, hipertextos, links, etc.). Es decir,
el lector reconoce las partes de un texto, y reconoce su parecido con otros
textos en el modo de estructurar los significados.
2. Lectura crítica para la práctica clínica basada en la evidencia 9
En las revistas médicas, el equivalente lector sería la identificación de

las diferentes estructuras según tipos de artículos (editoriales, cartas, ori-
ginales). Destaca, por su coherencia organizativa y semántica, el modelo
tradicional del artículo original: IMRAD (Introducción, Material y Méto-
dos, Resultados y Discusión). Otros aspectos de esta dimensión serían el
reconocimiento de las tablas, las figuras, la correspondencia de citas, los
vídeos u otros contenidos multimedia, los hipertextos o los enlaces a webs
que contienen datos o tablas especiales.
Todos estos aspectos están estandarizados y fueron objeto de la con-
vención de editores de revistas médicas (Vancouver, 1978) (3), que elaboró
las normas para la uniformidad de los documentos biomédicos, y que se
actualizan periódicamente. Tales normas, aunque generadas para la es-
critura, son conocidas e implícitamente asumidas por el lector en el proceso
de lectura (condicionan al texto y al lector).
DIMENSIÓN ENUNCIATIVA
En ella se profundiza en la actitud del que escribe y se intuye lo que
desea lograr del lector a partir de la forma en que se usa el lenguaje para
contar hechos, datos, ideas, emociones o creencias, y especialmente a partir
del énfasis de sus juicios sobre certidumbre, importancia, confianza, etc.
Esta dimensión es claramente diferente en los documentos biomédicos
respecto de los de otros ámbitos (literario, periodístico, etc.). En el ámbito
médico se prefiere un estilo neutro de escritura, que será expositivo o re-
flexivo (dependiendo de las secciones) y que trata de transmitir ideas, hechos
o interpretaciones, y raramente énfasis. Además de ese equilibrio expositivo,
se ofrecen indicaciones de estilo, como el uso de algunas convenciones para
tiempos verbales (futuro para los protocolos, pasado para las revisiones y
la preferencia por la forma activa frente a la pasiva) y otras sugerencias de
estilo que se mencionan en sucesivas versiones de Vancouver, aunque hay
publicaciones y organizaciones —p. ej., BMJ (4) o Cochrane Collaboration (5)—
que tienen sus propios manuales de estilo literario para sus autores e incluso
repositorios de frases preconstruidas (Manchester Academic Phrasebank;
http://www.phrasebank.manchester.ac.uk/).
DIMENSIÓN VALORATIVA
Trasciende lo estrictamente escrito en las líneas y trata de identificar lo
que hay entre líneas, es decir, los elementos intelectuales que subyacen
en el texto. En esta dimensión se hace uso de los recursos señalados de
las anteriores dimensiones, y se incorporan otros recursos propios que
permiten al lector adentrarse en una visión crítica del texto.
En definitiva, un texto ofrece siempre un punto de encuentro para una
negociación comunicativa con el lector (6). Pero esa negociación no siempre se
produce: un lector podría comprender el contenido del texto y su significado
sin reconocer la dimensión valorativa que hay detrás, es decir, sin juzgar el
texto. En efecto, esa negociación implica una actitud lectora especial (crítica)
y la existencia de conocimiento previo, es decir, siempre nos aproximamos
a un texto con nuestras propias preconcepciones; a esas preconcepciones
o prejuicios de los lectores de la literatura médica dedicaremos parte del
próximo apartado; digamos, por ahora, que son determinantes del resultado
de la valoración y, por tanto, elemento esencial de la lectura crítica.
DIMENSIÓN SOCIAL Y CULTURAL

En la dimensión valorativa se reconoce que en la profundidad del texto
hay un conjunto de valores (intelectuales, científicos, éticos y estéticos) que
se muestran implícita o explícitamente y que interactúan con los del lector.
Pero esos valores, que forman parte del bagaje con el que el lector afronta
el texto, no son un producto estrictamente individual, sino que reflejan
contextos y visiones sociales que afectan al lector y también al resto de los
actores: autor del texto, editor y colectividad.
Producto de esos valores son una serie de convenciones y acuerdos para
escritura que cambian según lo hacen aquellos y que constituyen elementos
de regulación de un fenómeno que tiene una evidente dimensión social y
que deben ser incorporados por el lector.
En ambos sentidos, se han desarrollado múltiples convenciones que,
generadas inicialmente por grupos de científicos y clínicos, se han ido
gradualmente incorporando por los editores a las sucesivas versiones del
International Committee of Medical Journal Editors (ICJME), unas como
requisitos, otras como sugerencias, y otras como reglas para la solución de
conflictos. De ellas procede destacar:
• Relacionadas con autor-editor-comunidad (criterios de autoría,
responsabilidades de autoría, mala conducta científica, retractación,
réplica, superposición y duplicidad de publicaciones, plagio, etc.).
• Cuestiones de relación del editor con la colectividad (relaciones
con los medios de comunicación, con la industria, anuncios y
publicidad, etc.).
• Aspectos bioéticos, como la protección de los sujetos participantes
en la investigación en animales o en seres humanos. Este último,
obviamente, afecta de manera específica a la investigación clínica
(sea observacional o experimental) que, a partir de aquí, llamaremos
evidencia para la clínica.
• Aspectos de importancia metodológica, que están orientados
a mejorar la escritura de los estudios, a facilitar su lectura
y la valoración crítica de su validez, o a propiciar su aplicación
a la práctica clínica o a la investigación de síntesis. En tal sentido,
cabe destacar, por una parte, las guías para la escritura de estudios
que se muestran en el cuadro 2-1, que han sido recogidas en la
iniciativa Enhanced the QUAlity and Transparency Of health
CUADRO 2-1
G U Í A S PA R A L A E S C R I T U R A
DE ESTUDIOS CLÍNICOS*
• ECA: CONSORT
• Variantes para los diferentes tipos de diseños de ECA:
CONSORT-EXTENSIONS
• RS y metaanálisis: PRISMA
• Estudios observacionales: STROBE
• RS de estudios observacionales: MOOSE
• Estudios de exactitud de las pruebas diagnósticas: STARD
• Estudios de mejora de la calidad: SQUIRE
• Descripción de casos: CARE
• Descripción de los apartados de estadística: SAMPL
• Descripción de protocolos de ECA: SPIRIT
• Estudios cualitativos: COREQ
• RS cualitativas: ENTREQ
*Recopilados en EQUATOR (http://www.equator-network.org/).

ECA, ensayo clínico aleatorio; RS, revisión sistemática.
CUADRO 2-2
R E G I S T R O S D E E N S AY O S C L Í N I C O S
A L E AT O R I O S
• WHO International Clinical Trials Registry Platform Search Portal:
http://apps.who.int/trialsearch/
• EU Clinical Trials Register: https://www.clinicaltrialsregister.eu
• CCT Current Controlled Trials: http://www.controlled-trials.com/

• ClinicalTrials.gov: http://clinicaltrials.gov/
Research (EQUATOR; www.equator-network.org) y que son

elementos esenciales para poder realizar una buena lectura crítica; y,
por otra, los registros previos de ensayos clínicos (EC) (cuadro 2-2),
cuya importancia bioética es notoria y cuya utilidad para el control
del sesgo de publicación se comentará más adelante, o el registro
prospectivo de revisiones sistemáticas (RS) PROSPERO
(http://www.crd.york.ac.uk/PROSPERO/), también de gran interés
metodológico y para la gestión de la agenda de investigación.
LECTURA CRÍTICA EN EL CONTEXTO CLÍNICO

(LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA)
Las convenciones mencionadas configuran un marco de valores que

brinda el contexto en que se produce la lectura de estudios de evidencia
clínica. Sin embargo, en la lectura crítica la parte esencial es el lector, que
es quien entabla diálogo con el texto, comprende sus significados sim-
ples, descubre significados no explícitos, desafía al texto con hipótesis,
razonamientos y saberes que él ya poseía, relee y repiensa los textos, y
realiza juicios de valor sobre diversos aspectos, que, en el caso de la lectura
crítica de la evidencia clínica, serán sobre calidad metodológica (validez),
pertinencia clínica o aplicabilidad.
Por tanto, las características definitorias de la lectura crítica son:
• Es un tipo complejo de lectura, que exige los niveles más altos
de comprensión lectora.
• Requiere superar los planos previos de comprensión literal
o de inferencias sencillas (dimensiones 1.ª-3.ª) para adentrarse
en la realización de juicios de valor (dimensión 4.ª).
• Precisa una actitud específica del lector frente al texto.
• Necesita algunos saberes previos del lector, preconcepciones
o prejuicios, y un contexto de valores (dimensión 5.ª).
En la lectura crítica de la evidencia clínica asumimos, por obvia, la existencia
de las dos primeras características. Asumida también la actitud crítica del lector
y comentado previamente el marco o contexto de lectura clínica, veamos ahora
cuáles son las preconcepciones de los lectores clínicos al afrontar un texto.
Es posible diferenciar, al menos, cinco tipos de preconcepciones o pre-
juicios (en sentido literal):
1. El primero son algunas visiones culturales. Por tales entendemos
valores relacionados con la salud y que son aceptados sin discusión
por las comunidades; por ejemplo, la bondad de una sopita de pollo,
o las sopitas con vino, o beber un dedito de whisky, que, en Escocia,
todo el mundo sabe que es estupendo para la salud.
2. El segundo tipo de prejuicios son las leyendas y tradiciones clínicas,
por ejemplo, maniobras en la reanimación muy consolidadas
sobre las que no hay evidencias, pero que se practican y se
recomiendan (p. ej., el golpe en el pecho en el inicio de la reanimación
cardiopulmonar, recientemente retirado de las GPC).
3. Un tipo especial de prejuicios son los vinculados a mecanismos
y esquemas de funcionamiento (homeostasis, poscarga, feedback, etc.),
que tienen gran fuerza explicativa, tienen la ventaja de que hacen
comprensible los mecanismos fisiológicos o fisiopatológicos de un modo
próximo al sentido común y, por ello, son fácilmente internalizables.
4. El cuarto tipo es el conocimiento establecido, que incluye cosas no

probadas, aunque tradicionalmente asumidas como si fueran ciertas,
y que por inercia se mantienen en la mente y en la práctica (p. ej., la
administración de oxígeno en el infarto agudo de miocardio, que hasta
hace pocos años era sugerida en todas las guías). Incluye este grupo,
también, el conocimiento clínico probado, o lo que podríamos llamar
cuerpo de evidencias consolidadas, que antes considerábamos
inmutable y ahora sabemos que tiene caducidad, y que obviamente
es un saber que el lector clínico formado ya posee antes de comenzar
la lectura.
5. Un quinto tipo son las «preconcepciones» metodológicas o epistemológicas
sobre la calidad de los estudios usados en la construcción de evidencias
clínicas. Ejemplos de estas preconcepciones son la fascinación común por
los ensayos clínicos aleatorios (ECA) como diseño óptimo de estudio, sin
considerar el tipo de pregunta que debe responderse o sin percatarse de
la limitada capacidad probatoria de un solo estudio, o las impresionantes
coreografías usadas para hacer ciegos, doble ciegos, triple ciegos, n ciegos,
doble enmascaramiento, etc., sin reflexionar sobre el tipo de desenlace que
estamos estimando.
De todas estas preconcepciones, el primer tipo tiene carácter general y los
tres siguientes tipos están relacionados con la formación básica y/o el en-
trenamiento profesional del clínico, y forman parte de su bagaje (naturalmente
con profundidad variable). Respecto de los conocimientos sobre la calidad
metodológica, es obvia la necesidad de disponer de elementos de juicio sobre
la calidad del diseño correspondiente para poder evaluar lo leído (7). Este
es, sin duda, un punto crítico en el aprendizaje de la lectura crítica, tenido en
cuenta en la mayoría de las estrategias docentes (8). Por ello, en los capítulos
de este libro dedicados a la lectura de diseños específicos, se ofrece una breve
introducción sobre aquellos conceptos claves que definen la validez del diseño
correspondiente y que se concretan en los instrumentos de lectura crítica.
Pero leer críticamente es, en realidad, una habilidad intelectual (como

tomar decisiones bajo incertidumbre o hacer cálculos complejos) y, al igual
que todas las habilidades, se desarrolla mediante la práctica y la reitera-
ción, no bastan los saberes teóricos o metodológicos (9). Para reflexionar
sobre el desarrollo de esa habilidad, esencial para el currículo clínico (7),
dedicaremos los siguientes apartados.
APRENDIENDO A LEER CRÍTICAMENTE
Como señalábamos, una parte crucial de la enseñanza de la lectura

crítica consiste en despertar y estimular la reflexión sobre esos citados
conceptos metodológicos en aquellos lectores con actitud crítica (dispuestos
a interactuar con el texto). Es decir, una vez configurada la visión de esas

claves metodológicas, hay que afrontar la interacción con el texto.
Pero esta interacción es difícil, porque hay que priorizar entre los múlti-
ples abordajes posibles y los diversos aspectos que hay que atender. Por
ello, es útil una cierta organización del proceso en el sentido de: 1) diseñar
una estrategia eficiente de lectura; 2) disponer de instrumentos de ayuda,
y 3) confrontar interpretaciones mediante discusión.
ESTRATEGIA DE LECTURA
Las piezas elementales de evidencia (los estudios) muestran un tradi-
cional esquema IMRAD, donde la introducción define el marco de lo ya
conocido; el material y los métodos muestran los detalles necesarios para
su comprensión, reproducción o posterior aplicación de la investigación;
los resultados son la información nuclear del estudio, y la discusión ofrece
explicaciones para los hallazgos, define de nuevo el marco de conocimiento
y propone nuevas hipótesis.
En realidad, la información nueva (y sustancial) está contenida en los
resultados, pero la validez de ellos dependerá del material y los métodos.
Por ello, tradicionalmente, la lectura crítica se centra primeramente en la
validez (y, por tanto, en el material y los métodos), a continuación en los
resultados y, posteriormente, en la aplicabilidad, ya sea a pacientes, a
grupos, o a la investigación de síntesis.
Sin embargo, la validez depende de las preguntas en un doble sentido:
la pregunta formulada condiciona la selección del diseño de investigación
adecuado y, sobre todo, la pregunta incorpora los diferentes desenlaces de
investigación; ello nos permite valorar si los desenlaces son importantes
para la decisión clínica o para la investigación en curso. Abordaremos esto
con detalle en el capítulo 3; por ahora, señalemos que:
• La primera reflexión de cualquier lectura crítica será sobre
la pregunta de investigación y, lógicamente, el primer punto
de los instrumentos de lectura.
• La pregunta generalmente ocupa el título y/o el último párrafo de
la introducción, que, como señalábamos, se dedica a justificar el marco
de conocimiento que da sentido a esa pregunta.
• La identificación de la pregunta y de sus diferentes desenlaces
nos permitirá saber si este estudio contiene realmente la evidencia
que necesitamos para nuestra clínica o para nuestra investigación
de síntesis.
• Los siguientes elementos de validez, resultados y, en su caso,
aplicabilidad se incorporan por ese orden en los instrumentos
de lectura (que describimos en el siguiente apartado). Por tanto,
la secuencia lógica de lectura será: Pregunta – Validez – Resultados –
Aplicación.
• En el contexto de aplicación clínica, si los resultados son poco

importantes para tomar decisiones, y también si la pregunta está lejos
de tus decisiones clínicas, debes plantearte si te compensa seguir
con la lectura crítica. Si estás haciendo investigación de síntesis,
simplemente sigue el protocolo del estudio.
INSTRUMENTOS PARA LA LECTURA CRÍTICA

Se trata de instrumentos diseñados para ayudar a realizar una «valo-
ración crítica» de los estudios de evidencia clínica, es decir, para enjuiciar
su «calidad metodológica», su pertinencia clínica y, en ocasiones, inclu-
yen valoraciones sobre aplicabilidad. En realidad, su función es ayudar a
ordenar la interacción con el texto y su uso puede incluirse en un marco
de investigación-desarrollo (RS o de las GPC) o en un marco práctico de
aplicación de la evidencia (cuadro 2-3). De manera general, pueden adoptar
CUADRO 2-3
UTILIDAD DE LA LECTURA CRÍTICA

Saber hacer lectura crítica te permitirá:
• Tomar decisiones basadas en la evidencia en tu práctica cotidiana.

Para ello te será preciso formular la pregunta clave del escenario
clínico, buscar «eficientemente» la evidencia, leerla críticamente y, si
es buena, aplicarla. A veces encontrarás la evidencia preevaluada
(v. capítulo 10), ¡estupendo!, pero otras veces no lo estará y tendrás
que decidir con el estudio, tu habilidad para leerlo y tus otras
habilidades de buen clínico
• Organizar sesiones basadas en la evidencia, sesiones
bibliográficas o participar en clubes de lectura (recuerda que leer
era históricamente un acto social, se leía en alto y se comentaba).

Piensa siempre que el aprendizaje solo «madura» con la deliberación
y la discusión de visiones diversas
• Plantear y diseñar un estudio. Si ya tienes tu pregunta
de investigación, será preciso que leas críticamente los estudios
previos que hayas encontrado sobre el tema, para saber si:
• La evidencia existente es adecuada. En ese caso, si la evidencia
es suficientemente buena, deberás considerar si es realmente
razonable seguir con tu estudio
• Existen aspectos mejorables en la evidencia actual. Es el caso
más común, porque, en general, un tema difícilmente se agota
y siempre hay algún matiz de interés
(Continúa)
CUADRO 2-3 (cont.)
• No existe evidencia adecuada sobre el asunto, en cuyo caso lo

que procede es que te remangues y te pongas a la tarea de diseñar
tu propio estudio primario
• Sintetizar la evidencia (RS). Enlazando con el punto anterior, puede
que, en vez de diseñar un estudio «primario», sea más interesante
sintetizar el cuerpo de evidencia y hacer una RS; en ese caso,
recuerda que para diseñar y conducir una RS necesitarás un muy
buen nivel de lectura crítica
• Hacer resúmenes (sinopsis), tanto de estudios primarios
como de RS:
• Puede que lo que desees sea contribuir a ayudar a otros colegas
a leer críticamente la evidencia (ellos podrán verla en publicaciones
de resúmenes o revistas secundarias)
• Puede que simplemente desees compartir tu esfuerzo de lectura
crítica, ese que realizaste para tomar algunas decisiones en tu
práctica y elaborar un critically appraised topic (CAT) que puedes
compartir en internet. Para ambas cosas, disponer de habilidades
de lectura crítica te será de gran utilidad
• Contribuir a la realización de sumarios de evidencia, guías
de práctica clínica, etc. Si lo que deseas es participar en alguna
de esas estrategias, en el caso de los sumarios de evidencia, para
seleccionar, leer críticamente, resumir y catalogar las evidencias
desde perspectivas clínicas para propiciar su utilización, sin duda
esta es una habilidad que necesitarás
RS, revisión sistemática.
tres formas básicas: listados de revisión (check-list), puntuaciones (scores)

o guías de lectura.
Un asunto crucial es definir qué entendemos por calidad metodológica,
por pertinencia clínica y por aplicabilidad. Por «calidad metodológica»
entendemos en qué medida el diseño, la conducción y el análisis minimizan
los sesgos de selección, medición y confusión, es decir, en qué medida son
válidos (entendido como validez interna). Por pertinencia clínica enten-
demos que se trate de preguntas y desenlaces de investigación útiles para
la decisión clínica (v. capítulo 3). Por aplicabilidad entendemos la trans-
feribilidad del resultado a un paciente concreto (o grupo de pacientes) y
también qué otros elementos hay que considerar en la aplicación de esa
evidencia (otros efectos, molestias, costes, etc.).
Los instrumentos de lectura pueden clasificarse en «generales» y «diseño-

específicos» (10). Los primeros se orientan a la lectura de cualquier tipo
de diseño o estudio, e incluyen ítems suficientemente versátiles para ese
propósito, que, en ocasiones, son de validez y en otras de calidad en general.
Por ejemplo, pueden incluir preguntas sobre los requisitos formales de
eticidad del estudio o sobre la calidad de la escritura de la investigación, que
son, sin duda, aspectos importantes para la calidad concebida en un sentido
global (distinto del que hemos propuesto), pero no lo son tanto para evaluar
la validez. Los segundos, o «diseño-específicos», se orientan a la validez del
estudio y asumen que los elementos clave de la validez son distintos para
cada tipo de diseño de estudio. Es decir, los ítems que hay que responder
serán distintos si estamos ante un ECA, ante un estudio de cohortes, ante
un estudio de exactitud diagnóstica, etc.
Los instrumentos generales se dirigen a aspectos troncales de los estudios
y tienen la peculiaridad de que permiten comparar diseños diferentes. Por
ello, pueden ser de utilidad para propósitos generales; por ejemplo, para la
evaluación de proyectos para financiación, para algunas RS especiales que
precisan combinar diferentes tipos de estudios, o para su uso en grupos de
pacientes o ciudadanos. Sin embargo, para la investigación y la práctica
basada en la evidencia, el interés se centra en la validez de los resultados,
como paso previo a decidir sobre su aplicabilidad. Por ello, para la lectura
de la evidencia clínica, nos referiremos exclusivamente a instrumentos
diseño-específicos.
Una reciente RS (11), que incluye los instrumentos publicados en revistas
peer reviewed (excluyendo los estudios de exactitud diagnóstica), encuentra
que el 57% de ellos son generales o multipropósito, el 25% se orientan
a diseños experimentales y el 18% se dedican a otros diseños. Asimismo,
señala algunas dificultades observadas en la construcción y evaluación
formal de los instrumentos: selección de ítems, consistencia interna y
externa, validez en sus diferentes formas, contenido, constructo, etc. No
profundizaremos aquí en este asunto, pero sí mencionaremos algunos

aspectos importantes.
En primer lugar, el modo de seleccionar los ítems que se van a incluir en
un instrumento es frecuentemente objeto de discusión y controversia, y de
manera particular si debe usarse un método formal de generación de ítems
(al estilo psicométrico) o usar criterios racionales o intuitivos (al modo de
los índices clinimétricos). Ciertamente, hay características metodológicas
cuyo impacto sobre la validez es bien conocido, porque disponemos de
evidencias empíricas al respecto y, por tanto, deben ser incorporadas (p. ej.,
la ausencia de ocultación de la secuencia de aleatorización o el cegamiento
en un ECA). Hay otras características metodológicas sobre cuyo impacto
aún no tenemos evidencias sólidas, pero la racionalidad indica que así es, y
probablemente también deban incluirse. En cualquier caso, este es un apar-
tado en continuo movimiento por los progresos en el diseño, conducción,
análisis y comunicación de la evidencia clínica, y hay que tener siempre

presente que la validez de un instrumento es siempre contextual (del
conocimiento existente y de la función del instrumento).
En segundo lugar, durante un tiempo pareció interesante el desarrollo
de scores o puntuaciones que expresaran numéricamente la validez del
estudio; así adquirieron relevancia algunas escalas, como la de Jadad para
ECA (12) o la Newcastle-Otawa Scale (NOS) (13) para estudios de cohortes
o estudios de casos y controles, en parte por influencias psicométricas y
en parte por el atractivo que tenía poder incorporar la validez del estudio
expresada en un número, como elemento de ponderación de ese estudio,
a la hora de calcular un estimador global en el contexto de estudios de
síntesis (metaanálisis).
Sin embargo, estudios y reflexiones posteriores (14) mostraron que lo
realmente importante no son solo los dominios de valoración metodológica,
reflejados en los ítems, sino su relación con los desenlaces concretos, es
decir, el impacto de un dominio concreto sobre un desenlace determinado.
Por ejemplo, la importancia del cegamiento del paciente en un ECA será
menor si el desenlace es mortalidad que si el desenlace es la valoración
subjetiva de síntomas. En consecuencia, la calidad no puede predicarse
exclusivamente del diseño sin considerar los desenlaces específicos. Por
ello, actualmente los scores son formalmente desaconsejados y se proponen
reflexiones duales: juicios sobre cada uno de los dominios metodológica-
mente importantes y juicios sobre sus consecuencias o el riesgo de sesgo que
pueden producir en estimación del efecto para cada desenlace (trataremos
esto en los capítulos 4, 5 y 11).
Es de destacar la ausencia, en la citada revisión, de la mayoría de los
instrumentos usados para la enseñanza de las habilidades de lectura crítica,
como los CASPe, GATE, PICO-RAMbo y otros muchos accesibles en la
mayoría de las webs docentes de medicina basada en la evidencia. Sin
duda, ello se debe a los restrictivos criterios de inclusión, pero también a
que estos instrumentos constituyen un subgrupo especial en dos sentidos.
Por una parte, la finalidad de estos instrumentos es esencialmente docente
y en el contexto de práctica basada en la evidencia, mientras que los primeros
son instrumentos de investigación-desarrollo, y su contexto, el de realización
de RS o evaluación de cuerpo de evidencia para el caso de las GPC. Esta
diferente finalidad debe ser considerada a efectos de validez formal de los
instrumentos.
Por otra parte, los instrumentos docentes incluyen la validez, los resulta-
dos (estimadores y pertinencia) y también un grupo de ítems sobre la apli-
cabilidad de los resultados, aunque es obvio que unas breves preguntas en
modo alguno pueden representar todo el universo de factores que influyen
en una decisión clínica real. Aprender a decidir es un asunto más amplio
que la lectura clínica o que la valoración de la calidad de la evidencia, y
precisa otras habilidades adicionales.
En nuestro caso, y durante todos los ejercicios del libro, usaremos los
instrumentos CASPe, que describimos sucintamente y que pueden des-
cargarse de http://redcaspe.org/drupal/?q=node/29.
Se trata de un instrumento (diseño-específicos) organizado en tres sec-
ciones sucesivas (validez, resultados y aplicabilidad), diseñado para ser
usado asociado a un escenario de decisión (real o docente) y que requiere
una sesión de formación metodológica previa. El formato del instrumento
es de listado de preguntas (10 u 11 preguntas), cada una de ellas con tres
posibles respuestas (Sí, No se puede saber y No). En realidad, lo relevante
es que incluye una pequeña guía de uso en forma de pistas para abordar
cada una de las preguntas y conducir el debate grupal.
CONFRONTANDO INTERPRETACIONES, DELIBERANDO

Al comienzo del capítulo señalábamos la elección por Platón del «diá-
logo» como vehículo de confrontación de interpretaciones y, en efecto, la
discusión sobre las posibles interpretaciones de la lectura es absolutamente
esencial tanto en procedimientos de investigación de síntesis como en la
aplicación a la práctica, y aún más en el aprendizaje de la lectura crítica.
Desde el punto de vista de la investigación, el proceso la lectura puede
verse como un modelo en el que el texto (input) es leído con instrumentos
adecuados y de forma explícita y preestablecida (procedimiento), e inter-
pretado por el lector (user) de acuerdo con sus conocimientos y posiciones
previas. El texto es obviamente idéntico, pero incluso con criterios de
lectura preestablecidos para cualquier eventualidad es posible observar
variabilidad atribuible al lector; esa variabilidad debe ser reducida me-
diante discusión, eventual acuerdo, cambios en el procedimiento o con
un nuevo observador. Por ello se usan varios lectores-investigadores en la
investigación de síntesis.
En cuanto al aprendizaje, la discusión y el debate son particularmente
importantes, porque el auténtico aprendizaje no es solo un fenómeno
individual, sino que es también, en su esencia, un fenómeno social, en

la medida en que el proceso cognitivo se conforma y consolida mediante la
deliberación y discusión abierta. Por ello, compartir las interpretaciones
es crucial tanto para el desarrollo de la habilidad de lectura crítica (en
el seno de diversas estrategias docentes) como para el mantenimiento en el
tiempo de esa pericia en clubes de lectura o acciones similares.
Bibliografía
1. Rayner K, Reichle ED. Models of the Reading Process. Wiley Interdiscip Rev Cogn Sci.
2010;1(6):787-799.
2. Lectura crítica en 2013 [visitado el 01/10/2014]. Disponible en: http://www.icfes.gov.
co/index.php?option=com_content&view=article&id=63&Itemid=210&q=lectura%20
critica.
3. International committee of Medical Journal Editors (ICMJE). Recommendations for the

Conduct, Reporting, Editing, and Publication of Scholarly Work in Medical Journals
[actualizado en diciembre de 2013; visitado el 10/09/2014]. Disponible en: http://www.
icmje.org/recommendations/.
4. BMJ. House style [visitado el 01/10/2014]. Disponible en: http://www.bmj.com/about-
bmj/resources-authors/house-style.
5. Cochrane Style Guide. 4.1 edition [visitado el 10/09/2014]. Disponible en: http://www.
cochrane.org/training/cochrane-style-resource/cochrane-style-guide.
6. Gadamer HG. Truth and Method. 2nd rev. ed. Kansas City, MO: Sheed & Ward Ltd.; 2004.
7. Cabello JB, Emparanza JI, Burls AJ. Una educación para la clínica del siglo XXI: el currículo
para la práctica basada en la evidencia. Med Clin (Barc). 2013;141(5):221-226.
8. Horsley T, Hyde C, Santesso N, Parkes J, Milne R, Stewart R. Teaching critical appraisal
skills in healthcare settings. Cochrane Database Syst Rev. 2011;(11):CD001270.
9. Norman G, Eva K, Brooks L, Hamstra S. Expertise in medicine and surgery. En: Ericsson
KA, Charness N, Feltovich PJ, Hoffman RR, editors. The Cambridge handbook of expertise
and expert performance, 2006. New York: Cambridge University Press; 2006. p. 339-354.
10. Katrak P, Bialocerkowski AE, Massy-Westropp M, Kumar S, Grimmer GA. A systematic
review of the content of critical appraisal tools. BMC Med Res Methodol. 2004;4:22.
11. Crowe M, Sheppard L. A review of critical appraisal tools show they lack rigor: Alternative
tool structure is proposed. J Clin Epidemiol. 2011;64(1):79-89.
12. Jadad AR, Moore RA, Carroll D, Jenkinson C, Reynolds DJM, Gavaghan DJ, et al. Asses-
sing the quality of reports of randomized clinical trials: is blinding necessary? Control Clin
Trials. 1996;17(1):1-12.
13. Wells GA, Shea B, O’Connell D, Peterson J, Welch V, Losos M, et al. The Newcastle-Ottawa
Scale (NOS) for assessing the quality if nonrandomized studies in meta-analyses. Dis-
ponible en: http://www.ohri.ca/programs/clinical_epidemiology/oxford.asp.
14. Higgins JPT, Altman DG, Sterne JAC on behalf of the Cochrane Statistical Methods Group
and the Cochrane Bias Methods Group. Chapter 8: Assessing risk of bias in included
studies. En: Higgins JPT, Green S, editors. Cochrane Handbook for Systematic Reviews
of Interventions. Version 5.1.0 [updated March 2011]. The Cochrane Collaboration; 2009.
Disponible en: www.cochrane-handbook.org.

Cabello JB, Emparanza JI. Lectura crítica para la práctica clínica basada en la evidencia. En: Ca-
bello Juan B, editor. Lectura crítica de la evidencia clínica. Barcelona: Elsevier; 2015. p. 7-20.
C A P Í T U L O
3
Formulando preguntas
para la práctica clínica
y José Ignacio Emparanza Knörr

• Definir y reflexionar sobre «preguntas clínicas».
• Clasificar los diferentes tipos de preguntas clínicas y su correspondencia
con los tipos de estudios adecuados para responderlas.
• Profundizar en la sintaxis de las preguntas clínicas.
• Tratar los criterios de valoración de la importancia de las preguntas
en función de los desenlaces.
• Practicar con ejercicios la formulación de esas preguntas sobre escenarios
clínicos.
INTRODUCCIÓN
La formulación de preguntas clínicas es el paso inicial en el esquema

clásico de «cinco pasos para práctica basada en la evidencia» (1) (formu-
lación de preguntas, búsqueda, lectura crítica, aplicación y evaluación
de la práctica) y, por ello, es considerado un pilar básico del currículo
clínico (2).
Dada la actual naturaleza del conocimiento clínico, sujeto a permanente
cambio y renovación, la identificación de las lagunas de conocimiento
emerge como un punto clave para mantener una práctica clínica basada
en evidencias y también para identificar las necesidades del conocimiento
clínico que debería ser investigado.

Desde esa perspectiva, la formulación de preguntas es una habilidad clí-

nica fundamental, al ser un instrumento de conexión entre la práctica clínica
y el conocimiento en los dos sentidos: aplicar conocimiento a la práctica y
generar desde la práctica preguntas para la investigación.
¿QUÉ ES UNA «PREGUNTA CLÍNICA»?
De manera habitual, en la actividad clínica se produce un intercambio

de preguntas y respuestas entre clínico y paciente. Así, preguntamos al
paciente sobre sus antecedentes, sus síntomas, su medicación, sus acti-
tudes ante el problema, etc. Y, en el otro sentido, recibimos preguntas del
paciente sobre cuál es la causa de sus síntomas o su diagnóstico, o de los
posibles efectos adversos, sobre cuál es el pronóstico, etc. Otras veces nos
preguntamos por la glucosa o por el colesterol del paciente, por la causa de
tal signo o hallazgo de exploración, o sobre si debemos plantearnos hacer
una prueba diagnóstica o elegir un determinado tratamiento frente a otro.
La cuestión clave es: ¿son todas ellas preguntas clínicas? Desde una pers-
pectiva estricta lo son, en la medida en que ocurren en ese ámbito clínico;
sin embargo, no todas las preguntas que ocurren en ese ámbito tienen el
mismo significado y las mismas implicaciones.
En efecto, el proceso clínico es complejo desde el punto de vista cogni-
tivo (3), y comienza con una fase de adquisición de información seguida
de un proceso de síntesis y combinación de datos que permite formar
hipótesis diagnósticas, hacer finos equilibrios entre beneficios y riesgos de
los test diagnósticos o de los diversos tratamientos y, finalmente, formular
o evaluar planes de manejo de los pacientes.
En ese proceso continuo e interactivo es posible diferenciar dos modelos
de preguntas: unas ocurren durante las primeras fases y responden sim-
plemente a una necesidad de ganancia de información, que es filtrada selec-
tivamente y procesada para configurar un escenario clínico; otras preguntas,
en cambio, emergen en ese escenario conformado, pero como necesidad
de disponer de conocimiento para tomar las decisiones clínicas, generar o
probar hipótesis diagnósticas, sopesar tratamientos, fijar pronósticos, etc.
A partir de ahora nos centraremos solo en estas últimas y consideraremos
preguntas clínicas exclusivamente aquellas que son la formulación de una
necesidad de conocimiento.
Cabe preguntarse: ¿de qué tipo de conocimiento hablamos?
En la práctica clínica se usan diversos tipos de conocimientos, unos
generales, otros prudenciales y, naturalmente, de conocimiento científico-
médico, con mayor o menor proximidad a la clínica. Veámoslo con dos
preguntas que se refieren a dos tipos de conocimiento diferentes:
La primera es: ¿cuál es el efecto de la isquemia miocárdica transitoria y repetida
sobre la ultraestructura de los miocitos?
3. Formulando preguntas para la práctica clínica 23
En tu opinión, ¿es esta una pregunta clínica? Piénsalo un instante.

Suponemos que has dudado un poco, porque su respuesta ofrece un
tipo de conocimiento de «indudable interés» para un clínico; acordarás,
sin embargo, que está muy alejado de lo que necesitamos para la toma de
decisiones. Es, por así decirlo, una pregunta previa o preclínica.
Compárala con la segunda pregunta.
En pacientes con sospecha de síndrome coronario agudo, ¿es útil el uso de un
protocolo especial (TIMI score + ECG + 2 valores de troponina) comparado con
el manejo tradicional para prevenir eventos cardíacos adversos e infarto agudo de
miocardio?
Esta otra es, en cambio, una pregunta cuyo conocimiento está directa-
mente relacionado con las decisiones a tomar en el manejo clínico de los
pacientes mencionados (con sospecha de síndrome coronario agudo). Estas
preguntas son llamadas evidencias orientadas a los pacientes (o patient-
oriented evidence that matters [POEM]).
Así pues, la segunda característica de lo que entendemos por una pre-
gunta clínica es «que tiene relación directa con la toma de decisiones sobre
el paciente». Naturalmente, esta «relación directa» es un enunciado algo
ambiguo; pero volveremos sobre ello al final del capítulo.
Cabe señalar que los dos ejemplos de preguntas mencionadas necesi-
tarían diferentes procesos para ser contestados. Así, aquellas preguntas
que están alejadas de la clínica deberán investigarse mediante métodos o
técnicas diversas y generalmente en ámbitos alejados de la clínica. Por el
contrario, las POEM deberán investigarse sobre pacientes y, lo que es más
relevante, utilizando diseños de investigación específicos según el tipo de
pregunta, es decir, según el tipo de conocimiento que se precise.
Abordaremos a continuación los tipos de preguntas clínicas posibles y
comentaremos brevemente los diseños de investigación adecuados.
TIPOS DE PREGUNTAS CLÍNICAS
Las «preguntas clínicas» (que implican una necesidad de conocimiento

y que tienen relación directa con la decisión clínica) pueden clasificarse
según tres posibles criterios: el primero será según el dominio clínico al
que correspondan, el segundo según su amplitud, y el tercero según su
sintaxis.
SEGÚN EL DOMINIO CLÍNICO

De manera general, las necesidades de conocimiento para la decisión
suelen relacionarse con alguno (o algunos) de los dominios tradicionales
de la clínica. Así pues, con independencia de los otros ejes clasificatorios,
cualquier pregunta clínica caerá en alguna (o algunas) de las categorías que
señalamos a continuación:
• Tratamiento o preguntas relacionadas con el conocimiento

sobre la elección del mejor tratamiento para nuestro paciente,
la consideración de alternativas o la valoración del balance entre
beneficios y perjuicios.
• Diagnóstico o preguntas relacionadas con las diversas áreas
del diagnóstico: evocación de posibilidades diagnósticas, diagnóstico
diferencial, sobre las características de un test diagnóstico, o sobre
si conviene o no practicar un test diagnóstico según las consecuencias
clínicas de realizarlo o no.
• Pronóstico o preguntas orientadas a conocer los posibles cursos
de la enfermedad y sus desenlaces con sus correspondientes
probabilidades; o también en el sentido de estimar el riesgo de algún
desenlace en pacientes concretos.
• Etiología, daño, perjuicio o necesidades de evidencias para identificar
causas de la enfermedad, incluyendo, naturalmente, las causas
yatrógenas.
• Prevención o intervenciones sobre factores de riesgo para evitar
enfermedades o para evitar desenlaces indeseables de enfermedad.
• Creencias o valores sobre la enfermedad o sus consecuencias.
• Otras, tales como evaluación económica u organización de servicios.
La mayoría de los estudios (4-7) son consistentes respecto de la fre-
cuencia relativa de cada uno de los tipos de pregunta según dominio. La
mayor frecuencia corresponde (en atención primaria y en especialidades
de medicina interna) a las preguntas de tratamiento, seguidas de las de
diagnóstico, etiología, daño, pronóstico, prevención y otras. Naturalmente,
existen variaciones dependientes de las diferentes especialidades o ámbitos
disciplinarios; así, los radiólogos hacen más preguntas de diagnóstico, los
farmacéuticos de daño o de efectos adversos, los enfermeros de inves-
tigación cualitativa o los gestores de organización de servicios.
Hay que señalar ahora la estrecha relación entre estos dominios clínicos
y los diseños de investigación adecuados para producir conocimiento al
respecto; tales diseños constituyen una de las contribuciones esenciales de
la epidemiología clínica en los últimos años y se comentarán en sucesivos
capítulos. En la tabla 3-1 se ofrece un resumen sumario de esa relación.
SEGÚN SU AMPLITUD
Hay preguntas clínicas que son muy genéricas y que guardan relación
con las bases del conocimiento clínico, son «saber establecido y aceptado»;
un ejemplo de ellas sería: ¿cuáles son los síntomas y signos de un infarto de mio-
cardio? En cambio, otras son más específicas y aluden a un aspecto concreto
de un problema que está frecuentemente en el límite de lo conocido o en
proceso de revisión o discusión, por ejemplo, ¿es efectivo el ácido acetilsalicílico
en dosis bajas en la disminución de la probabilidad de preeclampsia?
TABLA 3-1 Relación entre tipo de pregunta (según dominio clínico) y diseños
adecuados de investigación
Tipo de pregunta clínica (por dominio Tipo de estudio adecuado (estudios
clínico) primarios)
Tratamiento Ensayo clínico aleatorio
Diagnóstico Estudios de exactitud de test diagnóstico
Exactitud del test (S, E, LR+, LR–, etc.) Estudios transversales, cohortes
Consecuencias clínicas de su uso Ensayo clínico aleatorio
Pronóstico
Cursos clínicos y desenlaces con sus Estudio de cohortes
probabilidades
Predicción para paciente individual Reglas de predicción clínicas
Etiología Estudio de cohortes
Daño o perjuicio Estudio de casos y controles
Prevención Ensayo clínico aleatorio
Creencias y valores Estudios cualitativos
Otras: organización, servicios Diversos
En todos los casos, la opción más deseable es la de contar con estudios de síntesis o revisiones
sistemáticas de estudios primarios (aleatorios, observacionales, de exactitud de test, etc.).
E, especificidad; LR+, cociente de probabilidad positivo; LR–, cociente de probabilidad negativo;
S, sensibilidad.
Las primeras serán llamadas preguntas fundamentales (8) (preguntas de

background) y son las que se aprenden en los libros de Medicina tradicionales
o en sus versiones electrónicas. Se trata de conocimiento establecido y su
búsqueda no precisa habilidad específica. Las segundas, o preguntas de
«primer plano» (preguntas de foreground), responden a la necesidad de dis-
poner de evidencia actualizada sobre un problema «actual». Esa evidencia
deberá buscarse en bases de datos o repositorios de documentos adecuados
y su búsqueda requiere una formulación específica de la pregunta y una
exploración estructurada de esas fuentes.
Clásicamente, el uso de esos tipos de preguntas varía según la historia
natural del aprendizaje de los clínicos, de modo que en los períodos iniciales
de formación y al comienzo de la actividad profesional las preguntas «fun-
damentales» son mucho más frecuentes que las específicas. Sin embargo,
con el aumento de la experiencia y de las habilidades de decisión, las
preguntas fundamentales se van reduciendo gradualmente, en tanto que
las preguntas específicas aumentan, siempre que exista la actitud intelectual
y el entrenamiento adecuado para ello.
SEGÚN LA SINTAXIS DE LA PREGUNTA (INTUITIVA

FRENTE A ESTRUCTURADA)
El tercer eje de clasificación es la construcción lingüística de la pregun-
ta. En tal sentido, la cuestión clave es ¿cómo formulan los clínicos sus
necesidades de conocimiento?, o, dicho de otro modo, ¿cómo construyen
sintácticamente sus preguntas? Este asunto ha merecido tradicionalmente

cierto interés, actualmente renovado por la idea de proveer de preguntas
a los sistemas de ayuda a la decisión basada en la evidencia.
Los estudios clásicos de Ely (6) (en 103 médicos de familia de Iowa) y de
Gormann (5) (en 49 médicos generales, internistas y pediatras de Oregón)
muestran que es posible identificar una cierta estructura general en la cons-
trucción de preguntas:
1. Comienzan con una partícula interrogativa (cuál, cómo, qué, cuándo,
etc.) o condicional.
2. Está seguida de un dominio clínico (de los citados en el apartado
«Según el dominio clínico»), explícito o implícito.
3. Finamente, se enuncia una enfermedad o condición clínica concreta.
En la tabla 3-2 se muestran los 10 modos más usados en la construcción
de preguntas obtenidos en los estudios citados y que se adaptan razona-
blemente a la estructura mencionada. Esta forma (que podríamos llamar
«sintaxis intuitiva») es la usada por los clínicos para formular su necesidad
del conocimiento, y responde a la visión pragmática de «conocimiento
para la solución del problema». Sin embargo, y aunque ciertamente refleja
las necesidades de conocimiento percibidas por el clínico, no coincide con
el modo en que se formulan y contestan las preguntas cuando se realiza
investigación clínica, y tampoco con el modo en que esa investigación es
indexada. Dicho de otro modo, estas preguntas de sintaxis intuitiva, si bien
reflejan la necesidad de conocimiento clínico, carecen de contenido empírico
(no son contestables formalmente) y se buscan con más dificultad.
TABLA 3-2 Taxonomía de las preguntas genéricas (las 10 formas más frecuentes
de formular la pregunta por los clínicos)
Pregunta formulada Porcentaje
¿Cuál es el fármaco de elección para la enfermedad o condición clínica X? 11%
¿Cuál es la causa del síntoma X? 8%
¿Qué test está indicado en la situación X? 8%
¿Cuál es la dosis del fármaco X? 7%
¿Cómo debe ser tratada la condición clínica X (excluidos medicamentos)? 6%
¿Cómo debe manejarse la condición clínica X (sin especificar si se refiere 5%
a diagnóstico o tratamiento)?
¿Cuál es la causa de este hallazgo de exploración? 5%
¿Cuál es la causa de este resultado de test diagnóstico? 5%
¿Puede el medicamento X causar el efecto adverso Y? 4%
¿Podría este paciente tener la enfermedad X? 4%
Otras (diversas)… 37%
Tomado y modificado de Ely JW, Osheroff A, Gorman P, Ebell MH, Chambliss ML, Pifer EA, et al. A taxonomy of
generic clinical-questions: classification study. BMJ. 2000;321:429-32.
CUADRO 3-1
P R E G U N TA E S T R U C T U R A D A
O F O R M AT O P I C O
P Paciente o Pacientes: tipo o características de un paciente
como el nuestro
I Intervención: intervención o exposición considerada
C Comparación: intervención o exposición alternativa (si procede)
O Desenlaces (Outcomes): resultados o desenlaces
La aproximación alternativa es el uso de una «sintaxis estructurada»

propuesta por Richardson (8) y llamada también «formato PICO» por
la nemotecnia usada en inglés (Patient, Intervention, Comparison, Out-
come). Este formato tiene cuatro componentes, que se describen en el
cuadro 3-1.
Hay ocasiones en que el formato hay que adaptarlo ligeramente en razón
del dominio clínico; por ello han sido propuestas otras nemotecnias, entre
las que destacan las de PECO o PECOT para estudios observacionales
(Patient, Exposure/Comparison, Outcome/Time), y PIRTO para estudios de
exactitud de test diagnósticos (Population/Index, test/Reference test/Target
condition/Outcome). El lector interesado puede consultar otras reglas nemo-
técnicas propuestas en la referencia de Kloda (7).
Es fácil identificar en este formato PICO los componentes del diseño de
los estudios usados para la construcción de conocimiento clínico (nos deten-
dremos en los sucesivos capítulos en esos diseños y en su formulación de
preguntas). Por ello, en la medida en que se homogenizan los lenguajes
clínico y de investigación, esta forma PICO es particularmente adecuada
si deseamos usar la evidencia para informar nuestras decisiones. Otras

ventajas de esta aproximación pueden verse en el cuadro 3-2.
La formulación de preguntas PICO es reconocida como una habilidad
esencial para la práctica basada en la evidencia (1,2); hay evidencias de que
la sintaxis mejora con el entrenamiento orientado (9) y debería formar parte
ese currículo clínico (1,2). Además, esta habilidad de formular preguntas
PICO es absolutamente crucial para el desarrollo, comprensión e inter-
pretación de las GPC (10).
Finalmente, hay que señalar que existe un enorme interés en identificar
las relaciones entre la formulación intuitiva y la formulación estructurada,
en razón de la importancia de esa translación en la generación de sistemas
automáticos de ayuda a la decisión basada en la evidencia (los llamados
«sistemas» que veremos en el capítulo 10). Este es un fascinante asunto para
la investigación que transciende los objetivos de este libro.
CUADRO 3-2
BENEFICIOS DE LA REDACCIÓN
D E L A S P R E G U N TA S E N F O R M AT O P I C O
• Ayuda a hacerte una idea más clara y más estructurada
de los problemas que sufre tu paciente. De algún modo, puede
ayudarte a clarificar el escenario clínico concreto
• Hacer explícito, por escrito, todos los desenlaces (outcomes)
de interés, permite valorar cuál es el más importante y priorizar
tus acciones en consecuencia
• La formulación PICO facilita comprender qué tipo de estudio
responderá óptimamente a tu pregunta
• La redacción de las preguntas clínicas en formato PICO te ayuda
a encontrar los mejores términos de búsqueda
FORMULANDO LA PREGUNTA COMPLETA
Desde el punto de vista práctico, y a la hora de formular la pregunta

clínica completa, los tres ejes de clasificación mencionados deben ser con-
siderados. Así, una buena pregunta clínica:
• Versará sobre una cuestión específica (actual y clínicamente importante).
• Estará escrita en formato PICO (o similares).
• Asociará el tipo de estudio adecuado según el dominio clínico
correspondiente.
En resumen, formular preguntas clínicas «es un proceso cognitivo que
comienza con la identificación, en un escenario clínico, de una necesidad
de conocimiento orientado a la decisión sobre el paciente, y concluye con la
traducción de esta a una frase con una sintaxis específica que la provea de con-
tenido empírico» (es decir, que sea contestable mediante investigación clínica).
Esta habilidad esencial para la práctica basada en la evidencia se desarrolla,
como todas la habilidades, practicando. A tal efecto, en el anexo incluimos un
grupo de escenarios clínicos para la práctica de la formulación de preguntas.
IMPORTANCIA CLÍNICA DE LA PREGUNTA.

LA IMPORTANCIA DE LOS DESENLACES
La cercanía clínica (que mencionábamos en el apartado «¿Qué es una

“pregunta clínica”?») y, por tanto, la importancia clínica de una pregunta
dependerán de lo útil que sea para la decisión, y en ello influirán los cuatro
componentes de la pregunta, pero de manera especial los desenlaces

(outcomes).
En efecto, la población influye en la aplicabilidad y, junto con la inter-
vención y la comparación, define la arquitectura de estudio, pero con la
misma estructura se valora, de modo simultáneo, diversos desenlaces, que
pueden ser unos positivos y otros negativos. En suma, evaluar el «efecto»
de una intervención o exposición suele ofrecer múltiples dimensiones, y
esto es bastante concordante con el modo en que los clínicos sopesamos
los múltiples efectos de un tratamiento o de una prueba. Por lo demás, y
como se verá en capítulos posteriores, la «validez» de la estructura del es-
tudio deber ser considerada independientemente para cada uno de esos
desenlaces.
Algunos de esos desenlaces, como mortalidad, supervivencia, co-
morbilidad, complicaciones, efectos adversos, síntomas o calidad de
vida, etc., están claramente orientados a los pacientes (patient-oriented
outcomes) y son el objetivo final de las acciones clínicas. Otros, como la
glucemia, la presión arterial, la presencia de una placa coronaria o
la histopatología, están más relacionados con la enfermedad (disease-
oriented outcomes), pero no constituyen el objetivo final de las acciones
de tratamiento o prevención, aunque puedan tener importancia en el
diagnóstico o puedan ser usadas como «desenlaces subrogados». En
ocasiones se toma un conjunto de desenlaces para formar un «desenlace
combinado», que puede ofrecer una visión global de los efectos clínicos
de una acción.
En cualquier caso, si hay múltiples dimensiones, es obvio que no todas
serán igualmente importantes y, por tanto, no todas tendrán la misma
relevancia para la decisión. En tal sentido, el Grading of Recommendations
Assessment, Development and Evaluation (GRADE) Working Group (10)
propone clasificar los desenlaces (sean positivos o negativos) según su
importancia creciente, que puntúa del 1 al 9, pero que agrupa finalmente
en tres categorías (tabla 3-3):

7-9 Críticos para la toma de decisión.
3-6 Importantes, aunque no críticos, para la decisión.
1-3 No importantes para la decisión y de escasa importancia
para el paciente.
Generalmente, calificar la importancia de un desenlace, como mortalidad
o infarto de miocardio no fatal, no ofrece muchas dudas, pero a veces la
perspectiva clínica y la del paciente pueden diferir notablemente; por
ejemplo, la importancia del sangrado por anticoagulación en el marco de
un riesgo de recurrencia de ictus. Por ello, es importante incluir la visión
de los pacientes para ponderar la importancia de los desenlaces.
El GRADE sugiere que los desenlaces «críticos» y los «importantes
aunque no críticos» deben ser valorados todos, y los no importantes (entre
TABLA 3-3 Ejemplo de la importancia de los desenlaces clínicos en la artritis

reumatoide con el uso de un fármaco biológico
Desenlaces clínicos Importancia (1-9)
Críticos para la decisión (7-9)
Muerte 9
Efectos adversos graves (infecciones graves, tuberculosis, linfomas, 8
anafilaxia, etc.)
Retiradas del estudio por efectos adversos 8
Mejoría del 50% (ACR 50) en un conjunto predefinido de síntomas 8
y reactantes
Puntuación de actividad de la enfermedad (DAS) 8
Calidad de vida relacionada con la salud (HAQ) 7
Importantes, pero no críticos para la decisión (4-6)
Cambios radiológicos 4
No importantes para el paciente o la decisión (1-3)
Reactantes de fase aguda (solos) 3
Mejora del 20% (ACR 20) en el conjunto predefinido de síntomas 2
y reactantes
Nota: el ACR 50 es una variable que significa que el paciente alcanza una mejoría de un 50%
en la puntuación de un desenlace «compuesto» que incluye el número de articulaciones sensibles
o inflamadas y otros resultados, como el dolor y la discapacidad. El ACR 20 produce una mejora del 20%
con respecto a los mismos ítems del ACR 50. El DAS es una variable «compuesta» por una medida
de dolor articular, un índice de inflamación en 44 articulaciones, la velocidad de sedimentación globular
y la valoración de la actividad por el paciente. El HAQ es un cuestionario estándar de calidad de vida
que evalúa diferentes dimensiones, como discapacidad, dolor, eventos adversos, costos y mortalidad.
Modificado de Ruiz Garcia V, Jobanputra P, Burls A, Cabello JB, Vela Casasempere P, Bort-Marti S, et al.
Certolizumab pegol (CDP870) for rheumatoid arthritis in adults. Cochrane Database Syst Rev. 2014;(9):CD007649.
los que suelen estar los subrogados) pueden ser ignorados, aunque puedan
ser interesantes para explicar o comprender otros desenlaces.
Bibliografía
1. Tilson JK, Kaplan SL, Harris JL, Hutchinson A, Ilic D, Niederman R, et al. Sicily statement
on classification and development of evidence-based practice learning assessment tools.
BMC Med Educ. 2011;11:78.
2. Cabello JB, Emparanza JI, Burls A. Una educación para la clínica del siglo XXI: el currículo
para la práctica basada en la evidencia. Med Clin (Barc). 2013;141(5):221-226.
3. Kassirer J, Wong J, Kopelman R. Learning Clinical reasoning. 2nd ed. Baltimore: Lippincott
Williams & Wilkins; 2010.
4. Allan MG, Ma V, Aaron S, Vandermeer B, Manca D, Korownyk C. Residents’ clinical
questions: how are they answered and are the answers helpful? Can Fam Physician.
2012;58:e344-e351.
5. Gorman PN, Helfand M. Information seeking in primary care: how physicians choose
which clinical questions to pursue and which to leave unanswered. Med Decis Making.
1995;15:113-119.
6. Ely JW, Osheroff A, Gorman P, Ebell MH, Chambliss ML, Pifer EA, et al. A taxonomy of
generic clinical questions: classification study. BMJ. 2000;321:429-432.
7. Kloda LA, Bartlett J. Formulating Answerable Questions: Question. Negotiation in
Evidence-based Practice. JCHLA/JABSC. 2013;34:55-60.
8. Richardson SW, Wilson M, Nishikawa J, Hayward R. The well-built clinical question: a
key to evidence-based decisions. ACP J Club. 1995;123(3):A12-A13.
9. Horsley T, O’Neill J, McGowan J, Perrier L, Kane G, Campbell C. Interventions to improve
question formulation in professional practice and self-directed learning. Cochrane Database
Syst Rev. 2010;5:CD007335.
10. Guyatt GH, Oxman AD, Kunz R, Vist GE, Falck-Ytter Y, Schünemann HJ, GRADE Working
Group. Rating quality of evidence and strength of recommendations: What is “quality of
evidence” and why is it important to clinicians? BMJ. 2008;336:995-998.

Cabello JB, Emparanza JI. Formulando preguntas para la práctica clínica. En: Cabello Juan B,
editor. Lectura crítica de la evidencia clínica. Barcelona: Elsevier; 2015. p. 21-34.
A N EX O PRACTICANDO PREGU NTA S

EN ESCEN ARIOS CLÍNICOS
Ejemplos
Ejemplo 1
En tu condición de residente de segundo año y médico de guardia en el
servicio de urgencias de tu hospital, recibes una llamada sobre el traslado
en ambulancia desde un restaurante del puerto pesquero de una paciente
de 34 años (Laura) con cefalea, enrojecimiento facial, urticaria en el tronco,
hipotensión arterial y broncoespasmo, sin antecedentes asmáticos ni alérgicos.
El médico de la ambulancia, que llegará en 10 min, sugiere que puede ser
una intoxicación escombroide.
Dado que no has oído nunca hablar de esta patología, te preguntas: ¿qué es
una intoxicación escombroide?
En este caso estamos planteando una pregunta sobre la etiología del cuadro
clínico que presenta Laura. Planteas la pregunta porque desconoces los términos
a los que se refiere el médico de la ambulancia. No está formulada en relación
con una toma decisión clínica, sino con la necesidad de conocimiento. Es, por
lo tanto, una pregunta general, no específica.
Ejemplo 2
Has diagnosticado a Erenia, una mujer de 65 años, por lo demás sana, de
una infección del tracto urinario. Le explicas que el tratamiento que le vas
a prescribir, amoxicilina-clavulánico, eliminará probablemente en un par
de días la sintomatología que ahora sufre, y que debe venir a realizar un
urocultivo de control más adelante, cuando la llamen de consultas. Erenia
comenta que hace 3 años le dieron ese mismo tratamiento y tuvo una diarrea
considerable. Te pregunta si hay alguna forma de prevenir que le suceda lo
mismo esta vez.
Te planteas la posibilidad de recomendar yogures «bio» para prevenir la

diarrea desencadenada por amoxicilina-clavulánico en estos términos:
En una mujer sin patología crónica con infección del tracto urinario
y a ntecedente de diarrea por amoxicilina-clavulánico, ¿la adición de yo-
gures bio a su dieta habitual puede prevenir la aparición de la diarrea o
su intensidad?
En este caso, la pregunta es de tratamiento preventivo, y está formulada en
términos específicos. La pregunta tiene por objeto obtener conocimiento sobre
una decisión clínica de manejo, añadir o no yogures bio a la dieta, y está es-
tructurada en los cuatro componentes de la estructura PICO.
Ejemplo 3
Iñaki, de 13 años de edad, ha sufrido un traumatismo en el pulgar derecho
mientras jugaba al baloncesto con abducción forzada, tras el que presenta dolor,
hinchazón e impotencia funcional en la articulación metacarpofalángica.
Trasladado por sus padres al servicio de urgencias del hospital, es
visto por el traumatólogo de guardia. En la exploración, el traumatólogo
hace ver a los padres la laxitud de esa articulación, que sugiere rotura del
ligamento lateral. En la radiografía se observa una leve subluxación que
sugiere el mismo diagnóstico. El padre señala que la laxitud es similar a
la que se observa en el pulgar izquierdo, que no ha sufrido traumatismo
alguno, y que una radiografía anterior de la mano izquierda realizada hace
2 meses por rotura de la falange distal del 5.° dedo izquierdo mostraba
una imagen similar en la articulación metacarpofalángica del primer dedo
izquierdo. Estas observaciones no son tenidas en cuenta por el traumató-
logo, que, con el diagnóstico de rotura del ligamento, propone la cirugía
reparadora urgente.
La cirugía, con anestesia regional, transcurre sin problemas, aunque el
ligamento se observa intacto y el único hallazgo patológico es un leve desgarro
del aductor. El cirujano señala que ha suturado este desgarro.
Tras la cirugía, Iñaki es trasladado al servicio de pediatría, donde le mantie-
nen a dieta durante 6 h y establecen una pauta de probar tolerancia progresiva
a líquidos antes de darle el alta.
Algunas preguntas que surgen de este escenario son:
• En un joven en edad de crecimiento con hiperlaxitud ligamentosa, ¿qué

características nosológicas (diagnósticas) tiene la exploración física
que muestra laxitud de la articulación metacarpofalángica del pulgar?
• En los desgarros del aductor del pulgar sin rotura del ligamento lateral
producidos como consecuencia de un traumatismo directo, ¿es necesaria
la sutura del mismo para la total recuperación de la función?
• Tras una cirugía de 20 min con anestesia regional en un varón de 13 años,
¿es necesario el ingreso?
• ¿Es necesario mantener a dieta y probar tolerancia progresiva tras
una cirugía breve con anestesia regional en un varón sano de 13 años?
Las cuatro preguntas planteadas (y podrían hacerse más) son de diversa

índole y sirven de ejemplo para mostrar que una situación clínica puede dar
lugar a más de una pregunta clínica.
Escenarios de entrenamiento
Tras estos escenarios resueltos, proponemos los siguientes escenarios para
que los resuelva el lector. Trata de formular al menos una pregunta clínica es-
pecífica estructurada en formato PICO para cada escenario.
Escenario 1
Un hombre de 65 años acude a tu consulta para una visita de control por
hipertensión arterial. Es fumador de 20 cigarrillos al día y tuvo un infarto
lagunar hace 1 año, del que se ha recuperado totalmente. Está en tratamiento
con un diurético que ya no toma, porque le molestan sus efectos diuréticos en
su actividad diaria. Tensión arterial: 160/100 mmHg.
Le explicas que es necesario que tome el tratamiento antihipertensivo, dado
el riesgo que se asocia con la tensión alta y sus antecedentes. El paciente está de
acuerdo en recibir un tratamiento, pero argumenta que a un vecino suyo, que
también tiene hipertensión, su médico le ha recetado un medicamento que no es
diurético («algo que acaba en “-pril”») y que no aumenta la necesidad de orinar.
Escenario 2
Llega un paciente a tu consulta que describe aumento del perímetro abdomi-
nal con un incremento ponderal de 6 kg en la última semana. Ha sido diagnos-
ticado previamente de cirrosis, estadio C de Child. Ha sido ingresado dos veces
por descompensación ascítica y varices esofágicas sangrantes. Actualmente,
está en tratamiento con laxantes, furosemidas, espironolactona y vitamina K.
Encuentras claros signos de ascitis en la exploración física. El líquido obtenido
por paracentesis muestra 280 neutrófilos/ml. Con el diagnóstico de peritonitis
bacteriana espontánea, prescribes 2 g de cefotaxima cada 8 h. Te preguntas si
se puede hacer algo para prevenir futuros episodios de peritonitis.
Escenario 3
Un hombre de 66 años acude a urgencias por dolor torácico. Es fumador de un
paquete al día, hipertenso y tiene el colesterol alto. Ha estado asintomático hasta
hace 4 días, cuando le empezó un dolor torácico que apareció mientras caminaba,
con irradiación al brazo izquierdo y disnea, y que desaparecía cuando dejaba
de caminar. El día del ingreso ha notado un dolor torácico retroesternal durante
1 h. El dolor no se modifica con los movimientos respiratorios y no se irradia.
El electrocardiograma en urgencias muestra una onda T negativa en I, aVL,
V5 y V6 compatible con sobrecarga del ventrículo izquierdo. La radiografía
muestra una ligera cardiomegalia. Las enzimas cardíacas creatin fosfocinasa
(CPK), CPK fracción MB, troponina y mioglobina son normales. Tratas de tras-
ladarlo a la unidad de vigilancia intensiva, pero ellos te sugieren que lo ingreses
en la planta de interna y que monitorices la evolución.
Escenario 4
Una mujer de 60 años que estaba previamente sana fue ingresada ayer por
la noche debido a un síndrome confusional agudo, fiebre y signos meníngeos.
Se ha aislado Neisseria meningitidis tanto en sangre como en el líquido cefalo-
rraquídeo. Las enfermeras de urgencias te preguntan si es necesario algún
tratamiento profiláctico, porque estuvieron en contacto con esta mujer en
urgencias (y tienen niños pequeños en casa).
C A P Í T U L O
4
Lectura crítica de estudios
de tratamiento.
Ensayos clínicos aleatorios
Eduardo López Briz, José Ignacio Pijoan Zubizarreta
y Juan Bautista Cabello López

• Definir el ensayo clínico aleatorio y justificar su importancia para evaluar
intervenciones.
• Resumir los términos clave para evaluar la validez de un ensayo clínico
aleatorio.
• Presentar los criterios que definen esta validez y sus consecuencias sobre
la estimación del efecto de la intervención.
• Interpretar los resultados de los ensayos clínicos aleatorios en términos
del ºefecto de la intervención y de su relevancia.
INTRODUCCIÓN
Como veíamos en el capítulo previo, la mayoría de las preguntas que se

formulan en la clínica corresponden a preguntas sobre la efectividad de los
tratamientos o intervenciones, sean con finalidad preventiva o terapéutica. Para
obtener respuestas a este tipo de preguntas, el ECA es considerado tradicio-
nalmente el diseño de investigación clínica de referencia. Por tanto, saber leer
críticamente un ECA es de una importancia capital para la práctica basada en
la evidencia, y también para realizar investigación de síntesis.
El ECA es un diseño prospectivo de investigación clínica (en personas
con un problema específico de salud o en riesgo definido de desarrollarlo)

en el que se evalúa el efecto de al menos dos intervenciones alternativas

por medio de la asignación explícita (por un mecanismo aleatorio) de cada
participante a una de ellas y la comparación de los desenlaces obtenidos
en cada grupo generado.
Este diseño incorpora una herramienta específica (la aleatorización)
que potencia la validez interna de sus resultados y justifica el alto nivel
de credibilidad que se otorga a los mismos. En efecto, la asignación alea-
toria evita los subjetivismos conscientes o inconscientes en la creación de
los grupos de comparación (sesgos de selección) y genera grupos cuyo
pronóstico inicial es similar, creando, de ese modo, el escenario ideal para
comparar (sin confusión) el efecto de dos o más intervenciones. En suma,
es un diseño que ofrece, junto con una muy alta solvencia epistemológica,
una apariencia de comparación sencilla e intuitiva.
Hay que señalar que los resultados de las intervenciones son general-
mente múltiples (unos positivos y otros negativos) y, en tal sentido, los ECA
proporcionan información sobre ambos y, por tanto, datos para estimar el
balance beneficio/riesgo.
Sin embargo, los ECA están, fundamentalmente, diseñados para res-
ponder a cuestiones de eficacia o efectividad y, aunque analizan la segu-
ridad en el horizonte temporal del ensayo, pueden no detectar efectos
adversos relevantes que sean poco frecuentes o tardíos. Estas «otras»
consecuencias de las intervenciones se identifican a posteriori mediante
estudios observacionales (estudios de cohortes o de casos y controles) o
por el uso ulterior en la rutina (registros asistenciales). Finalmente, tras
enfatizar la importancia de estos diseños para este tipo de preguntas, con-
viene señalar, también, que hay preguntas sobre la efectividad de algunas
intervenciones para las que este diseño de estudio resulta absolutamente
superfluo (1).
En realidad, el ECA es toda una familia de diseños que comparten lo
esencial: una estrategia de comparación y la aleatorización. Aunque men-
cionaremos algunos de los subtipos de esa familia de ECA, en este capítulo
nos referiremos, por defecto, al diseño típico y más común: el ECA paralelo.
En cuanto a las convenciones de escritura de ECA, cuya importancia men-
cionábamos en capítulos previos, para este diseño paralelo, la convención
al uso es CONSORT (Consolidated Standards of Reporting Trials, http://
www.consort-statement.org/), y para las diferentes variantes de diseño, las
respectivas extensiones de CONSORT.
ESCENARIO
Tú trabajas en un gran hospital. A raíz de la lectura en la prensa divulga-

tiva profesional de un trabajo reciente acerca del papel de los probióticos en
la prevención de la diarrea asociada a antibióticos (DAA), se plantea en tu
4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS 37
servicio la posibilidad de administrar por protocolo un preparado de este

tipo en ciertos pacientes de riesgo (ancianos, tratamiento antibiótico de
más de 1 semana de duración, uso conjunto con inhibidores de la bomba
de protones).
Una mañana, pasando visita, ves a Julio, un paciente de 68 años, con in-
fección de las vías respiratorias altas, que ayer inició tratamiento con amo-
xicilina-clavulánico en dosis de 875 mg/8 h. Pensando en el trabajo acerca
de los probióticos, consideras la posibilidad de usarlos, pero decides darle
una vuelta más al tema y, buscando en Pubmed, encuentras un ECA en un
Lancet reciente que justamente estudia un tipo de paciente parecido a Julio:
Allen SJ, Wareham K, Wang D, Bradley C, Hutchings H, Harris W, et al.
Lactobacilli and bifidobacteria in the prevention of antibiotic-associated dia-
rrhoea and Clostridium difficile diarrhoea in older inpatients (PLACIDE):
a randomised, double-blind, placebo-controlled, multicentre trial. Lancet.
2013;382:1249-57.
Te animas a echarle una ojeada y leerlo de manera crítica con la plantilla
de preguntas de CASPe, un grupo de gente que hace poco hizo un taller en
vuestro congreso nacional que te pareció muy interesante.
Después de leer críticamente el artículo, te preguntas:
• ¿Son efectivos los probióticos en la prevención de la DAA
en ancianos?
• ¿Los usarás en el caso de Julio?
PUNTOS CLAVE DE LA LECTURA CRÍTICA

DE UN ENSAYO CLÍNICO ALEATORIO
La «calidad global» de un estudio de investigación clínica es un concepto

o constructo complejo cuya definición incluye diferentes elementos (o
componentes): relevancia de la pregunta de investigación, adecuación y

eficiencia del diseño, corrección bioética, excelencia en la ejecución y el
análisis de los datos, y rigor en la interpretación de los mismos, corrección
en la escritura, adecuación de la autoría, etc. Esta es, obviamente, una
definición muy amplia que puede tener interés en algunos ámbitos, pero
para ámbitos clínicos importan especialmente tres de esos componentes
citados en los que nosotros nos centraremos.
El primero es la pertinencia clínica, entendiendo por tal que se trate
de preguntas y, sobre todo, de desenlaces de investigación útiles para la
decisión clínica (v. capítulo 3).
El segundo es la «calidad metodológica» o en qué medida el diseño,
la conducción y el análisis minimizan los sesgos de selección, medición y
confusión, es decir, en qué medida es válido el estudio o, por decirlo de
otro modo, en qué medida nos vamos a creer los resultados.
El tercero es la aplicabilidad o transferibilidad del resultado a un pa-

ciente concreto (o grupo de pacientes), considerando los otros elementos
que influyen en la aplicación de esa evidencia («representatividad» de
los pacientes del ECA, balance riesgos/beneficios, disponibilidad, valores
del paciente, costes, etc.).
Desde una perspectiva «lectora», validez significa realmente explorar
aquellos elementos o dominios metodológicos que son capaces de pro-
ducir errores sistemáticos (o sesgos) en la estimación del efecto (2). Esos
dominios se enumeran y describen en la tabla 4-1 junto con su relación
con los posibles sesgos en la estimación del resultado. En dicha tabla in-
cluimos también las preguntas, habida cuenta de que existe una relación
directa entre el tipo de pregunta y el tipo de diseño válido para su contes-
tación. Seguiremos ese orden expositivo para describir los puntos clave
relacionados con la validez y, posteriormente, trataremos de los resultados
y de su aplicación.
LAS PREGUNTAS DEL ENSAYO

En el capítulo previo señalábamos cómo se construyen las preguntas
clínicas en formato estructurado o PICO (paciente, intervención, compa-
ración y desenlace). Este formato muestra la arquitectura del estudio: en
una población definida, evaluaremos paralelamente los desenlaces de una
intervención comparada con otra, definiendo un horizonte temporal. Se
trata de un estudio longitudinal, similar a un estudio de cohortes, del que
se diferencia en que la asignación a uno u otro grupo se realizará de modo
aleatorio, de acuerdo con su carácter de experimento.
Analicemos por separado los elementos de esa pregunta.
POBLACIÓN
Cuando formulábamos preguntas clínicas, hablábamos de pacientes (P).
Ahora, en investigación, la P corresponderá a la «Población de estudio»,
que se define como el subgrupo de la población que reúne los criterios de
inclusión y carece de los de exclusión.
Idealmente, esta población debe parecerse a los pacientes en quienes
se piensa aplicar la intervención si fuera efectiva, y no es preciso ningún
muestreo representativo. Frecuentemente, por razones de índole práctica,
se selecciona un subgrupo en el que es más probable observar el desenlace
investigado y, en ocasiones, ingresa «a prueba» (run-in) en el estudio. Por
todo ello, suele reflejar solo una parte del espectro de la enfermedad. Como
para esa selección pueden usarse diferentes criterios en los distintos es-
tudios, esa disparidad puede ser fuente de heterogeneidad en las RS.
Concierne a la prudencia clínica valorar las diferencias entre las po-
blaciones de estudio y el paciente concreto a quien debe aplicarse el resul-
tado. En realidad, casi nunca encontraremos un ensayo con una población
exactamente igual a nuestro paciente; por ello la pregunta sería si nuestro
TABLA 4-1 Características metodológicas a valorar en los ensayos clínicos

aleatorios, descripción, soluciones y sesgos relacionados
Dominio (característica
metodológica) Descripción/solución Sesgos relacionados
Pregunta Componentes PICO y Diseño inapropiado de
pertinencia la pregunta o elección
errónea del tipo de diseño
Aleatorización Asignación de la intervención Sesgo de selección
(secuencia) basada en las creencias/ Sesgo de confusión
preferencias del clínico
y/o perfiles/características
específicas del paciente y su
entorno
Sistemas de aleatorización: simple,
bloques, estratos, minimización
Ocultación de la Predictibilidad del tratamiento Sesgo de selección
secuencia de a ser asignado a próximos Sesgo de confusión
aleatorización (OSA) pacientes, discrecionalidad
en la selección de los
pacientes que recibirán las
diferentes intervenciones
Sobres opacos, numerados
secuencialmente, servicio
de farmacia. Central de
aleatorización
Datos incompletos de los Pérdidas (datos no disponible) Sesgo de atrición o por
desenlaces Exclusiones del análisis pérdidas
Análisis por intención de Análisis incorrectos
tratamiento, análisis de Sesgo de confusión
sensibilidad
Cegamiento Cuidados diferentes a los Sesgo de ejecución
grupos (diferentes cuidados en los
Diferencias en la evaluación del grupos)
desenlace Sesgo de detección (diferente
Puede afectar al seguimiento proceso de medición en

si participar requiere los grupos)
entusiasmo del clínico Sesgo de atrición
o del paciente
Simple, doble, triple, etc.
Comunicación selectiva Diferencias sistemáticas entre Sesgo de comunicación
de los desenlaces hallazgos comunicados y no Sesgo de publicación
comunicados o selección de
desenlaces «publicables»
Protocolos y registros de ensayos
Otros sesgos Suspensión precoz, rupturas de
ciego, etc.
Comunicación detallada y
sistematizada, de acuerdo a
normas aceptadas (CONSORT)
paciente es tan distinto como para no poder aplicarle el resultado del

ensayo. Este proceso de aplicación es realmente, en sentido aristotélico,
una cuestión prudencial.
INTERVENCIÓN
Se trata de la acción cuyo efecto se pretende estudiar y que puede ser
de muy diferentes tipos: fármacos, grupos de fármacos, intervenciones
quirúrgicas, fisioterápicas, psicológicas, estrategias de manejo clínico o es-
trategias de organización, intervenciones complejas, terapias alternativas
y un largo etcétera.
En cualquiera de los casos, la intervención (y la comparación) debe ser es-
tandarizada y descrita con el detalle suficiente como para poder ser aplicada
a la clínica, reproducida en investigación o incorporada en investigación
de síntesis. La estandarización es relativamente fácil cuando hablamos de
fármacos, pero las intervenciones más complejas exigen definiciones más
elaboradas. Otras veces, las intervenciones son críticamente dependientes
de las habilidades específicas de las personas que las realizan (p. ej., cirugía,
hemodinámica, manipulaciones vertebrales, psicoterapia, etc.) y la estanda-
rización resulta aún más complicada. En tales casos, el control de las curvas
de aprendizaje o la utilización de diseños especiales llamados «diseños de
habilidad» (expertise design) son alternativas disponibles.
En otras ocasiones, la intervención no se puede realizar sobre un indivi-
duo, pues hay que considerar su integración en una organización o socie-
dad. Por ejemplo, al estudiar estrategias docentes entre grupos aleatorios
de residentes del mismo hospital, la contaminación entre grupos es segura,
o estudiar dos intervenciones dietéticas entre escolares de la misma escuela
plantea dificultades obvias. En esos casos puede ser de utilidad el diseño
de ensayo cluster, cuya complejidad excede los objetivos del capítulo. Final-
mente, cuando el efecto de la intervención es reversible en un plazo corto y
se aplica a una enfermedad crónica estable, es posible probar sucesivamente
intervención y comparación en la misma población; se trata de los diseños
cruzados (cross-over trials).
COMPARACIÓN
En este aspecto está, sin duda, la clave práctica y ética de los ECA.
Desde el punto de vista del clínico práctico, solo tiene sentido comparar
nuevas intervenciones con intervenciones con efectos ya probados, o al
menos que sean los tratamientos usuales; no usar tratamientos probados
sería maleficencia y, además, esa comparación reproduce el posible dilema
decisional real (tratamiento nuevo frente a tratamiento usual).
Desde el punto de vista ético, para proponer a un paciente la participa-
ción en un ensayo debe existir un equilibrio entre los posibles beneficios y
riesgos esperables del nuevo tratamiento con los beneficios y riesgos de la
intervención comparada (es la llamada equipoise). En realidad, este concepto
refleja el punto de fricción entre dos dialécticas diferentes: la de práctica

clínica y la de investigación clínica, y es, por tanto, un asunto crucial que
condiciona el diseño en varios sentidos.
En primer lugar, exige un conocimiento explícito del estado del trata-
miento para la condición clínica en cuestión (preferiblemente mediante
una RS). En segundo lugar, la existencia de tratamientos efectivos limita
el uso de placebo como técnica de investigación y obliga a incluirlos en
las comparaciones. En tercer lugar, la presencia de esos tratamientos
efectivos puede condicionar un tipo de diseños especiales conocidos como
estudios de no inferioridad o equivalencia. En cuarto lugar, hay ocasiones
en las que se considera que ese balance entre riesgos y beneficios que
llamamos equipoise puede cambiar durante el ensayo (como consecuencia
de él); si es así, interesará realizar diseños secuenciales (que tampoco
abordaremos) o programar análisis intermedios. Una posible consecuencia
del cambio en el balance riesgo/beneficio es que sea preciso suspender
el ensayo.
En realidad, las razones para terminar de forma precoz un ensayo son
fundamentalmente tres: 1) el beneficio observado del tratamiento experi-
mental es muy superior a lo esperado a priori; 2) el beneficio esperado de
la nueva intervención, si existe, es inferior a lo esperado, poco relevante y
es altamente improbable que el ensayo, en su diseño y dimensión original,
sea capaz de detectar las diferencias esperadas (finalización por futilidad
del efecto), y 3) los efectos adversos y la toxicidad del nuevo tratamiento
son superiores o más graves de lo esperado.
Existen distintos procedimientos para realizar análisis repetidos de los
datos sin afectar a la integridad estadística del análisis global, pero persiste
un importante debate sobre cuándo se dispone de suficiente evidencia para
considerar que la incertidumbre sobre el riesgo/beneficio no se mantiene
y ha de suspenderse el estudio. En cualquier caso, hay evidencias empí-
ricas de que los ensayos finalizados prematuramente por detección de un
beneficio superior al esperado suelen aumentar la incertidumbre en vez

de disminuirla, ya sea por obtener estimaciones iniciales de beneficio muy
optimistas que no se confirman en estudios posteriores, o porque se cen-
traron en variables subrogadas sin clara correspondencia con el desenlace
clínico fundamental (3,4). Por ello, la presencia de detención precoz del
estudio debe ser mirada con cautela por el lector clínico.
LOS DESENLACES
Pueden ser orientados a los pacientes u orientados a la enfermedad
(desenlaces subrogados). El catálogo de desenlaces es tan amplio como la
clínica: puede tratarse de condiciones clínicas objetivas, como, por ejemplo,
mortalidad, eventos clínicos, como accidente vascular cerebral o infarto de
miocardio o curación, pero también pueden ser síntomas, signos, percep-
ciones, habilidades, calidad de vida, etc. En unos casos son valorados o
medidos por médicos, sanitarios o cuidadores, y en otras ocasiones pueden

ser evaluados y/o comunicados directamente por el propio paciente. Sea
como fuere, será preciso evaluarlos con cuidadosa visión clinimétrica.
En otro sentido, la arquitectura del estudio permite comparar simultá-
neamente muchos desenlaces clínicos, y por ello existen en los ECA dos
jerarquías de desenlaces. Una es la investigacional, en la cual los desenlaces
(o variables) son clasificados en principal y secundarios según condicionen
o no el diseño del estudio (tamaño muestral, sistemas de medición, otros
elementos metodológicos, etc.). La otra jerarquía es la de la importancia
clínica, que depende de su influencia decisional y que, como señalamos
en el capítulo 3, podía ser de tres tipos: desenlaces críticos, desenlaces
importantes no críticos y desenlaces no importantes.
Son dos visiones obligadas a coexistir pero, desde la perspectiva del
lector, hay que plantearse dos aspectos: el primero es si son estos los de-
senlaces que necesito para mi decisión clínica o para mi investigación (es
decir, ¿es esta es mi pregunta?). El segundo es si están convenientemente
comunicadas todas las variables relevantes o, al menos, ¿están todas las
prometidas en el protocolo?
A veces un grupo de síntomas, signos o variables, considerados en
conjunto, reflejan mejor el estado de salud o el efecto del tratamiento que
tomados por separado; en esos casos hablamos de variables compuestas
(un ejemplo de ellas es la ACR 50 del capítulo 3).
En otros casos, el desenlace supone la terminación de la contribución
de un paciente al ensayo (p. ej., se produce su muerte), o se produce el
evento que estamos estudiando (infarto de miocardio, accidente vascular
cerebral). Este tipo de desenlaces se denominan «punto final» (end point).
Un caso algo especial, frecuente en algunas áreas de investigación, es el de
las variables punto final compuestas (composite end point). Se trata de una
variable combinada que mide la ocurrencia de cualquiera de los eventos
punto final que la constituyen, y puede hacerlo como ocurrencia de alguno
de ellos en el tiempo predefinido o como tiempo de ocurrencia hasta que
acaece cualquiera de los elementos de la variable punto final compuesta. Por
ejemplo, en un estudio sobre estatinas, la variable «punto final compues-
ta» podría ser el tiempo hasta la ocurrencia de cualquiera de los eventos
siguientes: infarto de miocardio fatal, infarto no fatal, accidente vascular
cerebral o accidente vascular periférico, o la ocurrencia de cualquiera de
ellas en 1 año.
Este abordaje puede tener cierto sentido biológico y/o clínico, en la
medida en que informa sobre el progreso de la enfermedad vascular en su
conjunto y es usado frecuentemente porque aumenta la probabilidad del
desenlace y con ello hace más eficiente el estudio al precisar menos tamaño de
muestra. Pero, a efectos de su lectura, debe ser mirado con suma prudencia (5)
y hemos de obtener información de cada variable por separado y en su
conjunto. En todo caso, a efectos de decidir su importancia clínica, puede
haber dificultades, porque los diferentes componentes pueden ser hetero-

géneos cualitativa y/o cuantitativamente.
En resumen, el lector debe decidir si estas son sus preguntas, si las com-
paraciones son las adecuadas, si el diseño es pertinente, si los desenlaces
son los realmente importantes para su paciente o para su investigación, y
si la población es tan distinta de su caso (o de su población de interés) que
no podrá aplicar sus resultados.
ALEATORIZACIÓN
Consiste en la asignación de cada paciente a un grupo en función
de una secuencia aleatoria que se puede generar de diversos modos
(tabla 4-2) (6). Esta es la manera que tenemos de intentar que los dos gru-
pos sean similares respecto de las variables que creemos importantes,
pero también de otras variables desconocidas. En teoría debe controlar
el sesgo de selección y el sesgo de confusión. Conceptualmente hay
dos elementos distintos en la aleatorización: uno es la generación de la
secuencia de aleatorización, y otro más pragmático es cómo se realiza el
procedimiento de asignación, especialmente si la secuencia se mantiene
oculta para quien hace el reclutamiento (ocultación de la secuencia de
aleatorización [OSA]).
TABLA 4-2 Principales formas de aleatorización

Tipo de aleatorización Procedimiento
Aleatorización simple Cada paciente tiene una probabilidad
(habitualmente la misma) de ser asignado
a uno u otro grupo, y ello no puede ser
predicho. Los métodos son moneda, tabla
de números aleatorios o generados por
ordenador (seudoaleatorios)
Aleatorización restrictiva Se impone alguna restricción al proceso de

aleatorización (p. ej., aleatorización por
«bloques» de determinado número de
pacientes) para asegurar el equilibrio de
pacientes entre los grupos
Aleatorización equilibrada Frecuentemente se desea similar número en
por covariables cada grupo, pero también asegurarse de
que los «factores pronósticos» importantes
sean similares en ambos grupos. Existen
varios mecanismos: estratificación,
estratificación + bloques o algoritmos de
minimización
Aleatorización adaptativa La asignación al tratamiento depende de las
según respuesta respuestas previas al mismo
Adaptado de McPherson GC, Campbell MK, Elbourne R. Use of randomization in clinical triasl. Trials.
2012;13:198.
SECUENCIA DE ALEATORIZACIÓN
La secuencia de aleatorización puede generarse de modo simple a través
de una tabla o sistema de números aleatorios (hasta con una moneda si hay
solo dos grupos para comparar). El problema de las secuencias generadas
así es el desequilibrio de efectivos entre grupos, que es especialmente
frecuente para ensayos pequeños. El modo de resolver este problema es
haciendo bloques de permutaciones (aleatorización restrictiva por bloques);
de ese modo, la máxima diferencia posible entre grupos en el número de in-
dividuos será igual a la mitad del tamaño del bloque. El segundo problema
posible es la distribución desigual en los grupos de los factores pronósticos
importantes, lo cual puede afectar al control del sesgo de confusión. Este
problema suele abordarse mediante la estratificación (con o sin bloques
por estrato), o mediante algoritmos de minimización (7) que resuelven el
problema de manejar muchos estratos y cuyo uso se ha popularizado en
los últimos años (2).
En cualquiera de los casos, la aleatorización genera una tendencia a la
similitud entre los grupos, pero a largo plazo (con tamaños muestrales
grandes). Sin embargo, pese a las precauciones, el azar puede produ-
cir desequilibrios en los factores pronósticos. Por tanto, la efectividad
de la aleatorización debe ser comprobada en todos los ensayos. El efecto de
la aleatorización sobre las variables conocidas suele mostrarse en la tabla 1
de los todos los ensayos (es la llamada tabla 1 de CONSORT), en la que,
por diferentes razones, no procede hacer test de significación estadística.
OCULTACIÓN DE LA SECUENCIA DE ALEATORIZACIÓN
El problema de la predictibilidad del grupo de tratamiento se debe a que
saber a qué grupo se asignará el próximo paciente puede condicionar los
comportamientos clínicos o de quien recluta (8). Imaginemos que sabemos
que el próximo paciente reclutado será asignado al grupo experimental, y
tenemos una cierta preferencia, consciente o no, por uno de los tratamientos
(el tradicional). Supongamos que estamos ante un paciente con criterios
límite de inclusión (especialmente grave) y creemos que en realidad le
beneficiaría más el tratamiento clásico; es muy posible que forcemos la
exclusión del paciente, y con ello estemos generando un sesgo de selec-
ción al favorecer el nuevo tratamiento. En resumen, conocer la secuencia
puede generar sesgos de selección y eliminar, en parte, las ventajas de la
aleatorización.
Esta OSA debe diferenciarse del cegamiento, que será comentado des-
pués. En efecto, se puede mantener la secuencia de aleatorización oculta y,
sin embargo, tratarse de un ensayo en el que se compara un procedimiento
quirúrgico con uno médico y, por tanto, es un ensayo abierto.
A efectos de lectura, la no comunicación de la secuencia suele asociarse a
otros déficits metodológicos. En cuanto a la OSA, hay consistente evidencia
empírica (9,10) de que su ausencia provoca una sobrestimación del efecto
de hasta el 40%, y es, sin duda, una de las más importantes causas de sesgo
en los ECA.
Encargar la aleatorización a la farmacia o unidad de ensayos/
epidemiología del centro, el uso de sobres opacos ordenados y numerados,
o una central de aleatorización son los métodos de afrontar el problema.
Un aspecto final que se debe señalar es que el uso de bloques y la minimi-
zación pueden, en algunos casos, hacer predecible la siguiente asignación,
y con ello desocultar la secuencia de aleatorización; esto debe ser también
considerado en la lectura.
DATOS INCOMPLETOS DE LOS DESENLACES

Como el ECA tiene un cierto horizonte temporal, es bastante verosímil
que se produzcan abandonos y pérdidas en el seguimiento de los pacientes
por distintas causas: fallecimiento, agravamiento de su enfermedad o de
alguno de los problemas concomitantes, cansancio con la rutina del ensayo
o descontento con la intervención recibida, posibles efectos indeseados,
etc. Puede también ocurrir que el paciente no abandone el estudio ni sea
excluido del mismo, pero que no se disponga de todos los datos requeridos
(missing data).
También puede ocurrir que el clínico o el investigador determinen que
el paciente no ha sido adecuadamente seleccionado para el ensayo o no
está cumpliendo adecuadamente los procedimientos establecidos en el
protocolo y decidan excluirlo del mismo. Finalmente, aunque el estudio
puede haber finalizado, algunos pacientes que no cumplieron o cambiaron
de grupo pueden ser excluidos del análisis.
Bajo este epígrafe de datos incompletos incluimos tanto las pérdidas de
datos de los pacientes, sean del origen que sean (attrition bias, sesgo de atri-
ción), como las exclusiones en el análisis de datos (análisis por intención de
tratar, por protocolo, de seguridad, etc.). Ambos casos, que comentaremos
por separado, pueden producir sesgos en la estimación de efecto.
PÉRDIDAS DE DATOS
Cualquiera que sea el mecanismo de producción de esta ausencia de
información, el resultado es que se pone en peligro el valor proporcionado
por la aleatorización. Ya no se puede asegurar el balance inicial de los
grupos y, como veremos, no es posible un verdadero análisis por intención
de tratamiento. El resultado neto del sesgo de atrición (attrition bias) no es
previsible y requiere una evaluación específica del mismo en cada ensayo.
Para su detección pueden ser de ayuda las normas de CONSORT y,
en particular, el flujograma que permite ver lo acontecido en el tiempo a
todos los pacientes seleccionados y aleatorizados. También puede ser útil
que la tabla 1 recomendada por CONSORT, que presenta las principales
características basales de los pacientes en cada grupo de tratamiento según
la aleatorización inicial, se expanda, presentando para cada grupo las
características de los pacientes que finalmente son incluidos en el análisis,

seguidas de las características de aquellos no incluidos. De esta forma, el
lector podrá valorar hasta qué punto hay diferencias entre ambos grupos
y su posible repercusión (11).
Una vez detectada la presencia y posible importancia de este sesgo,
existen diferentes estrategias a la hora de releer o reanalizar los datos. La
más intuitiva es desarrollar ciertos escenarios hipotéticos o simulaciones
para asignar valores a los datos faltantes y evaluar hasta qué punto cambian
los resultados y las conclusiones fundamentales del ensayo. Es el llamado
análisis de sensibilidad, que puede adquirir dos facetas: el «análisis en
el peor de los casos», en el que se calculan los estimadores del efecto si
todos los participantes perdidos del grupo experimental tuvieran el evento
negativo y los perdidos del grupo control no lo tuvieran; y el «análisis
en el mejor de los casos», en el que procederíamos justo al revés. De este
modo, veremos cuál es la sensibilidad de nuestra estimación a los posibles
cambios en las pérdidas.
Otra alternativa es realizar análisis ajustados por una o más covariables
que muestran desequilibrios entre los grupos que se analizan, o utilizar
determinadas técnicas estadísticas que «imputan» o asignan valores a los
datos faltantes. Existe un número creciente de metodologías analíticas,
algunas muy sofisticadas, para aquellas situaciones en las que hay datos
faltantes, pero no debemos perder la perspectiva, pues bajo la maquinaria
de los modelos estadísticos subyacen suposiciones teóricas de difícil com-
probación sobre los mecanismos que han originado la ausencia de los
datos (12).
EXCLUSIONES DEL ANÁLISIS

Imaginemos que hemos decidido evaluar la opinión de los espectadores
acerca de dos películas que se proyectan simultáneamente en las salas de
un céntrico multicine. Ambas se llenan hasta el máximo de su aforo, que es
de 200 espectadores por sala. Para averiguar la opinión de los espectadores,
esperamos a que acabe la película y nos situamos en la puerta de cada una
de las dos salas para interrogarlos acerca de si la película que acaban de
ver ha sido de su agrado o no. De la sala A salen 150 espectadores, de los
que 90 opinan favorablemente y 60 desfavorablemente; de la sala B salen
180 espectadores, de los que 90 opinan favorablemente y otros tantos des-
favorablemente. Por tanto, la película de la sala A les gustó a 90/150 = 60%
y no les gustó al 40%; con respecto a la de la sala B, les agradó al 50% y les
desagradó al restante 50%. ¿Podemos concluir con cierto fundamento que
ha sido más apreciada la película de la sala A que la de la sala B (el 60%
frente al 50%)? Sin lugar a dudas no, porque ¿qué sabemos acerca de las 50
personas del público a las que no entrevistamos a la salida de la sala A o de
las 20 perdidas de la sala B? Podría ocurrir que, al no gustarles la película, se
hubieran cambiado de sala, o que por el mismo motivo hubieran decidido
irse antes de que acabara la sesión. La mejor manera de poder calcular

adecuadamente el resultado sería usar como denominador el número
total de espectadores que entraron a la sala: para la sala A, 90/200 = 45%
con opinión positiva frente a 55% con opinión negativa, y para la sala B
90/200 = 45 y 55% respectivamente, es decir, sin superioridad de una frente
a la otra.
Este análisis, que respeta la consideración de los pacientes en el grupo en
el que fueron asignados tras la aleatorización, se conoce como análisis por
intención de tratar (AIT) y, de acuerdo con él, cada paciente es analizado
en el grupo al que fue aleatoriamente asignado, independientemente del
tratamiento recibido, de abandonos o de pérdidas de seguimiento. La otra
opción es analizar los pacientes en el grupo en el que acabaron siendo
estudiados (y donde cumplimentaron su tratamiento), lo que es llamado
análisis por protocolo (AP).
El AIT es el único que preserva la aleatorización y, en ECA dise-
ñados para demostrar superioridad, es el que debemos elegir por su
conservadurismo.
En ocasiones, la población final analizada en cada grupo no coincide
con la inicialmente aleatorizada a él. Es lo que se conoce como AIT mo-
dificado. Este tipo de análisis permite ciertas exclusiones de la población
estrictamente considerada bajo el AIT (p. ej., pacientes que nunca iniciaron
tratamiento o que fueron no elegibles tras la aleatorización) y puede tener
sentido en el análisis de los datos de seguridad de las intervenciones, ya
que es poco intuitivo (y probablemente erróneo) considerar en el deno-
minador a pacientes que no han recibido la intervención experimental o
la intervención control. Lamentablemente, el AIT modificado no ha sido
claramente definido y no hay directrices claras acerca de su aplicación, por
lo que, en ocasiones, se convierte en un instrumento para la manipulación
de los datos.
Por tanto, de lo anteriormente expuesto puede deducirse que los ob-
jetivos principales del AIT son dos (13). En primer lugar, mantener la
comparabilidad de los grupos que se alcanza tras una adecuada aleato-
rización, minimizando el sesgo de confusión. En segundo lugar, acercar
las controladas condiciones del ECA hacia el mundo de la práctica real,
en el que los pacientes fallecen antes de finalizar el tratamiento, dejan de
acudir a citas de revisión, se cambian de domicilio o violan algún criterio
de inclusión, lo que obliga a sacarlos del ensayo.
CEGADO (ENMASCARAMIENTO)
Entendemos por cegado o enmascaramiento en un ECA el procedimiento
por el cual se asegura que los participantes, los investigadores, los recolec-
tores de los datos o los que los analizan desconozcan qué intervención se
administra a cada participante. La figura 4-1 muestra algunas definiciones
relacionadas con los distintos tipos de cegado.
FIGURA 4-1 Algunas definiciones relacionadas con el cegado en los ensayos clínicos
aleatorios. ECA, ensayo clínico aleatorizado.
El posible impacto del cegado sobre las estimaciones depende del tipo
de cegado, pero también del tipo de variable que se va a medir. Teóri-
camente, el cegamiento o su ausencia pueden influir en tres aspectos.
Por una parte, pueden influir en que la solicitud y/o administración de
cuidados sea diferencial en uno u otro grupo. Por otra, pueden afectar a la
evaluación independiente de los desenlaces (por el clínico, el investigador,
o por el propio paciente). Finalmente, en los casos en los que mantenerse
en el ensayo (o en algunos de sus brazos) requiera de cierto entusiasmo del

paciente o del clínico, el cegado puede evitar que la atrición sea diferencial.
Con el cegado adecuado, en el primero de los casos evitamos el sesgo de
ejecución, en el segundo un sesgo de detección y en el tercero evitaríamos
el sesgo de atrición.
Disponemos de evidencia empírica (9,10,14) que demuestra que la ausen-
cia de cegado puede sobreestimar el efecto en más del 20%, especialmente
si los desenlaces son variables subjetivas o síntomas.
El impacto del enmascaramiento sobre la estimación del desenlace
dependerá, por tanto, de la naturaleza de este, y podrá estar afectado en las
tres formas mencionadas más arriba, por lo que, desde la perspectiva del
lector, será preciso valorar cuidadosamente en cada estudio cómo los deta-
lles concretos del cegado pueden influir sobre cada uno de los desenlaces
medidos, sobre la conducción del estudio y sobre las posibles pérdidas, al
tiempo que se analiza la información proporcionada sobre posibles roturas
del enmascaramiento para uno o más participantes por alguna circuns-
tancia del estudio.
COMUNICACIÓN SELECTIVA DE LOS DESENLACES

Es un subtipo de los sesgos de comunicación que consiste en la selección
de un subgrupo de desenlaces (o variables) para la publicación del ensayo.
Cuando se comparan las publicaciones del ensayo con el protocolo del
mismo, se observa que en el 62% de los ensayos al menos un desenlace ha
sido cambiado, introducido u omitido (15).
La comunicación selectiva de desenlaces puede adoptar formas muy
diversas: omitir un desenlace o publicarlo con insuficiente detalle para su
aplicación, omitir parte de un desenlace compuesto, etc.
Hay evidencias (16,17) de que en diseños paralelos se publican solo el
50% de los desenlaces no significativos frente al 72% de los significativos,
lo que supone una odds ratio (OR) de 2,4. Esa asimetría se mantiene tanto
para los desenlaces de daño o perjuicio (OR: 1,9; intervalo de confianza al

95% [IC 95%]: 1,1-3,5) como para los de efectividad (OR: 2; IC 95%: 1,6-2,7).
Al leer el ensayo, esta comunicación selectiva puede hacer que veamos
más fácilmente los efectos positivos y tengamos una sensación de beneficio
aparente; por otra parte, plantea problemas adicionales para las RS de ECA.
La manera más simple de explorarlo es comparar el listado de desenlaces
en la sección de material y métodos con los que luego son comunicados en
resultados y tablas. Otro modo, más interesante, es comparar la publicación
del ensayo con el protocolo previamente publicado. A este respecto, los
registros de ensayos, comentados en el capítulo 2, son de gran utilidad,
porque permiten comprobar y contrastar las variables previstas en el pro-
tocolo. Aunque en ensayos antiguos pueden no estar disponibles, en la
actualidad no es posible publicar un ensayo no registrado, debido a que
es requisito exigido por el ICMJE.
RESULTADOS
Los ECA se llevan a cabo para valorar si una determinada interven-
ción es efectiva y segura, o si proporciona alguna ventaja en términos de
riesgo/beneficio sobre una intervención de referencia. La decisión se
basará en el análisis comparativo de los resultados obtenidos en cada
grupo de intervención.
Es importante determinar cuál es la escala de medida de la variable de
desenlace principal, pues esta, a su vez, condiciona la técnica de análisis es-
tadístico y la forma de presentación de los resultados. Si la variable principal
se mide en una escala continua (p. ej., el nivel sanguíneo de un parámetro
bioquímico o la puntuación de calidad de vida relacionada con la salud
medida con el cuestionario SF-36), la forma habitual de expresar el resultado
sería proporcionar la diferencia media entre el resultado observado en el
grupo experimental y el del grupo de referencia, añadiendo información
sobre la precisión de esta estimación en forma de error estándar de la misma
o suministrando su IC. Generalmente se aconseja utilizar variables de gran
relevancia clínica, y entre ellas destacamos aquellas de tipo dicotómico o
binario (sí/no), pues se acomodan bien a la forma de trabajo del profesional
asistencial (tiene/no tiene este problema, le trato/no le trato, se cura/no se
cura, etc.). En este caso, deberemos siempre buscar los números «crudos»
(es decir, en cuántos pacientes se evaluó el desenlace y en cuántos se detectó
el resultado de interés). De esta forma se clarificará si se analizó a todos
los pacientes aleatorizados o a un subgrupo determinado. Además, con
sencillas herramientas de cálculo epidemiológicas, el clínico entrenado y
con ganas podrá fácilmente obtener y valorar a partir de ellos algunos es-
timadores del efecto quizá no presentados en el artículo y que pueden ser
de utilidad interpretativa.
Con este tipo de variables podremos encontrar los siguientes descriptores
de los resultados:
• El riesgo o probabilidad de desarrollar el desenlace de interés
(p. ej., curación) en el grupo de intervención experimental
o el del correspondiente grupo de referencia; este riesgo podrá
ser presentado en forma de una proporción (número decimal entre
0 y 1) o de un porcentaje (en escala de 0 a 100).
• La diferencia de riesgos (DR), también llamada reducción
absoluta del riesgo (RAR), refleja la diferencia en la probabilidad
de ocurrencia del desenlace entre los grupos. Una reducción de
0 equivale a igualdad de riesgo en los grupos y, por tanto, a
la ausencia de efectos diferentes de las intervenciones que se
comparan. Si se obtiene un resultado distinto de 0, habrá que valorar
la magnitud y el sentido de la diferencia.
• El llamado número necesario de pacientes que hay que tratar
(NNT). Es el inverso de la DR (RAR) y nos informa del efecto
de una intervención calculando cuántos pacientes deberían

cambiar su tratamiento o recibir el tratamiento experimental en
vez del de referencia para (en el tiempo de seguimiento utilizado
en el ensayo) conseguir un desenlace de interés adicional al que
se obtendría si recibieran la intervención de referencia. Es fácil
determinar que el inverso de 0 es infinito (una magnitud inespecífica)
y, por lo tanto, este NNT no estimable sería el que nos hablaría de la
no diferencia de efectos. El NNT es un estimador de la efectividad
de la intervención, entendida como consecución de más desenlaces
favorables o reducción de los desfavorables. Cuando queremos
referirnos a los sucesos desfavorables y, específicamente, cuando
nos referimos a efectos indeseados de una intervención (toxicidad,
efectos secundarios, etc.), se utiliza el llamado NND (NNH, en
inglés), que informa sobre cuántos pacientes tendrían que recibir
el tratamiento experimental en vez del de referencia para que
observemos un daño (harm) o suceso desfavorable (generalmente,
un efecto tóxico grave) adicional a los que se observarían con el
tratamiento de referencia o control.
• El riesgo relativo (RR) de desarrollar el desenlace de interés en
el grupo experimental respecto del grupo de control. Si el RR es
1, asumimos que la probabilidad (riesgo) del desenlace es igual
en los grupos y, por tanto, que no hay un efecto diferente de una
intervención respecto a la otra. Cifras superiores a 1 hablan de mayor
riesgo del desenlace en el grupo experimental, y cifras inferiores, de
menor probabilidad en dicho grupo. Existen otras dos medidas con
una interpretación similar al RR: a) odds ratio (OR), en la que no
comparamos las probabilidades en la forma de manejo habitual en
nuestro medio, sino en una escala diferente (comparamos las odds);
se utiliza, básicamente, porque es la forma de obtener estimaciones
de efecto en modelos de regresión multivariable que tienen en cuenta
el efecto añadido de otros factores, y b) hazard ratio (HR) o razón de

«riesgos», cuando la técnica estadística utilizada ha sido el análisis
de supervivencia (generalmente, el llamado modelo de regresión de
Cox).
No debemos olvidar que los pacientes reclutados en un ensayo son una
muestra de los pacientes existentes o de los que veremos en el futuro, y
que nuestros resultados son solo estimaciones en esa muestra. Necesita-
mos información sobre el grado de reproducibilidad de las estimaciones
(precisión). Esta información viene generalmente suministrada por los
IC. Para nuestra discusión, baste comentar que nos dan una orientación
sobre el nivel de confianza que podemos depositar en que la verdadera
magnitud del efecto de la intervención se encuentra en los valores com-
prendidos entre los dos límites del intervalo. Por costumbre se utilizan
IC 95%, asumiendo que es razonable aceptar una probabilidad de 1 entre

20 (5%) de que dicho valor se escape de los límites del intervalo, pero
este nivel puede perfectamente adaptarse a necesidades o perspectivas
particulares.
Tradicionalmente se han utilizado por los autores (y demandado por
los editores y lectores) los valores p como indicadores de la significación
estadística de los resultados. Existe una tendencia hacia una utilización cre-
ciente del estimador del efecto con su IC para informar, de forma simultá-
nea, sobre la magnitud del efecto observado, su precisión y la existencia o
no de significación estadística de los resultados. Como ejemplo ilustrativo,
presentamos los resultados del análisis del desenlace principal de varios
ECA hipotéticos (tabla 4-3).
APLICABILIDAD
Hasta el momento se han revisado los principales aspectos metodológi-
cos que pueden condicionar la validez interna de un ECA, es decir, aque-
llos aspectos que pueden llevar a cuestionar su calidad desde el punto de
vista epistemológico. Pero la lectura crítica, como herramienta básica de la
práctica basada en la evidencia, necesita ir un paso más allá para traspasar
la frontera que separa el pensar del hacer, y para ello es imprescindible que
el lector analice la aplicabilidad de los ECA a su actividad clínica real, ex-
plorando la validez externa de sus hallazgos.
Entendemos por aplicabilidad la medida en que los efectos observados en
los estudios publicados corresponderán a los resultados esperados cuan-
do una intervención específica se aplique a la población de interés bajo
TABLA 4-3 Ejemplo de cuatro ensayos clínicos aleatorios hipotéticos

Ensayo Tratamiento (n) Desenlaces DR (IC 95%) RR (IC 95%)
1 Experimental (100) 60 0,2 (0,06-0,34) 1,5 (1,12-2,00)
Referencia (100) 40
2 Experimental (30) 18 0,2 (–0,05-0,45) 1,5 (0,89-2,54)
Referencia (30) 12
3 Experimental (100) 55 0,05 (–0,09-0,19) 1,11 (0,84-1,46)
Referencia (100) 50
4 Experimental (2.000) 1.100 0,05 (0,02-0,08) 1,11 (1,04-1,18)
Referencia (2.000) 1.000
El desenlace de interés es favorable. Los ensayos 1 y 2 muestran cómo un efecto importante (grande)
puede no ser detectado como estadísticamente significativo en un ensayo pequeño (ensayo 2). Los
ensayos 3 y 4 muestran cómo un efecto moderado o pequeño puede alcanzar significación estadística
si el ensayo tiene el suficiente tamaño (ensayo 4). Todos los casos muestran cómo los IC proporcionan
simultáneamente información sobre la precisión de los resultados y sobre su (o la ausencia de)
significación estadística. Obsérvese la inexistencia de valores p en la tabla.
DR, diferencia de riesgos; IC 95%, intervalo de confianza al 95%; RR, riesgo relativo.
Modificado de Gardner MJ, Altman DG. Confidence intervals rather than P values: estimation rather than
hypothesis testing. BMJ. 1986;272:746-750.
condiciones de práctica real. La valoración de la aplicabilidad consiste en

el establecimiento de un juicio sobre la base de la similitud/diferencia entre
la población del ensayo y mi(s) paciente(s), el acceso a las intervenciones
estudiadas y la posibilidad real de administrar las mismas, la aceptación
clínica y ética del tratamiento de referencia y de las comparaciones rea
lizadas, así como la importancia y pertinencia de al menos algunos los
desenlaces evaluados.
La valoración de la aplicabilidad puede ser un ejercicio individual o
colectivo (p. ej., un grupo de trabajo en un centro de salud, una sección
o servicio hospitalarios, etc.). Es un proceso en general fuertemente
modulado por la experiencia del profesional/equipo y por diversos
condicionantes de su entorno profesional (capacidad de acceso a nuevas
tecnologías, preferencias de los pacientes y familiares, incentivos positi-
vos y negativos al cambio, situación económica, etc.). Se trata, por tanto,
de un proceso que combina las evidencias de diversa índole con otros co-
nocimientos prudenciales, y con valores del paciente y de la comunidad.
Algunas dificultades para la aplicación de la evidencia relacionadas con
la lectura crítica de los ECA y las RS serán tratadas en el próximo capítulo.
Ahora cabe señalar que la integración de evidencias, otros conocimientos
y valores puede hacerse intuitivamente o mediante el uso de modelos
formales de análisis de decisiones. Esta cuestión es sin duda de enorme
interés, pero está lejos de los objetivos de este libro.
ARTÍCULO
• Artículo: Allen SJ, Wareham K, Wang D, Bradley C, Hutchings H,

Harris W, et al. Lactobacilli and bifidobacteria in the prevention of
antibiotic-associated diarrhoea and Clostridium difficile diarrhoea
in older inpatients (PLACIDE): a randomised, double-blind,
placebo-controlled, multicentre trial. Lancet. 2013;382:1249-57.
Disponible en: http://www.thelancet.com/journals/lancet/article/

PIIS0140-6736(13)61218-0/fulltext.
• Apéndices disponibles en: http://download.thelancet.
com/mmcs/journals/lancet/PIIS0140673613612180/mmc1.
pdf?id=jaaAlMoroGUVz-vmVa8Cu.
• Protocolo disponible en: http://www.biomedcentral.com/content/
pdf/1471-2334-12-108.pdf.
PLANTILLA CASPE CONTESTADA

PARA ESTE ARTÍCULO CONCRETO
En el cuadro 4-1 se muestra la plantilla CASPe contestada para este

artículo concreto.
CUADRO 4-1
E VA L U A C I Ó N C R Í T I C A D E L A R T Í C U L O
PROPUESTO (PLANTILLA CASPE)
A) ¿Son válidos los resultados del ensayo?
Preguntas de eliminación
1. ¿Se orienta Sí ✓ No sé No
el ensayo a La población estaba constituida por pacientes de 65 años
una pregunta o más, ingresados y expuestos a antibióticos orales o
claramente intravenosos en los 7 días previos o que iban a iniciar el
definida? tratamiento en breve. Se excluyeron pacientes en los que
PISTA: una pregunta ya existía diarrea, inmunocomprometidos, dependientes o
debe definirse en necesitados de cuidados intensivos, portadores de válvulas
términos que se cardíacas, con DCD en los 3 meses previos, con enfermedad
definen con el inflamatoria intestinal que hubiera precisado tratamiento
acrónimo PIO: en los 12 meses previos, con sospecha de pancreatitis
– La población de aguda, alimentados por yeyuno, con anomalías de los
estudio vasos mesentéricos, con historia de reacciones adversas
– La previas a preparaciones microbianas o que se negaron a
intervención abandonar el uso de preparaciones microbianas en uso.
realizada La intervención consistió en la administración de
– Los resultados un preparado liofilizado de 6 × 1010 bacterias vivas
(outcomes) compuesto por diversas cepas de Lactobacillus acidophilus,
considerados Bifidobacterium bifidum y B. lactis en la dosis de una
cápsula diaria durante 21 días con comidas y a ser
posible entre las tomas de antibiótico, que se comparó
con placebo de aspecto similar.
Los outcomes o resultados primarios que se midieron
fueron la aparición de DAA en las ocho semanas
siguientes a la inclusión en el ensayo y/o DCD en las 12
semanas siguientes. Se consideró DAA la evacuación de
tres o más heces diarreicas en un período de 24 h y que
se produjo asociada a tratamiento antibiótico sin que se
pudieran detectar patógenos o explicaciones alternativas,
mientras que se requirió detección de toxina de C. difficile
para considerar la DCD. Finalmente, se incluyeron como
resultados secundarios la duración y gravedad de la
DAA y la DCD, los síntomas abdominales, los eventos
adversos graves, la duración de la estancia hospitalaria,
la aceptabilidad del preparado microbiano y la calidad de
vida (escala SF12 v2).
CUADRO 4-1 (cont.)
En términos más generales, la pregunta que se

plantearon los investigadores parece que fue: en
pacientes ingresados mayores (de 65 años) que han tomado
recientemente antibióticos o que van a iniciar su uso, ¿puede
la administración de preparados que contienen colonias
microbianas (del tipo de los llamados probióticos) reducir la
aparición de diarreas relacionadas con los antibióticos y la
aparición de diarreas causadas por el C. difficile?
2. ¿Fue aleatoria la Sí ✓ No sé No
asignación a los La aleatorización se llevó a cabo por bloques de
tratamientos? tamaño variable generados por un ordenador en
¿Se mantuvo oculta proporción 1:1, estratificando por centro. Este modelo
la secuencia de de aleatorización por bloques permitió que, a pesar
aleatorización? del elevado número de participantes (2.981), estos se
distribuyeran en los grupos de manera muy similar
(1.493 en el grupo activo y 1.488 en el grupo placebo).
La secuencia de aleatorización no estuvo disponible
para ninguno de los miembros del equipo de
investigación durante el reclutamiento ni durante el
seguimiento, por lo que puede afirmarse que se respetó
la ocultación de la secuencia de aleatorización.
Dada la presumible seguridad de los probióticos, no
hubo copias disponibles de las claves para ser abiertas
en caso de efectos adversos y así poder conocer con
certeza qué contenía la cápsula que estaba tomando un
paciente concreto
(Continúa)
CUADRO 4-1 (cont.)
3. ¿Fueron Sí ✓ No sé No
adecuadamente En el ensayo se declara que se hizo el análisis de resultados
considerados tanto de eficacia como de seguridad de acuerdo con un
hasta el final del modelo de intención de tratar «modificado», de manera que
estudio todos se excluyó a los pacientes que abandonaron inmediatamente
los pacientes tras la aleatorización, a los que no recibieron la intervención
que entraron o de los que no se disponía de datos de seguimiento. Ello
en él? supuso la pérdida de 23 pacientes en el grupo activo (1,54%)
– ¿El y de 17 (1,14%) en el grupo placebo, pérdidas que pueden
seguimiento considerarse como razonables.
fue completo? Llaman la atención dos aspectos que justifican la
– ¿Se etiqueta de «modificado»: en uno de los grupos se excluyó
interrumpió del análisis a seis pacientes porque habían sido reclutados
precozmente el dos veces en el ensayo a lo largo del tiempo.
estudio? Aunque el protocolo no hace ninguna mención a que un
– ¿Se analizaron paciente solo pueda ser reclutado una vez y técnicamente
los pacientes eran pacientes elegibles, los investigadores decidieron, en
en el grupo contra de un criterio puro de «intención de tratamiento»,
al que fueron retirarlos del análisis. Los investigadores probablemente se
aleatoriamente encontraron con una «laguna inesperada» en el protocolo
asignados? y decidieron retirarlos, considerando que la segunda
participación de los pacientes podría estar «contaminada»
por la primera y posiblemente también que eran solo seis
casos. El otro aspecto llamativo es que hubo siete casos (seis
en el grupo de intervención y uno en el grupo placebo) en
los que no se pudo saber qué habían tomado, al haberse
producido un error en el etiquetado de los contenedores
de la medicación. Si disponemos de la secuencia de
aleatorización y es posible identificar a los pacientes a partir
de ella, el principio de intención de tratamiento llevado a sus
últimas consecuencias nos obligaría a incluir a esos pacientes
en el grupo de tratamiento determinado por la secuencia (el
tratamiento que el proceso de aleatorización seleccionó). Los
investigadores retiraron a los pacientes del análisis.
De forma complementaria, realizaron un análisis de los
pacientes seleccionados de acuerdo con el cumplimiento
total o de un grado mínimo del protocolo (análisis por
protocolo). Este análisis está, en general, más sujeto a
posibles sesgos en la determinación de a qué individuos
se analiza y a cuáles no. En este ensayo, los autores no
presentan los resultados, pero indican que llevan a las
mismas conclusiones
CUADRO 4-1 (cont.)

Preguntas detalladas
4. ¿Se mantuvieron Sí ✓ No sé No
ciegos al De acuerdo con lo declarado en el ensayo, el placebo fue
tratamiento una cápsula de aspecto idéntico al medicamento activo,
los pacientes, con lo que el cegado del paciente parece asegurado.
los clínicos y Aunque no se especifica claramente ni en el
el personal del trabajo ni en el protocolo previamente publicado si el
estudio? personal que hizo el seguimiento durante el ingreso
– Los pacientes o los estadísticos que trataron los datos conocían la
– Los clínicos intervención, en el resumen sí se hace constar que todos
– El personal de los agentes desconocían la asignación
estudio
5. ¿Fueron Sí ✓ No sé No
similares los Una aleatorización escrupulosa y no trucada sobre
grupos al una muestra suficientemente amplia proporciona
principio del siempre grupos muy similares en los que todas
estudio? las características, tanto las conocidas como las
PISTA: en términos desconocidas, se distribuirán por igual. En la tabla 1 del
de otros factores que ensayo puede verse un reflejo claro de lo antedicho
pudieran tener efecto
sobre el resultado:
edad, sexo, etc.
6. Al margen de la Sí ✓ No sé No
intervención en La tabla 2 del artículo original recoge la antibioterapia
el estudio, ¿los de ambos grupos, sin que puedan apreciarse diferencias
grupos fueron entre ellos.
tratados de igual Por otra parte, la medicación no antibiótica

modo? también fue similar entre grupos: antihipertensivos,
ácido acetilsalicílico, inhibidores de la bomba de
protones, hipoglucemiantes orales, antiinflamatorios
no esteroideos, insulina y antisecretores anti-H2 se
repartieron de manera equivalente.
Puesto que la toma de laxantes o de inhibidores
de la motilidad intestinal no era criterio de exclusión,
hubiera sido conveniente conocer si estas características
se repartieron homogéneamente entre los grupos,
aunque, dado lo amplio de la muestra y lo estricto de
la aleatorización, que se ha comentado en el apartado
anterior, es presumible que haya sido así
(Continúa)
CUADRO 4-1 (cont.)

B) ¿Cuáles son los resultados?
7. ¿Cómo de No hubo diferencias estadísticamente significativas (ni
grande fue clínicamente llamativas) entre ambos grupos en la incidencia
el efecto del de DAA (incluida la DCD): el 10,8% en el grupo de probióticos
tratamiento? y el 10,4% en el grupo placebo (RR: 1,04; IC 95%: 0,84-1,28).
¿Qué resultados se Si se desagrega específicamente la DCD, tampoco hay
midieron? diferencias: el 0,8% en el grupo de probióticos frente al 1,2%
en el grupo placebo (RR: 0,71; IC 95%: 0,34-1,47).
Es curioso mencionar que en el resumen y en el texto
aparecen los datos en forma de RR, mientras que en la
tabla 3 aparecen como OR; puede verse que los valores
son muy similares, dado lo bajo de los valores de RR
(inferiores a 3) y la baja frecuencia de los sucesos de
interés. El análisis multivariante mostró que los factores
de riesgo de desarrollo de DAA fueron la duración del
tratamiento antibiótico (también para la DCD), el uso de
antisecretores y la duración de la estancia hospitalaria.
La ausencia de diferencias entre los probióticos y el
placebo que se obtuvo en este ensayo vino a contradecir un
buen número de estudios previos en los que los preparados
microbianos sí habían mostrado superioridad frente al
placebo. En el artículo se analizan y comentan algunos de
ellos, con NNT que van desde 9 en los de resultados más
modestos (IC 95%: 5-125; RAR: 11,3%; IC 95%: 0,8-21,9)
hasta 5 en los más espectaculares (IC 95%: 3-16; RAR:
21,6%; IC: 95% 6,6-36,7) (figura 4 del artículo original).
El cálculo de los RR, RAR, IC 95% y NNT puede
hacerse con la ayuda de una hoja Excel® que Joaquín Primo
desarrolló para CASPe y que está accesible de manera libre
en su web: http://redcaspe.org/drupal/?q=node/30.
Tampoco hubo diferencias en la estancia hospitalaria
(4 días, con rango intercuartílico de 1-11 para el grupo
de probióticos frente a los mismos valores para el grupo
placebo), en la duración y gravedad de la diarrea, en los
síntomas asociados a esta, en los efectos adversos graves
ni en la calidad de vida.
Aunque el tamaño de la muestra se calculó para el total
de la población y el resultado principal, hubiera sido de
interés conocer los datos de incidencia de DAA y DCD
en los pacientes pertenecientes a los subgrupos de mayor
riesgo, por ver si en ellos existía efecto de los probióticos
CUADRO 4-1 (cont.)
8. ¿Cómo es la La amplitud de la muestra permite apreciar los resultados

precisión de con un intervalo de confianza estrecho, por lo que los
la estimación resultados pueden considerarse razonablemente precisos
del efecto del (v. datos de IC 95% en la pregunta 7 de esta plantilla).
tratamiento? Aunque el IC 95% del RR para la variable principal
¿Cuáles son sus es compatible con reducciones de la incidencia de hasta
intervalos de el 16% en una escala relativa, en una escala absoluta se
confianza? traduciría en pequeñas disminuciones (2-3%)
C) ¿Pueden ayudarnos estos resultados?

9. ¿Pueden Sí ✓ No sé No
aplicarse estos En principio parece que las características de la población
resultados escogida representan bien a las de una población
en tu medio anciana normal de cualquiera de nuestros centros:
o población edad, pluripatología, politerapia, causas de inicio
local? del tratamiento antibiótico, tipo de agente utilizado,
¿Crees que los etc. Una duración inusualmente alta del tratamiento
pacientes incluidos (aproximadamente en la tercera parte de los pacientes
en el ensayo son fue mayor de 14 días) podría explicarse por el medio
suficientemente hospitalario en el que se produjo el reclutamiento.
parecidos a tus Una duda que se plantea es si la dosis de probiótico
pacientes? utilizada y la duración del tratamiento fueron las
correctas. Este es un aspecto difícil de precisar. Tanto la
dosis (entendida como cantidad de microorganismos
administrada) como los preparados utilizados en los
otros ensayos que se mencionan en el artículo y que se
metaanalizan en la figura 4 fueron muy variables, y se

utilizaron desde preparados comerciales de alimentación
hasta inóculos puros. La duración de la intervención fue
algo más homogénea, y osciló desde la cobertura temporal
del tratamiento antibiótico hasta 1 semana después
10. ¿Se tuvieron Sí ✓ No sé No

en cuenta La medida del cumplimiento del plan terapéutico se
todos los conoció prácticamente para todos los pacientes del
resultados de ensayo y fue similar en ambos grupos: algo más de la
importancia mitad de cada uno tomó las 21 dosis (el 53,1% en el grupo
clínica? de intervención y el 52,3% en el grupo control); solo un
24,5% de ambos grupos tomaron menos de 14 dosis
(Continúa)
CUADRO 4-1 (cont.)
11. ¿Los Sí No sé No ✓
beneficios que A pesar de la excelente tolerabilidad de los probióticos,
se esperan los resultados negativos del ensayo, con no detección
obtener de diferencias entre probióticos y placebo en todos los
justifican los resultados considerados, hacen inefectiva la intervención
riesgos y los estudiada. No hay ninguna certeza de que se vayan a
costes? obtener beneficios clínicos
Es improbable que
pueda deducirse
del ensayo, pero
¿qué piensas tú al
respecto?
DAA, diarrea asociada a antibióticos; DCD, diarrea por Clostridium difficile; IC 95%, intervalo
de confianza al 95%; NNT, número necesario de pacientes que hay que tratar; OR, odds ratio;
RAR, reducción absoluta del riesgo; RR, riesgo relativo.
RESOLUCIÓN DEL ESCENARIO
El artículo analizado corresponde a un ECA de buena calidad, con una

muestra amplia de pacientes y con conclusiones sumamente sólidas acerca
de la diferencia de efectos entre los probióticos y el placebo en la indicación
estudiada. Sin embargo, a pesar de la contundencia de los resultados y de su
peso relativo (epidemiológicamente hablando), el metaanálisis combinado
con estudios similares que los mismos autores llevan a cabo (v. figura 4
del artículo original) muestra superioridad significativa de los probióti-
cos. Manejar estas incertidumbres no siempre es fácil para el clínico, y la
aplicabilidad individualizada en la práctica diaria requiere un profundo
ejercicio de reflexión crítica.
Aunque el tema de la heterogeneidad (clínica y/o estadística) se
planteará con mayor detalle en el capítulo 5, es necesario para resolver
nuestro escenario analizar las características principales de los estudios
que aparecen en la mencionada figura 4. Todos los estudios se llevaron
a cabo en pacientes ancianos, pero el inicio y duración del tratamiento
con los probióticos difirieron entre estudios, así como, y esto lo conside-
ramos más relevante, el preparado utilizado, que varió desde yogures
comerciales a mezclas estandarizadas de cepas bacterianas concretas.
Otro aspecto que habría que considerar sería la calidad de los estudios
incluidos en el metaanálisis, que puede ser inferior a la del EC evaluado.
Ello requeriría, sin embargo, un tremendo esfuerzo por parte del clínico,
leyendo y evaluando varios ensayos, salvo que ese trabajo ya haya sido
realizado y sea accesible.
En el escenario planteado, resulta difícil concluir algo definitivo acerca
de la superioridad de los probióticos, dadas las evidencias contradictorias
entre el ensayo y el metaanálisis. A la hora de aplicarlas a nuestro paciente,
Julio, habría que considerar también otros factores de riesgo de DAA, como
la ingesta o no de inhibidores de la bomba de protones. Finalmente, y
sopesando las ambigüedades existentes, la mejor solución pasará, sin duda,
por la decisión conjunta y valorada entre Julio y tú.
Bibliografía
1. Glasziou P, Chalmers I, Rawlins M, McCulloch P. When are randomised trials unnecessary?
Picking signal from noise. BMJ. 2007;334:349-351.
2. Higgins JPT, Altman DG, Sterne JAC on behalf of the Cochrane Statistical Methods Group
and the Cochrane Bias Methods Group. Chapter 8: Assessing risk of bias in included
studies. En: Higgins JPT, Green S, editors. Cochrane Handbook for Systematic Reviews
of Interventions. Version 5.1.0 [updated March 2011]. The Cochrane Collaboration; 2009.
Disponible en: www.cochrane-handbook.org.
3. Montori V, Devereaux PJ, Adhikari NK, Burns KE, Eggert CH, Briel M, et al. Randomized
trials stopped early for benefit: a systematic review. JAMA. 2005;294:2203-2209.
4. Cannistra SA. The ethics of early stopping rules: who is protecting whom? J Clin Oncol.
2004;22:1542-1545.
5. Montori VM, Permanyer-Miralda G, Ferreira-González I, Busse JW, Pacheco-Huergo V,
Bryant D, et al. Validity of composite end points in clinical trials. BMJ. 2005;330:594-596.
6. McPherson GC, Campbell MK, Elbourne R. Use of randomization in clinical trials. Trials.
2012;13:198.
7. Altman DG, Bland JM. Treatment allocation by minimisation. BMJ. 2005;330:843.
8. Schulz KF, Grimes DA. Allocation concealment in randomised trials: defending against
deciphering. Lancet. 2002;359:614-618.
9. Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical evidence of bias. Dimensions of
methodological quality associated with estimates of treatment effects in controlled trials.
JAMA. 1995;273:408-412.
10. Wood L, Egger M, Gluud LL, Schulz KF, Juni P, Althman DG, et al. Empirical evidence
of bias in treatment effect estimates in controlled trials with different interventions and
outcomes: meta-epidemiological study. BMJ. 2008;336:601-605.
11. Dumville JC, Torgerson DJ, Hewitt CE. Reporting attrittion in randomised controlled trials.
BMJ. 2006;969-971.
12. Thabane L, Mbuagbaw L, Zhang S, Samaan Z, Marcucci M, Ye Ch, et al. A tutorial on sen-
sitivity analyses in clinical trials: the what, why, when and how. BMC Med Res Methodol.
2013;13:92.
13. Montori VM, Guyatt GH. Intention-to-treat principle. CMAJ. 2001;165:1339-1341.
14. Egger M, Ebrahim S, Smith GD. Where now for meta-analysis? Int J Epidemiol.
2002;31:1-5.
15. Chan AW, Hrobjartson A, Haahr MT, Gotzszhe P, Althman DG. Empirical evidence for
selective reporting of outcomes, in randomized trials: comparison of protocols to published
articles. JAMA. 2004;291:2457-2465.
16. Chan AW, Althman DG. Identifying outcome reporting bias in randomized trial son
Pubmed review of publications and survey of authors. BMJ. 2005;330:753.
17. Dwan K, Altman DG, Arnaiz JA, Bloom J, Chan AW, Cronin E, et al. Systematic review of
the empirical evidence of study publication bias and outcome reporting bias. PLoS ONE.
2008;3:e3081.

López E, Pijoan JI, Cabello JB. Lectura crítica de estudios de tratamiento. Ensayos clínicos
aleatorios. En: Cabello Juan B, editor. Lectura crítica de la evidencia clínica. Barcelona: Elsevier;
2015. p. 35-62.
C A P Í T U L O
5
de tratamiento.
Revisiones sistemáticas
de ensayos clínicos aleatorios
Vicente Ruiz García, Rafael Carbonell Sanchís
e Iratxe Urreta Barallobre

• Definir revisión sistemática (RS) y otros tipos de revisiones.
• Enumerar los elementos clave que definen la validez de una revisión
sistemática.
• Conocer las síntesis cualitativa y cuantitativa (metaanálisis).
• Entender la importancia de las revisiones sistemáticas para fundamentar
nuestra toma de decisiones ante nuestros pacientes.
• Reflexionar sobre los problemas de aplicación de la evidencia
sobre tratamiento.
INTRODUCCIÓN
Cuando buscamos una respuesta a una pregunta clínica, poner toda

nuestra confianza en un solo estudio puede ser arriesgado. Si tenemos
que tomar una decisión clínica, lo mejor sería hacerlo apoyándonos en
todos los estudios disponibles sobre el problema en cuestión. La mejor

solución es una visión de conjunto, pues valorar todos los estudios re-
quiere mucho tiempo y podríamos encontrar que los estudios muestren
resultados diferentes, bien porque se han realizado en diferentes lugares,
con diferentes grupos de personas, con diferentes estados evolutivos de
enfermedad y/o con tratamientos no exactamente iguales. Por otra parte,
la velocidad con que se publican nuevos estudios impide estar seguros
de que conocemos toda la información sobre un aspecto determinado de
un problema.
Las revisiones de la literatura médica son una buena solución a este
problema, pues presentan una visión de un determinado problema médico,
bien sobre tratamiento, diagnóstico o pronóstico.
Las RS pueden ser de estudios observacionales, de pruebas diagnós-
ticas o pronósticos, pero su uso más generalizado es sobre estudios de
tratamiento, es decir, con ensayos clínicos (EC). Frecuentemente pueden ir
acompañadas de un metaanálisis, que es la combinación estadística de los
resultados de diferentes estudios independientes sobre un mismo tema.
Como continuación del capítulo 4, en este capítulo abordaremos las RS de
estudios sobre efectividad de un tratamiento.
ESCENARIO
Un enfermo que acude a tu consulta te pregunta si merece la pena incluir

a su padre en un nuevo programa de telemedicina para el control de su
diabetes.
Su padre tiene 84 años y desde hace más de 15 años tiene diabetes
tipo II tratada con metformina. Se maneja bien con los medidores de
glucemia y mantiene unas cifras habituales alrededor de 230 mg/l
(hemoglobina glucosilada: 8,3%), salvo los fines de semana, que salen
más elevados. Por lo demás, su padre es hipertenso, con cifras habituales
de 150/95 mmHg, tiene un colesterol total de 240 mg/dl y una cifra de
lipoproteínas de alta densidad de 53 mg/dl. No ha padecido ningún
evento cardiovascular.
El enfermo se siente atraído por la posibilidad de que esté mejor con-
trolado pero, por otra parte, no sabe si introducir llamadas diarias va a
producir más estrés para su padre, que usa audífono y se pone nervioso
cuando no entiende bien al teléfono. En realidad, el enfermo quiere una
contestación inmediata, pero le contestas que tienes que revisar el tema.
Buscas y encuentras un artículo (1) que aparentemente contesta a la cues-
tión y te preguntas:
• ¿Es útil el control por telemedicina para mejorar las glucemias
en la diabetes?
• ¿Le recomendarías este programa al padre del enfermo?
5. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. REVISIONES SISTEMÁTICAS... 65

DE UNA REVISIÓN SISTEMÁTICA
¿QUÉ DIFERENCIA A UNA REVISIÓN SISTEMÁTICA

FRENTE A UNA REVISIÓN TRADICIONAL?
Las revisiones tradicionales o narrativas son útiles para obtener una
visión general sobre un problema clínico, expresan el punto de vista del
autor de la revisión, a menudo un experto en el tema, quien utiliza su
peculiar forma de buscar y resumir las pruebas científicas y las opiniones
en que se sustentan. Suelen ser atractivas, pues concentran la visión de la
autoridad en la materia en un breve resumen, pero no proporcionan una res-
puesta fiable y no sesgada al problema clínico, pues suelen ser incompletas
y representan un punto de vista personal del autor, siendo, en general, no
reproducibles. En la medida en que no son reproducibles, no se pueden
considerar como material científico, sino como artículos de opinión.
Las RS intentan reunir toda la evidencia empírica que se ajuste a los crite-
rios de elegibilidad especificados previamente con el fin de responder a una
pregunta de investigación concreta. Usan métodos explícitos y sistemáticos
con el fin de minimizar sesgos, por lo tanto, proporcionan resultados más
fiables a partir de los cuales se pueden extraer conclusiones y decisiones.
Las características clave de una RS son (2):
• Un claro conjunto de objetivos con los criterios de elegibilidad
predefinidos para los estudios.
• Una metodología explícita y reproducible.
• Una búsqueda sistemática que trata de identificar todos los estudios
que satisfagan los criterios de elegibilidad.
• Una evaluación de la validez de las conclusiones de los estudios
incluidos, por ejemplo, a través de la evaluación del riesgo de sesgo.
• Una presentación sistemática y una síntesis, que incluya
las características y los hallazgos de los estudios incluidos.

Existen diversos lugares donde poder encontrar RS, como son: en las
bases de datos Medline y Embase a través del filtro metodológico de RS, en
la Database of Abstracts of Reviews of Effects (DARE), en la Biblioteca Co-
chrane, bien en inglés (Cochrane Library), bien en castellano (la biblioteca
Cochrane Plus).
PICO
La RS debe responder a una pregunta claramente formulada. La mejor
forma de hacerlo es mediante el acrónimo PICO, ya comentado al abordar
el EC en el capítulo 3.
P (participantes). Los participantes en las RS son los estudios
originales, en este caso los EC realizados sobre pacientes que
presentan una determinada condición objeto de nuestro interés.

A diferencia del PICO de los ensayos, la incorporación de poblaciones
diferentes a través de los estudios (edades, diferentes estadios
evolutivos, etc.) introduce una fuente de heterogeneidad que no
aparece en los ensayos. Habitualmente, en los textos se referencia
que la unidad de análisis son los estudios. Solo en los metaanálisis
de pacientes individuales la unidad de análisis son los enfermos. Estos
se confeccionan con los datos crudos de los ensayos a los que acceden
los investigadores, lo que permite explorar más información relevante.
I (intervención). La intervención objeto de la revisión es el tratamiento,
sea un fármaco concreto, un grupo de ellos o cualquier otra actuación
terapéutica, que ha sido sometida a prueba en los ensayos originales.
C (comparación). La comparación es la acción con la que se somete
a prueba la nueva intervención objeto del estudio. La comparación
puede ser un tratamiento ficticio, un placebo, el tratamiento habitual
de la enfermedad o incluso el mismo tratamiento en dosis diferentes o
con vías de administración diferente.
O (outcomes-resultados). Los resultados son los eventos producidos
objeto de la investigación. No todas las preguntas se contestan en
una revisión y, en ocasiones, se necesita más de una revisión para
contestar todas las preguntas relevantes. Los resultados deben ser
lo más definidos posibles a través de la descripción de los métodos
diagnósticos que se usaron, las escalas de medida, los umbrales a
los que se ajustaron, el tiempo al que se midieron los resultados y
las unidades de medida usadas. En el caso de usar escalas, hay que
detallar los valores superiores e inferiores, y la explicación de qué se
debe considerar favorable, si los valores más altos o los más bajos.
Un asunto de importancia es lo ambigua o precisa que sea una pregunta
clínica, pues las respuestas serán igualmente ambiguas o precisas. Esta
cuestión varía con los criterios de inclusión de los participantes en los es-
tudios, en este caso los EC.
Ejemplo de pregunta: en los enfermos con enfermedad pulmonar obs-
tructiva crónica moderada en situación de estabilidad clínica, ¿cuál de estos
dos fármacos, b2 adrenérgicos o los corticoides inhalados, disminuye el
número de reingresos urgentes? (cuadro 5-1).
EXHAUSTIVIDAD EN LA BÚSQUEDA DE LA INFORMACIÓN

PUBLICADA Y NO PUBLICADA
Este es un punto cardinal de las RS. Se trata de buscar toda la información
existente pertinente, publicada o no, para responder la pregunta clínica. En
el caso de las RS sobre tratamiento, se trata de buscar todos los EC exis-
tentes. La amplitud o la precisión de la pregunta clínica determinarán la
amplitud de la búsqueda de la información.
CUADRO 5-1
E J E M P L O D E P R E G U N TA
B I E N F O R M U L A D A A T R AV É S
D E L A C R Ó N I M O P I C O . PA C I E N T E S ,
I N T E RV E N C I Ó N , C O M P A R A C I Ó N
Y O U T C O M E ( R E S U LT A D O )
Participantes
• Adultos con EPOC moderada, estables
Intervención
• b2 adrenérgicos inhalados
Comparación
• Corticoides inhalados
Outcome
• Ingresos hospitalarios por reagudización
• Sensación de disnea
• Pruebas funcionales respiratorias
• Efectos adversos
EPOC, enfermedad pulmonar obstructiva crónica.
La búsqueda se inicia en las bases de datos que cubren la mayoría de los

EC: Medline, Embase y el Cochrane Central Register of Trials (CCRT). Exis-
ten numerosas bases de datos, muchas de ellas específicas de determinadas
áreas de la salud. A modo de ejemplo, CancerLit es una base de datos sobre

oncología; CiNAHL es una base de datos centrada en temas de enfermería;
Web of Science (WOS) es una base de datos que incluye material del ámbito
universitario y de congresos científicos, etc. En cualquier caso, la elección
de las bases de datos dependerá de los problemas clínicos que se aborden.
Los registros de EC, como http://controlled-trials.com, http://
clinicaltrials.gov y el World Health Organization Trial Portal, son bases
de datos internacionales que constituyen una de las mayores fuentes de
información sobre EC controlados del mundo. Su función principal es
aportar información sobre EC en proceso, pero contienen información sobre
los ya finalizados. No es infrecuente encontrar ensayos con información de
resultados ya disponible pero aún sin publicar y, por tanto, no accesible en
las bases de datos que hemos citado previamente. Son, por tanto, bases de
datos de consulta obligatoria en las RS sobre tratamiento.
La búsqueda exhaustiva debe incluir el seguimiento de las referencias

de los estudios más importantes, así como los libros de resúmenes de
congresos sobre el tema en cuestión, las tesis doctorales, y el contacto
con los expertos y con la industria fabricante del tratamiento objeto de
la revisión.
El otro punto fundamental de la búsqueda de la información es que
las estrategias de las búsquedas sean reproducibles. La RS debe incluir estas
estrategias que describan la forma en la que se interrogaron las diferentes
bases de datos.
SESGO DE PUBLICACIÓN
Resulta imposible asegurar que una RS incluye todos los estudios exis-
tentes sobre un tema. Puede ocurrir que algunos ensayos no estén publica-
dos, bien porque no han finalizado o porque los autores o los patrocinadores
no lo han considerado oportuno. Se sabe que los estudios financiados por la
industria farmacéutica tienen más posibilidades de ser publicados. También
se publican antes si incluyen resultados clínicos en vez de resultados su-
brogados, o si incluyen tamaños muestrales de más de 1.000 pacientes y
muestran resultados positivos (3).
Cuando se revisaron todos los ensayos producidos sobre 12 antidepresi-
vos registrados en la FDA, se comprobó que, de los 38 que dieron resultados
a favor del fármaco, 37 se publicaron. Sin embargo, de los 36 ensayos que
dieron un resultado en contra del fármaco, solo tres se publicaron (4).
Esta clara asimetría deja claro que, además de las tradicionales fuentes
de información, que son las publicaciones científicas, necesitamos buscar
más información al respecto.
Hoy en día, la información sobre un fármaco como Tamiflu® para la gripe
sigue siendo privada por parte de la industria (5,6).
Esta diferencia entre lo que se produce científicamente y lo que se publica
es un grave problema de características éticas, porque induce a la pres-
cripción de productos que no son eficaces, con la consiguiente repercusión
sobre la salud de las personas y el coste adicional que supone para finan-
ciadores y pacientes. En realidad, es un problema en el que estamos todos
concernidos como científicos, pero también como ciudadanos, y en el que
todos los responsables (reguladores como la Food and Drug Administration
y la European Medicines Agency, promotores de la industria farmacéutica,
comités de EC, asociaciones de pacientes y ciudadanos en general, enfermos
o potencialmente enfermos en cualquier caso) deberíamos apoyar la trans-
parencia al respecto. Iniciativas como Alltrials.org se han desarrollado para
presionar a que toda la investigación producida sea pública en el menor
tiempo posible.
Cuando los autores o patrocinadores deciden no publicar cierto material
del ensayo por la magnitud del resultado, la dirección del mismo o la significa-
ción estadística, se produce un sesgo conocido como reporting bias (7). Cuando
es todo el ensayo lo que no se publica, se produce un sesgo denominado

sesgo de publicación o publication bias.
Existen diferentes formas de sugerir la presencia de sesgo de publicación
a partir de gráficos y de pruebas estadísticas.
El funnel plot, o gráfico de embudo invertido, es un método gráfico que
explora la posibilidad de sesgo de publicación relacionando la magnitud
del efecto combinado del tratamiento de cada estudio con la precisión.
Cuando el diagrama de puntos de los diferentes estudios tiene una dis-
tribución simétrica alrededor del efecto, se sugiere la ausencia de sesgo
de publicación. Y, en su defecto, indica presencia de sesgo (figs. 5-1 y 5-2).
Desgraciadamente, con pocos estudios, menos de 10, la posibilidad de
sugerir sesgo de publicación a partir del funnel plot es baja y, en realidad,
no se presenta en las publicaciones (8).
El análisis del sesgo de publicación por los métodos estadísticos suele
requerir muchos ensayos. El índice de tolerancia de Rosenthal es un
método estadístico que calcula el número de estudios no publicados
que modificarían de forma significativa el resultado encontrado en el
metaanálisis.
FIGURA 5-1 Funnel plot de una revisión sistemática. La distribución de los estudios a
ambas partes del verdadero efecto sugiere que no existe sesgo de publicación, pues los es-
tudios de menor tamaño muestral por azar se supone que se distribuirían a ambos lados del
gráfico de forma parecida.
FIGURA 5-2 Funnel plot de una revisión sistemática. La falta de estudios a la derecha de
la línea media sugiere un posible sesgo de publicación.
SELECCIÓN DE ESTUDIOS Y EXTRACCIÓN DE DATOS

Tras la búsqueda exhaustiva de la información en las diferentes fuentes
y bases de datos, los ensayos incluidos en una RS deben haber sido selec-
cionados siguiendo un protocolo previo que debe ajustarse a los criterios
establecidos en la pregunta PICO. De nuevo, la precisión o ambigüedad de
la pregunta puede hacer que los criterios de inclusión sean más o menos
restrictivos. Para minimizar la subjetividad en la selección de estudios,
esta debe realizarse por dos o más revisores de forma independiente. En
caso de discrepancias, estas deben resolverse por discusión y consenso, o
recurriendo a un tercer revisor.
La extracción de datos de los estudios seleccionados e incluidos en
la RS debe realizarse también por dos o más revisores para disminuir la
subjetividad y el riesgo de error.
EVALUACIÓN DE LA CALIDAD DE LOS ESTUDIOS ORIGINALES

Las conclusiones que se puedan extraer de una RS dependen, entre otros
factores, de la validez de los artículos originales incluidos.
En las RS sobre efectividad hay que evaluar la validez de los EC obte-
nidos en la búsqueda. Recordemos que los puntos fundamentales sobre
la validez de un EC son el reparto aleatorio de los participantes entre los
grupos experimental y control, con una secuencia de aleatorización no
predecible ni conocida por el investigador, el cegamiento en la valoración

de los resultados por parte de los pacientes, clínicos e investigadores,
el seguimiento completo de los pacientes y el análisis de los resultados en el
grupo al que fueron asignados, experimental o control, lo que se denomina
análisis por intención de tratar.
El que no cumplan todos o una parte de ellos puede explicar la diferencia
en los resultados. Los estudios menos rigurosos suelen sobrestimar los
efectos de las intervenciones terapéuticas. Existen multitud de escalas
para evaluar el riesgo de sesgo en los EC; una es la escala de Jadad (no
recomendada por no estar incluida en ella la ocultación de la secuencia
de aleatorización), y otra cada vez más utilizada es la herramienta pa-
ra la detección de riesgo de sesgo de la colaboración Cochrane, que es una
evaluación basada en dominios (generación de la secuencia, ocultamiento
de la secuencia, cegamiento de los participantes y del personal, cegamien-
to de los evaluadores de los resultados, datos de resultado incompletos,
notificación selectiva de resultados, otras fuentes de sesgo). Cada dominio
se valorará como «bajo riesgo» de sesgo, «alto riesgo» de sesgo, o «riesgo
poco claro» de sesgo (8).
También sabemos que los estudios que se interrumpen de forma pre-
matura tienen más posibilidad de sesgo que los que se terminan sin inte-
rrupciones prematuras. Interrumpir por seguridad, porque existen más
muertes o efectos dañinos en uno de los grupos, es ético, pero interrumpir
prematuramente por beneficio inesperado puede introducir sesgos impor-
tantes y debería tenerse en consideración (9).
Idealmente se debe evaluar el riesgo de sesgos para cada uno de los
resultados importantes en cada estudio original. Imaginemos un es-
tudio no cegado donde los resultados principales son la mortalidad y
la sensación subjetiva de apetito para un nuevo fármaco. Si la revisión
incluyera unos estudios cegados y otros no, el resultado podría verse
afectado por el mismo, aunque la mortalidad no se afectara. Una forma
de medirlo es presentar, en forma de tablas, el riesgo de sesgo de cada

resultado importante en cada estudio para cada dominio (tabla 5-1 y
v. tabla 4-1).
HETEROGENEIDAD
Parece lógico que los estudios incluidos en una RS y en un metaanálisis
presenten resultados diferentes entre ellos. El lector de la RS debe juzgar si
esa diferencia en los resultados se debe a motivos identificables. Diferentes
dosis, diferentes estados evolutivos de enfermedad, diferentes compara-
dores, diferente extracción de los enfermos pueden producir resultados
similares, pero no exactamente iguales.
Existen diferentes formas de evaluar la heterogeneidad. Una de ellas es
explorando visualmente el gráfico forest plot, gráfico del que hablaremos
más adelante. De momento, podemos avanzar que, cuando las estimaciones
TABLA 5-1 Riesgo de sesgo del resultado «incremento del apetito» a través de los
diferentes ensayos de una revisión
Libre de
Generación Ocultación Datos de comunicación Libre
de secuencia de la resultados selectiva de de otros
Apetito adecuada secuencia Cegamiento incompletos resultados sesgos
Estudio Bajo riesgo No claro/ Bajo riesgo Bajo riesgo No claro/ No claro/
A de sesgo incierto de sesgo de sesgo incierto incierto
Estudio No claro/ No claro/ Bajo riesgo Bajo riesgo Bajo riesgo No claro/
B incierto incierto de sesgo de sesgo de sesgo incierto
Estudio No claro/ No claro/ Alto riesgo Bajo riesgo Bajo riesgo No claro/
C incierto incierto de sesgo de sesgo de sesgo incierto
D incierto incierto de sesgo de sesgo de sesgo incierto
E incierto incierto de sesgo de sesgo de sesgo incierto
puntuales de cada estudio son muy diferentes entre sí y sus intervalos de

confianza (IC) no se solapan, se debe sospechar que existe heterogeneidad
entre los estudios.
Una de las formas estadísticas de evaluar la heterogeneidad es el es-
tadístico I2.
El estadístico I 2 mide la heterogeneidad relativa y no depende del
número de estudios. Un valor cercano al 0% sugiere que no hay he-
terogeneidad, y con valores más altos se incrementa la sospecha de
heterogeneidad, siendo su valor máximo el 100%. En la medida que
mide heterogeneidad relativa, cuando los estudios individuales son muy
imprecisos, la heterogeneidad debida al tamaño muestral enmascara la
verdadera heterogeneidad y puede haber una I2 del 0% con importante
CUADRO 5-2
G U Í A A P R O X I M A D A PA R A
I N T E R P R E TA R H E T E R O G E N E I D A D
• Del 0 al 40%: puede no ser importante
• Del 30 al 60%: puede representar heterogeneidad moderada
• Del 50 al 90%: puede representar heterogeneidad significativa
• Del 75 al 100%: heterogeneidad considerable
Tomado de Cochrane Handbook for Systematic Reviews of Interventions. 2nd edition.
Chichester: Wiley; 2011. 672 p.
heterogeneidad real. De ahí que algunos recomienden que se use la I2

junto con su IC 95% (cuadro 5-2).
Otra manera de valorar si hay heterogeneidad es comprobando si los
diferentes métodos de combinación de resultados, efectos fijos o efectos
aleatorios producen resultados consistentes.
Cuando existe heterogeneidad, deben explorarse las posibles causas,
observando las posibles diferencias entre los estudios incluidos en la RS
y en el metaanálisis. Para ello, pueden realizarse análisis de subgrupos,
una metarregresión, o puede comprobarse el efecto de cada estudio en
el resultado global. Más adelante se comentarán estos aspectos con más
detalle. En cualquier caso, la heterogeneidad es una cuestión del clínico
más que del estadístico. Hay que recordar que estamos asumiendo que el
resultado es un resultado global para una población que puede ser bien
distinta (niños/ancianos, gravemente enfermos/sanos o poco enfermos),
dosis (elevadas/bajas), etc., que podría hacer que el valor promedio, que
es el resultado matemático, no tuviera sentido. Si la heterogeneidad es
extrema, el metaanálisis no debería producirse y se tendrían que presentar
los resultados de forma descriptiva.
METAANÁLISIS. FOREST PLOT

Como se ha comentado anteriormente, el metaanálisis es un conjunto de
procedimientos estadísticos que permiten la combinación de los resultados
de los estudios independientes sobre un mismo problema. Su ventaja
principal es que incrementa el tamaño muestral y, por tanto, la precisión
estadística. Un metaanálisis no es una RS, aunque a veces se utilicen ambos
términos de forma indistinta.
El metaanálisis proporciona una estimación de una media ponderada
del efecto del tratamiento en los diferentes estudios. El tipo de efecto
depende de la naturaleza del resultado, bien se trate de variables dicotó-
micas o continuas, y puede expresarse de forma absoluta o relativa. En
el caso de variables dicotómicas, como, por ejemplo, muertos o vivos,

la forma absoluta es la DR, también llamada RAR, y el NNT; la forma
relativa el RR y la OR. Cuando las variables son continuas, los resultados
se presentan como diferencia ponderada de medias (DPM) si las variables
tienen la misma forma de medirse, o como diferencia estandarizada de
medias (DEM) si se usan diferentes formas de medir una misma variable,
como, por ejemplo, diferentes escalas de medir la depresión. Sea cual sea
el estimador del efecto, este se presenta en un gráfico que se denomina
forest plot (fig. 5-3).
En el gráfico forest plot se muestran los resultados de cada estudio in-
dividual y el resultado combinado de los estudios. La estimación puntual
de cada estudio individual se presenta como un cuadrado o círculo, cuyo
tamaño es proporcional al peso de dicho estudio en el resultado combinado
y la precisión de dicha estimación, es decir, los IC, se representa mediante
FIGURA 5-3 Forest plot que mide el riesgo de mejorar en la cefalea con el nuevo tratamiento
en relación con el tratamiento control. El valor de I2 es de cero, no sugiriendo heterogeneidad
estadística.
una línea horizontal. En general, los estudios de menor tamaño tienen

menos precisión y su contribución a la estimación global del efecto recibe
una menor ponderación.
El resultado combinado de todos los estudios se muestra como un
rombo o diamante, cuya amplitud horizontal representa los intervalos
de confianza de la estimación global, es decir, el rango de valores entre
los que el verdadero valor del efecto es probable que se sitúe. Cuando los
resultados se presentan en forma de OR o RR, el forest plot utiliza una
escala logarítmica.
La precisión del resultado combinado de los diferentes estudios se ex-
presa mediante los intervalos de confianza de la estimación puntual. La
significación estadística de la estimación del resultado combinado se valora
observando si la amplitud del rombo o diamante incluye la línea de no
significación (1 si se trata de OR o RR, y 0 si se trata de DR o diferencia de
medias).
FIGURA 5-4 Forest plot que compara la mortalidad de un nuevo tratamiento para la cefalea.
Los IC 95% de todos los estudios no se solapan y la I2 es del 63%, sugiriendo heterogeneidad
importante.
El forest plot permite explorar visualmente la existencia de heteroge-

neidad, viendo si las estimaciones puntuales de cada estudio son muy
diferentes entre sí y en qué grado se solapan los IC. Grandes diferencias
en las estimaciones puntuales de cada estudio e IC que no se solapan
sugieren heterogeneidad (fig. 5-4). Esta variabilidad puede ser debida
a diferentes estadios evolutivos de la enfermedad, diferentes tipos de
enfermos, intervenciones no exactamente iguales o resultados no medidos
de la misma forma.
MODELO DE EFECTOS FIJOS Y MODELO DE EFECTOS ALEATORIOS

Disponemos de dos métodos o modelos para obtener el estimador resu-
men del efecto en un conjunto de estudios. Son el modelo de efectos fijos
y el modelo de efectos aleatorios.
El modelo de efectos fijos supone que existe un «efecto único» para
todos los estudios y que las diferencias observadas se deben al azar
(error intraestudio). Por tanto, solo existe una fuente de variación, que
es la debida a la imprecisión en la estimación de cada estudio (variación
intraestudio).
En los estudios reales, suele haber cierta heterogeneidad entre estudios
(diferentes pacientes, diferentes dosis o forma de aplicar el tratamiento,
diferentes períodos de seguimiento, etc.), por lo que es difícil asumir que
existe un solo efecto, y parece más verosímil pensar en una diversidad de
efectos. En consecuencia, este modelo considera que, además de la variación
debida al azar (error intraestudio), existen verdaderas diferencias de efecto
entre estudios (variación entre estudios).
Cuando los estudios son relativamente homogéneos, el error entre es-
tudios tiende a cero, por lo que los dos modelos ofrecen resultados prác-
ticamente idénticos.
El modelo de efectos aleatorios supone que los estudios son una mues-
tra de todos los estudios que hay, por lo que incluye dos componentes de
variación: la imprecisión en la estimación de cada estudio y la variación

de estudio a estudio.
Por lo tanto, dado que la variación que se incluye en el modelo de efectos
aleatorios es mayor que la que se incluye en el modelo de efectos fijos, el
IC alrededor del estimador resumen del metaanálisis obtenido mediante
el modelo de efectos aleatorios es mayor, más amplio, que el obtenido
mediante un modelo de efectos fijos.
Hay que hacer una asunción a priori sobre el modelo que se va a usar, en
función de las asunciones que resulten más razonables. Esto debe figurar
en los protocolos de las revisiones. Sin embargo, hay que considerar que
puede no ser adecuado realizar un metaanálisis sin explicar las causas
de heterogeneidad. Una de las formas de valorar la heterogeneidad es
comprobar la consistencia en la estimación del resultado combinado de
los estudios, utilizando tanto el modelo de efectos fijos como el de efectos

aleatorios.
Dentro de los modelos más utilizados están el de Peto, el de Mantel-
Haenszel, el inverso de la varianza y el de DerSimonian-Laird.
METARREGRESIÓN Y ANÁLISIS DE SUBGRUPOS

Hemos comentado algunas formas de evaluar si hay heterogeneidad
entre los estudios, observando el gráfico funnel plot, el estadístico I2 y
comprobando la consistencia de resultados utilizando el modelo de efectos
fijos y aleatorios.
Otra forma es eliminando secuencialmente del metaanálisis un estudio
diferente cada vez (análisis de sensibilidad), observando qué estudios in-
fluyen de forma más significativa en el resultado combinado, y analizando
las características de estos estudios.
Una vez conocida la existencia de heterogeneidad, disponemos de dos
formas de explorar las causas de dicha heterogeneidad, que son el análisis
por subgrupos y la metarregresión.
El análisis de subgrupos o estratificado consiste en realizar metaa-
nálisis para diferentes características o categorías de los estudios y va-
lorar si el resultado combinado es diferente entre los análisis (si hay
diferencias del efecto en hombres y en mujeres o entre lugares geográfi-
cos diferentes). Para comprobar esto y descartar que esta variación se deba
al azar, es necesario realizar la prueba de interacción, cuya significación
inferior < 0,1 sugiere un diferente efecto de la intervención en los sub-
grupos. La metarregresión es una extensión del análisis por subgrupos
que permite investigar simultáneamente el efecto de características
categóricas (vía de administración, sexo, calidad de los estudios, etc.) y
continuas (edad, dosis, tamaño muestral, etc.). Mediante metarregresión
podemos investigar simultáneamente los efectos de múltiples factores
sobre el resultado. Conviene saber que tanto en la metarregresión como
en el análisis de subgrupos, el número de covariables como de categorías
debe ser pequeño y estar en relación con el número de estudios incluidos
en la RS.
ANÁLISIS DE SENSIBILIDAD
El análisis de sensibilidad pretende estudiar la influencia de cada
uno de los estudios en la estimación global del efecto y, por lo tanto, la
robustez o estabilidad de la medida final obtenida. Este análisis consiste
en la repetición del metaanálisis tantas veces como estudios seleccionados,
de forma que cada vez se omite un estudio, combinándose todos los res-
tantes. Si los resultados de los distintos metaanálisis son similares, esto
es, el efecto tiene una misma dirección, magnitud y significación estadís-
tica, se puede concluir que los resultados son robustos. En caso contrario,
no se tendría un estimador robusto, lo cual exigiría cierta precaución
en la interpretación de los resultados o podría ser motivo para generar

nuevas hipótesis.
El análisis de sensibilidad también puede utilizarse para estudiar la in-
fluencia en los resultados del metaanálisis de ciertos aspectos relacionados
con la validez de los estudios, como, por ejemplo, la exclusión de estudios
que no superan un determinado umbral de calidad, trabajos no publicados,
o bien estudios en los que hay incertidumbre sobre el cumplimiento de los
criterios de selección.
En ocasiones, este análisis se confunde con el análisis de subgrupos. Los
dos métodos difieren en dos aspectos: primero, los análisis de sensibilidad
no intentan calcular el efecto de la intervención en el grupo de estudios
eliminados del análisis, mientras que en los análisis por subgrupos se
producen estimaciones para cada subgrupo; segundo, en el análisis de sen-
sibilidad se hacen comparaciones informales entre diferentes formas de
calcular lo mismo, mientras que en el de subgrupos se hacen comparaciones
estadísticas formales entre los subgrupos.
DESCRIPCIÓN DE UNA REVISIÓN SISTEMÁTICA

Al igual que en otros tipos de estudios, existe una recomendación sobre
cómo describir una RS: recibe el nombre de PRISMA (Preferred Reporting
Items for systematic Reviews and Meta-analysis). PRISMA consta de una
guía de 27 puntos y un diagrama de flujo que permite evaluar todos los
aspectos pertinentes de una RS. Esta recomendación se puede encontrar
en http://www.equator-network.org/.
REFLEXIONES SOBRE LA APLICABILIDAD DE LOS TRATAMIENTOS

Uno de los aspectos más importantes de una RS es decidir hasta qué
punto puede aplicarse a pacientes concretos (10). Es, probablemente,
una de las partes menos desarrolladas de la lectura crítica, pero es la
más importante a la hora de decidir si nuestro enfermo podría haber es-
tado representado en esa RS. Exige conocer no solo los resultados, sino
la información primaria de la que se ha extraído. Veamos qué aspectos
son importantes a la hora de valorar la aplicabilidad a nuestros pacientes
concretos.
• Existencia de diferencias demográficas importantes entre los pacientes del
estudio y los comunitarios. Aproximadamente un 60% de los enfermos
con insuficiencia cardíaca tienen insuficiencia renal con filtrado
glomerular inferior al 15%, y estos enfermos tienen un peor
pronóstico (11). Sin embargo, una parte importante de ensayos
con inhibidores de la enzima convertidora de angiotensina (IECA),
b-bloqueantes y espironolactona excluyen a estos enfermos
de los ensayos (12). Esta cuestión es importante, porque estudios
poblacionales han cuestionado los resultados de EC como el RALES,
en los que no aparecen efectos indeseables como la hiperpotasemia,

que sí aparece en la población general tratada con estos fármacos
(13,14). Otros factores que pueden hacer que los enfermos no sean
elegibles incluyen la edad, el sexo, la raza, el nivel educativo,
el estatus social o su lugar de residencia (15-18). Todos estos
factores pueden hacer que menos del 10% de los enfermos incluidos
en los EC que incluyen las RS sean parecidos a los enfermos
que nos encontramos en la vida real.
• Escasa representación de gravedad, estadio de enfermedad o comorbilidad.
Es muy frecuente que la comorbilidad sea excluida de forma
sistemática. En un artículo donde se consideraron los 284 ensayos
publicados durante 1 año en las principales revistas por factor
de impacto, solo en 200 se declaró la existencia de patología
múltiple crónica. De ellos, en 179 se excluyó de forma explícita
a estos enfermos y solo en seis ensayos se incluyeron de forma
predefinida (19). La fibrilación auricular puede llegar a estar
presente desde un punto de vista poblacional hasta en el 50%
de los enfermos con insuficiencia cardíaca; sin embargo, apenas
representa un 12% en la comorbilidad que aparece en los ensayos
de insuficiencia cardíaca (20).
• Diferencias en la cumplimentación o adherencia al tratamiento.
También sabemos que la estricta adherencia de la medicación
en las enfermedades crónicas no es la misma cuando se está
sometido a un experimento que en condiciones reales. En los países
desarrollados se ha estimado que la cumplimentación del tratamiento
es de un 50% para la hipertensión, en la depresión entre un 40 y
un 70%, y en un 43% para el asma durante todo el tiempo (21).
Las visitas, los recordatorios, el dinero que se ofrece o los pagos
en especie que se dan a los enfermos tienen que tenerse en cuenta
como un factor que facilita la adherencia al tratamiento en los ensayos
y que no aparecerá en condiciones de vida real.
• La polimediación. Fuera de los ensayos, los fármacos
para la insuficiencia cardíaca no son tan efectivos. Muchos enfermos
no pueden evitar tomar antiinflamatorios que usan de forma habitual,
lo que afecta a los resultados en la práctica real. De hecho, una
de las causas más frecuente de descompensación de la insuficiencia
cardíaca es la administración de antiinflamatorios no esteroideos,
antagonistas del calcio u otros fármacos (22).
• Intervenciones que necesitan elevada preparación y formación. Los
resultados del gran ensayo «Asymptomatic Carotid Artery Surgery»
(ACAS) (23) mostraron que esta cirugía era segura, mientras
que el resto de estudios previos demostraba que no. En el ensayo
ACAS solo cirujanos expertos en la técnica pudieron entrar en el
estudio, y solo un 40% de los que solicitaron entrar en el ensayo ACAS
fueron admitidos. Esto explica que la mortalidad de este ensayo fuera

ocho veces menor que en el resto (24).
• Tiempo de seguimiento: el tiempo de seguimiento de los estudios suele
ser corto como para hacerse una idea de los efectos a medio o largo
plazo, por lo que los resultados podrían no mantenerse en el tiempo
o aparecer efectos secundarios que no se aprecian en estudios
con un seguimiento más corto. Así, la RS de certolizumab pegol
para la artritis reumatoide solo encontró un ensayo de los 11 en que
se siguiera a los enfermos 1 año (25).
• Incorporación de los efectos secundarios y resultados centrados
en los intereses de los pacientes a la hora de tomar una decisión.
No es infrecuente que se realicen RS sobre resultados que se
obtienen de estudios primarios que no midan calidad de vida,
o resultados relevantes para la salud, centrándose en resultados
intermedios en salud como resultados de análisis (glucemias,
colesterol, marcadores) o de imagen (densitometrías, radiográficos).
Decidir si un resultado intermedio es suficiente para cambiar a una
nueva tecnología o un nuevo tratamiento es una cuestión que solo
los clínicos pueden valorar a la hora de decidir si esta se incorpora.
Un comentario final: la lectura crítica de una RS es una habilidad que
requiere pericia a la hora de decidir si esta está suficientemente bien cons-
truida y, por tanto, merece ser tomada en consideración. Sin embargo,
solo los clínicos podremos decidir si sus resultados pueden ser aplicados
a pacientes concretos, que pueden provenir de distintos ámbitos, con dife-
rente complejidad y polimedicación y con diferente motivación a la hora
de cumplimentar los diferentes tratamientos.
ARTÍCULO
Marcolino MS, Maia JX, Alkmim MB, Boersma E, Ribeiro AL. Teleme-
dicine application in the care of diabetes patients: systematic review and
meta-analysis. PLoS One. 2013;8(11):e79246. Disponible en: http://www.
plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0079246#po-
ne-0079246-g004.


artículo concreto.
CUADRO 5-3
A) ¿Los resultados de la revisión son válidos?
1. ¿Se hizo la Sí ✓ No sé No
revisión sobre un Población: adultos con DM tipo 1 y 2. Cita los criterios
tema claramente de exclusión: diabetes gestacional, imposibilidad de
definido? establecer feedback o seguimiento inferior a 6 meses, etc.
PISTA: un tema debe Intervención: estrategia de aplicación de
ser definido en telemedicina en el cuidado de los pacientes.
términos de: Por telemedicina se pueden entender cosas muy
– La población de distintas, desde teleconsultas hasta programas a través
estudio de internet o dispositivos desde los que envías los
– La intervención niveles de glucemia a distancia, etc.
realizada Comparación: grupo con el cuidado habitual (no está
– Los resultados definido).
(outcomes) Resultados: primario (cambio en términos
considerados absolutos en la HbA1c), secundarios (cambio en
términos absolutos en el LDL-c, presión arterial
sistólica, presión arterial diastólica e IMC). La
HbA1c es un resultado intermedio (subrogate
outcome), pero no es un resultado clínico relevante y,
en cualquier caso, no es un outcome «centrado en el
paciente»
2. ¿Buscaron los Sí ✓ No sé No
autores el tipo Buscaron artículos cuya pregunta era el objeto de la
de artículos revisión.
adecuado? Buscaron ensayos clínicos, que es el diseño
PISTA: el mejor «tipo apropiado para responder esta pregunta
de estudio» es el
que:
– Se dirige a la
pregunta objeto
de la revisión
– Tiene un diseño
apropiado para
la pregunta
CUADRO 5-3 (cont.)

3. ¿Crees que estaban Sí ✓ No sé No
incluidos los estudios Han consultado Medline (a través de PubMed),
importantes y relevantes? el registro de ensayos clínicos de la Cochrane y
PISTA: busca: LILACS hasta abril de 2012.
– Qué bases de datos Faltarían Embase y otros registros de ensayos
bibliográficas se han usado clínicos, como el de la Organización Mundial de
– Seguimiento de las la Salud, clinicaltrials.gov, controlledtrials.com y
referencias clinicaltrialsregister.eu.
– Contacto personal con Hacen seguimiento de referencias.
expertos No contactan con expertos.
– Búsqueda de estudios no No dicen que hagan búsqueda de estudios no
publicados publicados.
– Búsqueda de estudios No hacen restricción de idiomas.
en idiomas distintos del No hay referencia al perfil de búsqueda en
inglés cada base de datos.
4. ¿Crees que los autores Sí ✓ No sé No
de la revisión han hecho La evaluación de la calidad de los estudios se
suficiente esfuerzo para basó en (v. tabla 3 del artículo original):
valorar la calidad de los – Generación de secuencia de aleatorización
estudios incluidos? adecuada (100%)
PISTA: los autores necesitan – Asignación cegada (62%)
considerar el rigor de los – Valoración de resultados cegada (38%)
estudios que han identificado. – Análisis por intención de tratar (92%)
La falta de rigor puede afectar – Descripción de pérdidas y exclusiones (92%)
al resultado de los estudios La importancia de estos ítems ya habrá sido
(«No es oro todo lo que reluce», tratada en el capítulo 4. Habría que analizar
El Mercader de Venecia, también la calidad a través de los outcomes, pero
Acto II) no se hizo mediante GRADE.
Los estudios con pérdidas > 20% o > 5% que
no hacían análisis por intención de tratar fueron
excluidos. Quizás este problema podría haber
sido resuelto haciendo análisis de sensibilidad
con estos estudios y verificando si los resultados
son consistentes.
Evalúan el sesgo de publicación de manera
gráfica (funnel plot) y a través del test de Egger, y
dicen que puede existir un sesgo de publicación.
Tras aplicar el método de trim-and-fill, comentan
que este sesgo no interfiere en la interpretación
de los resultados
(Continúa)
CUADRO 5-3 (cont.)
5. Si los resultados de los Sí No sé No ✓

diferentes estudios han No hay una referencia explícita a la existencia
sido mezclados para de heterogeneidad clínica entre estudios,
obtener un resultado pero puede deducirse del texto y de la tabla 1
«combinado», ¿era (características basales) del artículo original; hay
razonable hacer eso? que destacar:
PISTA: considera si: – Diferentes sitios: atención primaria, ocho;
– Los resultados de los especializada, cuatro, y mixta, uno
estudios eran similares – Duración de la intervención de los estudios: 6,
entre sí 12 y 18 meses
– Los resultados de todos – Diabetes tipo 1 y 2
los estudios incluidos – Duración diferente de la diabetes
están claramente – Diferentes tratamientos entre estudios: con
presentados antidiabéticos orales, insulina y ambos, dieta
– Están discutidos los y ejercicio
motivos de cualquier – Diferente «aplicador» de la intervención,
variación de los médicos y enfermería
resultados – Diferente frecuencia de contactos de la
intervención (solo ocho estudios informan de
la frecuencia del contacto)
Para ver si los resultados eran similares, realizan
la Q de Cochrane y la I2.
Para el outcome primario (HbA1c), ven que
tiene una elevada heterogeneidad (I2 = 73%); por
lo tanto, estos estudios no son similares entre
sí; hay una heterogeneidad clínica además de la
estadística, fruto de lo anteriormente expuesto y
de la visión amplia de la pregunta de la revisión
sistemática.
Para los outcomes secundarios: LDL-c tiene un
valor de I2 = 24%, de ahí que puedan combinarse.
PAS y PAD tienen una elevada heterogeneidad,
con una I2 del 94 y el 84%, respectivamente, que
debe hacer reflexionar si el valor del promedio
puede representar algo que valga para todos
Los resultados están claramente presentados
tanto en el texto como en los gráficos (forest plot)
CUADRO 5-3 (cont.)

6. ¿Cuál es el resultado Los resultados aparecen en la página 3 y en
global de la revisión? las figuras 2 y 3 del artículo original.
PISTA: considera: Outcome primario: la estrategia de
– Si tienes claros los telemedicina presenta una reducción
resultados últimos de la absoluta del –0,44% en la HbA1c, con un
revisión IC 95% entre –0,61 y –0,26 comparada
– ¿Cuáles son? con el cuidado habitual. Esto representa
(numéricamente, si es una mejora de la glucemia media de
apropiado) –8 mg/dl (–2, –13), aunque presenta una
– ¿Cómo están expresados heterogeneidad muy alta.
los resultados? (NNT, OR, Outcome secundario: en el LDL-c, la
etc.) telemedicina tiene una reducción de –6,6
mg/dl, con un IC 95% entre –8,27 y –4,9,
comparada con el cuidado habitual.
La PAS presenta una reducción de
–1,58, con un IC 95% entre –7,26 y 4,1, y
una PAD de –0,65 con un IC 95% entre
–2,55 y 1,25. Como el IC pasa el 0, indica
que no hay diferencias estadísticamente
significativas. Los resultados están
expresados en diferencia de medias. Hacen
análisis de sensibilidad y se ve cómo los
resultados apenas cambian. Hacen análisis
por subgrupos (v. página 3 en análisis
secundario) y se ve que la reducción en la
HbA1c es mayor en los individuos con DM
tipo 1 que en los de DM tipo 2. También

la reducción de la HbA1c es mayor en los
individuos cuyo nivel basal de HbA1c es
> 8% que aquellos en los que es < 8%.
Hubiera sido conveniente realizar
más análisis de sensibilidad: pacientes
procedentes de atención primaria/
especializada (con más comorbilidad y
complicaciones); edad del paciente; número
de años que el paciente es diabético e
intensidad de la intervención (no es lo
mismo una llamada al día que una al mes)
(Continúa)
CUADRO 5-3 (cont.)
7. ¿Cuál es la precisión del (v. apartado 6 de este cuadro)

resultado/s?
PISTA: busca los intervalos de
confianza de los estimadores
C) ¿Son los resultados aplicables en tu medio?

8. ¿Se pueden Sí ✓ No sé No
aplicar los Sí, el enfermo podría ser un enfermo similar a los que
resultados en tu entran en los ensayos objeto de la revisión. En nuestro
medio? medio comienzan a aparecer centrales de llamadas que
PISTA: considera si: pueden dar asistencia en el manejo de las glucemias
– Los pacientes y de las posibles descompensaciones similar a las que
cubiertos por aparecen en la revisión sistemática
la revisión
pueden ser
suficientemente
diferentes de
los de tu área
– Tu medio
parece ser muy
diferente al del
estudio
9. ¿Se han Sí No sé No ✓
considerado No se evalúan resultados clínicamente importantes,
todos los como mortalidad, eventos cardiovasculares, ingresos
resultados hospitalarios por descompensación, molestias para
importantes los enfermos, coste del programa, etc. No se ha
para tomar la medido la sensación de enfermedad o su refuerzo
decisión? sobre los pacientes que produce la telemedicina. No
sabemos si en la intervención se produjeron errores,
como hipoglucemias o ingresos por hiperglucemias.
No sabemos la satisfacción global de la misma. Son
resultados a corto plazo y de resultados intermedios en
salud, que no deberían servir para extrapolar y llegar
a algún tipo de convencimiento sobre si realmente
reducirán las complicaciones agudas (cetoacidosis,
ingresos, hipoglucemias) y las que aparecerán a largo
plazo: mortalidad, cardiovasculares, neurológicas,
amputaciones, ceguera, etc.
CUADRO 5-3 (cont.)
10. ¿Los beneficios Sí No sé No ✓

merecen la No existe un beneficio clínico relevante. Aunque
pena frente a hubieran mejorado de forma significativa las tensiones
los perjuicios y arteriales, probablemente el beneficio cardiovascular
costes? en forma de riesgo no se habría alterado. No hay
Aunque no calculadoras de riesgo cardiovascular para edades
esté planteado tan avanzadas, donde la edad es el factor principal de
explícitamente en la riesgo cardiovascular por sí misma. Solo se analizan
revisión, ¿qué opinas? variables intermedias con ausencia de más análisis de
efectos secundarios por la intervención o de satisfacción
por parte de los usuarios o de sus familiares
DM, diabetes mellitus; HbA1c, hemoglobina glucosilada; IC 95%, intervalo de confianza
al 95%; IMC, índice de masa corporal; LDL-c, colesterol de las lipoproteínas de baja densidad;
NNT, número necesario de pacientes que hay que tratar; OR, odds ratio; PAD, presión arterial
diastólica; PAS, presión arterial sistólica.
Bibliografía
1. Marcolino MS, Maia JX, Alkmim MBM, Boersma E, Ribeiro AL. Telemedicine applica-
tion in the care of diabetes patients: systematic review and meta-analysis. PloS One.
2013;8(11):e79246.
2. Oxman AD, Guyatt GH. The science of reviewing research. Ann N Y Acad Sci.
1993;703:125-133. discussion 133-4.
3. Gordon D, Taddei-Peters W, Mascette A, Antman M, Kaufmann PG, Lauer MS. Pu-
blication of trials funded by the National Heart, Lung, and Blood Institute. N Engl J Med.
2013;369(20):1926-1934.
4. Turner EH, Matthews AM, Linardatos E, Tell RA, Rosenthal R. Selective publication of
antidepressant trials and its influence on apparent efficacy. N Engl J Med. 2008;358(3):
252-260.
5. Doshi P, Jefferson T, Del Mar C. The Imperative to Share Clinical Study Reports: Recom-
mendations from the Tamiflu Experience. PLoS Med. 2012;9(4):e1001201.
6. Jefferson T, Jones MA, Doshi P, Del Mar CB, Hama R, Thompson MJ, et al. Risk of bias in
industry-funded oseltamivir trials: comparison of core reports versus full clinical study
reports. BMJ Open. 2014;4(9):e005253.
7. Dwan K, Altman DG, Arnaiz JA, Bloom J, Chan A-W, Cronin E, et al. Systematic Review of
the Empirical Evidence of Study Publication Bias and Outcome Reporting Bias. Siegfried
N, editor. PLoS ONE. 2008;3(8):e3081.
8. Higgins JPT, Green S. Cochrane Handbook for Systematic Reviews of Interventions. 2nd
edition Chinchester: Wiley; 2011. p. 672.
9. Latour-Pérez J, Cabello-López JB. Early interruption of clinical trials: too good to be true?
Med Intensiva. 2007;31(9):518-520.
10. Murad MH, Montori VM, Ioannidis JPA, Jaeschke R, Devereaux PJ, Prasad K, et al. How
to Read a Systematic Review and Meta-analysis and Apply the Results to Patient Care:
Users’ Guides to the Medical Literature. JAMA. 2014;312(2):171.
11. McAlister FA, Ezekowitz J, Tonelli M, Armstrong PW. Renal insufficiency and heart failure:
prognostic and therapeutic implications from a prospective cohort study. Circulation.
2004;109(8):1004-1009.
12. Shlipak MG. Pharmacotherapy for heart failure in patients with renal insufficiency. Ann
Intern Med. 2003;138(11):917-924.
13. Pitt B, Zannad F, Remme WJ, Cody R, Castaigne A, Perez A, et al. The effect of spirono-
lactone on morbidity and mortality in patients with severe heart failure. Randomized
Aldactone Evaluation Study Investigators. N Engl J Med. 1999;341(10):709-717.
14. Juurlink DN, Mamdani MM, Lee DS, Kopp A, Austin PC, Laupacis A, et al. Rates of
hyperkalemia after publication of the Randomized Aldactone Evaluation Study. N Engl J
Med. 2004;351(6):543-551.
15. Bjørn M, Brendstrup C, Karlsen S, Carlsen JE. Consecutive screening and enrollment in
clinical trials: the way to representative patient samples? J Card Fail. 1998;4(3):225-230.
discussion 231.
16. Gurwitz JH, Col NF, Avorn J. The exclusion of the elderly and women from clinical trials
in acute myocardial infarction. JAMA. 1992;268(11):1417-1422.
17. Bayer A, Tadd W. Unjustified exclusion of elderly people from studies submitted to research
ethics committee for approval: descriptive study. BMJ. 2000;321(7267):992-993.
18. Bartlett C, Doyal L, Ebrahim S, Davey P, Bachmann M, Egger M, et al. The causes and
effects of socio-demographic exclusions from clinical trials. Health Technol Assess Winch
Engl. 2005;9(38):iii-iii10. ix-x, 1-152.
19. Jadad AR, To MJ, Emara M, Jones J. Consideration of multiple chronic diseases in rando-
mized controlled trials. JAMA. 2011;306(24):2670-2672.
20. Conde Martel A. Extrapolation of results from clinical trials to heart failure patients hos-
pitalized in Internal Medicine. Med Clin (Barc). 2014;142(10):463-467.
21. OMS. Informe sobre la situación mundial de las enfermedades no transmisibles 2010
[visitado el 28/10/2014]. Disponible en: http://www.who.int/nmh/publications/ncd_
report2010/es/.
22. Merlo J, Broms K, Lindblad U, Björck-Linné A, Liedholm H, Ostergren PO, et al. Association
of outpatient utilisation of non-steroidal anti-inflammatory drugs and hospitalised heart
failure in the entire Swedish population. Eur J Clin Pharmacol. 2001;57(1):71-75.
23. Clinical advisory. carotid endarterectomy for patients with asymptomatic internal carotid
artery stenosis. Stroke J Cereb Circ. 1994;25(12):2523-2524.
24. Wennberg DE, Lucas FL, Birkmeyer JD, Bredenberg CE, Fisher ES. Variation in carotid
endarterectomy mortality in the Medicare population: trial hospitals, volume, and patient
characteristics. JAMA. 1998;279(16):1278-1281.
25. Ruiz Garcia V, Jobanputra P, Burls A, Cabello JB, Vela Casasempere P, Bort-Marti S, et al.
Certolizumab pegol (CDP870) for rheumatoid arthritis in adults. Cochrane Database Syst
Rev. 2014;9:CD007649.

Ruiz V, Carbonell R, Urreta I. Lectura crítica de estudios de tratamiento. Revisiones sistemá-
ticas de ensayos clínicos aleatorios. En: Cabello Juan B, editor. Lectura crítica de la evidencia
clínica. Barcelona: Elsevier; 2015. p. 63-86.
C A P Í T U L O
6
de diagnóstico
Ana Royuela Vicente, María Luisa Montes Ramírez
y Antonio Jesús Martín Mateos

• Definir la exactitud de una prueba diagnóstica.
• Tratar los aspectos clave del diseño de los estudios de exactitud
de una prueba diagnóstica.
• Recoger los indicadores básicos del diagnóstico, sensibilidad, especificidad,
valores predictivos y cocientes de probabilidades.
• Reflexionar sobre el uso de las pruebas diagnósticas en la clínica.
INTRODUCCIÓN
Según la Real Academia Española (RAE), el diagnóstico es el arte o

acto de conocer la naturaleza de una enfermedad mediante la observación
de sus síntomas y signos. Es el primer paso en la valoración del estado de
un paciente, y solo desde un correcto diagnóstico podrá establecerse un
tratamiento adecuado y un óptimo seguimiento posterior.
Los estudios de diagnóstico suponen un interesante reto en la valora-
ción de aquellos aspectos que los definen. Por un lado, no gozan de una
metodología tan ampliamente desarrollada, conocida y estandarizada
como otro tipo de estudios, como los estudios de tratamiento o las RS.
Además, llevan asociada la dificultad de tener que presentar sus resultados
siempre en forma de binomio. Cuando se hable de la sensibilidad en una
prueba diagnóstica, tendrá que hablarse, ineludiblemente, también de su
especificidad.

El marco conceptual de evaluación de pruebas diagnósticas está evolu-

cionando de manera sustancial en los últimos años. Ha pasado de conside-
rarse un mero proceso de evaluación secuencial en fases (1), mimetizando
en mayor o menor medida las fases I a IV del EC, a constituir una evaluación
más amplia, que engloba desde aspectos técnicos de factibilidad de la prue-
ba, reproducibilidad y validez, hasta aspectos referentes a su impacto clínico
y costes, teniendo en cuenta el contexto clínico donde se va a aplicar (2).
Por todo ello, se hace muy relevante comprender los aspectos más im-
portantes del diseño de los estudios sobre diagnóstico, saber interpretar
los resultados de un estudio sobre evaluación de pruebas diagnósticas y
aplicar estos conocimientos a los diferentes escenarios clínicos en los que
nos vemos envueltos diariamente.
ESCENARIO
Francisco es un varón de 53 años con una infección por el virus de la

inmunodeficiencia humana (VIH) de larga evolución. Ha recibido múltiples
tratamientos antirretrovirales con respuestas parciales, pero desde hace
5 años recibe una pauta compleja con inhibidores de la proteasa que ha con-
seguido controlar la infección y recuperar parcialmente su inmunosupresión,
manteniendo un recuento de linfocitos CD4+ de alrededor de 270 cél./ml.
Acude a su revisión programada con el internista y le comenta que en el
último mes tiene fiebre por las tardes de hasta 38°C, está más cansado de
lo habitual y en la última semana ha comenzado a toser. Tras la anamnesis
y exploración, su médico le explica que hay que descartar como primera
posibilidad la tuberculosis pulmonar, y le solicita una radiografía de tórax
y la recogida de muestras de esputo para el análisis microbiológico.
Las pruebas no son concluyentes y, aunque las muestras de esputo se
siembran para cultivo en medio de micobacterias, estos resultados tardarán
2 meses. Los síntomas empeoran y el inicio del tratamiento antituberculoso
requiere modificar por completo la medicación antirretroviral, con el con-
siguiente riesgo de la pérdida del control de la infección por el VIH, por lo
que la seguridad en el diagnóstico es muy importante.
Se decide realizar una broncoscopia con toma de muestras y, tras comen-
tar el caso con el microbiólogo, se propone realizar una prueba de detección
de micobacterias mediante amplificación de ADN. Esta prueba es muy
nueva, por lo que el internista busca información en PubMed y encuentra
un artículo con referencias específicas para población infectada por el VIH.
El resultado de la prueba de amplificación de ADN resulta positivo.
• Las pruebas de detección de ADN de micobacterias en muestras
de esputo, ¿tienen una buena rentabilidad diagnóstica en pacientes
infectados por el VIH?
6. Lectura crítica de estudios de diagnóstico 89
• La positividad de la prueba de detección de ADN de micobacterias,

¿confirma el diagnóstico de Francisco con suficiente seguridad
como para iniciar el tratamiento antituberculoso antes de saber
los resultados del cultivo?

DE ESTUDIOS DE DIAGNÓSTICO
En el contexto de la práctica médica, una buena parte de nuestra labor

consiste en diagnosticar, es decir, realizar mediciones e interpretar sus
resultados. Cuando medimos, debemos tener en cuenta siempre la exis-
tencia de cierta variabilidad en la medición. Esta variabilidad es explicada,
en parte, por las características de la población en la que se realiza, las
características de la enfermedad que estamos midiendo y el propio proceso
de medición. La variabilidad se divide en dos aspectos fundamentales:
validez y reproducibilidad.
La validez hace referencia al grado en que una medida se aproxima al
valor real que se pretende medir; y la reproducibilidad se entiende como
el grado en que una prueba diagnóstica produce los mismos resultados al
aplicarse sobre el mismo sujeto. En este libro, se tratarán exclusivamente
los puntos clave de los estudios sobre validez de pruebas diagnósticas.
El primer punto que hay que tener en cuenta cuando leemos un estudio
sobre validez de pruebas diagnósticas es el diseño del estudio. El diseño
óptimo para evaluar la validez de una prueba diagnóstica es un estudio
observacional transversal, donde, a una serie consecutiva de pacientes, de
forma ciega e independiente se les aplica la prueba que hay que evaluar y
una prueba de referencia o patrón de oro (del inglés, gold standard), com-
parándose ambas clasificaciones.
La selección de la muestra debe ser representativa de la población en la
que posteriormente se utilizará la prueba y, por tanto, incluir un espectro de

pacientes lo más parecido posible al del medio en que la prueba se pretenda
usar (es decir, pacientes con enfermedad leve, moderada o grave, pacientes
en etapa temprana y tardía de la enfermedad). Esto se consigue reclutando a
una serie consecutiva de pacientes, para así minimizar el sesgo de selección.
Posteriormente, todos los resultados deben confirmarse, tanto los posi-
tivos como los negativos, mediante una prueba de referencia o patrón de
oro asumiendo que esta clasifica correctamente a los enfermos y a los no
enfermos. La prueba de referencia es el criterio diagnóstico que define quién
tiene «realmente» la enfermedad o condición de estudio. Es importante que
ambas pruebas se realicen simultáneamente, pues cualquier lapso temporal
entre ellas puede afectar a su resultado.
Tanto la prueba que se va a evaluar como la de referencia deben ser
aplicadas en todos los pacientes del estudio. El proceso de realización y
evaluación de ambas pruebas, idealmente, debe ser ciego. Es decir, ambas

pruebas deben realizarse e interpretarse sin conocer el resultado de la
otra, y de forma independiente, es decir, la aplicación de la prueba de
referencia no debe estar condicionada por los resultados de la prueba
evaluada.
En algunas situaciones, la prueba de referencia puede resultar invasiva o
costosa, y pueden surgir reparos en la realización de la prueba de referencia
a los pacientes con resultado negativo en la prueba que se va a evaluar. Una
alternativa es seguir a los pacientes por un tiempo adecuado y evaluar así
si son verdaderos negativos (VN).
Otro de los puntos clave que hay que tener en cuenta en la lectura crítica
de un artículo sobre evaluación de pruebas diagnósticas es el análisis de los
resultados en ambas pruebas. Cuando el resultado de las pruebas es de
carácter dicotómico (positivo o negativo), se puede realizar una clasificación
cruzada de los resultados de ambas pruebas (la sometida a evaluación y la
prueba de referencia) en forma de una tabla cruzada 2 × 2.
A partir de la tabla cruzada, los resultados posibles son cuatro: la prueba
ha dado un resultado positivo que ha sido confirmado por la prueba de
referencia, con lo que se tratará de verdadero positivo (VP). Si el resultado
de la prueba es negativo y se confirma la ausencia de enfermedad, se
trata de un VN. Las situaciones en las que la prueba ha dado un resultado
erróneo, es decir, un resultado no verificado por la prueba de referencia,
tendremos falsos positivos (FP) o falsos negativos (FN), en función de si
el resultado de la prueba fue positivo o negativo, respectivamente. En la
tabla 6-1 se representa una tabla de clasificación cruzada, y la notación
contenida en sus cuatro celdas ayuda a explicar los cálculos de los índices de
validez diagnóstica. Para medir el rendimiento diagnóstico de una prueba,
se proponen distintas parejas de índices.
Sensibilidad y especificidad: son los índices más utilizados como índices
de validez de las pruebas diagnósticas. Ambos se interpretan fácilmente,
tomando valores entre 0 (prueba no válida) y 1 (prueba perfectamente
válida).
TABLA 6-1 Clasificación cruzada 2 × 2

Prueba de referencia
Presente Ausente Total

Prueba que se va a evaluar Positivo VP FP a + b
a b
Negativo FN VN c + d
c d
Total a + c b + d N
FN, falsos negativos; FP, falsos positivos; VN, verdaderos negativos; VP, verdaderos positivos.
La sensibilidad se refiere a la probabilidad que tiene una prueba diagnós-

tica para proporcionar un resultado positivo entre los sujetos enfermos:
a
Sens =
a+c
La especificidad refleja la probabilidad que tiene una prueba diagnóstica
de dar un resultado negativo entre los sujetos que no tienen la enfermedad:
d
Esp =
b+d
Cuando el objetivo es la detección de enfermedades graves y tratables, es
necesaria una prueba muy sensible. Las pruebas que se aplican para cribado
de enfermedades, por ejemplo, deben ser pruebas con alta sensibilidad. En
cambio, con la especificidad se persigue la confirmación de los sujetos no
enfermos. Es preferible una prueba muy específica cuando la enfermedad
es grave, pero difícilmente tratable, y que un resultado falsamente positivo
pueda tener una gran transcendencia, por ejemplo, un falso diagnóstico de
VIH o de cáncer.
En este sentido, se propone una regla nemotécnica que ayuda a valorar
los resultados obtenidos en la sensibilidad y especificidad: SnNout re-
cuerda que cuando una prueba diagnóstica tiene una sensibilidad elevada
(sensitivity), los resultados negativos ayudan a descartar el diagnóstico con
alta probabilidad (rule out). SpPin recuerda que si la prueba tiene alta es-
pecificidad (specificity), los resultados positivos son muy indicativos para
confirmar el diagnóstico (rule in).
Valores predictivos positivo y negativo: aunque los anteriores son los
índices más recogidos en las publicaciones científicas de evaluación de
prueba diagnóstica, no son índices útiles para la práctica, pues, en realidad,
cuando se solicita una prueba, no se conoce si el paciente está enfermo o no.
Lo que se quiere conocer es la probabilidad de estar enfermo a partir del

resultado de la prueba. En este contexto de práctica clínica, parece más útil
hablar de valores predictivos, es decir, la probabilidad de un diagnóstico
cuando el resultado de la prueba es positivo o negativo.
El valor predictivo positivo se refiere a la probabilidad de tener la enfer-
medad, dado que se ha observado un resultado positivo:
a
VP + =
a+b
Con el valor predictivo negativo, se obtiene la probabilidad de no tener
la enfermedad, dado que se ha observado un resultado negativo:
d
VP − =
c+d
Sin embargo, a pesar de su atractiva interpretación, no son unos ín-

dices adecuados para su uso como evaluación del rendimiento diagnós-
tico de una prueba, pues están muy influidos por la prevalencia de la
condición que se está estudiando. Para una misma prueba diagnóstica,
el aumento de la prevalencia aumenta el valor predictivo positivo y
disminuye el valor predictivo negativo, y viceversa. Esto explica que
una misma prueba se comporte de forma distinta según el ámbito en
el que se aplique. Por tanto, el valor predictivo está relacionado con la
aplicabilidad de la prueba. La probabilidad de que un paciente con
prueba positiva esté realmente enfermo dependerá de la prevalencia de
la enfermedad.
Haz la prueba.
En una población de 100.000 habitantes, hay una prevalencia de la en-
fermedad X del 1%. Tenemos una sensibilidad de la prueba diagnóstica del
90% y una especificidad del 90%.
El 1% de 100.000 habitantes son 1.000 pacientes. Habrá, por tanto, 1.000
enfermos y 99.000 sanos.
Si la sensibilidad de la prueba es del 90%, de los 1.000 pacientes enfer-
mos, diagnostica correctamente a 900 (a). Si la especificidad de la prueba
es del 90%, de los 99.000 sanos, diagnostica falsamente como enfermos a
9.900 (b).
Por tanto, de los pacientes diagnosticados como enfermos
9.900 + 900 = 10.800 (a + b), solo 900 (a) son correctamente diagnosticados
900/10.800 (a/a + b), el 8,33%.
Si haces estos mismos pasos variando la prevalencia, observarás cómo
se va a ir modificando el porcentaje.
Cocientes de probabilidad positivo y negativo: también denominados
razones de verosimilitud o likelihood ratios (LR en la literatura inglesa). Son
una pareja de índices menos populares que los anteriores, pero más útiles
para interpretar y utilizar el resultado de una prueba diagnóstica (3).
El cociente de probabilidad positivo (CP+ ) refleja cuánto más frecuente
es obtener un resultado positivo entre los enfermos que entre los no enfer-
mos. Si la prueba fuera totalmente inútil para diagnosticar una enfermedad
(piénsese en una moneda tirada al aire), el resultado positivo (p. ej., obtener
una cara) se obtendría con la misma frecuencia en los enfermos que en
los no enfermos, con lo que ese resultado positivo no aportaría ninguna
información y el CP+ sería 1. Cuanto más frecuente sea el resultado positivo
en los enfermos con respecto a los no enfermos, más información aporta
ese resultado y, por tanto, mayor será el valor del CP+.
De la misma forma, el cociente de probabilidad negativo (CP–) repre-
senta cuánto más frecuente es el resultado negativo entre los enfermos
que entre los no enfermos. Si el resultado negativo (la cruz de la moneda
de nuestro ejemplo) se obtuviera con la misma frecuencia en los enfermos
y en los no enfermos, este resultado no contendría ninguna información
(CP– igual a 1). Cuanto menos frecuente sea el resultado negativo en los
enfermos con respecto a los no enfermos, más información aporta y menor
será el valor del CP– (4).
Cociente de probabilidad positivo (CP+): cuánto más frecuente es
obtener un resultado positivo entre los enfermos que entre los no en-
fermos:
VP
sen
CP + = VP + FN =
FP 1 − esp
FP + VN
Cociente de probabilidad negativo (CP–): cuánto más frecuente es ob-
tener un resultado negativo entre los enfermos que entre los no enfermos:
FN
CP − = VP + FN = 1 − sen
VN esp
FP + VN
No te asustes con la fórmula; si lo piensas bien es muy fácil recordarla.
Si conocemos la sensibilidad de la prueba y su especificidad, solo tienes
que hacer un sencillo cálculo. Haz la prueba.
Tenemos una prueba diagnóstica con una sensibilidad del 95% y una es-
pecificidad del 90%. Si te fijas bien en la fórmula anterior, el cociente de pro-
babilidad positivo realmente es el cociente entre la sensibilidad y el «error»
de la especificidad (1 – esp); si la especificidad es del 90%, hay un 10% de
«error» en la especificidad, por tanto, nuestro ejemplo será 95/10 = 9,5. Para
el cociente de probabilidad negativo, usaremos el «error» de la sensibilidad
(1 – sen) y la especificidad, en nuestro ejemplo 5/90 = 0,055.
Antes de realizar una prueba diagnóstica, la probabilidad de padecer
la enfermedad en el estudio, denominada probabilidad a priori, coincide

con la prevalencia para esa población de esa enfermedad o condición.
Utilizando el conocido teorema de Bayes, se puede utilizar el valor del
CP (positivo o negativo) del resultado de la prueba para actualizar la
probabilidad a priori en probabilidad a posteriori (posprueba).
Este cálculo puede obtenerse fácilmente gracias al nomograma desarro-
llado por Fagan en 1975 (5) (fig. 6-1). Trazando una línea de intersección
entre la probabilidad a priori y el CP del resultado, se obtiene una proba-
bilidad posprueba.
Si en lugar de un resultado dicotómico, la prueba que se va a evaluar
proporciona resultados cuantitativos, los índices de validez diagnóstica
deben obtenerse de una manera diferente, mediante la conocida curva
ROC (receiver operating characteristic) (6), escapando su descripción a los
objetivos de este libro.
FIGURA 6-1 Nomograma de Fagan.
ARTÍCULO
Davis JL, Huang L, Worodria W, Masur H, Cattamanchi A, Huber C,

et al. Nucleic acid amplification tests for diagnosis of smear-negative
TB in a high HIV-prevalence setting: a prospective cohort study. PLoS
One. 2011;6(1):e16321. Disponible en: http://www.plosone.org/article/
info%3Adoi%2F10.1371%2Fjournal.pone.0016321.


artículo concreto.
CUADRO 6-1
A) ¿Son válidos los resultados del estudio?
1. ¿Existió una Sí ✓ No sé No
comparación con una
prueba de referencia Se utilizó el cultivo en medio de micobacterias
adecuada? como el patrón de oro, lo cual es correcto.
PISTA: ¿es correcto el patrón Además, se utilizó un segundo patrón
de oro? (no siempre se puede de oro incorporando criterios clínicos bien
aplicar el mismo patrón de oro definidos en aquellos pacientes con cultivo
a todos los pacientes) negativo
2. ¿Incluyó la muestra Sí ✓ No sé No
un espectro adecuado Para evitar los sesgos de selección, se
de pacientes? incluyeron todos los pacientes ingresados en
PISTAS: el hospital de Kampala por tos de más de 2
– ¿Están adecuadamente semanas de duración de manera consecutiva.
descritos los pacientes y Los pacientes incluidos tenían la sospecha de
cómo se seleccionaron? enfermedad
– Casi cualquier prueba
distingue entre sanos y
gravemente enfermos
3. ¿Existe una adecuada Sí ✓ No sé No

descripción de la Se define con claridad qué es un resultado
prueba? positivo, tanto para la prueba de MTD como
PISTAS: para la prueba secA1 PCR. Se especifica cómo

– ¿Se define con claridad realizar la prueba; no obstante, se remite
qué es un resultado al lector a otro original anterior donde la
positivo y qué es un descripción fue más exhaustiva para la prueba
resultado negativo? de secA1
– ¿Se especifica la
reproducibilidad de
la prueba (este puede
ser un punto clave en
pruebas que dependen
del observador, como las
técnicas de imagen)?
(Continúa)
CUADRO 6-1 (cont.)

4. ¿Hubo evaluación Sí ✓ No sé No
«ciega» de los Los investigadores se mantuvieron ciegos para los
resultados? datos clínicos y de la prueba de oro. Los resultados de
PISTA: ¿las personas las pruebas estudiadas solo se desvelaron cuando las
que interpretaron la muestras estuvieron clasificadas
prueba conocían los
resultados del patrón de
oro (y viceversa)?
5. ¿La decisión Sí ✓ No sé No
de realizar el Todas las muestras recogidas se procesaron tanto
patrón de oro fue para el cultivo (patrón de oro) como para las pruebas
independiente del de estudio. Todas las muestras se clasificaron con los
resultado de la mismos criterios independientemente del resultado
prueba problema? del cultivo
PISTAS: Considera si:
– Se incluyeron
preferentemente
los resultados
positivos en la
prueba que se iba
a evaluar
– Se utilizaron
diferentes
patrones de oro en
los positivos y en
los negativos
CUADRO 6-1 (cont.)

6. ¿Se pueden Sí ✓ No sé No
calcular los Enfermos No enfermos
cocientes de Test + a = 29 b=7
probabilidad Test – c = 46 d = 129
(likelihood
ratios)?
Sensibilidad = a/(a + c) = 29/(29 + 46) = 38,7% (IC 95%:
PISTAS:
27,6-50,6)
– ¿Se han tenido
en cuenta los Especifidad = d/(b + d) = 129/(129 + 7) = 94,9%
pacientes con (IC 95%: 89,7-97,9)
resultados «no
CP+ = sens/(1 – esp) = 7,5 (IC 95%: 3,5-16,3)
concluyentes»?
– ¿Se pueden CP– = (1 – sens)/esp = 0,65 (IC 95%: 0,54-0,78)
calcular los
cocientes de
probabilidad
para distintos
niveles de
la prueba, si
procede?
7. ¿Cuál es la Sí ✓ No sé No
precisión de los Resultados para el cultivo y el método secA1.
resultados? Los intervalos de confianza de los cocientes de
PISTA: hay que probabilidad son aceptables, pero demasiado exactos
buscar o calcular
los intervalos
de confianza de
los cocientes de
probabilidad
(Continúa)
CUADRO 6-1 (cont.)

C) ¿Son los resultados aplicables al escenario?
8. ¿Serán satisfactorias en Sí No sé No ✓
el ámbito del escenario El ámbito del estudio es completamente
la reproducibilidad de la distinto al de Francisco, es población
prueba y su interpretación? africana, con una incidencia de tuberculosis
PISTA: considera si el ámbito de la mucho más elevada que la nuestra, más
prueba es demasiado diferente al del joven, más inmunodeprimida y con una
escenario baja proporción de pacientes que reciben
tratamiento antirretroviral
9. ¿Es aceptable la prueba en Sí ✓ No sé No

este caso? La prueba es factible en el medio de
PISTA: considera la disponibilidad Francisco y los riesgos/molestias son
de la prueba, los riesgos y molestias mínimos. Los costes son moderados en
de la prueba y los costes nuestro medio, por lo que sí es aceptable
10. ¿Modificarán los resultados Sí ✓ No sé No

de la prueba la decisión Dadas las dificultades tan importantes para
sobre cómo actuar? tratar a Francisco con los tuberculostáticos,
PISTAS: una prueba que excluya la infección es muy
– Desde la perspectiva útil, a pesar de que la validación es en una
del escenario, si la actitud población diferente.
no va a cambiar, la prueba Si la prueba excluye, espera al resultado
es (al menos) inútil del cultivo, que tarda unos 60 días, para
– Considera el umbral de definitivamente no tratar la tuberculosis
acción y la probabilidad de
enfermedad antes y después
de la prueba
IC 95%, intervalo de confianza al 95%; MTD, Mycobacterium tuberculosis Direct; secA1 PCR,
reacción en cadena de la polimerasa para la detección del gen secA1.
Bibliografía
1. Sackett DL, Haynes RB. The architecture of diagnostic research. BMJ. 2002 Mar
2;324(7336):539-541.
2. Van den Bruel A, Cleemput I, Aertgeerts B, Ramaekers D, Buntinx F. The evaluation of
diagnostic tests: evidence on technical and diagnostic accuracy, impact on patient outcome
and cost-effectiveness is needed. J Clin Epidemiol. 2007 Nov;60(11):1116-1122.
3. Jaeschke R, Guyatt GH, Sackett DL. Users’ guides to the medical literature. III. How to
use an article about a diagnostic test. B. What are the results and will they help me in
caring for my patients? The Evidence-Based Medicine Working Group. JAMA. 1994 Mar
2;271(9):703-707.
4. Abraira V. Índices de rendimiento de las pruebas diagnósticas. SEMERGEN.
2008;28:193-194.
5. Fagan TJ. Letter: Nomogram for Bayes theorem. N Engl J Med. 1975 Jul 31;293(5):257.
6. Hanley JA, McNeil BJ. The meaning and use of the area under a receiver operating cha-
racteristic (ROC) curve. Radiology. 1982 Apr;143(1):29-36.

Royuela A, Montes ML, Martín AJ. Lectura crítica de estudios de diagnóstico. En: Cabello Juan
B, editor. Lectura crítica de la evidencia clínica. Barcelona: Elsevier; 2015. p. 87-99.
C A P Í T U L O
7
de pronóstico. Estudios de cohortes
Víctor Abraira, Alfonso Muriel García
y María Luisa Montes Ramírez

• Describir y clasificar los tipos de estudios de pronóstico.
• Tratar los aspectos clave de la evaluación de la validez de los estudios
de pronóstico.
• Reflexionar acerca de la importancia de los estudios de pronóstico
para justificar las decisiones sobre el manejo del paciente.
INTRODUCCIÓN
En medicina, el pronóstico se refiere a la estimación del riesgo de futuros

acontecimientos en personas con una enfermedad o condición de salud
determinada, y su relación con determinadas características actuales (1).
Realizar apreciaciones pronósticas que informen al paciente y a su entorno
sobre la evolución más probable de la enfermedad y ayuden a la toma de
decisiones sobre la realización de las distintas intervenciones posibles es
una de las funciones básicas de la medicina y de los médicos. Las inter-
venciones terapéuticas se encaminan, precisamente, a modificar el pronós-
tico espontáneo o historia natural de la enfermedad, transformándolo en
un sentido positivo. Sin duda, la primera preocupación de una persona
enferma es conocer en qué medida la enfermedad puede interferir su
expectativa de vida; por tanto, el estudio de la mortalidad y del tiempo
que transcurre entre el comienzo de la enfermedad o su diagnóstico y/o
la instauración del tratamiento y la muerte, o tiempo de supervivencia,
constituyen la prioridad para cualquier estudio de pronóstico. Pero también

forman parte del mismo otras consecuencias de la enfermedad (remisión,

recidiva, complicaciones, secuelas, etc.) que interesan al paciente y forman
parte del proceso de toma de decisiones del médico.
Con muchos puntos en común con el pronóstico, está el problema de los
factores de riesgo para enfermar, en el que también se trata de estimar el
riesgo de un acontecimiento futuro, aunque en este caso el acontecimiento
de interés es enfermar entre personas de la población general, o de un
cierto subgrupo de ella, en lugar de muerte o complicaciones en personas
enfermas. Por lo tanto, los estudios para estimar factores de riesgo y factores
pronósticos tienen muchas similitudes. En ambos casos, el diseño óptimo
es un estudio de cohortes, es decir, un estudio en el que se selecciona un
grupo de individuos, bien definido, representativo de la población de
estudio, al que se sigue durante un tiempo suficientemente prolongado
para observar el evento de interés. Idealmente son estudios prospectivos,
aunque a veces son retrospectivos o mixtos. En ocasiones, en lugar de un
único grupo se seleccionan grupos con distintos niveles del factor, sobre
todo en el estudio de los factores de riesgo, debido a que se trata de predecir
enfermedades, en general con baja probabilidad, mientras que los factores
pronósticos predicen eventos, en general de mayor probabilidad.
Recientemente se ha propuesto una clasificación de los estudios de
pronóstico en cuatro categorías distintas, aunque interrelacionadas (1):
• Investigación fundamental en pronóstico, en la que se trata de estudiar
el curso natural, o con el cuidado habitual, de la enfermedad y sus
variaciones. El resultado de esta investigación se expresa como riesgo
(o frecuencia) absoluto de uno, o más eventos, entre las personas
que comparten características demográficas y clínicas; es, por lo tanto,
el pronóstico promedio de un determinado grupo de interés, también
llamado riesgo basal. Esta investigación proporciona respuestas
iniciales a la pregunta «¿cuál es el pronóstico de las personas
con una determinada enfermedad?». Por ejemplo, en promedio,
cerca del 15% de las personas de 65 años de edad o más, ingresadas
en 2006 en EE. UU., murieron con un ataque al corazón dentro de
los 30 días siguientes al de su ingreso en el hospital, en comparación
con un promedio del 19% en 1995 (2).
• Investigación en factores pronósticos, en la que se trata de identificar
factores específicos (como biomarcadores, fármacos, otras
enfermedades, signos, etc.) asociados con el pronóstico. El resultado
de esta investigación se puede expresar bien como RR de sufrir
el evento de los pacientes con un nivel del factor respecto al que
se toma como referencia —p. ej., en pacientes con linfoma esplénico
de la zona marginal, los que presentan adenopatía extrahiliar tienen
un riesgo de muerte por la enfermedad 2,1 veces mayor que los que
no la presentan (3)—, bien en términos absolutos mostrando los riesgos,
7. Lectura crítica de estudios de pronóstico. Estudios de cohortes 103
o más frecuentemente las curvas de supervivencia, para los pacientes

con distintos valores del factor. En el artículo que se usará para hacer
la lectura crítica (4) se usan ambas presentaciones.
• Investigación sobre modelos pronósticos, que trata de desarrollar, validar
y evaluar el impacto de modelos estadísticos para predecir el riesgo
individual de un futuro evento. Es importante enfatizar la necesidad
de validación y evaluación del impacto, porque, aunque se han
propuesto muchos modelos pronósticos, relativamente pocos son
validados externamente y muy pocos evalúan el impacto de su uso
(5). El resultado de esta investigación se puede presentar en forma
de una fórmula, o gráfica (nomograma) (6), que permite calcular
la probabilidad futura del evento para un individuo en función de los
valores observados de los factores, o bien como una puntuación
obtenida de la fórmula, con sus puntos de corte para generar
grupos de riesgo (7). El uso de los modelos pronósticos para hacer
predicciones individuales es más preciso y, en general, preferible a la
creación de grupos de riesgo, aunque los grupos de riesgo pueden
informar para opciones de tratamiento y permitir la estratificación
por riesgo de gravedad en los EC (5). Este tipo de investigación es
tratada en el capítulo 8 dedicado a las reglas de predicción clínica.
• Investigación sobre medicina estratificada. La medicina estratificada
pretende seleccionar tratamientos en función de características
de los pacientes que predigan la respuesta. La investigación en
pronóstico es un componente principal de esta medicina (8).
ESCENARIO
Carmen es una mujer de 60 años a la que se le acaba de diagnosticar un

adenocarcinoma de estómago en estadio T2 N0 M0. Su oncóloga le ha expli-
cado que el primer paso del tratamiento es la cirugía de resección del tumor y
después es posible que se requiera quimioterapia adyuvante. Carmen quiere

saber con más exactitud si será preciso recibir quimioterapia adyuvante, con
todo lo que ello conlleva, pues tiene un pequeño negocio familiar que lleva
ella directamente y necesita decidir qué hacer con él. La oncóloga le explica
que esto depende de la verdadera extensión del adenocarcinoma y que
antes de la operación es muy difícil de determinar. Carmen insiste en saber
si no existen otros datos, en la tomografía computarizada o los análisis, que
puedan ayudar a predecir mejor su pronóstico; necesita organizarse y tomar
decisiones importantes sobre su situación laboral desde el principio y no
esperar a después de la cirugía. Su oncóloga le dice que va a revisar estudios
recientes, pues recuerda haber leído algo sobre un marcador en sangre.
En una búsqueda en PubMed encuentra un artículo reciente sobre el
valor pronóstico del dímero-D en pacientes con cáncer gástrico antes de la
cirugía. Tras hacer una lectura crítica, lo comenta con Carmen y, dado que es
una prueba sencilla y barata, deciden hacerla; el resultado es de 1,15 mg/ml.
• ¿Crees que la determinación del dímero-D puede ayudar a predecir el
pronóstico de los pacientes con carcinoma gástrico?
• En el caso de Carmen, ¿crees que es aplicables esta prueba? ¿Puede
ayudarla a clarificar su pronóstico y tomar las decisiones personales
que necesita?

DE ESTUDIOS DE FACTORES PRONÓSTICOS
EN EL DISEÑO
Como se ha dicho en la introducción, y señalando en negrita los puntos
clave para la evaluación crítica de artículos de este tipo, el diseño óptimo
para establecer factores pronósticos es un estudio de cohortes, es decir,
un estudio en el que se selecciona un grupo de pacientes bien definido,
representativo de la población de estudio, en un momento homogéneo
de la enfermedad, al que se sigue en el tiempo para observar el evento o
eventos de interés durante un tiempo suficientemente prolongado.
Que un grupo de pacientes esté bien definido y sea representativo de la
población de interés depende de la pregunta de investigación. Por ejem-
plo, para responder a la pregunta de si el uso de antipsicóticos atípicos
aumenta el riesgo (es factor pronóstico) de padecer fractura de cadera
en ancianos, se debe comparar la frecuencia de fracturas en un grupo de
ancianos que toman antipsicóticos atípicos con la de otro grupo que no los
toma; ahora bien, este grupo puede estar formado por ancianos que no
tomen antipsicóticos o por ancianos que tomen otro tipo de antipsicóticos.
Es representativo, según el caso, un grupo de ancianos de la población
general o de ancianos con demencia (9).
Otro elemento clave para la validez de estos estudios es que, en el comienzo
del seguimiento, los pacientes se encuentren en un momento homogéneo de
la enfermedad. Es fácil de entender que si, por ejemplo, se quieren estudiar
factores pronósticos para pacientes infectados por el VIH, daría lugar a errores
(efecto cohorte) introducir en la cohorte pacientes naïve (que no han recibido
ningún tratamiento antirretroviral) junto con pacientes multitratados.
El elemento clave más relevante de estos estudios, que condiciona to-
dos los demás, es la elección del evento. Como ya se ha mencionado, con
frecuencia es la muerte, pero también hay otros eventos de interés, como
remisión, recidiva, rechazo del trasplante, aparición de la enfermedad, por
ejemplo, en pacientes con VIH, etc. El artículo debe tener una definición
clara y precisa del evento, o eventos, de interés (p. ej., si fuera muerte, es-
pecificar si es por todas las causas o por alguna causa específica o, si fuera
recidiva, cómo se determina, si clínica, radiológica o histológicamente). El

lector crítico debe considerar la pertinencia y relevancia de estas definicio-
nes. Véanse, por ejemplo, las definiciones de evento recomendadas por la
agencia gubernamental norteamericana FDA para tratamientos oncológicos
(10). Otro elemento clave en relación con el diseño del estudio es la forma
en que se han recogido las variables, con procedimientos homogéneos y
estandarizados (muy relevante en estudios retrospectivos y multicéntricos),
sobre todo en aquellas que tengan elementos subjetivos (dolor, calidad de
vida, etc.), necesiten interpretación (pruebas de imagen) o tengan com-
plejidades técnicas (pruebas de laboratorio). Estos procedimientos deben
garantizar la independencia (ceguera) respecto al evento y al factor.
El tiempo de seguimiento debe ser suficiente para que se pueda observar
el número de eventos necesario de acuerdo con la potencia estadística prees-
tablecida. Esto depende, naturalmente, de la naturaleza de la enfermedad y
la frecuencia del evento estudiado. Por ejemplo, un período de seguimiento
de 5 años puede ser apropiado para el estudio de la supervivencia en muchas
variedades de cáncer, sin embargo, es un tiempo claramente insuficiente
para valorar la supervivencia de enfermos en tratamiento sustitutivo por
insuficiencia renal. Por el contrario, un seguimiento de 30 días es adecuado
para estudiar la supervivencia a un episodio agudo de tromboembolismo
pulmonar. En aquellos estudios que precisen un tiempo de seguimiento largo,
hay que prestar atención a la posible pérdida de pacientes y sus causas, sobre
todo a aquellas relacionadas con el evento o el factor. Sería deseable, para
ayudar a evaluar su validez, que todo artículo de pronóstico cuantificara
las pérdidas en el seguimiento, describiera las situaciones que las provocan
(abandono del estudio u ocurrencia de alguna otra circunstancia que impide
la observación del evento) y las características de los pacientes afectados (11).
EN LOS RESULTADOS
En cuanto a los resultados de estos estudios, como se dijo en el apartado
«Introducción» se pueden expresar de varias maneras: como riesgo (o

frecuencia) absoluto de sufrir el evento en la población de interés, mostran-
do la evolución del riesgo o la supervivencia (curvas de supervivencia) a lo
largo del tiempo, o como RR de los pacientes de un nivel del factor respecto
al que se toma como referencia. Para estimar el riesgo absoluto se suelen
usar dos índices: incidencia acumulada y densidad (o tasa) de incidencia.
La incidencia acumulada es la proporción de individuos que desarrollan
el evento durante el período de seguimiento. Como proporción no tiene
dimensiones y su valor oscila entre 0 y 1, aunque también se suele expresar
como porcentaje. Depende del tiempo de seguimiento, que se debe hacer
explícito. El resultado del ejemplo citado en el apartado «Introducción»
(el 15% de las personas ≥ 65 años de edad ingresadas en 2006 en EE. UU.
murieron con un ataque al corazón dentro de los 30 días siguientes al de su
ingreso) es una incidencia acumulada. La principal limitación de este índice
proviene del llamado efecto de cohorte fija: presenta cierta indeterminación

si hay pérdidas en el seguimiento. Para evitar esta limitación se puede usar
otro índice: la densidad, o tasa, de incidencia, que es el cociente entre
el número de eventos ocurridos durante el período de seguimiento y la
suma de todos los tiempos de observación. Tiene dimensión de inversa
del tiempo, un rango ilimitado a partir de 0, y no depende del tiempo de
seguimiento, asumiendo estacionariedad, es decir, riesgo constante a lo
largo del tiempo. Esta asunción no siempre es razonable.
Sin embargo, en general, el resultado de interés no es la frecuencia de
ocurrencia de los eventos, sino el tiempo hasta que ocurren. En este caso,
los resultados se suelen expresar, generalmente en forma gráfica, mediante
la denominada función de supervivencia, que da, para cada tiempo t, la
probabilidad de que el evento ocurra (el paciente sobreviva, si el evento es
muerte) en un tiempo igual o mayor que t. La figura 4 del artículo que se
propone como ejemplo (4) muestra curvas de supervivencia de pacientes
con cáncer gástrico estratificados por diseminación peritoneal y valores del
dímero-D. La principal dificultad para estudiar el tiempo hasta la ocurrencia
de un evento es que, en general, al final del período de seguimiento siempre
hay individuos en los que no se ha podido observar el evento y, por lo tanto,
se desconoce el tiempo transcurrido hasta su ocurrencia, si bien se tiene una
información parcial sobre él (si es mayor o igual que el tiempo observado).
A este fenómeno se le denomina censura. La función de supervivencia se suele
estimar por el método de Kaplan-Meier, que tiene en cuenta la información
contenida en las censuras, asumiendo, y es importante resaltarlo porque es un
punto crítico para la validez de la estimación, que las censuras son no informa-
tivas o, dicho de otro modo, que los individuos censurados tienen el mismo
riesgo de ocurrencia del evento que los que siguen en observación más allá
de ese tiempo. La importancia de esta asunción es tanto mayor cuanto mayor
sea el número de censuras. Nótese que esta asunción no es trivial y se violaría,
por ejemplo, si los pacientes que abandonan el estudio están más graves, o
menos, que los que continúan o, en otro ejemplo, si el evento fuera progresión
de la enfermedad; la muerte sin progresión seguramente no cumple con esa
asunción. Aunque excede los objetivos de este texto profundizar en ello, hay
que distinguir entre censura (circunstancia que impide la observación del
evento, pero se supone que este ocurrirá en el futuro) y evento competitivo
(circunstancia que impide que el evento ocurra), que requiere un tratamiento
estadístico distinto. La muerte sin progresión en el ejemplo anterior sería mejor
considerarla un evento competitivo que una censura.
La otra forma de expresar el resultado de un estudio sobre factores pro-
nósticos es mediante el RR, HR en inglés, de los pacientes de un nivel del
factor respecto al que se toma como referencia. Es un cociente entre dos
riesgos, por lo tanto, es igual a 1 si en ambos niveles del factor los pacientes
tuvieran el mismo riesgo, es decir, si el factor estudiado no fuera un factor de
riesgo, mayor que 1 si fuera factor de riesgo y menor que 1 si fuera factor
de protección. El riesgo, en estos análisis, se define como la probabilidad

por unidad de tiempo (tasa instantánea de eventos) de que un individuo
que está en observación en el tiempo t tenga el evento justo en ese tiempo,
condicionado a que el evento no ocurrió antes. Puede ser, y de hecho suele
serlo, variable en el tiempo. Sin embargo, el modelo de regresión de Cox,
que es el método usado casi en exclusiva en la investigación clínica (11) para
estimar el RR, asume que, aunque el riesgo pueda variar, el RR es constante.
Esta asunción no siempre se cumple, no se cumpliría, por ejemplo, en un es-
tudio en el que al final del seguimiento a todos los pacientes les haya ocurrido
el evento. Es, por lo tanto, necesario evaluarla. Hay distintos procedimientos
gráficos y estadísticos para hacerlo, pero el más sencillo es la inspección visual
de las curvas de supervivencia. Si se cumple la asunción de RR constante, las
curvas se separan según avanza el tiempo; que las curvas converjan o, en el
caso extremo, se corten es un indicador de que la asunción no se cumple. En
la figura 7-1 se muestran curvas que cumplen la asunción, y en la figura 7-2
curvas que no la cumplen.
PRECISIÓN
Es importante destacar también que los índices citados en el apartado ante-
rior se calculan a partir de muestras, es decir, un subconjunto de los pacientes
de interés en lugar de todos ellos; por tanto, presentan una imprecisión que
se debe cuantificar por el intervalo de confianza (intervalo dentro del cual se
FIGURA 7-1 Curvas de supervivencia en las que se cumple la asunción de riesgo relativo
constante, o riesgo proporcional. Obsérvese cómo se separan según avanza el tiempo.
FIGURA 7-2 Curvas de supervivencia en las que no se cumple la asunción de riesgo relativo
constante. Este sería un caso extremo en el que las curvas llegan a cruzarse, por lo que, para
tiempos menores del punto en el que se cruzan (150 meses), el riesgo de evento para los pacientes
sin ganglios (línea negra) es menor (supervivencia mayor) que para los pacientes con ganglios
(línea naranja); por lo tanto, el riesgo relativo es menor que 1 y, sin embargo, para tiempos mayores
que 150, la relación se invierte y el riesgo relativo es mayor que 1, es decir, no es constante.
puede asegurar, con una probabilidad determinada, habitualmente el 95%,

que se encontraría el índice si se hubieran estudiado todos los pacientes, asu-
miendo que el estudio sea válido). En el caso de las curvas de supervivencia,
la anchura del intervalo de confianza aumenta según avanza el tiempo como
consecuencia de la disminución del número de pacientes. En algunos estudios,
la anchura al final del tiempo de seguimiento es tan grande, aunque con de-
masiada frecuencia no mostrada (11), que se hace difícil la interpretación de la
curva. Una de las razones por las que no siempre se muestran los intervalos de
confianza es que, cuando se presentan varias curvas en la misma gráfica, esta
puede llegar a ser engorrosa. Un modo alternativo de presentar la precisión
en estos casos es incluir debajo del eje del tiempo el número de pacientes que
permanecen en el estudio en cada tiempo. Como ayuda a la interpretación de
cómo afecta este número a la precisión, se puede usar la recomendación
de Pocock et al. (12) de que cuando en cada rama quedan menos del 10-20% de
los pacientes que empezaron el estudio, la precisión de la estimación ya no es
buena. En la figura 7-3 se muestran dos curvas con sus IC 95% y se observa
este aumento de la anchura del intervalo según avanza el tiempo. También
se presenta el número de pacientes que permanece en el estudio.
FIGURA 7-3 Curvas de supervivencia con sus intervalos de confianza al 95% (IC 95%),
en los que se observa el aumento de anchura según avanza el tiempo.
CONFUSIÓN E INTERACCIÓN
La mayor amenaza para el estudio de asociaciones entre variables me-
diante estudios observacionales es la confusión. Existe confusión cuando
la asociación entre dos variables difiere según que se considere, o no, otra
variable. A esta última variable se le denomina variable de confusión. Para
que una variable sea de confusión debe de estar asociada al factor y a la va-
riable evento. Por ejemplo, en el estudio para la estratificación pronóstica
de pacientes con linfoma esplénico de la zona marginal (3), se encontró que
los pacientes con concentración sérica elevada de la lactato deshidrogenasa
(LDH) tienen un riesgo de muerte por la enfermedad 3,38 veces mayor que
los que no la tienen. Sin embargo, como la supervivencia puede depender no
solo de la LDH, sino también de otras variables, como la edad, o los niveles
de otros componentes sanguíneos, podría ocurrir que, si los pacientes con
niveles altos de LDH fueran también diferentes respecto a esas otras varia-
bles, esa estimación del RR esté equivocada (confundida). En efecto, cuando
se consideran otras variables, el RR de la LDH cambia a 2,47. La manera más
usada y sencilla de controlar la confusión es, como se hizo en ese estudio,
mediante modelos de regresión, en los que se incluyen la variable de interés

y las variables de confusión que se quieran considerar. Una medida habitual
para evaluar la confusión es comparar los efectos crudo (sin considerar
otras variables) y ajustado (considerándolas); diferencias mayores del 10%
indican presencia de confusión. Hay que resaltar que la confusión es un
problema crucial cuando se estudian asociaciones causales; por ello, el
diseño óptimo para evaluar el efecto de un tratamiento es el EC, en el que
la asignación aleatoria del tratamiento a los pacientes trata justamente de
evitar su asociación con cualquier otra variable para impedir la confusión;
y se han desarrollado complejos sistemas de análisis (13) para controlar
la confusión en los diseños observacionales de evaluación de efectos de
los tratamientos. Sin embargo, no es tan crítico en estudios de pronóstico,
por ejemplo, cuando se encuentra que el estado civil es un factor pronós-
tico para la supervivencia al cáncer de mama (14) probablemente no se ha
encontrado una asociación causal y hay algún factor, o varios (sicológicos, de
comportamiento…), distinto entre las mujeres casadas y no casadas que es el
causante de la diferencia en mortalidad y que, por lo tanto, sería un factor de
confusión para esa asociación. A pesar de estar probablemente confundida,
la información pronóstica que ofrece ese hallazgo es útil tanto para informar
a los pacientes, como para generar ideas sobre los factores causales.
Otra dificultad que se puede presentar con los resultados de un estudio
de pronóstico es la existencia de interacción o modificación del efecto. Existe
interacción cuando la asociación entre dos variables, en este caso factor y
evento, varía según los diferentes niveles de otra u otras variables. El aná-
lisis más sencillo de interacción se hace mediante el análisis de subgrupos
creados según los niveles de la variable modificadora de efecto. Para ello
hay que evaluar el efecto del factor en las distintas categorías de la variable
modificadora de efecto; por ejemplo, el efecto de la diabetes mellitus (DM)
sobre eventos cardiovasculares puede ser distinto si el paciente ha tenido
o no enfermedad cardiovascular previa (ECV). Si fuera así, el efecto de la
DM debería ser mostrado no como un RR, sino como dos: uno para los
pacientes con ECV previa y otro para los pacientes sin ECV previa (15). Se
dice que hay interacción entre la DM y la ECV, o que la ECV modifica el
efecto de la DM. Esta manera de analizarlo, muy utilizada en EC, presenta
dos dificultades: está restringida a variables modificadoras categóricas, es
decir, no es posible realizarla para variables continuas y no cuantifica es-
tadísticamente si los efectos son distintos. Para evaluar estadísticamente
la interacción entre un factor y una variable modificadora del efecto se
suelen usar modelos de regresión en los que se incluyen como variables
independientes el factor, la variable modificadora y el producto de las dos
anteriores. La significación obtenida para este producto contrasta estadís-
ticamente la interacción entre el factor y la variable. Si existe interacción, el
efecto del factor no es único, sino que será distinto según los valores de la
variable considerada, análogo a la consideración realizada anteriormente
en el caso de análisis de subgrupos. Si la interacción se realiza con una
variable continua, el efecto será distinto según cada valor de la variable.

Una alternativa de presentación podría ser mostrar el efecto del factor
mediante un gráfico en el que en el eje de abscisas se muestre la variable
modificadora y en el eje de ordenadas, el efecto.
UTILIDAD DEL PRONÓSTICO
Como ya se ha señalado, el objetivo de la investigación en factores pronós-

ticos es obtener información que permita informar al paciente y a su entorno
sobre la evolución más probable de la enfermedad y que ayude a la toma
de decisiones sobre la realización de las distintas intervenciones posibles;
también es útil para estratificar pacientes en los EC según su pronóstico
inicial. Por ello, y como también se ha señalado, no es tan crítico como en los
estudios de tratamiento obtener estimadores exentos de confusión, aunque sí
es conveniente controlar por factores pronósticos ya conocidos. En el artículo
citado sobre estado marital y cáncer de mama (14), el RR que se comunica
está ajustado por factores demográficos, de tumor y de tratamiento, para
asegurar que su valor pronóstico se añade al de los otros factores.
Con las técnicas genéticas, se está proponiendo una gran cantidad de
nuevos marcadores pronósticos, de los que conviene evaluar si añaden, y
cuánto, valor pronóstico a los anteriores. Además de la estimación ajustada por
los factores conocidos, se han desarrollado técnicas específicas para hacer esa
evaluación. Una de ellas es el índice de mejoría neta de la reclasificación (NRI)
(16), propuesto para la situación en que a un modelo pronóstico existente se
le añade una nueva variable, pero que no hay inconveniente en aplicarlo a la
comparación de dos modelos distintos, siempre que se puedan aplicar los dos
a los mismos pacientes. Sin entrar en demasiados detalles, el NRI exige estimar
las probabilidades de evento predichas por ambos modelos y clasificar con
ellas a los sujetos en categorías de riesgo. El NRI se define como la diferencia
de las proporciones de sujetos con evento que «suben» de categoría con el

nuevo modelo (el nuevo modelo les asigna una categoría de mayor riesgo
que el viejo) y los que «bajan» (pasan a una categoría de menor riesgo con el
nuevo modelo), menos esa misma diferencia en los sujetos sin evento. Es decir,
el NRI cuantifica lo que mejora la clasificación para los eventos, descontando
lo que empeora para los no eventos. Es, por tanto, un índice muy intuitivo de
la mejora que el nuevo marcador supone respecto al anterior.
ARTÍCULO
Liu L, Zhang X, Yan B, Gu Q, Zhang X, Jiao J, et al. Elevated Plasma D-

Dimer Levels Correlate with Long Term Survival of Gastric Cancer Patients.
PLoS ONE. 2014; 9:e90547. Disponible en: http://dx.plos.org/10.1371/
journal.pone.0090547.


artículo concreto.
CUADRO 7-1
A) ¿Son válidos los resultados?
1. ¿Fue una muestra Sí ✓ No sé No
representativa y bien definida Son 247 pacientes con cáncer gástrico
de pacientes en un momento probado patológicamente y sin terapia
similar en el curso de la paliativa previa atendidos en un
enfermedad? hospital de Shanghái entre 2002 y 2004.
PISTAS: Se permitió quimioterapia adyuvante si
– ¿De qué ámbito son los habían pasado más de 6 meses.
pacientes: atención primaria De ellos, 237 recibieron algún
o especializada? tratamiento quirúrgico (168
– ¿En qué punto de su gastrectomía radical, 46 gastrectomía
curso clínico se incluyen en el paliativa y 23 laparotomía exploratoria).
estudio? Después de la cirugía, 50 pacientes
fueron confirmados como diseminación
peritoneal
2. ¿Fue el seguimiento lo Sí ✓ No sé No
suficientemente prolongado Siguen a los pacientes mediante la
y completo? historia del hospital, el Registro de
PISTAS: Cáncer de Shanghái o el contacto con los
– El intervalo temporal entre un familiares.
factor pronóstico y un resultado El tiempo fue definido como el
es variable y puede ser muy intervalo entre la fecha de cirugía y el
largo último seguimiento o muerte debido a
– ¿Se pierden pacientes? ¿Se cáncer gástrico. Los pacientes fueron
investigan sus características? observados hasta el 31/12/2010
En resultados dicen que la mediana de
seguimiento fue 37 meses (1-48)
CUADRO 7-1 (cont.)

3. ¿Se utilizaron Sí ✓ No sé No
criterios objetivos y Los niveles de dímero-D fueron obtenidos 2 días
no sesgados para los antes de la cirugía con un método de ensayo de
resultados? fluorescencia ligado a enzimas.
PISTA: los resultados a veces Se considera normal valores de dímero-D
son objetivos (p. ej., muerte), menores de 0,5.
otras no tanto (p. ej., calidad El evento principal es muerte relacionada con
de vida). ¿Se valoraron de el cáncer gástrico.
modo «ciego»? No evalúan el riesgo competitivo de muerte, lo
definen como censura.
Se considera más robusto utilizar muerte por
cualquier causa.
El punto de corte óptimo, un valor de 1.465,
fue calculado basado en la curva ROC. No se
dice qué método se ha utilizado para decir que es
mejor (maximizar sensibilidad, especificidad, la
suma…)
4. ¿Se hizo un ajuste Sí No sé No ✓

por los factores No dan detalle de qué variables analizaron.
pronósticos En la tabla 5 del artículo original se muestra el
importantes? resultado de los factores pronósticos univariables,
PISTA: en muchos estudios pero no nos dicen si fueron evaluadas otras
de pronóstico el grupo variables.
de pacientes se divide en El modelo final lo componen el estadio (T1,
subgrupos de factores T2, T3, T4), las metástasis de nodos linfáticos, el
pronósticos (o tratamientos) tamaño del tumor (< o > 5 cm), la diseminación

sospechados. Si se hizo esto, peritoneal y el dímero-D con el punto de corte de
¿se controlaron por otros 1.465.
factores? Nota que todas las variables son significativas
y que no hacen mención a la posible existencia de
interacción o confusión, aunque en el texto dicen,
en la página 6, que el HR es 3,86 al comienzo del
párrafo y después dicen 2,28, que coincide con el
HR del modelo multivariable
(Continúa)
CUADRO 7-1 (cont.)

5. ¿Cuál es la Se presenta mediante curva de supervivencia por
probabilidad del(los) el método de Kaplan-Meier y nos dan la mediana
evento(s) en un de supervivencia.
período de tiempo En los pacientes con niveles de dímero-D bajos,
determinado? la mediana es 48,02 (43,8; 52,3) frente a 22,9 (17,5;
PISTAS: 28,4) en pacientes con dímero-D > 1.465
– La probabilidad varía En términos de HR, es 2,28 (1,36; 3,81)
en el tiempo
– ¿Se presentan
«curvas de
supervivencia»?
– ¿Se presentan para
los distintos factores
pronósticos?
6. ¿Cuán precisas son (v. pregunta 5.)
las estimaciones? Se debería añadir el intervalo de confianza de las
PISTA: ¿se dan los curvas o individuos en riesgo en los gráficos de la
intervalos de confianza? figura 4 del artículo original

7. ¿Son los pacientes Sí No sé ✓ No
del estudio similares Carmen es mujer (representan el 33%), con
a los míos? una edad media similar a la del estudio y con
PISTA: considera si: un estadiaje inicial de la enfermedad bien
– Los pacientes del representado entre los sujetos del estudio. Sin
estudio pueden ser embargo, es importante destacar que el estudio
suficientemente está realizado en sujetos asiáticos y no se sabe bien
diferentes de los de si podría existir alguna variabilidad genética en la
tu área síntesis de dímero-D relacionada con la raza
– Tu medio parece ser
muy diferente al del
estudio
CUADRO 7-1 (cont.)
8. ¿Conducen los Sí ✓ No sé No
resultados a Los autores sugieren que podría ser de gran ayuda
seleccionar o a evitar para predecir la diseminación y la supervivencia
un tratamiento? a medio plazo. En el caso de Carmen, si
decidimos que el factor racial no supone una
enorme diferencia, podría ayudarla a contemplar
un tratamiento menos agresivo y con menos
probabilidad de muerte a 4 años
9. ¿Son útiles los Sí ✓ No

resultados para En el caso de Carmen, aunque no determinante,
tranquilizar o permite predecir una probabilidad de
aconsejar a los supervivencia aproximada (a partir de la gráfica,
pacientes? teniendo solo en cuenta el resultado de la prueba)
a 1 año del 90% y a 2 del 70%, y esta información
podría ayuda a Carmen a decidir mejor sobre su
futuro próximo y el de su negocio
HR, hazard ratio; ROC, receiver operador characteristic.
Bibliografía
1. Hemingway H, Croft P, Perel P, Hayden JA, Abrams K, Timmis A, et al. Prognosis re-
search strategy (PROGRESS) 1: A framework for researching clinical outcomes. BMJ.
2013;346:e5595.
2. Krumholz HMM, Wang YP, Chen JM, Drye EEMS, Spertus JAM, Ross JSMM, et al. Re-
duction in Acute Myocardial Infarction Mortality in the United States: Risk-Standardized

Mortality Rates From 1995-2006. JAMA. 2009;302:767-773.
3. Montalbán C, Abraira V, Arcaini L, Domingo-Domenech E, Guisado-Vasco P, Iannito E,
et al. Risk stratification for Splenic Marginal Zone Lymphoma based on haemoglobin
concentration, platelet count, high lactate dehydrogenase level and extrahilar lymphade-
nopathy: development and validation on 593 cases. Br J Haematol. 2012;159:164-171.
4. Liu L, Zhang X, Yan B, Gu Q, Zhang X, Jiao J, et al. Elevated Plasma D-Dimer Levels Co-
rrelate with Long Term Survival of Gastric Cancer Patients. PLoS ONE. 2014;9:e90547.
5. Steyerberg EW, Moons KG, van der Windt DA, Hayden JA, Perel P, Schroter S, et al.
Prognosis Research Strategy (PROGRESS) 3: Prognostic model research. PLoS Med.
2013;10:e1001381.
6. Semeraro F, Parrinello G, Cancarini A, Pasquini L, Zarra E, Cimino A, et al. Predicting
the risk of diabetic retinopathy in type 2 diabetic patients. J Diabetes Complications.
2011;25:292-297.
7. Chen H, Bai M, Qi X, Liu L, He C, Yin Z, et al. Child-Na score: a predictive model for
survival in cirrhotic patients with symptomatic portal hypertension treated with TIPS.
PLoS ONE. 2013;8:e79637.
8. Hingorani AD, Windt DA, Riley RD, Abrams K, Moons KG, Steyerberg EW, et al. Prognosis
research strategy (PROGRESS) 4: Stratified medicine research. BMJ. 2013;346:e5793.
9. Paula AR, Jerry HG, Kathy S, Muhammad M, David LS, Susan G, et al. Reader’s guide to
critical appraisal of cohort studies: 1. Role and design. BMJ. 2005;330:895-897.
10. U.S. Department of Health and Human Services Food and Drug Administration. Guidance
for Industry. Clinical Trail Endpoints for the Approval of Cancer Drugs and Biologics.
2007 [Visitado el 08/09/2014]. Disponible en: http://www.fda.gov/downloads/drugs-
GuidanceComplianceRegulatoyInformation/Guidance/UCM071590.pdf.
11. Abraira V, Muriel A, Emparanza JI, Pijoán JI, Royuela A, Plana MN, et al. Reporting quality
of survival analyses in medical journals still needs improvement. A minimal requirements
proposal. J Clin Epidemiol. 2013;66:1340-1346.
12. Pocock SJ, Clayton TC, Altman DG. Survival plots of time-to-event outcomes in clinical
trials: good practice and pitfalls. Lancet. 2002;359:1686-1689.
13. Muriel A, Hernández D, Abraira V. Modelos estructurales marginales: una herramienta
útil que proporciona evidencia a los estudios observacionales. Nefrología. 2011;2(Supl
Ext):7-13.
14. Aizer AA, Chen MH, McCarthy EP, Mendu ML, Koo S, Wilhite TJ, et al. Marital status and
survival in patients with cancer. J Clin Oncol. 2013;31:3869-3876.
15. Becker A, Bos Gt, de Vegt F, Kostense PJ, Dekker JM, Nijpels G, et al. Cardiovascu-
lar events in type 2 diabetes: comparison with nondiabetic individuals without and
with prior cardiovascular disease: 10-year follow-up of the Hoorn Study. Eur Heart J.
2003;24:1406-1413.
16. Pencina MJ, D’Agostino RB, Steyerberg EW. Extensions of net reclassification improvement
calculations to measure usefulness of new biomarkers. Stat Med. 2011;30:11-21.

Abraira V, Muriel A, Montes ML. Lectura crítica de estudios de pronóstico: estudios de
cohortes. En: Cabello Juan B, editor. Lectura crítica de la evidencia clínica. Barcelona: Elsevier;
2015. p. 101-116.
C A P Í T U L O
8
de reglas de predicción clínica
José Ignacio Emparanza Knörr
y Alfonso Muriel García

• Describir los términos clave de un artículo de regla de predicción clínica.
• Recoger las claves de un diseño adecuado: cómo se deriva una regla
de predicción y cómo se valida.
• Valorar las reglas de predicción antes de la aplicación a un paciente.
• Explicar por qué son tan importantes para justificar las decisiones
sobre el manejo del paciente.
INTRODUCCIÓN
Una regla de predicción clínica (RPC) (1,2) es un modelo o ecuación ma-

temática que combina diferente información clínica (al menos dos variables
predictoras) para predecir la presencia de una enfermedad o circunstancia o
para pronosticar un desenlace futuro en un grupo heterogéneo de pacientes.
Distinguimos así, por su objetivo, entre RPC diagnósticas (p. ej., regla
de Ottawa para fractura de tobillo) y pronósticas (p. ej., score APACHE).
En cualquier caso, el interés en las RPC radica en su potencial, mediante
una predicción certera, para asistir al clínico en la toma de decisiones que
concierne a un paciente concreto.
Hay autores que prefieren la denominación de reglas de decisión
clínica y otros que consideran sinónimos los dos términos. Empleare

mos preferentemente RPC, porque expresa cuál es la probabilidad de

que un paciente padezca una determinada enfermedad o vaya a desa
rrollar un evento dado, pero no necesariamente recomienda una deci
sión específica.
Las RPC son más necesarias en aquellas áreas donde existe incertidum-
bre que es relevante en términos de salud de los pacientes (probabilidad de
una enfermedad grave, probabilidad de que responda a un tratamiento o
sufra efectos adversos, probabilidad de que fallezca, etc.) o en términos de
utilización de recursos sanitarios (intervenciones sanitarias que no ofrecen
valor).
Esquemáticamente, el desarrollo de una RPC comprende las cuatro fases
siguientes:
1. Extracción de información de un conjunto de pacientes con sospecha
(o en riesgo) de padecer una enfermedad (o de sufrir un evento).
2. Seleccionar entre toda la información (variables) recogida aquella
que se asocia con el desenlace (diagnóstico o pronóstico) de interés.
3. Ponderar la contribución de cada variable seleccionada al riesgo
o probabilidad del desenlace en el paciente.
4. Aplicar la RPC creada en los tres pasos anteriores a un nuevo
grupo de pacientes para evaluar el rendimiento en la predicción
de los eventos.
Los pasos 1 a 3 constituyen la derivación de la RPC, y el paso 4, la va-
lidación de la misma.
ESCENARIO
Estando de guardia en la unidad de cuidados intensivos de tu hospital,

acude Pedro por deposiciones oscuras y vómitos con sangre.
Pedro es un varón de 68, diagnosticado de cirrosis hace unos años.
Tras la exploración y la realización de pruebas complementarias, obje-
tivas unas varices esofágicas con un sangrado moderado y las siguientes
cifras en la analítica: urea de 48 mg/dl (8 mmol/l), bilirrubina de 0,5 mg/dl
(8,5 mmol/l), cociente internacional normalizado de 2, glucosa de 120,
creatinina de 1,2 (106 mmol/l), lactato de 17,1 mg/dl (1,9 mmol/l) y un
pH de 7,4.
El gradiente A-a es de 200, la PaCO2 (kPA) de 5 y un MELD de 25.
La familia te expresa su preocupación por el pronóstico a corto plazo del
paciente, dada la situación familiar que tienen.
Para dar respuesta a la familia, realizas una búsqueda y encuentras el
siguiente artículo: Theocharidou E, Pieri G, Mohammad AO, Cheung M,
Cholongitas E, Agarwal B, et al. The Royal Free Hospital score: a calibrated
prognostic model for patients with cirrhosis admitted to intensive care unit.
8. Lectura crítica de estudios de reglas de predicción clínica 119
Comparison with current models and CLIF-SOFA score. Am J Gastroenterol.

2014;109(4):554-562.
Después de haberlo leído, responde a estas cuestiones:
• El Royal Free Hospital Score (RFH), ¿es un buen predictor de la
mortalidad en pacientes cirróticos que ingresan en la unidad
de cuidados intensivos?
• ¿Aplicarás el RFH a Pedro para dar una respuesta a sus familiares?
DERIVACIÓN DE UNA REGLA

DE PREDICCIÓN CLÍNICA
TIPO DE DISEÑO
El mejor diseño de estudio (3) para desarrollar una RPC depende del
objetivo que esta persiga. Para RPC de tipo diagnóstico, optaríamos por un
estudio transversal, mientras que si se trata de una RPC de tipo pronóstico,
un estudio longitudinal de cohortes prospectivo, en el que las pérdidas
fueran mínimas, sería el diseño idóneo.
En analogía con la evaluación de las pruebas diagnósticas, para desarro-
llar una RPC diagnóstica, el diseño de estudio más adecuado es un estudio
transversal en el que reclutamos, de manera no sesgada, a una serie de
sujetos (representativos de la población de interés) susceptibles de tener
la enfermedad en los que evaluamos las variables que forman parte de la
regla de predicción y la prueba de referencia de forma simultánea. Como
la simultaneidad es difícil de cumplir, es necesario garantizar que el tiempo
entre la evaluación de las variables sea el mínimo para que la condición del
sujeto no cambie (no mejore/no empeore).
Preferimos un estudio de cohortes prospectivo con inclusión de pa-
cientes consecutivos frente a uno retrospectivo. La inclusión consecutiva
de pacientes permite que todo el espectro de pacientes esté representado

en el estudio. En una cohorte prospectiva, en contraste a una cohorte
retrospectiva, la identificación de los pacientes que se van a incluir se
hace con mayor rigor, porque la recogida de variables predictoras puede
ser más exacta y precisa, y porque la medición del desenlace puede ser
también más fiable. Sin embargo, hay que reconocer que la mayoría de
las RPC pronósticas se realizan mediante estudios de cohorte retros-
pectivos y unicéntricos. A menudo se basan en registros de datos. Por
supuesto que la recogida de información es prospectiva en los registros,
pero lo es con un propósito distinto al de desarrollar una RPC, por lo que
la información disponible en los registros puede no ser la óptima. Otro
diseño posible es el de casos y controles anidados, que es un diseño muy
eficiente y particularmente atractivo cuando el desenlace de interés es
muy poco frecuente.
TAMAÑO MUESTRAL
El tamaño muestral necesario para construir una RPC es difícil de de-
terminar, habida cuenta de la naturaleza multivariable de la RPC. Existe
una regla empírica que dice que son necesarios tantos individuos como
número de variables se quieren incorporar en la RPC multiplicado por 10
en la categoría de desenlace de menor tamaño. Así, si el desenlace ocurre en
una minoría de la cohorte (digamos el 10%) y queremos incluir siete varia-
bles predictoras, necesitaremos al menos 70 individuos con el desenlace
para estimar con suficiente poder estadístico los coeficientes del modelo:
70 individuos con el desenlace y 630 sin él, para una cohorte total de al
menos 700 individuos.
VARIABLES PREDICTORAS
Las variables (predictoras) que forman parte de una RPC pueden ser
de diversa índole:
• Demográficas (edad, sexo, etc.).
• De anamnesis (historia personal, síntomas, comorbilidades, etc.).
• De exploración física (signos, etc.).
• De exámenes complementarios (bioquímica, microbiología, pruebas
funcionales, etc.).
• De pruebas de imagen.
Las variables se recogen sin conocer el desenlace en los estudios pronós-
ticos, puesto que el desenlace es futuro. Sin embargo, en los estudios de RPC
diagnósticas, las variables predictoras son contemporáneas del desenlace,
que aquí es la enfermedad. En este caso, es deseable que se recojan las
variables predictoras sin conocer el verdadero estado del paciente (con
enfermedad o sin ella). De este modo, la evaluación de una variable no es-
tará influenciada de manera consciente o inconsciente por el conocimiento
del verdadero estado del paciente. Además, cuando las variables predic-
toras estén sujetas a variabilidad por parte del observador (evaluaciones
subjetivas), deberá medirse la variabilidad intra- e interobservador, por
ejemplo, mediante el índice k de Cohen.
Desde el punto de vista estadístico, las variables predictoras pueden ser
dicotómicas, categóricas o continuas. Es una práctica común el transformar
las variables predictoras continuas en variables categóricas o incluso en
dicotómicas, y las categóricas en dicotómicas. Ello permite al desarro-
llador de una RPC evitar el engorro de tener que comprobar diferentes
asunciones estadísticas entre la variable y el desenlace. Otra ventaja es la
de la simplicidad: se simplifican las tareas estadísticas necesarias, ya que
el análisis de una variable dicotómica es mucho más fácil que el de una
categórica y se simplifica la interpretación de los resultados. Y, sin embargo,
la pérdida de información es, en muchos casos, sustantiva. En particular,
la «dicotomización» de una variable continua puede tener consecuencias
indeseables para la construcción de una RPC. ¿Y cómo decidimos en qué

punto de la variable continua damos un corte, establecemos el límite para
codificar como «bajo» o «alto» el valor de esa variable en un individuo?
Dependiendo de dónde establezcamos ese punto de corte, tendremos una
diferente contribución de la variable en la RPC. Algunos métodos común-
mente empleados incluyen: dicotomizar empleando el valor mediana, usar
el valor que mayor poder discriminatorio muestra en la curva ROC (ello
exige realizar múltiples comparaciones), el valor que ofrece un mayor índice
de Youden (sensibilidad más especificidad), etc.
Incluso el empleo del valor mediana como punto de corte, preferible
a los que exigen múltiples pruebas de hipótesis, conlleva una pérdida de
poder estadístico:
• Si la variable predictora continua se distribuye según una distribución
normal, la dicotomización empleando el valor mediana hace perder
un 35% del poder estadístico.
• Si se distribuye exponencialmente, la dicotomización en la mediana
conlleva una pérdida de poder del 50%.
La búsqueda del punto de corte se hace siempre mediante procedimien-
tos estadísticos univariantes, que no son corregidos para las múltiples
pruebas de hipótesis que se realizan hasta encontrar el punto «óptimo». Se
ha demostrado empíricamente (4) que la dicotomización aumenta el riesgo
de que un resultado positivo sea un falso positivo. La consideración de solo
dos grupos en una variable predictora oculta la hipotética relación no lineal
entre ella y la variable desenlace.
La recomendación, por lo tanto, es que no se deben dicotomizar variables
predictoras categóricas ni continuas. El uso de múltiples categorías (cuatro
o cinco) es siempre preferible a la dicotomización, pero es aún mejor no
categorizar las variables continuas.
Si la RPC va a ser implementada en una aplicación informática, la
utilización de variables continuas no es un obstáculo, incluso se debería

probar la posible existencia de términos no lineales, dado que, en biología,
la relación entre la variable y el desenlace frecuentemente no es lineal;
por ejemplo, la relación que hay entre presión arterial (o IMC) y muerte
es a menudo en forma de J (tan perjudiciales son IMC altos como bajos).
VARIABLES DESENLACE
La elección del desenlace es muy importante. En estudios diagnósticos
debe definirse claramente cuál es la enfermedad o condición y cuál será
el método para evaluar su presencia. Nos referimos habitualmente como
patrón de referencia o patrón oro a aquel método que permite establecer
con certeza la presencia o no de una enfermedad o condición. El problema,
en la práctica, puede ser la ausencia de tal patrón oro, y la elección de un
método subóptimo para el diagnóstico del verdadero estado del paciente.
En los estudios pronósticos necesitamos definir explícitamente el de-

senlace de interés. A veces, debido a la dificultad logística o económica de
medir el desenlace de interés prioritario para el paciente, se recurre a la me-
dición de desenlaces intermedios sin interés para el paciente, argumentando
que un desenlace intermedio (o subrogado) es una medida que se asocia
o que incluso es un paso intermedio en el desarrollo del desenlace de interés.
El grado de asociación nunca es perfecto, por lo que el desarrollo de una
RPC pronóstica empleando desenlaces intermedios está sujeto a un riesgo
de sesgo que puede invalidar el estudio.
La variable desenlace, al igual que las variables predictoras, puede ser
binaria (dicotómica), categórica (ordenadas o no), continua o el tiempo
en el que el evento se produce (datos de supervivencia). La cantidad de
información que aportan difiere, siendo máxima para las variables conti-
nuas y mínima para las binarias. El tipo de variable desenlace condiciona
también los modelos estadísticos que hay que emplear en la construcción
de la RPC. El tipo de variable desenlace más frecuente es la variable binaria
o dicotómica (5). Además, como se ha señalado en el capítulo 7 dedicado
al pronóstico, es posible que existan desenlaces competitivos que impidan
medir el desenlace de interés.
MÉTODOS ESTADÍSTICOS
Hay tres grandes categorías de análisis estadísticos para desarrollar una
RPC: modelos de regresión, modelos de clasificación y redes neuronales.
Los más habituales son los modelos de regresión, que, dependiendo del tipo
de variable desenlace, se pueden clasificar en: modelos de regresión lineal
múltiple si el desenlace es una variable continua, modelos de regresión
logística múltiple si el desenlace es una variable binaria o dicotómica, y
modelos de regresión de Cox multivariantes si el desenlace es la variable
tiempo a un evento.
Otros métodos para desenlaces dicotómicos son modelos bayesianos
multivariantes que incorporan dependencias entre variables predictoras y
árboles de clasificación y regresión.
En el caso más habitual de desenlaces dicotómicos y, por lo tanto,
modelos logísticos, desde el punto de vista estadístico hay que tener en
cuenta (6-8):
• Que el tamaño muestral se ajuste a la regla de 10 casos por predictor
en el subgrupo menor de desenlace.
• Que se deben incluir inicialmente en el modelo logístico aquellas
variables predictoras que muestran una significación (valor p) menor
a 0,25-0,3 en el análisis univariante.
• Que la reducción del número de variables del modelo debe
hacerse con sentido estadístico (y clínico a ser posible) mediante
un procedimiento explícito.
• Que habitualmente los coeficientes obtenidos en el modelo

de regresión se redondean al entero más próximo tras dividir su
valor entre el menor coeficiente de todas las variables que componen
el modelo logístico final.
• Que esos coeficientes componen un modelo aditivo (o sumatorio)
que llamamos RPC.
• Que el rendimiento (poder de discriminación) de la RPC debe
mostrarse mediante una curva ROC y cálculo (por estimación puntual
y por IC 95%) del área bajo la curva ROC (ABC).
• Que hay que describir claramente el método utilizado para determinar
el punto de corte óptimo y valores de sensibilidad y especificidad
(puntuales y por IC 95%).
Una característica deseable de los estudios de RPC es que ofrezcan
un análisis de la bondad de calibración del modelo, es decir, que la pro-
babilidad predicha por el modelo se aproxime al valor de probabilidad
observado.
Una forma de presentación de reglas de predicción clínica (9) muy
clara, que no precisa medios informáticos y que puede evitar la necesidad
de dicotomizar las variables predictoras, es el nomograma, que permite
utilizar variables continuas y categóricas y obtener la probabilidad de un
evento sin necesidad de realizar cálculos complejos.
VALIDACIÓN DE UNA REGLA

DE PREDICCIÓN CLÍNICA
TIPOS DE VALIDACIÓN
La idea de validar una RPC diagnóstica o pronóstica quiere decir dis-
cernir si funciona satisfactoriamente en un grupo de pacientes diferentes
al grupo de pacientes que sirvió para derivarla o construirla. Nos estamos

refiriendo a un concepto clínico frente al concepto estadístico de validación
del modelo en términos de bondad de ajuste (datos iniciales) y predicciones
insesgadas (nuevo conjunto de datos).
Distinguimos entre validación interna y externa.
Por validación interna entendemos probar y obtener los valores de
rendimiento (discriminación y calibración) en el conjunto de datos que ha
servido para desarrollar nuestro modelo (10). Algunos métodos de valida-
ción interna son: validación aparente en el mismo conjunto de pacientes,
split-sample segregando el archivo de datos en dos subgrupos, validación
cruzada (similar a la anterior) y bootstrap.
Por validación externa nos referimos a la (para nosotros) auténtica
validación, que nos permite evaluar lo generalizable que es la RPC. Para
ello se obtiene un grupo de pacientes diferente al que sirvió para derivar
la RPC y se evalúa el rendimiento de la misma. Distinguimos entre

validación estrecha, si el grupo de pacientes de validación tiene el mismo
origen que el grupo de derivación, a veces llamada también validación
temporal externa, y validación amplia, si el grupo de validación pro-
cede de otro entorno diferente, también llamada validación geográfica,
idealmente realizada por otros investigadores (validación completa e
independiente).
MÉTODOS ESTADÍSTICOS
La validación debe presentar los resultados de rendimiento en cuanto
a discriminación y calibración en el nuevo grupo de pacientes. Ello nos
dará una idea clara del verdadero valor clínico de la RPC. Tendremos
en cuenta:
• Que el rendimiento (poder de discriminación) de la RPC debe
mostrarse mediante una curva ROC. Si el ABC, o estadístico c, es
menor o igual a 0,7, la RPC carece de valor clínico.
• Hay que esperar que los datos de rendimiento sean menores
que en la validación interna.
• Si han establecido un punto de corte óptimo, deben ofrecer la tabla
2 × 2 o los datos necesarios para obtenerla.
• Deben ofrecer la estimación puntual y por IC 95% del ABC.
• Una gráfica de calibración también debe ser mostrada: probabilidades
predichas frente a probabilidades observadas (o reales).
ARTÍCULO
Theocharidou E, Pieri G, Mohammad AO, Cheung M, Cholongitas E,

Agarwal B, et al. The Royal Free Hospital score: a calibrated prognostic
model for patients with cirrhosis admitted to intensive care unit. Com-
parison with current models and CLIF-SOFA score. Am J Gastroenterol.
2014;109(4):554-62. Disponible en: http://www.ncbi.nlm.nih.gov/pubmed/
24492755.

PARA ESTE ARTÍCULO EN CONCRETO

artículo concreto.
CUADRO 8-1
1. ¿Está la regla bien Sí ✓ No sé No
definida? Pacientes (p. 555 del artículo original) con cirrosis
PISTAS: que ingresan consecutivamente en una UCI entre
– ¿Se define 1989 y 2012 en un hospital terciario de referencia
claramente el para enfermedades hepáticas y trasplante hepático
tipo de pacientes en el Reino Unido. El motivo específico de ingreso
a los que se aplica está descrito en la tabla 2 del artículo original. No
la regla? conocemos la procedencia de los pacientes. Tampoco
– ¿Están se detalla la evolución previa. Las causas de la
adecuadamente cirrosis están descritas, pero habría que valorar si son
descritas las similares a las de nuestro entorno.
variables Definen cirrosis por hipertensión portal, estudios
predictoras? por imagen del hígado y biopsia del hígado (si existe).
– ¿El desenlace La admisión en la UCI fue dividida en cuatro períodos:
(outcome) es 89-96, 97-04, 05-08 y 09-12. Parece que el manejo de la
relevante y tiene enfermedad es diferente entre estos cuatro períodos de
sentido clínico? tiempo, si bien no dan información al respecto ni del
(El desenlace se porqué de la división en estos cuatro períodos.
puede expresar La edad, el sexo, la etiología de la enfermedad, la
como una indicación de la admisión en la UCI, la estancia en la
probabilidad o un UCI y la mortalidad intrahospitalaria fueron medidas en
curso de acción) todos los pacientes. Además, se recogieron parámetros
bioquímicos, hematológicos y respiratorios, y todas

las variables necesarias para calcular el APACHE-II y
el resto de scores pronósticos empleados. Sin embargo,
en la tabla 4 del artículo original solo se incluyen las
variables que muestran asociación estadística con la
mortalidad, por lo que no disponemos de un listado
exhaustivo de todas las variables estudiadas.
La gravedad de la enfermedad hepática fue
realizada mediante las escalas de Child-Pugh, MELD
y MELD Na, usando parámetros del día de admisión.
Señalan que el APACHE II y el SOFA son los dos scores
con mejor capacidad pronóstica en pacientes que
ingresan en la UCI con cirrosis.
(Continúa)
CUADRO 8-1 (cont.)
Los outcomes elegidos son muy relevantes:

mortalidad hospitalaria (y no solo mortalidad en
la UCI), justificando que hay pacientes que fallecen
después del alta en la UCI porque los tratamientos
más agresivos fueron retirados debido a causas de
futilidad o de baja probabilidad de recuperación. En
este sentido, sería deseable que nos dijeran a cuántos
días del ingreso se produjo la muerte
2. ¿La población en Sí ✓ No sé No
estudio de la que Se trata de pacientes consecutivos, por lo que
se derivó la regla entendemos que no hubo exclusiones, pero
incluyó un espectro reclutados en un centro especializado de referencia en
adecuado de enfermedades hepáticas y trasplante hepático.
pacientes? Probablemente estamos tratando con una nuestra
PISTAS: de pacientes cirróticos muy evolucionados o de mayor
– ¿Es adecuado gravedad de la que habitualmente encontramos en
el método de nuestros hospitales.
selección de No está claro si ingresan también los pacientes
pacientes? trasplantados. Por otra parte, los clínicos de este
– ¿Está centro a buen seguro tienen más experiencia y más
adecuadamente medios que los de centros no especializados
representado
el espectro de
pacientes en los
que tiene sentido
aplicar la regla?
3. ¿Se validó la Sí ✓ No sé No
regla en un grupo Sí, pero…
diferente de Generan el modelo (o RPC) en un grupo de pacientes,
pacientes? aproximadamente el 75% del total, y lo validan en el
PISTAS: 25% restante.
– No basta con La distribución de los 635 pacientes consecutivos
que la regla al grupo de derivación o de validación se
«funcione» en la hizo al azar, empleando números aleatorios,
población a partir tratando de que los cuatro períodos de tiempo
de la cual se ha estuvieran igualmente representados en los dos
derivado grupos.
– ¿La validación Este tipo de validación, llamada validación
se realizó en interna, no es la validación más sólida que se puede
pacientes parecidos ofrecer.
o distintos?
CUADRO 8-1 (cont.)
Es preferible una validación externa amplia,

o mejor aún, varias validaciones externas. Serían
estudios de validación llevados a cabo en diferentes
localizaciones geográficas y diferente marco temporal
4. ¿Hubo una Sí No sé No ✓
evaluación ciega No, pero…
del desenlace y Siendo la variable desenlace la muerte, parece
de las variables que la falta de una evaluación ciega tiene poco o
predictoras? ningún impacto.
PISTAS: La evaluación de las otras variables de
– ¿Las personas laboratorio podemos asumir que son ciegas. Las
que valoraban el variables que forman parte del modelo final son
resultado conocían todas de laboratorio (recogidas antes de que ocurra
los datos clínicos? el desenlace), excepto el sangrado por varices como
– ¿Las personas motivo de admisión en la UCI
que medían
las variables
predictoras
conocían el
desenlace?
5. ¿Se midieron Sí ✓ No sé No
las variables Parece que sí…
predictoras y el Es difícil saber si todos los pacientes tenían las
desenlace en todos determinaciones, dado el período de inclusión tan

los pacientes? largo. Sin embargo, no dicen que se pierda ningún
PISTAS: paciente ni que hayan imputado datos ausentes.
– ¿Están bien Es curioso que pongan el número de días en la
descritas las UCI como característica basal
exclusiones?
– A veces el desenlace
no se puede medir
de la misma
forma en todos los
pacientes
(Continúa)
CUADRO 8-1 (cont.)
6. ¿Se describen Sí ✓ No sé No
los métodos de La regla la crean mediante un modelo de regresión
derivación y logística múltiple con estrategia hacia atrás.
validación de la La capacidad de discriminación se evalúa
regla? mediante el área bajo la curva ROC.
PISTAS: La calibración la realizan mediante la χ2 de la
– ¿Se incluyen prueba de Hosmer-Lemeshow.
las variables Los autores declaran que usan los coeficientes del
importantes y modelo de regresión directamente, sin redondeo.
los criterios de Habría que notar que la regla obliga a hacer
positividad? los cálculos con calculadora. Es más frecuente
– ¿Se describe el el redondeo para que la regla se aplique más
método estadístico fácilmente.
empleado? Por otra parte, no ofrecen ninguna tabla con los
– ¿Se describe la coeficientes.
reproducibilidad de El criterio de positividad (o punto de corte)
las medidas? se calcula mediante la puntuación del índice de
Youden (suma de sensibilidad más especificidad
menos 1), que es lo mismo que elegir aquel valor
que maximiza la sensibilidad más especificidad.
Ello supone que los autores adoptan una postura
ecléctica, dando igual importancia al hecho de no
predecir las muertes que ocurren que al predecir
falsamente muertes que no ocurren.
Esta postura ecléctica, basada en la cantidad
de información sin tener en cuenta el coste de los
errores por exceso o por defecto, debe ser objeto de
una reflexión serena.
A veces no queremos elegir el valor de una RPC
que ofrece mayor cantidad de información, sino
aquel valor que minimiza los errores en uno o en
otro sentido.
Por ejemplo, si lo que pretendemos al desarrollar,
validar y, finalmente, aplicar una RPC es descartar
la presencia de una enfermedad (RPC de
propósito diagnóstico) o de un desenlace (RPC
de propósito predictivo), elegiremos un valor que
maximice la sensibilidad a un coste razonable de
pérdida de especificidad, por supuesto
CUADRO 8-1 (cont.)

7. ¿Se puede calcular Desenlace + Desenlace –
el rendimiento de la Regla + 71 – a 31 – b
RPC? Regla – 12 – c 44 – d
PISTA: los resultados
pueden presentarse como:
– Sens = a/(a + c)
Sens, esp, LR+, LR–,
– Esp = d/(b + d)
curva ROC, curvas de
– LR+ = sens/(1 – esp)
calibración, etc.
– LR– = (1 – sens)/esp
Nos fijamos en los valores de la validación, no de la
derivación.
La formulación de la regla RFH está en la página
557, columna derecha, del artículo original.
No dan los valores de la tabla 2 × 2 que
mostramos aquí, pero se pueden derivar a
partir de la información que dan: el 25% de
635 es el grupo validación, con sens y esp
que se muestran en la tabla 6, página 561, del
artículo original. Sin embargo, los cálculos no
coinciden exactamente con los rendimientos
declarados.
En la tabla 6 del artículo se aprecia que la
regla RFH alcanza la máxima sensibilidad y
la menor especificidad de todas las evaluadas
utilizando el punto de corte «óptimo» (v. pregunta
6). Exactitud clasificatoria, 76,7% (p. 558, columna
izquierda).
En la tabla 5 del artículo original se aprecia
también que la RFH es la de mayor ABC (0,797),
aunque no ofrecen los IC de ninguna de las RPC.
Respecto a la calibración, ofrecen el valor del
estadístico χ2 y el valor p correspondiente, pero no
han hecho ninguna curva de calibración.
Además de la validación interna, sería
deseable que se realizara una validación externa
de la RPC
(Continúa)
CUADRO 8-1 (cont.)
8. ¿Cuál es la precisión No ofrecen los IC de ningún estimador, aunque,

de los resultados? a partir de la tabla 2 × 2, se puede obtener una
PISTA: aproximación.
– Es el momento para En el grupo de validación, de 158 individuos, y
reflexionar sobre suponiendo que la mortalidad sea la misma que en
el tamaño de la el conjunto de los 635 pacientes (52,3%), habría 83
muestra y el número fallecidos.
de variables de la En el grupo de derivación, de 477 individuos
RPC habría 249-250 fallecidos, con lo que podríamos
– ¿Es suficientemente estimar sin problemas un modelo con 25 predictores
robusta? Explica si (regla de 10 eventos por variable predictora).
se intentó refinar Sería deseable que los autores mostraran los
parámetros del modelo para poder contestar
directamente a esta pregunta
C) ¿Son los resultados aplicables al escenario?

9. ¿Serán satisfactorias Desearíamos ver una validación externa amplia antes
en el ámbito de tomar ninguna decisión clínica basada en esta
del escenario la regla.
reproducibilidad La reproducibilidad de la RPC no parece que
de la RPC y su suponga un problema en este caso, dado el carácter
interpretación? objetivo de las variables predictoras (todas menos
PISTA: considera si el una son determinaciones de laboratorio).
ámbito de estudio es El problema puede surgir de los criterios de
demasiado diferente al del selección de los pacientes en este estudio (criterios
escenario de evolución, de derivación…), que pueden ser bien
distintos de los pacientes habituales en nuestros
centros
10. ¿Es aceptable la Se trata de una regla fácil de calcular, aunque aún lo
prueba en este caso? sería más si hubieran procedido al redondeo de los
PISTAS: coeficientes.
– Considera la Por otra parte, las variables predictoras incluidas
facilidad de uso, la tienen mucho sentido clínico y son de uso cotidiano
disponibilidad de la en este tipo de pacientes. Se refieren al estado de
RPC y los costes hipertensión portal, al estado funcional del hígado,
– Considera si la RPC al estado renal y a la función respiratoria
tiene sentido clínico
CUADRO 8-1 (cont.)
11. ¿Modificarán los Se trata de una RPC nueva, sin validación externa y
resultados de la sin conocer, por lo tanto, el verdadero impacto que
prueba la decisión su aplicación pueda tener.
sobre cómo actuar En cualquier caso, se trata de pacientes cirróticos
(o la información ingresados en la UCI, no de cirróticos en términos
para el paciente)? generales.
PISTAS: A nuestro juicio, la RPC goza de una aparente
– Al margen de tu calidad dadas las variables incluidas, y podría
opinión, puede ayudar, si su rendimiento se confirmara mediante
haber estudios que una validación externa, a tomar decisiones más
exploren el impacto ajustadas al devenir de estos pacientes
de la RPC (dinero,
resultados en
salud, etc.)
– Desde la
perspectiva del
escenario, si la
actitud no va a
cambiar, la RPC es
(al menos) inútil
– Considera
cómo cambia tu
estimación inicial
tras aplicar la RPC
y cómo afecta esto
al umbral de acción
ABC, área bajo la curva ROC; esp, especificidad; IC, intervalo de confianza; LR–, likelihood
ratio negativa; LR+, likelihood ratio positiva; RFH, Royal Free Hospital Score; ROC, receiver
operador characteristic; RPC, regla de predicción clínica; sens, sensibilidad; UCI, unidad
de cuidados intensivos.
Bibliografía
1. Phillips B. Clinical decision rules: how to build them. Arch Dis Child Educ Pract Ed. 2010
Jun;95(3):83-87.
2. Phillips B. Clinical Decision Rules: how to use them. Arch Dis Child Educ Pract Ed.
2010;95:88-92.
3. Mann CJ. Observational research methods. Research design II: cohort, cross sectional, and
case-control studies. Emerg Med J. 2003 Jan;20(1):54-60.
4. Royston P, Altman DG, Sauerbrei W. Dichotomizing continuous predictors in multiple
regression: a bad idea. Stat Med. 2006 Jan 15;25(1):127-141.
5. Siontis GC, Tzoulaki I, Ioannidis JP. Predicting death: an empirical evaluation of predictive
tools for mortality. Arch Intern Med. 2011 Oct 24;171(19):1721-1726.
6. Harrell FE Jr, Lee KL, Califf RM, Pryor DB, Rosati RA. Regression modelling strategies for
improved prognostic prediction. Stat Med. 1984 Apr-Jun;3(2):143-152.
7. Harrell FE Jr, Lee KL, Matchar DB, Reichert TA. Regression models for prognostic prediction:
advantages, problems, and suggested solutions. Cancer Treat Rep. 1985 Oct;69(10):1071-1077.
8. Harrell FE Jr, Lee KL, Pollock BG. Regression models in clinical studies: determining relation
ships between predictors and response. J Natl Cancer Inst. 1988 Oct 5;80(15):1198-1202.
9. Adams ST, Leveson SH. Clinical prediction rules. BMJ (Clinicla research ed). 2012;344:d8312.
10. Harrell FE Jr, Lee KL, Mark DB. Multivariable prognostic models: issues in developing
models, evaluating assumptions and adequacy, and measuring and reducing errors. Stat
Med. 1996 Feb 28;15(4):361-387.

Emparanza JI, Muriel A. Lectura crítica de estudios de reglas de predicción clínica. En: Cabello
Juan B, editor. Lectura crítica de la evidencia clínica. Barcelona: Elsevier; 2015. p. 117-132.
C A P Í T U L O
9
cualitativos
Alejandra Cano Arana y Teresa González Gil

• Describir la pregunta de investigación planteada en el contexto de la
metodología cualitativa (pregunta clínica de experiencia o de significado).
• Recoger los diferentes tipos de abordajes, métodos o marcos teórico
metodológicos, e identificar su congruencia para con la pregunta de
investigación.
• Reflexionar sobre la descripción del ámbito de estudio y de la población
de estudio en términos de transferibilidad de resultados.
• Tratar los tipos y las características del muestreo cualitativo, enunciar
los diferentes tipos de muestreos y conocer las diferentes estrategias para
confirmar la adecuación del tamaño muestral.
• Valorar las técnicas para la recogida de datos cualitativos justificando su
adecuación en relación con la pregunta de investigación y las características
del proceso de análisis de datos cualitativos.
INTRODUCCIÓN
La investigación en salud está a caballo entre el método científico, conso-

lidado históricamente, y la investigación en ciencias sociales, en la medida
en que el sentir de la enfermedad se puede expresar de dos maneras: de
manera subjetiva, tal y como es vivida por los individuos que la padecen, lo
que se conoce como illness en la lengua anglosajona; y de manera objetiva,
tal y como se observa, lo que equivale al término disease (1).
La parte que corresponde a la vivencia subjetiva de la enfermedad se co-
rresponde con la definición de síntoma, y la parte objetiva y observada con

la de signo. La mayoría de las veces, los profesionales de la salud se sirven

de la parte subjetiva que refiere el paciente para poder realizar el juicio
clínico con ayuda de los signos registrados. De tal modo, la combinación
de la parte subjetiva y objetiva lleva a un buen diagnóstico clínico y a la
aplicación de los mejores cuidados.
Nos situaremos así bajo el paraguas del paradigma constructivista/natura-
lista, que apuesta por reconocer que la realidad no es única, sino que existen
múltiples realidades, tantas como experiencias subjetivas en torno a dicha
realidad. Desde esta premisa de partida, la única forma posible de conocer
dichas realidades es a través de la subjetividad del otro, es decir, a través de
los discursos y los hechos de aquellos que han pasado por dicha experiencia.
ESCENARIO
Eres profesional de un centro de salud mental, y, en el contexto de las

actividades grupales programadas para los pacientes con trastorno de-
presivo mayor, te dispones a preparar una sesión psicoeducativa en la que
se pretende trabajar la adherencia terapéutica. En sesiones anteriores ya se
ha realizado educación sobre el régimen terapéutico y sobre estrategias con-
ductuales, como la utilización de pastilleros, calendarios de cumplimiento,
etc., siendo el actual objetivo el explorar los factores cognitivos y simbólicos
que condicionan la adherencia terapéutica. De cara a la preparación de la
dinámica grupal, te planteas revisar la evidencia cualitativa con respecto a
la experiencia de vivir con un trastorno depresivo y, en particular, la relación
de estas personas con el régimen terapéutico establecido.
Después de una búsqueda bibliográfica exhaustiva, encuentras el siguiente
artículo: Mahtani-Chugania V, Sanz-Álvarez E, de las Cuevas-Castresana C.
Estrategias de manejo de los antidepresivos desde la perspectiva de los pa-
cientes: luchando interna y externamente. Aten Primaria. 2012; 44(8):463-70.
Después de haberlo leído, responde a estas cuestiones:
• ¿Responde el artículo a tus dudas?
• ¿Crees que los resultados del estudio se pueden tener en cuenta para
tomar decisiones?
• ¿Podrías extrapolarlos a tu medio?

DE ESTUDIOS CUALITATIVOS
LA PREGUNTA CUALITATIVA Y OBJETIVOS DE INDAGACIÓN

La investigación cualitativa se nos plantea como la herramienta más
adecuada para facilitarnos el camino de acceso a la respuesta de todas aque-
llas preguntas que se plantean desde esta perspectiva, es decir, de todas las
9. Lectura crítica de estudios cualitativos 135
preguntas a través de las cuales nos cuestionamos sobre la experiencia

subjetiva de las personas y realidades humanas. Preguntas acerca de la
vivencia, la experiencia, la opinión, la percepción, el conocimiento, la pers-
pectiva y el proceso, que se traducen en objetivos del tipo explorar, conocer,
profundizar, comprender, interpretar, conocer e indagar (2).
En tanto que la investigación cualitativa se caracteriza por ser un proceso
dinámico y flexible, las preguntas y objetivos de investigación también lo
son, de modo que los objetivos de investigación serán exploratorios en
un inicio para, a posteriori, surgir nuevos objetivos de un talante más des-
criptivo o explicativo. Así exploraremos fenómenos poco o nada conocidos,
identificando elementos básicos para su comprensión y entendimiento;
documentaremos y describiremos fenómenos para orientar en su abordaje;
o trataremos de explicar las pautas, conductas, acciones, atribuciones, etc.,
relacionadas con el fenómeno en cuestión e identificar patrones relacionales
que den significado al fenómeno (3).
DIFERENTES ABORDAJES CUALITATIVOS SEGÚN EL TIPO

DE PREGUNTA DE INVESTIGACIÓN
Los distintos métodos cualitativos hacen referencia a las diferentes
aproximaciones con las que nos podemos acercar a nuestro fenómeno de
estudio. El método, orientación o abordaje que sigamos habrá de estar in-
trínsecamente relacionado con nuestras preguntas de investigación, es decir,
ser conceptualmente congruente con la misma. Por otra parte, el método va
a condicionar el uso de una serie de herramientas metodológicas que serán
las más propicias para «construir» las respuestas a nuestras preguntas de
investigación (congruencia metodológica).
En este sentido, al hablar de métodos cualitativos, resulta útil hacer
referencia a ellos a través de la siguiente terminología: «orientaciones
teórico-metodológicas». ¿Por qué? Porque cada uno de ellos se construye
basándose en una serie de propuestas teóricas para, posteriormente, hacer
una serie de recomendaciones metodológicas (4).

Los métodos más utilizados en la investigación cualitativa en el ámbito
de la salud (en congruencia con las preguntas de investigación que emer-
gen de este contexto disciplinar) son: etnografía, fenomenología y teoría
fundamentada (tabla 9-1).
La etnografía se gesta en el contexto de la disciplina antropológica, cuyo
principal interés es comprender las realidades humanas desde la perspec-
tiva de la cultura (entendiendo cultura como aquel conjunto de creencias,
valores, costumbres, hábitos, normas, formas de hacer e interpretar la
realidad que el individuo adquiere y de los que participa por el hecho de
formar parte de un grupo). En este sentido, la etnografía como método de
investigación trata de dar respuesta a preguntas que tengan relación con
los aspectos socioculturales y cómo estos condicionan la interpretación
y gestión de un determinado proceso de salud: ¿qué es esto?, ¿qué está
TABLA 9-1 Congruencia entre pregunta de investigación, método, procedimientos de trabajo de campo y hallazgos cualitativos
Pregunta Preguntas Técnicas de
general de específicas de Objetivo Objetivos recogida Estrategias de
investigación investigación general específicos Método Población de estudio de datos análisis Resultados
¿Cuál es la ¿Cuáles son los Explorar la Identificar las Etnografía Criterios de Actores Observación del Proceso de Se identifican
experiencia significados, experiencia creencias, valores, inclusión Contextos de participante codificación categorías
de una las creencias, de… patrones de experienciales interacción Entrevistas en basado en que hacen
determinada los valores, los comportamiento Muestreo profundidad una primera referencia a
población patrones de en torno al intencional Grupos de aproximación los diferentes
en torno al comportamiento fenómeno X Tamaño de discusión más elementos
fenómeno en torno al la muestra Técnicas descriptiva culturales que
X? fenómeno X? según la documentales y una condicionan
saturación de segunda fase la vivencia de
los datos interpretativa un fenómeno
X (creencias,
valores,
rituales…)
¿Cuál es la esencia Identificar la Fenomenología Informantes Entrevistas en Análisis temático Se identifican
del significado del esencia de vivir el profundidad según las temas y
fenómeno X? fenómeno X Técnicas propuestas subtemas que
narrativas de diferentes describen la
Técnicas autores: esencia de la
biográficas Colaizzi, experiencia
Giorgi, Vivir el fenómeno
Benner… X es vivir…
Pregunta Preguntas Técnicas de
general de específicas de Objetivo Objetivos recogida Estrategias de
investigación investigación general específicos Método Población de estudio de datos análisis Resultados
¿Cómo es el Identificar las fases Teoría Actores/ Entrevistas en Codificación Se identifica un
proceso de que definen fundamentada informantes profundidad abierta proceso social
vivir a través del el proceso de Contextos de Observación del Codificación básico con sus
fenómeno X? vivir a través del interacción participante axial diferentes fases
fenómeno X Especial Grupos de Codificación o acciones que
Identificar la énfasis en discusión selectiva se desarrollan
dinámica del el muestreo Técnicas Comparación a lo largo de
proceso teórico narrativas constante dicho proceso
Técnicas Representación
documentales gráfica del
proceso
ocurriendo? La recogida de datos se hace, principalmente, a través de la

observación participante en busca de descripciones y explicaciones densas
sobre aspectos culturales que condicionan la experiencia (5).
La fenomenología es un método que encuentra sus orígenes teóricos en
la corriente filosófica del mismo nombre cuyos inicios manan del trabajo
de Husserl y, más tarde, de Heidegger. La principal propuesta de la feno-
menología gira en torno al concepto de life word, y la idea de que la exis-
tencia está basada en la experiencia vivida (entendiendo la experiencia
como la percepción e interpretación individual que cada persona le da
a su estar y participar del mundo en un momento, espacio y contexto
relacional determinado). Así, la fenomenología es un método apropiado
para dar respuesta a aquellas preguntas de investigación centradas en las
interpretaciones y significados que las personas le dan a una determinada
experiencia dentro del proceso de salud-enfermedad. Su objetivo último
es acceder a la esencia de los fenómenos. El investigador se hace preguntas
del tipo: ¿a qué se parece o cómo es vivir cierta experiencia? La principal
fuente de información válida y fiable es la persona que ha vivido de primera
mano el fenómeno que se estudia, siendo la entrevista en profundidad
la principal técnica de recogida de datos. Los resultados de los estudios
fenomenológicos dan cuenta de la esencia de la experiencia, siendo de
carácter descriptivo y presentándose en forma narrativa o como temas con
subtemas o bloques temáticos (6).
Por último, la teoría fundamentada es un método que surge como tal
en el contexto del trabajo de campo de la mano de Glaser y Strauss (7).
Sus referentes teóricos provienen del interaccionismo simbólico, corriente
sociológica cuyos principales supuestos plantean que la realidad es inter-
pretada basándose en símbolos construidos, que estos símbolos los cons-
truimos en constante interacción con aquello y aquellos que nos rodean,
y que los símbolos son dinámicos y evolucionan-cambian en función del
contexto en el que nos encontramos. Esta noción de dinamismo y de cambio
es la que caracteriza principalmente a este método, que resulta especial-
mente útil cuando nos planteamos preguntas en las que está presente la
noción de proceso: ¿cuáles son las fases de un determinado proceso de
salud y enfermedad desde la perspectiva de las personas que viven dicha
experiencia?, ¿qué estrategias de adaptación para ir avanzando a lo largo
del proceso se gestionan? Es un abordaje abierto a múltiples procedimientos
de obtención de datos. Los resultados, por su parte, tienen una importante
naturaleza interpretativa y se presentan como categorías y subcategorías
interrelacionadas bajo una categoría principal, que representa de forma
condensada el proceso social o proceso psicosocial sometido a estudio.
ESTRATEGIA DE MUESTREO
Cuando hablamos de población de estudio, hacemos referencia al total
conglomerado de casos que cumplen unos criterios de inclusión específicos.
Así, los criterios de inclusión son aquellas características que delimitan

la población de estudio sobre la que nos planteamos una determinada
pregunta de investigación. En el caso de la investigación cualitativa, estos
criterios se centran, mayoritariamente, en que las personas que formen
parte de la muestra hayan vivenciado un determinado fenómeno, aquel
sobre el que queremos explorar (8).
Sin embargo, a la hora de realizar el trabajo de campo, trabajar con el
total conglomerado que constituye la población de estudio es inviable, de
modo que hemos de seleccionar una muestra con la que trabajar para luego,
basándonos en los resultados o hallazgos a los que hayamos llegado, poder
transferir los resultados.
En el caso de la investigación cualitativa, la muestra, sin embargo, no
debe dar respuesta, como en investigación cuantitativa, al criterio de repre-
sentatividad para con la población de estudio, sino que, más bien, se busca
el criterio de significación. Es decir, no importa tanto que las características
de la muestra sean o no representativas de la población en general, sino que
la información que sean capaces de aportar o que hayan aportado de cara
al conocimiento del fenómeno de estudio sea rica en significado.
Teniendo esto último en cuenta, debemos matizar el término «trans-
ferir», diciendo que, efectivamente, en investigación cualitativa no se puede
hablar de «generalización» de los hallazgos en tanto que la muestra sea re-
presentativa de la población total, sino de «transferencia de los resultados»,
siendo siempre muy críticos con las características de la muestra de estudio
y el ámbito donde se desarrolla el estudio en comparación con el ámbito
asistencial y con la población con la que trabajamos y con la que queremos
hacer uso de la evidencia generada.
Si lo que se prioriza es la riqueza informativa que aporta la mues-
tra para el conocimiento del fenómeno de estudio, entonces queda
justificada la intencionalidad de todo procedimiento de muestreo en
investigación cualitativa. Es decir, un investigador cualitativo elije
a los sujetos que formarán parte de su muestra de estudio de forma

intencional (no aleatoria).
Ahora, la intencionalidad puede estar sujeta a diferentes criterios o
justificaciones. Por ello se definen diferentes tipos de procedimientos de
muestreo, entre los que podemos destacar el muestreo por conveniencia,
el muestreo por propósito y el muestreo teórico, entre otros descritos en la
literatura (tabla 9-2).
Por otra parte, hay que reseñar que, teniendo en cuenta la flexibilidad de
la investigación cualitativa y la importancia que tiene el proceso de inves-
tigación en tanto que es ajustable a las necesidades del trabajo de campo,
puede ser útil el no trabajar exclusivamente con un tipo de procedimiento
de muestreo, sino ir combinándolos según el campo nos vaya exigiendo
(recordad, eso sí, que todo proceso flexible exige una reflexividad que jus-
tifique el rigor de cada decisión metodológica que se realice) (8).
TABLA 9-2 Diferentes estrategias de muestreo
Consumo
Característica Rigor de recursos
Tipo de muestreo Definición común Fundamento (+ → ++++) (+ → ++++)
Por conveniencia El investigador selecciona a aquellos participantes a los que Muestreo de Accesibilidad de + +
tiene acceso directo (p. ej., por listado de pacientes). En la carácter primer orden
literatura médica a veces existen matizaciones con respecto al intencional
muestreo por «conveniencia», haciendo referencia a criterios no aleatorio
de comodidad (lo cual no sería muy riguroso)
Ideal en el primer acercamiento a los datos
La información que probablemente recojamos sea muy amplia
y poco focalizada (pero estamos comenzando con el trabajo
de campo)
Por propósito El investigador selecciona pacientes basándose en criterios Emergencia ++ ++
experienciales, es decir, circunstancias que puedan teórica
condicionar la vivencia de la experiencia de algún modo. basada en el
Estos criterios experienciales emergen de la propia experiencia conocimiento
del investigador como clínico o como estudioso del tema previo que el
de indagación (revisión de la literatura médica). En algunas investigador
ocasiones veremos que la documentación hace referencia tiene del
a estos criterios experienciales bajo el término «variables»; fenómeno de
entended este término con cautela estudio
Teórico El investigador selecciona a los participantes basándose en Muestreo de Emergencia ++++ ++++
nuevos criterios experienciales que vayan emergiendo del carácter teórica a partir
análisis de los datos intencional del propio
Ideal según empezamos a trabajar con los primeros datos. no aleatorio proceso de
Exige mucha capacidad crítica y de reflexión. La información indagación
que obtengamos a partir de estos informantes será más y de las
focalizada, intentando comprender matices concretos de la necesidades
construcción teórica que vamos construyendo del mismo
Para finalizar, cabe decir que el tamaño de la muestra cualitativa no se

puede predeterminar durante la planificación del estudio, sino que será el
propio trabajo de campo el que nos vaya sugiriendo el ir incorporando más
o menos sujetos a nuestra muestra. El tamaño de la muestra (inferior a las
muestras cuantitativas) está condicionado por la información aportada por
la misma para el conocimiento del fenómeno de estudio. Si esta es suficiente,
también lo será la muestra; si es insuficiente, por el contrario, tendremos que
seguir incorporando nuevos sujetos que nos aporten información nueva. El
que necesitemos muestras más o menos grandes dependerá, por tanto, de
los objetivos de investigación (más o menos amplios), del abordaje (más o
menos complejo) y de nuestra experiencia como investigadores (tanto en
la recogida como en el análisis de los datos).
El hecho de poder dar respuesta a las preguntas de investigación con la
seguridad de que la propuesta realizada sea fiel al fenómeno vivenciado
por los sujetos (categorías de análisis condensadas), junto con el hecho
de que los nuevos datos recogidos ya no aporten nada nuevo (apoyando
las propuestas teóricas formuladas), es indicativo de haber llegado a la
«saturación de los datos».
TÉCNICAS DE RECOGIDA DE DATOS

Al hablar de técnicas de recogida de datos en investigación cualitativa,
podemos hacer referencia a múltiples estrategias: técnicas observacionales,
técnicas conversacionales, técnicas biográficas, técnicas artísticas y técnicas
documentales (entre otras).
El baúl de herramientas para recoger datos cualitativos que nos ayuden
al entendimiento de un determinado fenómeno es muy amplio, al mismo
tiempo que cada técnica, en sí misma, nos permite una amplia versatilidad.
La razón de esta riqueza de herramientas y esta flexibilidad para su puesta
en práctica en el contexto del trabajo de campo de nuevo encuentra su jus-
tificación en las necesidades particulares que el campo nos plantea y al que
nos debemos de adaptar (9).

No obstante, debemos tener en cuenta que, en función de los objetivos
de estudio y del método u orientación teórico-metodológica con el que
nos aproximemos al fenómeno que vamos a explorar, así habrá técnicas
de recogida de datos que sean más o menos congruentes y, por tanto,
técnicas que hayan de ser consideradas como primarias o prioritarias en
relación con otras que podrán ser utilizadas como fuentes secundarias o
complementarias.
A modo introductorio, trabajaremos algunos apuntes básicos sobre las
técnicas conversacionales más utilizadas: las entrevistas en profundidad y
el grupo de discusión.
En relación con la entrevista en profundidad, esta hace referencia a los
reiterados encuentros discursivos entre el investigador y los informantes
(o personas que participan del fenómeno de estudio). Dichos encuentros
tienen por objetivo el promover/facilitar la externalización de la experiencia

por parte de los informantes con la intención de conocer cómo es la inter-
pretación que hacen de esta experiencia desde su propia producción dis-
cursiva (10).
Las entrevistas en profundidad se caracterizan porque no hay un guión
previo establecido ni un orden de las preguntas. A medida que se desarro-
lla la conversación, el investigador puede ir haciendo alguna pregunta al
entrevistado, o quizá no haga falta, porque el entrevistado esté narrando
todo lo que es importante. Las entrevistas que tienen un guión de preguntas
son entrevistas semiestructuradas y son muy útiles para investigadores
principiantes, o para saturar la información o concretar algún tema que no
haya quedado claro.
El grupo de discusión es una técnica de recogida de datos grupal cuya
intención es la colisión de los diferentes discursos de los participantes,
siendo su producto final la puesta de manifiesto de los efectos de colisión
(discusión), de los discursos personales (convencimientos) y de los dis-
cursos grupales (consenso o construcción colectiva).
Es un grupo artificial, es decir, el grupo no es tal ni antes ni después de
la discusión (11). Esto implica que los participantes no se conocen previa-
mente, evitando interferencias previas en la producción de su habla.
A la hora de constituir los grupos, se deben combinar mínimos de homo-
geneidad y de heterogeneidad, asegurando de este modo la simetría de la
relación de los componentes del grupo, al mismo tiempo que preservamos la
diferencia necesaria en todo proceso discursivo. El número de grupos de dis-
cusión que se planifica dependerá de las diferentes posiciones discursivas que
se quieran someter a la escucha y de la mencionada saturación de los datos.
La versión anglosajona de esta técnica es el grupo focal, o focus group,
que se diferencia del grupo de discusión, entre otras cuestiones, en que el
interés se focaliza en el discurso individual y no en la construcción grupal
de un discurso colectivo (12).
A modo de cierre, podemos añadir que combinar diferentes estrategias
de recogida de datos puede resultar de gran utilidad para acceder a dife-
rentes tipos de datos y, en este sentido, triangular información para llegar
al conocimiento profundo del fenómeno de estudio desde diferentes «vías
de acceso».
ESTRATEGIAS DE ANÁLISIS DE DATOS

Podemos definir el análisis de datos como el proceso a través del cual
vamos más allá de los datos para acceder a la esencia del fenómeno de es-
tudio, es decir, a su entendimiento y comprensión; el proceso por medio
del cual el investigador expande los datos más allá de la narración des-
criptiva (13).
El proceso de análisis de los datos es el eje sobre el que va a girar todo
el proceso de investigación y, en consecuencia, aquello de lo que van a
depender, en gran medida, muchas de nuestras decisiones metodológicas

(«el cómo» investigar), pero también de las decisiones conceptuales («el
qué» investigar).
Aunque a nivel pedagógico se distingan diferentes etapas en el proceso
de investigación (planificación de la propuesta, entrada en el campo y
recogida de datos, análisis de los datos, redacción de los resultados y
difusión de los resultados), en el caso de la investigación cualitativa estas
fases o etapas no discurren linealmente, sino de forma circular o en espiral.
Es decir, que la propia investigación se está continuamente redefiniendo
y adaptándose a las necesidades del campo y a las necesidades teóricas
emergentes (esto es, al análisis de los datos).
Con respecto al propio proceso de análisis, existen múltiples propuestas
que provienen de las diferentes orientaciones teóricas (v. tabla 9-1). Por
otra parte, la naturaleza variable (discursiva, iconográfica, visual…) de
los datos cualitativos hace que el abordaje del análisis de los mismos res-
ponda a diferentes estrategias. En el contexto de esta versatilidad emana
un torrente de creatividad que hace al investigador trabajar guiado por las
propuestas, pero siempre en una constante actitud de apertura e innovación
metodológica (14).
El análisis implica una primera fase de organización, procesamiento
y análisis de los datos para, posteriormente, trabajar en la abstracción
e interpretación de los mismos. La organización y procesamiento de los
datos (codificación) consiste en extraer, del groso de los datos, aquellos que
realmente tienen una significación relevante en relación con nuestros
objetivos de estudio, para posteriormente establecer relaciones entre los
datos que nos faciliten, más tarde, realizar esfuerzos de abstracción en
busca de la generación de conceptos, proposiciones, modelos y teorías.
Este proceso de abstracción es complejo y depende mucho de la capacidad
interpretativa del analista (de lo que llamamos «sensibilidad teórica»)
condicionada por su experiencia analizadora, su bagaje vital, su formación,
su capacidad simbólica, su capacidad de comparación, de cuestionamiento,

de verificación, etc.
CRITERIOS DE CALIDAD Y ESTRATEGIAS PARA SU ASEGURAMIENTO

Hablar de criterios de calidad en el contexto de la investigación cualitati-
va es algo ambiguo si consideramos las múltiples y diferentes aportaciones
que la literatura hace al respecto.
Resumiendo, podemos agrupar dichas aportaciones en dos tendencias.
La primera de ellas trata de establecer unos criterios específicos para la
metodología de la investigación cualitativa, argumentando que los refe-
rentes ontológicos y epistemológicos son diferentes. La segunda de ellas
trata, por otra parte, de seguir una tendencia más globalizadora apostando
por compartir criterios de referencia estándar para todo tipo de trabajo de
investigación, ya sea de carácter cualitativo o cuantitativo.
Podemos encontrar un innumerable listado de términos que harían

referencia a los criterios de calidad en el marco de la investigación cua-
litativa: credibilidad, auditabilidad, confirmabilidad, transferibilidad,
generalización, validez interna, validez externa, creatividad, adecuación
epistemológica, sensibilidad, relevancia, confiabilidad, evaluabilidad,
consistencia… Para simplificar, trabajaremos con los criterios establecidos
por Lincoln y Guba: credibilidad, confirmabilidad y transferibilidad (15).
La credibilidad se refiere a cómo los resultados de una investigación son
verdaderos para las personas que fueron estudiadas y para otras personas
que han experimentado o estado en contacto con el fenómeno investigado.
La confirmabilidad asegura la capacidad de otro investigador para seguir
la pista o la ruta de lo que el investigador principal ha recorrido. Para ello,
el investigador principal debe registrar y documentar cada paso, decisión
e ideas que ha tenido en relación con el estudio. Y, por último, la trans-
feribilidad hace referencia a la posibilidad de extender los resultados a otras
poblaciones o contextos; posibilidad de que los resultados sean aplicados
a la práctica clínica (siempre teniendo en cuenta el contexto de aplicación
y los recursos disponibles).
Algunas de las estrategias que el investigador puede aplicar al proceso
de investigación para el aseguramiento de la calidad del estudio en estos
términos son: la triangulación de técnicas de recogida de datos o de inves-
tigadores (en el proceso de recogida de datos y análisis), la confirmabilidad
por parte de los participantes, la descripción minuciosa del ámbito y de
la muestra definitiva, y la reflexividad (actitud de reflexión crítica y jus-
tificación de cada una de las decisiones conceptuales y metodológicas que
se vayan tomando).
CONSIDERACIONES ÉTICAS
Los principios éticos que guían la investigación cualitativa están cons-
truidos basándose en la ética médica. La aplicación de los mismos al con-
texto de la investigación cualitativa, sin embargo, resulta en ocasiones algo
complicada, incómoda y delicada. Así, basándonos en los principios de
autonomía, beneficencia/no maleficencia y justicia, podemos identificar
diferentes problemas o situaciones conflictivas a nivel ético en el contexto
de la planificación y desarrollo de nuestros trabajos de investigación. Para
cada uno de estos problemas podemos encontrar diferentes estrategias
de abordaje que, en ocasiones, más que seguir directrices estandarizadas,
deberán ser gestionadas por el propio investigador en función de las ne-
cesidades de campo. Esto último, requiere una constante actitud de alerta
para la identificación de situaciones potencialmente conflictivas (16).
Algunas de las estrategias básicas para la salvaguardia de los princi-
pios éticos son: la aprobación de la propuesta y seguimiento del proceso
por parte de un comité ético; la información clara y completa a los infor-
mantes acerca de los objetivos de estudio, condiciones de participación y
aportaciones o beneficios derivados de dicha participación mediante el

consentimiento informado; la adecuada gestión y custodia de los datos
generados a partir de los discursos o narrativas de los participantes, o de
la interacción de los mismos en los contextos de observación; la cuidadosa
exposición de los hallazgos y de las características de la muestra final con
el fin de preservar la identidad de los participantes; la definición clara de
roles investigador/participante frente a terapeuta/paciente para evitar
confusiones en relación con la participación y los beneficios esperados, y
la prevención de situaciones que pongan a los participantes en riesgo de
sufrir un daño emocional como resultado del ejercicio de rememorar o
reflexionar sobre las experiencias de salud-enfermedad.
RECOMENDACIONES PARA LA PRÁCTICA CLÍNICA

BASADA EN LA EVIDENCIA CUALITATIVA
La aplicación de los resultados cualitativos al proceso salud-enfer-
medad puede generarnos algunas dudas si no estamos familiarizados
con esta forma de cuestionarnos la realidad. En algunas ocasiones, la
aplicabilidad de la evidencia generada cae en lo simbólico, repercutiendo
en la apertura de conciencias y constituyendo una llamada de atención
sobre determinados fenómenos, lo que puede dar pie a nuevas políticas
y filosofías de cuidado. En otras ocasiones podremos ver en estos ha-
llazgos pistas muy claras para orientar nuestra práctica clínica, ya sea
en el contexto de la valoración, de la identificación de problemas o de la
planificación de actividades de intervención. Centrándonos en esto último,
la evidencia cualitativa, con alta carga de significación, nos permite dar
contenido y soporte a intervenciones en salud de alto nivel de abstracción
en el contexto de los problemas psicosociales.
ARTÍCULO
Mahtani-Chugania V, Sanz-Álvarez E, de las Cuevas-Castresana C.

Estrategias de manejo de los antidepresivos desde la perspectiva de los
pacientes: luchando interna y externamente. Aten Primaria. 2012;44(8):463-
70. Disponible en: http://zl.elsevier.es/es/revista/atencion-primaria-27/
estrategias-manejo-los-antidepresivos-perspectiva-los-pacientes-90148947
-originals-2012.


artículo concreto.
CUADRO 9-1
1. ¿Se definieron de Sí ✓ No sé No
forma clara los Queda explícita, ya que en la introducción (en
objetivos de la la página 464 del artículo original) se habla del
investigación? interés del grupo de investigación en entender y
PISTAS: describir el significado social y el manejo de los
– ¿Queda implícita/ fármacos que modifican el estado de ánimo en
explícita la diferentes entornos culturales europeos.
pregunta de Aunque inicialmente parece claro que el
investigación? objetivo de investigación es identificar las
– ¿Se identifica trayectorias de consumo de los pacientes,
con claridad el así como las estrategias de manejo de los
objetivo de la psicofármacos en el contexto de los trastornos
investigación? depresivos, a posteriori, según se avanza en la
– ¿Se justifica la lectura del artículo, surgen pequeñas dudas al
relevancia de los respecto, y parece que la orientación indagadora
mismos? fuera más en busca de aspectos motivacionales
para la adherencia terapéutica.
Los autores justifican la actualidad de la
pregunta basándose en la prevalencia del 10,5%
para los episodios depresivos en España según
el estudio epidemiológico ESEMed europeo,
la importancia de una adecuada adherencia
terapéutica para la gestión de los problemas
de salud mental crónicos, y las tasas de
incumplimiento con la medicación pautada del
40 al 70% en personas con depresión (OMS).
En cuanto a la pertinencia de la pregunta,
dicen que conocer cuál es la perspectiva de las
personas que padecen depresión con respecto
al régimen terapéutico puede ayudarnos
a identificar factores de riesgo o factores
relacionados para con el incumplimiento,
así como orientarnos en la planificación de
actividades de intervención para su abordaje
de una forma individualizada y adaptada a sus
necesidades reales
CUADRO 9-1 (cont.)
2. ¿Es apropiada Sí ✓ No sé No
la metodología Sí, quiere conocer la perspectiva de los
cualitativa? pacientes en relación con el tema, para ello hay
PISTAS: considera: que explorar la subjetividad de los participantes.
– Si la investigación La investigación cualitativa tiene por objetivo
pretende explorar el conocer la realidad desde la subjetividad de
las conductas las personas, indagando en la interpretación
o experiencias que estas realizan de su propia experiencia/
subjetivas de los vivencia en relación con el fenómeno de
participantes estudio. La investigación cualitativa, bajo el
con respecto al paradigma constructivista/naturalista, aboga
fenómeno de por la no existencia de una única realidad, sino
estudio de múltiples realidades que corresponderían a
– ¿Es apropiada las múltiples interpretaciones de los diferentes
la metodología sujetos (personas) que han experimentado un
cualitativa para determinado fenómeno. El acceso, entonces,
dar respuesta a al conocimiento de la realidad es a través de la
los objetivos de subjetividad, de la interpretación que los sujetos
investigación realizan de dicha vivencia
planteados?
3. ¿El método de Sí No sé No ✓
la investigación Los autores no hacen referencia explícita al
es adecuado marco teórico que han tomado por referencia.
para alcanzar los Si bien es cierto que metodológicamente
objetivos? hacen alusión a la propuesta de la teoría
PISTA: considera si fundamentada en el contexto del muestreo,
el investigador hace el análisis de los datos y la exposición de los
explícito y justifica resultados, no mencionan el interaccionismo

el método elegido simbólico o cualquier otra propuesta como
(p. ej., fenomenología, marco teórico de referencia.
teoría fundamentada, Por otra parte, tampoco justifican por qué la
etnografía, etc.) teoría fundamentada es el método de elección,
aunque, por el carácter procesual y de explorar
el cambio que se puede producir, parece el
método idóneo
(Continúa)
CUADRO 9-1 (cont.)

4. ¿La estrategia Sí ✓ No sé No
de selección de Sí. Los autores señalan como criterios de
participantes es inclusión personas mayores de 18 años, en
adecuada para tratamiento con antidepresivos durante un
alcanzar los objetivos período igual o mayor a seis meses y que
de la investigación? estuvieran dispuestos a participar en
PISTAS: considera si: el estudio.
– Hay alguna Como posibles criterios experienciales
explicación relativa (factores o variables que pueden modificar
a la selección de los la experiencia de las personas) solo fueron
participantes considerados, en un primer momento, la edad
– Justifica por qué y el sexo.
los participantes En fases más avanzadas, el muestreo
seleccionados eran progresó hacia un muestreo teórico,
los más adecuados incluyendo nuevos criterios experienciales,
para acceder al tipo como el lugar de residencia (rural/
de conocimiento que urbano), el estado civil (se entiende, pero
requería el estudio no se especifica, soltero/a o casado/a) y el
– El investigador contexto familiar (no especificando a qué
explica quién, cómo, aspectos hacen referencia). Pero ¿por qué no
dónde se convocó a han tenido en cuenta atributos como el uso
los participantes del previo de antidepresivos, la existencia de
estudio episodios previos, antecedentes de efectos
secundarios derivados de los antidepresivos
o el nivel de dependencia?
Todos ellos son variables que podrían
influir considerablemente en la experiencia de
la depresión y en la adherencia al tratamiento.
Se infiere, por las características de este tipo
de muestreo, que los participantes que fueron
añadiéndose a la muestra fueron aquellos
que, por sus características experienciales,
podían aportar información relevante para
el entendimiento del fenómeno de estudio
en función de la teoría emergente, si bien los
autores no reflexionan sobre la riqueza de los
discursos de los participantes (es decir, si estos
fueron considerados finalmente como «buenos
informantes» o no).
CUADRO 9-1 (cont.)
El rango de edad es muy amplio. ¿Tendrán

la misma vivencia, perspectiva y experiencia
sobre la depresión personas con 35 años y
personas con 85 años? ¿Es correcto que se
analicen de manera conjunta estas realidades?
¿Habría que describir el proceso teniendo en
cuenta todo esto?
El muestreo fue, primeramente, de
carácter intencional por conveniencia,
echando mano de los casos que se estaban
llevando desde las consultas médicas de
atención primaria.
Si bien se hace explícita la ubicación del
ámbito de estudio en la isla de Tenerife, no
se indica si formaron parte del estudio todos
los centros de salud de la isla y médicos
adscritos a cada uno de los centros, o si se
hizo algún tipo de selección de los mismos
5. ¿Las técnicas de Sí No sé No ✓
recogida de datos Aunque el ámbito de estudio es mencionado
utilizadas son en el artículo (isla de Tenerife), no está
congruentes con claro si formaron parte del mismo todos
la pregunta de los centros de atención primaria del área
investigación y el de salud y si se incorporaron todas las
método utilizado? consultas médicas de cada uno de los
PISTAS: considera si: mencionados centros.
– El ámbito de estudio Los autores hacen referencia a la entrevista
está justificado en profundidad como estratega principal de

– ¿Se especifica recogida de datos al margen de mencionar
claramente y justifica otras secundarias, como las técnicas
la técnica de recogida documentales (elección que es congruente
de datos (p. ej., con la propuesta de la teoría fundamentada).
entrevistas, grupos de Los autores explican cómo se
discusión, observación realizaron las entrevistas en términos
participante, etc.)? de localización, duración, características de
– ¿Se detallan aspectos los entrevistadores, forma de registro
concretos del proceso (audio-grabación) y planificación de la
de recogida de datos? misma explicitando el guion de entrevista en
la tabla 2 del artículo.
(Continúa)
CUADRO 9-1 (cont.)
– Si se ha modificado Todas las entrevistas fueron grabadas y

la estrategia de transcritas literalmente para su análisis.
recogida de datos a Los autores hacen referencia al criterio de
lo largo del estudio y saturación de las categorías de análisis para
si es así, ¿explica el la determinación del tamaño de la muestra.
investigador por qué? Finalmente, el tamaño de la muestra
– Si se explica el formato fue de 17 participantes, tamaño que resulta
de registro de los datos congruente con las muestras de estudios
(p.ej. grabaciones de similares
audio/vídeo, cuaderno
de campo, etc.)
– ¿El investigador
alcanza la saturación
de datos y reflexiona
sobre ello?
6. ¿Se ha reflexionado Sí No sé No ✓
sobre la relación entre En la formulación de la pregunta no aparece
el investigador y el ningún conato de reflexividad, tal vez sea
objeto de investigación porque se trata de un proyecto europeo en el
(reflexividad)? que participan varios países y esta reflexión
PISTAS: considera: se haya hecho en el diseño del mismo.
– Si el investigador ha Tampoco en la selección de participantes
examinado de forma ni en la elección del ámbito. Esta parte sí
crítica su propio la podría haber controlado como equipo
rol en el proceso español que toma sus decisiones para
de investigación seleccionar los mejores informantes en
(el investigador el mejor lugar posible. Sí parece cierta
como instrumento reflexividad cuando la investigadora
de investigación), hace referencia a este proceso a través del
incluyendo sesgos enunciado «V.M. mantuvo notas en forma
potenciales: de memos de la experiencia del proceso de
– En la formulación investigación».
de la pregunta de No se menciona ningún cambio o
investigación reformulación de objetivos, estrategia de
– En la recogida de muestreo, ámbito o técnica de recogida de
datos, incluida datos
la selección de
participantes y la
elección del ámbito
de estudio
CUADRO 9-1 (cont.)
– Si el investigador
refleja y justifica los
cambios conceptuales
(reformulación de la
pregunta y objetivos
de la investigación)
y metodológicos
(criterios de inclusión,
estrategia de muestreo,
técnicas de recogida de
datos, etc.)
7. ¿Se han tenido en Sí ✓ No sé No
cuenta los aspectos Los autores mencionan que, tras informar
éticos? a los participantes sobre los objetivos del
PISTAS: considera: estudio, su participación en el mismo y
– Si el investigador ha aspectos sobre confidencialidad y anonimato,
detallado aspectos se confirmó su deseo de participar, además
relacionados con: de solicitarles permiso para la grabación
– El consentimiento de la entrevista. Sin embargo, no se hace
informado referencia explícita a si esta aceptación para
– La la participación fue verbal o si se redactó un
confidencialidad de consentimiento informado en formato escrito
los datos para su firma y archivo legal.
– El manejo de la La confidencialidad de los datos sí se ha
vulnerabilidad tenido en cuenta.
emocional (efectos No se hace referencia a otros aspectos
del estudio sobre relacionados con el principio ético de
los participantes beneficencia/no maleficencia, como es la

durante y después vulnerabilidad emocional que la participación
del mismo como puede generar en los participantes con
consecuencia de la problemas de salud mental y las estrategias
toma de conciencia implementadas para evitarla.
de su propia Tampoco se aclara si la propuesta de
experiencia) investigación ha sido valorada y aprobada
– Si se ha solicitado por algún comité ético, aunque se hace
la aprobación de un alusión a que el estudio de investigación
comité ético forma parte de un proyecto europeo (TUPP,
«The Users Perspective Project»), y con toda
seguridad haya sido aprobado por un comité
(Continúa)
CUADRO 9-1 (cont.)

8. ¿Fue el análisis de Sí ✓ No sé No
datos suficientemente Los autores señalan haber seguido el
riguroso? método de la comparación constante para
PISTAS: considera: el análisis de los datos cualitativos (en
– Si hay una perfecta congruencia con la propuesta de
descripción detallada la teoría fundamentada), describiendo los
del tipo de análisis pasos progresivos que se fueron dando y
(de contenido, del que corresponden a las diferentes fases de
discurso, etc.) y del codificación (desde las fases iniciales de
proceso organización de los datos a las fases finales
– Si queda claro cómo más interpretativas y de refinamiento de la
las categorías o temas teoría sustantiva propuesta).
emergentes derivaron No queda muy claro cómo las categorías
de los datos o temas emergentes derivaron de los datos.
– Si se presentan Mencionan la categoría principal como el
fragmentos dilema con el que se encuentra el paciente
originales de discurso ante la prescripción y consumo de un
significativos antidepresivo, pero no cómo se relacionan
(verbatim) para entre sí el resto de categorías ni cómo enlaza
ilustrar los resultados el proceso denominado «luchando interna y
y se referencia su externamente».
procedencia (p. ej., En la tabla 3 (página 467) del artículo se
entrevistado 1, grupo presentan verbatim.
de discusión 3, etc.) En el análisis se buscaban posibilidades
– Hasta qué punto de los contrarios para cada código, como
se han tenido en indica el método de comparación constante.
cuenta en el proceso El investigador sí menciona que ha
de análisis los datos examinado de forma crítica su propio
contradictorios (casos rol, aunque no aporta ningún dato que lo
negativos o casos demuestre
extremos)
– Si el investigador ha
examinado de forma
crítica su propio rol
y su subjetividad de
análisis
CUADRO 9-1 (cont.)
9. ¿Es clara la exposición Sí ✓ No sé No

de los resultados? Sí, aunque el contenido de los hallazgos
PISTAS: considera si: se queda en un nivel descriptivo con
– Los resultados poco ejercicio interpretativo que dé
corresponden a noción de interrelaciones claras entre las
la pregunta de diferentes conceptualizaciones acerca de las
investigación motivaciones al tratamiento («Adherencia
– Los resultados se incondicional», «Sí, pero…» y «No, pero
exponen de una sí»), los factores condicionantes intrínsecos
forma detallada, y extrínsecos, y el incumplimiento o
comprensible adherencia terapéutica. No están exploradas
– Se comparan o en profundidad las estrategias para
discuten los hallazgos asegurar la adherencia terapéutica según las
de la investigación diferentes formas de integrar el tratamiento
con los resultados en la cotidianidad de cada paciente.
de investigaciones Finalmente, los hallazgos son discutidos
previas con la evidencia ya existente de forma
– El investigador correcta y completa.
justifica estrategias Los autores utilizaron diferentes
llevadas a cabo estrategias para el aseguramiento de la
para asegurar la credibilidad interna de los resultados. Así, se
credibilidad de los llevó a cabo la verificación de los resultados
resultados (p. ej., con otros profesionales (peer debriefing),
triangulación, así como la devolución por parte de los
validación por los informantes (member checks).
participantes del No se reflexiona sobre las limitaciones
estudio, etc.) del estudio
– Se reflexiona sobre
las limitaciones del
estudio
(Continúa)
CUADRO 9-1 (cont.)

10. ¿Son aplicables los Sí ✓ No sé No
resultados de la En el cuadro de la página 469 del artículo
investigación? original, donde se habla sobre los puntos
PISTAS: considera si: clave, se explica la contribución de los
– El investigador resultados a la práctica clínica.
explica la En el último párrafo de la discusión,
contribución que los en la página 469, se identifican las líneas
resultados aportan futuras de investigación: estrategias
al conocimiento orientadas a la comprensión del mundo
existente y a la privado de los pacientes por parte de los
práctica clínica profesionales, modificar prejuicios de
– Se identifican los propios pacientes. Sin embargo, se echan
líneas futuras de de menos recomendaciones de carácter
investigación más pragmático de cara a la planificación
– El investigador de actividades para la promoción de la
reflexiona acerca de adherencia terapéutica en este tipo de
la transferibilidad de situaciones.
los resultados a otros El investigador reflexiona acerca de
contextos la transferibilidad de los resultados a
otros contextos; en el primer párrafo de
la discusión, habla de que no se puede
hacer inferencias estadísticas, pero las
recomendaciones son válidas para el ámbito
de la atención primaria. Tendríamos que
conocer qué resultados se han obtenido en
otros países para ver si son similares o muy
diferentes
Bibliografía
1. Cano Arana A, González Gil T, Palmar Santos A, Luengo González R. Diferentes aproxima-
ciones de investigación en salud: metodología cuantitativa y cualitativa. Educare 21 [revista
en internet]. 2008 Jun [acceso 7 Sep 2014]. Disponible en: http://www.enfermeria21.com.
proxy1.athensams.net/revistas/educare/articulo/470251/.
2. De la Cuesta Benjumea C. ¿Por dónde empezar?: la pregunta de investigación cualitativa.
Enferm Clin. 2008;18(4):205-210.
3. Mayan MJ. Una Introducción a los métodos cualitativos: módulo de entrenamiento para
estudiantes y profesores [monografía en Internet]. Alberta: International Institute for
Qualitative Methodology; 2001 [acceso 7 Sep 2014]. Disponible en: http://www.ualberta.
ca/∼iiqm/pdfs/introduccion.pdf.
4. Morse JM, Richards L. Selecting a Method. En: Morse JM, Richards L, editors. Read me
first. Thousand Oaks: SAGE; 2001. p. 43-64.
5. Hammersley M, Atkinson P. Etnografía. Métodos de investigación. Barcelona: Paidós; 2001.
6. Taylor SB, Bogdan R. Introducción a los métodos cualitativos de investigación. 2.ª ed.
Barcelona: Paidós; 1987.
7. Glaser B, Strauss A. The Discovery of grounded theory: Strategies for Qualitative Research.
Chicago: Aldine; 1967.
8. Marshall M. Sampling for qualitative research. Fam Pract. 1996 Dec;13(6):522-525.
9. Callejo Gallego J. Observación, entrevista y grupo de discusión: el silencio de tres prácticas
de investigación. Rev Esp Salud Pública. 2002;76(5):409-422.
10. Alonso LE. Sujeto y discurso: el lugar de la entrevista abierta en las prácticas de la sociología
cualitativa. En: Delgado JM, Gutiérrez J, coordinadores. Métodos y técnicas cualitativas
de investigación en ciencias sociales. Madrid: Síntesis; 1999. p. 225-240.
11. Canales M, Peinado A. Grupos de discusión. En: Delgado JM, Gutiérrez J, editors. Métodos
y técnicas cualitativas de investigación en Ciencias Sociales. Madrid: Síntesis; 1999. p. 288-
316.
12. Krueger RA, Casey MA. Focus Groups: A Practical Guide for Applied Research. London:
SAGE Publications; 2000.
13. Morse JM. Emerger de los datos: los procesos cognitivos del análisis en la investigación
cualitativa. En: Morse JM, editor. Asuntos críticos en los métodos de investigación cuali-
tativa: Universidad de Antioquia; 2003. p. 29-52.
14. Cooffey A, Atkinson P. Variedades de datos y variedades de análisis. En: Coofffey A,
Atkinson P, editors. Encontrar sentido a los datos cualitativos: estrategias complementarias
de investigación. Colombia: Universidad de Antioquia; 2003. p. 1-30.
15. Castillo E, Vásquez LM. El rigor metodológico en la investigación cualitativa. Colomb
Med. 2003;34:164-167.
16. Barrio-Cantalejo I, Simón-Lorda P. Problemas éticos de la investigación cualitativa. Med
Clin. 2006;126(11):418-423.

Cano A, González T. Lectura crítica de estudios cualitativos. En: Cabello Juan B, editor. Lectura
crítica de la evidencia clínica. Barcelona: Elsevier; 2015. p. 133-155.
C A P Í T U L O
10
Documentos de evidencia.
El sistema 6S. Evidencia a pie
de cama (sumarios point of care)
y guías de práctica clínica
Juan Bautista Cabello López,
Fernando Carballo Álvarez,
Eukene Ansuategi Zengotitabengoa
y Marimar Úbeda Carrillo

• Reflexionar sobre la incorporación sistémica de la evidencia a la práctica.
• Describir los tipos de documentos de evidencia.
• Definir la evidencia preevaluada.
• Evaluar los sumarios de «evidencia a pie de cama» (evidence point of care).
• Valorar la evidencia en guías de práctica clínica.
INTRODUCCIÓN
En los últimos años se ha producido una evolución en la relación entre la

evidencia y su aplicación. Inicialmente, producción y aplicación aparecían
como procesos independientes y la incorporación a las decisiones clínicas
era una cuestión individual del buen clínico o decisor. Esta visión ha evo-
lucionado hacia una concepción sistémica del uso de la evidencia en los
sistemas de salud que afecta a la producción de evidencias, a su difusión e
implementación, y al interés estratégico en propiciar su uso y aplicación (1).

Todo ello ha producido el desarrollo de nuevos tipos de documentos de

evidencia, frecuentemente preevaluados, y una mayor facilidad de acceso
a la evidencia. De esos tipos de documentos, de esos nuevos accesos y de
cómo afrontar los documentos preevaluados tratará este capítulo.
TRASLADANDO LA EVIDENCIA A LA PRÁCTICA:

UNA VISIÓN EVOLUTIVA
Como mencionábamos (1), en los inicios de la práctica basada en la

evidencia había una visión común de separación entre investigación y
práctica, asumiendo, ingenuamente, que «la evidencia habla por sí mis-
ma» (como el buen paño, que en el arca se vende). Por tanto, en la parte
de la investigación, el objetivo era realizar buena investigación clínica, es
decir, estudios tradicionales mejorados por el extraordinario progreso de la
epidemiología clínica y, a continuación, realizar su difusión pasiva en revis-
tas médicas clásicas, repositorios de evidencia y foros clínicos tradicionales
(congresos, reuniones, etc.). En la parte de la aplicación, la necesidad era
difundir las cinco habilidades básicas para la práctica basada en la evidencia
que señalamos en capítulos precedentes (formulación de preguntas, bús-
queda, lectura crítica, aplicación y evaluación del proceso) (2).
En suma, para trasladar la mejor evidencia a la práctica parecía suficiente
generar evidencias y esperar que los clínicos aprendieran a ir a por ellas
y las usaran. Sin embargo, pronto hubo pruebas de que esos métodos
tradicionales carecían de influencia alguna sobre los cambios en la práctica
clínica (3), y que el camino de incorporación de la evidencia a la práctica era
algo más complejo (4,5).
Entre tanto, se multiplicaron los informes sobre las variaciones injus-
tificadas en los patrones de práctica clínica y sobre la existencia de asime-
trías en la provisión de salud con procesos y áreas claramente por debajo
de los estándares deseables (basados en evidencias). Todo ello generó, y
sigue generando, una presión social creciente sobre clínicos, sistemas de
salud, instituciones académicas y organizaciones profesionales. Como
consecuencia de este nuevo entorno de valores, el interés por potenciar de
modo sistémico la aplicación de la evidencia en la práctica ha alcanzado
una nueva dimensión estratégica, al tiempo que, paradójicamente, se ha
convertido en un lugar común.
En ese empeño estratégico se pueden distinguir al menos tres factores:
el primero es la aparición de una visión amplia ordenadora y sintetizadora
del conocimiento clínico de modo que esté dimensionado y preparado
para su uso inmediato (ready to go). De este modo emergen poderosas
organizaciones y grupos multidisciplinares (metodólogos, clínicos, estadís-
ticos, pacientes, etc.) que generan nuevos productos en los que la búsqueda
de la evidencia es adecuada y eficiente, la evidencia está ya críticamente
10. DOCUMENTOS DE EVIDENCIA. EL SISTEMA 6S. EVIDENCIA A PIE DE CAMA 159
evaluada (evidencia preevaluada) y los resultados son ordenados (y en su

caso sintetizados) para facilitar su uso clínico. Así aparecen nuevos tipos
de documentos, como las sinopsis, las síntesis, los diversos sumarios de
evidencia, que se agrupan, junto con los estudios clásicos, bajo el epígrafe
de sistema 6S.
El segundo factor es la explosión de internet y sus tecnologías asociadas,
que faculta un acceso fácil e inmediato a la evidencia, sea en sus formatos
clásicos, sea en los nuevos mencionados. Esto permite reactivar el sueño
de usar la evidencia en el lugar en que se interacciona con el paciente, es la
llamada evidencia en consulta o evidencia a pie de cama (evidence «point of
care») que visionó D. Sackett el pasado siglo con su famoso «carrito de la
evidencia», y que el capricho del tiempo nos trae de nuevo. Finalmente, el
desarrollo combinado de los dos factores mencionados, unidos al desarro-
llo de las historias y registros electrónicos de pacientes, permite diseñar e
imaginar un futuro con sistemas de ayuda irrumpiendo en la consola del
clínico ayudando a las decisiones complejas.
El tercer factor tiene que ver con una visión industrial de la generación
y aplicación de la evidencia. De ese modo, desde los estados mayores de
los sistemas de salud se lanzan estrategias de calidad global, se propician
múltiples regulaciones administrativas, se implantan incentivos económicos
o administrativos, se estimulan programas de definición de estándares y,
en suma, un amplio catálogo de estrategias de persuasión, entre las que
destaca especialmente la promoción de las GPC con involucración de los
clínicos en el proceso, incluso como actores esenciales. Sin embargo, por
razones diversas, estas acciones orientadas a los clínicos decisores han
tenido resultados solo discretos.
Para resumir la frustración que genera el proceso, la broma usada en la
literatura (1) es que «dado que el caballo no bebe solo» (fase inicial), «ha-
brá que llevar el caballo al agua y allí hacer que beba» (fase de las guías).
Como eso tampoco funcionó del todo, la broma se va progresivamente
transformando en ¿cómo hacer más fácil y más agradable de beber el

agua? Y, en la actualidad, en ¿cómo comprender mejor qué es lo que lleva
al caballo a beber? Damos por supuesto que los gestores hablan siempre
de «purasangres».
Veamos, pues, esos documentos y después nos detendremos a comentar
cómo afrontar la lectura de los sumarios de evidencia y las GPC.
DOCUMENTOS DE EVIDENCIA. EL SISTEMA 6S
Este nuevo panorama con nuevos productos de evidencia ha trans-

formado el modo en que se escriben los documentos de evidencia (6).
Estos nuevos tipos y formatos se ordenan en el denominado sistema 6S,
que veremos en dos sentidos: uno, el descriptivo, repasando los seis tipos
FIGURA 10-1 Sistema 6S.
de documentos; y otro, el pragmático, clasificando los documentos encon-

trados.
El sistema 6S (Study, Sinopses of Study, Syntheses, Sinopses of Syntheses,
Sumaries, Systems) o pirámide 6S clasifica y ordena los tipos de documentos
del siguiente modo (fig. 10-1).
ESTUDIOS
Corresponden a los estudios tradicionales o piezas elementales de eviden-
cia, versan sobre los diferentes dominios clínicos mencionados en el capítulo 3
(tratamiento, pronóstico, diagnóstico, etc.) y, por tanto, asumen alguno de los
diseños señalados como adecuados para la construcción de conocimiento en
el dominio correspondiente (ECA, estudios de exactitud, pruebas diagnós-
ticas, estudios de cohortes, etc.) y, obviamente, utilizan un formato estructu-
rado «PICO» para la formulación de la pregunta (v. capítulo 3).
En cuanto a la arquitectura los documentos, mantienen la tradicional
estructura IMRAD (Introducción, Material y Métodos, Resultados y Dis-
cusión). Generalmente, los estudios aportan un pequeño resumen (150-200
palabras), que mantiene la estructura del artículo y permite su ojeo rápido
en las bases de datos.
Estos documentos deben, idealmente, aportar la información necesaria

para realizar lectura crítica (y eventualmente aplicarla a la clínica), pero
también la información necesaria para la inclusión del estudio en procesos
de investigación de síntesis.
SINOPSIS DE ESTUDIOS
Se trata de un resumen comentado de los estudios del apartado anterior.
Se diferencia de los resúmenes, antes mencionados, en que incluye juicios
de valor sobre la validez de la evidencia aportada por ese estudio y otras
consideraciones relacionadas con el contexto de conocimiento o con la apli-
cación clínica, es evidencia preevaluada. En cuanto a la pregunta, responde
a una cuestión estructurada en formato PICO o similares. En ocasiones
se agrupan la pregunta, la búsqueda correspondiente y la sinopsis, cons-
tituyendo un CAT (critically appraised topic).
Dado que son resúmenes, no suelen aportar la información necesaria
para realizar lectura crítica directa; sin embargo, constituyen una pieza
elemental de evidencia preevaluada siempre que los criterios de lectura
crítica sean preespecificados y consistentes. Estas sinopsis suelen agruparse
en revistas de resúmenes o en bancos de CAT.
Las sinopsis ofrecen la ventaja de ahorrar tiempo para el clínico o decisor
ocupado; sin embargo, tienen cierto parecido con los «artículos de opinión»,
en la medida en que realizan juicios de valor. Deben por ello ser valoradas
con especial prudencia (dependiendo de la fuente).
SÍNTESIS
Corresponden a las de RS o diseños que, procediendo de modo sis-
temático y consistente, recopilan, valoran y sintetizan (cualitativa y/o
cuantitativamente) toda la evidencia existente en torno a una pregunta es-
tructurada PICO. Incorporan toda la evidencia disponible sobre la pregunta
y ofrecen, por tanto, una visión global y aportan, además, un extra de
validez respecto de los estudios individuales (incluidos grandes estudios),

en la medida en que suponen que un efecto es puesto a prueba en diversos
estudios o circunstancias diferentes. Es decir, si el efecto existe, el modo de
prueba es más robusto, más válido.
Podemos leer críticamente la revisión, pero la lectura crítica directa de los
artículos incluidos en ella no es posible; no obstante, por la propia dinámica
de esta investigación, se ha efectuado el análisis de la calidad de los estudios
con criterios preespecificados y de modo consistente (v. capítulo 5).
SINOPSIS DE SÍNTESIS
Son documentos que contienen un resumen estructurado de una síntesis
que, al igual que en las sinopsis, incluye juicios de valor sobre la validez
de la revisión, la pertinencia de las preguntas y las posibles peculiaridades
de su aplicación.
Tienen, pues, las ventajas de las sinopsis de estudios y además, al

provenir de RS, su propio plus de validez. Mantienen los inconvenientes
de que hay elementos de opinión y no es posible la lectura crítica di-
recta de los estudios ni de la revisión, por tanto, hay que valorarlas con
prudencia. Ambas sinopsis, de estudios y de síntesis, son frecuentemente
publicadas en revistas de resúmenes o pueden formar parte de sumarios
de evidencia.
SUMARIOS
Este es el grupo de documentos más polimorfo (7), cuyas caracterís-
ticas más relevantes son, por una parte, que ofrecen la información
resumida y clasificada por condiciones clínicas y/o por especialidades
clínicas, y por otra, que ofrecen evidencia preevaluada con procesos
de selección, lectura y presentación de diversa calidad. Como grandes
grupos señalaremos:
• Libros electrónicos similares a los formatos tradicionales de libros,
y que incluyen preguntas preclínicas de etiología, anatomía o
fisiopatología. En lo que se refiere a las preguntas genuinamente
clínicas, las formulan en formato intuitivo (clínico) y ofrecen
recomendaciones clínicas en algunos casos basadas en la evidencia. En
algunos casos incorporan información sobre la calidad de la evidencia
y sobre la fuerza de la recomendación.
• Sumarios de evidencia. Lo realmente innovador de esas herramientas
es que están específicamente diseñadas para ser usadas en el punto
donde clínico y paciente interactúan. Por ello, clasifican la información
por «condiciones clínicas» y por especialidad. En su versión ideal, la
evidencia es buscada, seleccionada y actualizada de modo sistemático,
y los estudios o revisiones son criticados (preevaluados) de acuerdo
con métodos estandarizados que incluyen criterios explícitos e
involucran múltiples lectores entrenados. Ofrecen la evidencia
resumida, usando interfaces amables y presentaciones atractivas.
• Guías de práctica clínica (GPC), que pueden considerarse sumarios
de recomendaciones basadas en la evidencia y que describiremos más
adelante.
SISTEMAS DE AYUDA A LA DECISIÓN BASADOS EN LA EVIDENCIA
Constituyen el último grupo. Se trata de sistema computarizados
que resumen de modo conciso la evidencia actualizada sobre un pro-
blema clínico y conectan (a través de las historias clínicas electrónicas)
con las circunstancias clínicas y problemas clínicos en resolución. Usan
algoritmos específicos y sistemas de análisis de decisión para ensamblar
la información con la evidencia y ofrecer las recomendaciones. Aunque
hay progresos relevantes en este campo, se trata aún de una promesa
de futuro.
DÓNDE BUSCAR Y CÓMO LEER
Tras la descripción de documentos, se comprenderá que la búsqueda

eficiente de la evidencia por los clínicos deberá comenzar por los estra-
tos superiores de la pirámide (6). En la tabla 10-1 se muestran los múlti-
ples enlaces para buscar y una breve descripción de los recursos. Muchos
de ellos obtienen evidencias de varios niveles del sistema 6S. Existen, además,
excelentes metabuscadores que obtienen la evidencia de todos los estratos
del 6S.
TABLA 10-1 Cómo guiar nuestra búsqueda: el modelo 6S propone comenzar por el
nivel más alto (sistemas) hasta el más bajo (estudios), siendo el nivel 5 (sumarios)
el primer escalón con fuentes de información disponibles
Pirámide Recurso Contenido
Escalón 5 UpToDate Libro electrónico dirigido a clínicos que ofrece información
organizada por condiciones clínicas. Describe la etiología,
la fisiopatología y las manifestaciones clínicas de una gran
variedad de enfermedades, las opciones de diagnóstico,
el manejo del paciente y su tratamiento. Cubre varias
especialidades médicas y ofrece otros servicios docentes
http://www.uptodate.com Suscripción
Editor: Wolters Kluwer Health
Escalón 5 DynaMed Herramienta de referencia para la toma de decisiones clínicas,
con sumarios de la evidencia para más de 3.200 temas,
organizados por especialidad y condición clínica. De
actualización diaria, monitoriza más de 5.200 publicaciones,
ofreciendo la mejor evidencia médica disponible
https://dynamed.ebscohost.com Suscripción
Editor: EBSCO
Escalón 5 Clinical Compendio actualizado de evidencia que proporciona
Evidence información concisa del estado actual del conocimiento
sobre el tratamiento y prevención de un amplio rango de
condiciones clínicas (lo que funciona, lo que no funciona

y lo que aún no se sabe)
Se basa en la búsqueda sistemática y eficiente de la literatura
médica. Se centra en las intervenciones (ensayos clínicos
aleatorios y revisiones sistemáticas)
http://www.clinicalevidence.bmj.com Suscripción
Editor: BMJ
Escalón 5 ACP Smart Base de datos basada en la evidencia publicada por el
Medicine American College of Physicians (ACP). Proporciona acceso
(antes PIER) inmediato a información basada en la evidencia sobre el
diagnóstico, tratamiento, prevención y manejo clínico de
un gran número de condiciones clínicas. Gratuito solo
para los miembros del ACP
http://smartmedicine.acponline.org Suscripción
(Continúa)
el primer escalón con fuentes de información disponibles (cont.)
Escalones DARE Se centra principalmente en las revisiones sistemáticas que
2y4 evalúan los efectos de las intervenciones de atención de
la salud y la prestación y organización de los servicios de
salud. Esta base de datos se puede consultar dentro de la
Cochrane y en la página web del Centre for Reviews and
Dissemination de York
http://www.crd.york.ac.uk/crdweb Acceso libre
Editor: University of York
Escalones NHS Evidence Servicio web del NICE, que proporciona un fácil acceso a
2y4 sumarios de conocimiento clínico, sumarios de temas
bajo incertidumbre y algunos formularios clásicos. Es un
portal que busca en múltiples fuentes de información con
consistencia y usando criterios de calidad y pertinencia
https://www.evidence.nhs.uk Acceso libre
Editor: NICE
Escalones Evidence Base de datos que proporciona referencias (de alrededor
2y4 Updates de 160 principales revistas clínicas seguidas). Incluye
información sobre diagnóstico, tratamiento y manejo de
condiciones clínicas que han sido previamente clasificadas
por su calidad y posteriormente tres clínicos de todo el
mundo han realizado una selección por su relevancia
clínica e interés
http://plus.mcmaster.ca/ Acceso libre
EvidenceUpdates/
Editor: BMJ y McMaster University’s
Health Information Research Unit
Escalones McMaster Base de datos que proporciona artículos originales de
2y4 PLUS calidad, evaluados críticamente a través del proceso
Database de valoración crítica (CAP), que identifica los que son
metodológicamente sólidos y posteriormente considera
como pertinentes por clínicos, siguiendo el sistema
McMaster Online Rating of Evidence (MORE)
http://plus.mcmaster.ca/ Hay que
McMasterPLUSDB/Default.aspx?Page=1 registrarse
http://hiru.mcmaster.ca/more_new/
Escalones PEDro Base de datos sobre fisioterapia basada en la evidencia
2y4 creada y mantenida por el Centro de Fisioterapia Basada
en la Evidencia en el George Institute for Global Health.
Es gratuita y contiene más de 28.000 ensayos aleatorios
controlados, revisiones sistemáticas y guías de práctica
clínica de fisioterapia
http://www.pedro.org.au/ Acceso gratuito
Escalón 3 Cochrane Es la base de datos original «The Cochrane Library»
Library y (revisiones realizadas por los grupos Cochrane, registro
Plus de ensayos clínicos aleatorios, estudios de evaluación
económica, informes de agencias de tecnología sanitarias).
Más la traducción al castellano de algunas revisiones
http://www.thecochranelibrary.com/ Suscripción
http://www.update-software.com/BCP/ Acceso gratuito
Escalón 3 JBI COnNECT Recurso online desarrollado por el Instituto Joanna Briggs.
Tiene como actividad principal la elaboración de revisiones
sistemáticas y ofrece un conjunto de recursos y herramientas
basados en la evidencia, especialmente diseñados para
ayudar en el proceso de toma de decisiones clínicas
http://connect.jbiconnectplus.org/ Suscripción
Escalón 3 PROSPERO Base de datos internacional producida por The Centre for
Reviews and Dissemination en la Universidad de York con
el registro de revisiones sistemáticas en salud y seguridad
social
http://www.crd.york.ac.uk/prospero/ Acceso gratuito
Escalón 3 Systematic Revista open access que tiene como misión la publicación
Reviews de revisiones sistemáticas, protocolos y métodos de
investigación relacionados con las revisiones sistemáticas
http://www.systematicreviewsjournal. Acceso gratuito
com/
Editor: BioMed Central
Escalones ACP J Club, Estas revistas ofrecen una sinopsis (resumen estructurado
2y4 Evidence de un artículo junto con el comentario del revisor) de
Based las principales revistas de la especialidad que cubren
Medicine, (medicina interna, enfermería, etc.)
etc. http://acpjc.acponline.org/index.html Acceso libre
http://ebm.bmj.com/ Suscripción
Escalones POEMS, CAT, Son sinopsis de artículos relevantes para la práctica clínica
2y4 BET, etc. que son agrupados por condiciones clínicas. Mantienen
también un sistema de alerta
http://www.infopoems.com Suscripción
http://www.bestbets.org/ Acceso gratuito
MBE Guipúzcoa; http://www.mbe.i2000. Acceso gratuito
es/
Escalón 1 Bases de datos PubMed, Medline, Embase, PsycInfo, Suscripción
primarias Cinhal… (PubMed
Bases de datos primarias con estudios gratuito)
originales publicados en revistas, libros
o actas de congresos. También incluyen
revisiones sistemáticas
(Continúa)

Todos los TRIP-Database Es un metabuscador que busca entre una colección de títulos
niveles y enlaces a documentos de páginas web de alta calidad en
información clínica. Rastrea recursos de medicina basada en
la evidencia disponibles en internet, recursos que han sido
valorados críticamente utilizando un método predefinido,
como revisiones sistemáticas de la Cochrane, bancos de CAT,
etc., además de guías de práctica clínica, libros e imágenes
http://www.tripdatabase.com/ Acceso libre
BET, best evidence topic; CAT, critically appraised topic; DARE, Database of Abstracts of Reviews of Effects;
NHS, National Health Service; NICE, National Institute for Health and Clinical Excellence;
POEM, patient-oriented evidence that matters; TRIP, Turning Research Into Practice.
Cabe preguntarse cómo reconocer los diferentes documentos que ofrecen

esos recursos. Tres criterios permiten reconocer (tabla 10-2) el documento y
ubicarlo en la pirámide: el primero es la perspectiva, es decir, si incluye toda
la evidencia disponible de múltiples estudios (RS y sumarios) o fragmentos
o piezas de evidencia (un estudio); el segundo es si el documento utiliza una
pregunta estructurada (tipo PICO) o una pregunta condición clínica y/o es-
pecialidad (de modo análogo a como los clínicos formulan intuitivamente
sus necesidades de conocimiento que señalábamos en el capítulo 3); y, final-
mente, el tercero es la extensión o tamaño del documento, que, obviamente,
TABLA 10-2 Clasificación de los tipos de documentos del sistema 6S

Sistema 6S Tipo de pregunta Perspectiva Tamaño
Pregunta Condición Único Cuerpo de

PICO clínica estudio evidencia Resumido Extenso
Sistemas
Sumarios
Sinopsis de
síntesis
Síntesis
Sinopsis de
estudios
Estudios
, característica deseable por cuanto contribuye a la «facilidad de uso en la clínica».

TABLA 10-3 Tabla guía

Sistema 6S Instrumentos de lectura crítica
Estudios Instrumentos de CASP, tratados en capítulos específicos
Sinopsis de estudios Véanse los criterios desarrollados en el HUD (v. cuadro 10-1)
Síntesis Instrumentos de CASP, tratados en el capítulo 5
Sinopsis de síntesis Véanse los criterios desarrollados en el HUD (v. cuadro 10-1)
Sumarios Criterios CASPe para sumarios de evidencia (v. cuadro 10-2)
Criterios CASPe para libros electrónicos (v. cuadro 10-2)
Instrumento AGREE para guías de práctica clínica (v. cuadro 10-3)
Sistemas No disponibles
CASP, Critical Appraisal Skills Programme; CASPe, Critical Appraisal Skills Programme España;
HUD, Hospital Universitario de Donostia.
Elaborada por CASPe y Hospital Universitario de Donostia.
es el mayor condicionante de su uso. Los tres criterios se relacionan con las
grandes líneas o tendencias de la práctica basada en la evidencia: una es la
vocación de síntesis del conocimiento, otra la resolución de la brecha entre
preguntas de investigación y de aplicación, y la tercera es la usabilidad de
la evidencia en un entorno clínico donde el tiempo es demasiado valioso.
Con excepción de los estudios y las síntesis, los recursos de los demás
estratos del sistema 6S se consideran evidencia preevaluada y no permiten
realizar una lectura crítica directa al modo tradicional. Por ello, dado que
no toda la evidencia preevaluada tiene la misma calidad, será preciso
disponer de criterios explícitos para saber en qué productos de evidencia
preevaluada podemos confiar. Abordaremos inicialmente este problema de
modo general para todos los estratos (tabla 10-3), describiremos los criterios
para evaluar CAT (cuadro 10-1) y nos detendremos en la evaluación de los
sumarios de evidencia y las GPC.
CUADRO 10-1
C R I T E R I O S P A R A E VA L U A R U N C A T
( C R I T I C A L LY A P P R A I S E D T O P I C )
• ¿Existe una pregunta claramente definida (PICO)?
• ¿Se muestra una estrategia de búsqueda definida: base de datos,
términos de búsqueda y tipo de estudio?
• ¿Por qué se seleccionó ese (esos) artículo(s)?
• Evaluación breve —telegráfica— de la calidad del (de los) artículo(s)
seleccionado(s)
• Medidas de efecto descritas en términos usables (puntual y por
intervalo) para cada desenlace
Elaborado por CASPe y Hospital Universitario de Donostia.
EVALUANDO SUMARIOS DE EVIDENCIA
Los productos de este tipo deben idealmente (8) ser fiables, pertinentes
para el clínico y legibles (en inglés se usa la nemotecnia «3R»: reliable,
relevant, readible). Por fiable entendemos que sea altamente válido: porque
ha sido buscado o recopilado de manera eficiente, porque ha sido leído
críticamente de acuerdo con criterios explícitos y rigurosos, porque la
lectura ha sido consistente entre los diversos lectores entrenados y porque
se usa alguna clasificación para expresarlo. Algunos de estos productos
usan para clasificar el tipo de evidencia una de la escalas de GRADE (que
veremos en el siguiente capítulo).
Por pertinente o adecuado para la clínica se entiende que, tras haber
sido buscados con criterios explícitos y rigurosos, el material resultante
ha sido «destilado» y clasificado (generalmente por clínicos prácticos) de
acuerdo con dos criterios: el primero es su importancia para la decisión,
es decir, que incluya preguntas y, sobre todo, desenlaces «críticos para la
decisión» o «importantes no críticos» (v. capítulo 3). El segundo criterio
es que tenga en cuenta las necesidades de grupos clínicos específicos a
los que esté enfocado (p. ej., médicos de familia, internistas, cardiólogos,
neurólogos o urólogos).
Por legible consideramos que sean piezas suficientemente breves para
permitir su manejo en consulta o en la sala, con un formato amable y con
una edición que tenga en cuenta las peculiaridades y posibilidades de la
lectura en pantallas diversas.
Una característica deseable adicional es la actualización de los pro-
ductos. Es sabido que las RS (10) y los sumarios de evidencia tienen su
caducidad (11). Este es, sin duda, un tema interesante de investigación,
y en ese terreno probablemente hay que desarrollar criterios flexibles
sobre las necesidades de actualización de cada producto y/o cada tema.
No es lo mismo rastrear para incorporar nuevas publicaciones a un
sumario de evidencias que actualizar una guía de práctica cínica; o
existen temas muy consolidados y otros más cambiantes y que requieren
especial vigilancia.
Un resumen de las preguntas concretas que hay que hacerse para decidir
si confiamos en un sumario de evidencia determinado se puede ver en el
cuadro 10-2.
GUÍAS DE PRÁCTICA CLÍNICA
Una GPC es un conjunto de instrucciones, directrices y recomendaciones

desarrolladas de forma sistemática cuyo propósito es ayudar a clínicos y a
pacientes a tomar decisiones sobre la asistencia más adecuada para unas
CUADRO 10-2
C R I T E R I O S P A R A E VA L U A R
Sumarios de evidencia (evidencia de consulta o a pie de cama)
• ¿Cómo se recopiló la información?
• ¿Se describen las fuentes y criterios de búsqueda y cómo se incluyen
en el proceso?
• ¿Se especifican los criterios la selección por pertinencia clínica
(condiciones clínicas adecuadas y si incluye los desenlaces críticos o
importantes-no críticos)?
• ¿Se describen los criterios usados para la lectura crítica, el modo
en que se organiza a los revisores y cómo se evalúa ese proceso
(consistencia de revisores)?
• ¿Ofrecen una clasificación del tipo de evidencia para cada afirmación
o recomendación?
• ¿Cómo se realiza la selección final orientada por pertinencia para
los clínicos específicos (influyen grupos de clínicos en ordenar ese
producto final)?
• ¿Cómo se mantiene y actualiza el producto (con qué periodicidad)?
• ¿Es usable fácilmente? ¿Es accesible desde diferentes medios (PC,
móvil, tablet, etc.)?
• ¿Los criterios de presentación editorial se adecuan a los diversos
medios (ayudas intuitivas)?
Libros electrónicos
• ¿Ofrecen información explícita sobre cómo se busca la evidencia?
• ¿Es adecuada la búsqueda: fuentes consultadas y estrategias, etc.?
• ¿Ofrecen información clara sobre el tipo de evidencia que sustenta
cada afirmación o recomendación contenida en el texto?
• ¿Usan alguna clasificación de la calidad de la evidencia?

• ¿Están bien cuantificados los resultados (es decir, usan los indicadores
adecuados: riesgo relativo, hazard ratio, likelihood ratio, etc.)?
• ¿Se actualizan con periodicidad razonable?
Metabuscadores
Obtienen información de todos los estratos de la pirámide e incluyen
evidencia preevaluada y no evaluada
• ¿Proporcionan información explícita sobre los criterios de selección
usados para incluir en los listados de recurso buscados?
• ¿Incluyen alguna revisión descriptiva sobre los documentos
encontrados? Si son preevaluados, ¿incluyen calidad de la evidencia?
• ¿Clasifican los documentos obtenidos con algún criterio explícito
(p. ej., usando el 6S)?
condiciones clínicas determinadas (9). Puesto que se trata de ayuda a las

decisiones, las modernas guías deben basarse en el cuerpo de evidencia
disponible en el momento, e incorporar a la decisión otros saberes tácitos
o prudenciales y los valores del paciente y de la comunidad.
Estos documentos deben diferenciarse de otro tipo de documentos
(como protocolos o vías clínicas) que se orientan directamente a la acción,
presuponiendo cuál es la decisión apropiada.
La elaboración de una guía es un proceso de enorme complejidad (cita)
cuyo abordaje está sistematizado y que excede con mucho los objetivos de
este capítulo. No obstante, destacaremos aquí algunos aspectos conceptua-
les importantes y cómo abordar su lectura crítica.
ASPECTOS CONCEPTUALES
• Habitualmente, las GPC se centran en una condición clínica definida
con diferente amplitud (p. ej., fibrilación atrial o hemorragia digestiva
alta), y dentro de esa condición se seleccionarán las preguntas clínicas
clave de entre las múltiples posibles.
• Esas preguntas podrán ser sobre riesgo, diagnóstico, factores
pronósticos, diferentes opciones de tratamiento, efectos adversos,
costes y recursos asociados, experiencias de los pacientes con los
procedimientos, etc. Es decir, las preguntas versan sobre los dominios
clínicos tradicionales señalados en el capítulo 3.
• Como se trata de preguntas para las que hay que obtener evidencia,
deberán formularse en forma estructurada (formato PICO),
concediendo especial atención a la importancia de los desenlaces
valorada desde las diferentes perspectivas posibles (clínicos,
pacientes, etc.).
• La correspondiente evidencia para esas preguntas provendrá de los
diferentes diseños posibles según el dominio clínico de que se trate
(ECA, estudios de cohortes, estudios de diagnóstico, etc.). Idealmente,
debe incluir toda la evidencia disponible y, por tanto, usaremos
preferentemente síntesis (RS) sobre los correspondientes PICO,
aunque, en caso necesario, se usarán otros estudios o incluso se podrá
realizar la RS ad hoc para la guía.
LECTURA CRÍTICA
Desde el punto de vista de la lectura hay que señalar dos aspectos:
1. Puesto que no tenemos acceso a todos los originales que están
incluidos en las múltiples RS o estudios que han sido usados en la
guía, no es posible realizar una lectura crítica directa. Sin embargo,
es posible saber cuál es la calidad de la evidencia usada en cada
una de las preguntas de la guía (se trata de evidencia preevaluada).
Actualmente, el sistema usado de modo general para valorar la
calidad de la evidencia relativa a cada pregunta es el sistema GRADE,

que trataremos con detalle en el siguiente capítulo.
2. En cuanto al procedimiento seguido para la construcción de la guía,
es posible realizar un juicio crítico sobre él usando un instrumento
específico (AGREE) (12), cuyos epígrafes principales son: 1) alcance
y objetivos; 2) participantes en el proceso; 3) rigor en la elaboración;
4) claridad de presentación; 5) aplicabilidad, y 6) independencia
editorial. Los detalles de esos epígrafes se muestran en el cuadro 10-3
y, para más información, pueden visitarse en http://portal.guiasalud.
es/web/guest/blog/-/blogs/53263.
CUADRO 10-3
DOMINIOS E ÍTEMS
DEL INSTRUMENTO AGREE II
P A R A L A E VA L U A C I Ó N D E G U Í A S
DE PRÁCTICA CLÍNICA*
Alcance y objetivo
1. El (los) objetivo(s) general(es) de la guía está(n) específicamente
descrito(s)
2. El (los) aspecto(s) de salud cubierto(s) por la guía está(n)
específicamente descrito(s)
3. La población (pacientes, público, etc.) a la cual se pretende aplicar la
guía está específicamente descrita
Participación de los implicados

1. El grupo que desarrolla la guía incluye individuos de todos los
grupos profesionales relevantes
2. Se han tenido en cuenta los puntos de vista y preferencias de la
población diana (pacientes, público, etc.)

3. Los usuarios diana de la guía están claramente definidos
Rigor de la elaboración
1. Se han utilizado métodos sistemáticos para la búsqueda de la
evidencia
2. Los criterios para seleccionar la evidencia se describen con claridad
3. Las fortalezas y limitaciones del conjunto de la evidencia están
claramente descritas
4. Los métodos utilizados para formular las recomendaciones están
claramente descritos
(Continúa)
CUADRO 10-3 (cont.)

5. Al formular las recomendaciones, han sido considerados los
beneficios en salud, los efectos secundarios y los riesgos
6. Hay una relación explícita entre cada una de las recomendaciones y
las evidencias en las que se basan
7. La guía ha sido revisada por expertos externos antes de su publicación
8. Se incluye un procedimiento para actualizar la guía
Claridad de la presentación
1. Las recomendaciones son específicas y no son ambiguas
2. Las distintas opciones para el manejo de la enfermedad o condición
de salud se presentan claramente
3. Las recomendaciones clave son fácilmente identificables
Aplicabilidad
1. La guía describe factores facilitadores y barreras para su aplicación
2. La guía proporciona consejo y/o herramientas sobre cómo las
recomendaciones pueden ser llevadas a la práctica
3. Se han considerado las posibles implicaciones de la aplicación de las
recomendaciones sobre los recursos
4. La guía ofrece criterios para monitorización y/o auditoría
Independencia editorial
1. Los puntos de vista de la entidad financiadora no han influido en el
contenido de la guía
2. Se han registrado y abordado los conflictos de intereses de los
miembros del grupo elaborador de la guía
*Cada ítem debe ser puntuado entre 1 (muy en desacuerdo) y 7 (muy de acuerdo).
MÁS ALLÁ DE LOS SISTEMAS
Sin duda disfrutamos de enormes facilidades para usar la evidencia en

la práctica, y hay muchas esperanzas puestas en la promesa de los sistemas
de ayuda a la decisión basados en la evidencia.
Sin embargo, la realidad es un poco más compleja, y la implementación de
la evidencia en la práctica tiene una larga agenda de investigación so-
bre campos muy diversos, como los relacionados con las dinámicas de
la innovación, las peculiaridades del pensamiento clínico y su tendencia
a la identificación de atajos cognitivos (heurísticos) y a la influencia de
saberes no explícitos (conocimiento tácito), el papel de los sistemas de reglas
colectivas de acción y recomendaciones implícitas (mindlines), el papel de

los pacientes y las colectividades en los procesos de decisión en consonancia
con las demandas sociales, así como la actual evolución de los paradigmas
de investigación y de práctica clínica, etc.
Como decíamos que decían las bromas al comienzo del capítulo, «nece-
sitamos comprender mejor qué es lo que lleva al caballo a beber».
Bibliografía
1. Scott I. The evolving science of translating research evidence into clinical practice. Evid
Based Med. 2007;12:4-7.
2. Tilson JK, Kaplan SL, Harris JL, Hutchinson A, Ilic D, Niederman R, et al. Sicily statement
on classification and development of evidence-based practice learning assessment tools.
BMC Med Educ. 2011;11:78.
3. Thomson O’Brien MA, Freemantle N, Oxman AD, Wolf F, Davis DA, Herrin J. Continuing
education meetings and workshops: effects on professional practice and health care
outcomes. Cochrane Database Syst Rev. 2001;(1):CD003030.
4. Glasziou P, Haynes B. The paths from research to improved health outcomes. ACP J Club.
2005;142:A8-A9.
5. Smith R. What clinical information do doctors need? BMJ. 1996;313(7064):1062-1068.
6. DiCenso A, Bayley L, Haynes RB. Accessing preappraised evidence: fine-tuning the 5S
model into a 6S model. ACP J Club. 2009;151(3).
7. Banzil R, Liberati A, Moschetti I, Tagliabue L, Moja L. A Review of Online Evidence-based
Practice Point-of-Care Information Summary Providers. J Med Internet Res. 2010;12(3):e26.
8. Straus S, Haynes RB. Managing evidence-based knowledge: the need for reliable, relevant
and readable resources. CMAJ. 2009;180(9):942-945.
9. Woolf S, Schünemann HJ, Eccles MP, Grimshaw JM, Shekelle P. Developing clinical practice
guidelines: types of evidence and outcomes; values and economics, synthesis, grading,
and presentation and deriving recommendations. Implement Sci. 2012;7:61.
10. Shojania KG, Sampson M, Ansari MT, Doucette S, Moher D. How quickly do systematic
review go out of date? A survival analysis. Ann Intern Med. 2007;147:224-233.
11. Moher D, Tsertsvadze A, Tricco AC, Eccles M, Grimshaw J, Sampson M, et al. Systematic
review identified methods and strategies describing when and how to update systematic
review. J Clin Epidemiol. 2007;60:1095-1104.
12. Brouwers MC, Kho ME, Browman GP. AGREE II: advancing guideline development,
reporting and evaluation in health care. CMAJ. 2010;182(18):E839-E842.

Cabello JB, Carballo F, Ansuategi E, Úbeda M. Documentos de evidencia. El sistema 6S.
Evidencia a pie de cama (sumarios point of care) y guías de práctica clínica. En: Cabello Juan B,
editor. Lectura crítica de la evidencia clínica. Barcelona: Elsevier; 2015. p. 157-179.
A N EX O
A continuación (tabla 10-4) se muestran dos ejemplos de las salidas de bús-
queda en diferentes «ingenios». Las preguntas son las formuladas a partir de
dos de los escenarios clínicos del anexo del capítulo 3.
Hemos seleccionado los recursos que son gratuitos, dado que el acceso a la
evidencia es muy variable dependiendo del sistema de salud o incluso del centro
de trabajo. No obstante, sugerimos probar con los dispositivos de búsquedas
que cada uno use de modo habitual en su lugar de trabajo.
TABLA 10-4 Ejemplos de las salidas de búsqueda en diferentes «ingenios»

Escenario clínico de Erenia, paciente de 65 años con infección del tracto urinario
Pregunta específica: eficacia de los yogures «bio» para la prevención de la diarrea
asociada a los antibióticos en adultos
Fuente de información Resultado
UpToDate Términos utilizados en la ventana de búsqueda:
probióticos, diarrea, antibióticos
Filtro: adults
El título que mejor parece responder a nuestra
pregunta es:
Probiotics for gastrointestinal diseases
En el capítulo o sección «Antibiotic-associated
diarrea» realizan las recomendaciones con sus
correspondientes referencias bibliográficas, que
detallamos al final:
«… Systematic reviews suggest that probiotics […]
are effective in reducing the incidence of diarrhea
in patients who are taking antibiotics [80-87].
However, discordant data have been published
and there is little detailed information regarding
the optimal dose or timing of supplementation or
the effects on subgroups of patients [88,89].
One of the largest systematic reviews from 2012
identified 82 randomized trials of probiotics for
the prevention of antibiotic-associated diarrhea
[86]. […]
[…] In addition, it suggested that probiotics may
shorten the period of diarrhea in patients who
have already developed it [90].»
80. Sazawal S, Hiremath G, Dhingra U, et al. Efficacy
of probiotics in prevention of acute diarrhoea: a
meta-analysis of masked, randomised, placebo-
controlled trials. Lancet Infect Dis 2006; 6:374
81. D’Souza AL, Rajkumar C, Cooke J, Bulpitt CJ.
Probiotics in prevention of antibiotic associated
diarrhoea: meta-analysis. BMJ 2002; 324:1361
82. Van Niel CW, Feudtner C, Garrison MM,
Christakis DA. Lactobacillus therapy for acute
infectious diarrhea in children: a meta-analysis.
Pediatrics 2002; 109:678
83. McFarland LV. Meta-analysis of probiotics for
the prevention of antibiotic associated diarrhea
and the treatment of Clostridium difficile disease.
Am J Gastroenterol 2006; 101:812
TABLA 10-4 Ejemplos de las salidas de búsqueda en diferentes «ingenios» (cont.)

84. Johnston BC, Supina AL, Ospina M, Vohra
S. Probiotics for the prevention of pediatric
antibiotic-associated diarrhea. Cochrane Database
Syst Rev 2007;CD004827
85. Szajewska H, Ruszczy ński M, Radzikowski
A. Probiotics in the prevention of
antibiotic-associated diarrhea in children: a
meta-analysis of randomized controlled trials.
J Pediatr 2006; 149:367
86. Hempel S, Newberry SJ, Maher AR, et al.
Probiotics for the prevention and treatment of
antibiotic-associated diarrhea: a systematic review
and meta-analysis. JAMA 2012; 307:1959
87. Videlock EJ, Cremonini F. Meta-analysis:
probiotics in antibiotic-associated diarrhoea.
Aliment Pharmacol Ther 2012; 35:1355
88. Pozzoni P, Riva A, Bellatorre AG, et al.
Saccharomyces boulardii for the prevention
of antibiotic-associated diarrhea in adult
hospitalized patients: a single-center, randomized,
double-blind, placebo-controlled trial. Am J
Gastroenterol 2012; 107:922
89. Allen SJ, Wareham K, Wang D, et al. Lactobacilli
and bifidobacteria in the prevention of
antibiotic-associated diarrhoea and Clostridium
difficile diarrhoea in older inpatients (PLACIDE):
a randomised, double-blind, placebo-controlled,
multicentre trial. Lancet 2013; 382:1249
90. Chen CC, Kong MS, Lai MW, et al. Probiotics
have clinical, microbiologic, and immunologic
efficacy in acute infectious diarrhea. Pediatr Infect
Dis J 2010; 29:135
NHS Evidence Términos utilizados: antibiotic, diarrhea, probiotics,
adults
Número de documentos recuperados: 103
Destacamos los siguientes resultados:
• Zhang CD, Dai DQ, Zhao ZM. Probiotics for the
prevention of antibiotic-associated diarrhea in
adult patients: a metaanalysis. World Chinese
Journal of Digestology 2012; 20(21): 2006-2011
• Goldenberg JZ, Ma SSY, Saxton JD, Martzen
MR, Vandvik PO, Thorlund K, Guyatt GH,
Johnston BC. Probiotics for the prevention of
Clostridium difficile-associated diarrhea in adults
and children. Cochrane Database of Systematic
Reviews 2013, Issue 5. Art. No.: CD006095. DOI:
10.1002/14651858.CD006095.pub3
(Continúa)

Cochrane Plus Términos usados: probióticos, antibióticos, diarrea
De las dos revisiones sistemáticas, seleccionamos la
referida a adultos:
• Goldenberg J, Ma S, Saxton J, Martzen M, Vandvik
P, Thorlund K, Guyatt G, Johnston B. Probióticos
para la prevención de la diarrea asociada al
Clostridium difficile en adultos y niños. Cochrane
Database of Systematic Reviews 2013 Issue 5. Art.
No.: CD006095. DOI: 10.1002/14651858.CD006095
TripDatabase Términos usados: antibiotic, probiotics, diarrhoea,

adults
Total: 184 resultados, de los cuales 17 son revisiones
sistemáticas, 19 resúmenes basados en la
evidencia (evidence-based synopses) y 41 son guías
de práctica clínica
• Destacamos de nuevo la revisión de la Cochrane
de 2013
• Probiotics for Antibiotic-Associated Diarrhea,
Clostridium difficile Infection and Irritable
Bowel Syndrome: A Review of Clinical Evidence
and Safety. Canadian Agency for Drugs and
Technologies in Health - Rapid Review, 2013
• Dos resúmenes estructurados de la DARE de
2012:
• Hempel S, Newberry SJ, Maher AR, Wang Z,
Miles JN, Shanman R, Johnsen B, Shekelle PG.
Probiotics for the prevention and treatment
of antibiotic-associated diarrhea: a systematic
review and meta-analysis. JAMA 2012; 307:
1959-1969
• Videlock EJ, Cremonini F. Meta-analysis:
probiotics in antibiotic-associated diarrhoea.
Alimentary Pharmacology and Therapeutics
2012; 35(12): 1355-1369

Escenario clínico de mujer de 60 años con Neisseria meningitidis
Pregunta específica: eficacia de la profilaxis antibiótica para prevenir la meningitis
bacteriana en niños
UpToDate Estrategia de términos empleados: prophylaxis,
meningococcal, infection
Título pertinente recuperado:
Treatment and prevention of meningococcal
infection
«Close contacts — Chemoprophylaxis is indicated
in close contacts of patients with meningococcal
infection and should be given as early as possible
following the exposure [4]. Although “close
contact” has not been clearly defined, it generally
refers to individuals who have had prolonged (>8
hours) contact while in close proximity (<3 ft) to
the patient or who have been directly exposed
to the patient’s oral secretions during the seven
days before the onset of the patient’s symptoms
and until 24 hours after initiation of appropriate
antibiotic therapy [2].
Close contacts may include individuals exposed in
the following ways [2,4]:
• Household members, roommates, intimate
contacts, contacts at a child-care center, young
adults exposed in dormitories, military recruits
exposed in training centers
• Travelers who had direct contact with respiratory
secretions from an index patient or who were
seated directly next to an index patient on a
prolonged flight (ie, one lasting ≥ 8 hours)
• Individuals who have been exposed to oral
secretions (e.g., intimate kissing, mouth-to-mouth
resuscitation, endotracheal intubation, or

endotracheal tube management)
Prophylaxis is not indicated if exposure to the
index case is brief. This includes the majority of
healthcare workers unless there is direct exposure
to respiratory secretions (as with suctioning
or intubation). The attack rate in healthcare
workers at risk is increased compared to the
general population, but the absolute increase in
risk is very small and antimicrobial prophylaxis
is therefore not recommended for healthcare
workers who have not had direct exposure to
respiratory secretions [4,45].»
(Continúa)

Bibliografía pertinente:
1. Gardner P. Clinical practice. Prevention of
meningococcal disease. N Engl J Med 2006;
355:1466.
4. Cohn AC, MacNeil JR, Clark TA, et al.
Prevention and control of meningococcal disease:
recommendations of the Advisory Committee on
Immunization Practices (ACIP). MMWR Recomm
Rep 2013; 62:1.
NHS Evidence Términos: prophylaxis, meningococcal, infection
Meningitis, bacterial meningitis. Patient UK
<http://www.patient.co.uk/doctor/
meningitis-pro>
• Zalmanovici Trestioreanu A, Fraser A, Gafter-Gvili
A, Paul M, Leibovici L. Antibiotics for preventing
meningococcal infections. Cochrane Database
of Systematic Reviews 2013, Issue 10. Art. No.:
CD004785. DOI: 10.1002/14651858.CD004785.
pub5
• Rifampicin for meningococcal prophylaxis.
Medicines for children <http://www.
medicinesforchildren.org.uk/search-for-a-leaflet/
rifampicin-for-meningococcal-prophylaxis/>
• European Centre for Disease Prevention and
Control. Public health management of sporadic
cases of invasive meningococcal disease and their
contacts. Stockholm: ECDC; 2010
Cochrane Plus Propuesta de términos utilizados: antibióticos,
mening*
• Wall E, Ajdukiewicz K, Heyderman R, Garner P.
Terapias osmóticas agregadas a los antibióticos
para la meningitis bacteriana aguda. Cochrane
Database of Systematic Reviews 2013 Issue 3. Art.
No.: CD008806. DOI: 10.1002/14651858.CD008806
• Zalmanovici Trestioreanu A, Fraser A,
Gafter-Gvili A, Paul M, Leibovici L. Antibióticos
para la prevención de infecciones meningocócicas.
Cochrane Database of Systematic Reviews
2013 Issue 10. Art. No.: CD004785. DOI:
10.1002/14651858.CD004785

TripDatabase Términos empleados: prophylaxis, meningococcal,
infection
• De los 438 documentos recuperados, hay 28
revisiones sistemáticas y 20 resúmenes basados en
la evidencia. Destacamos:
• Zalmanovici Trestioreanu A, Fraser A,
Gafter-Gvili A, Paul M, Leibovici L. Antibiotics for
preventing meningococcal infections. Cochrane
Database of Systematic Reviews 2013, Issue 10.
Art. No.: CD004785. DOI: 10.1002/14651858.
CD004785.pub5
C A P Í T U L O
11
De la evidencia
a la recomendación. GRADE
Juan Bautista Cabello López y Jaime Latour Pérez

• Reflexionar sobre la metodología GRADE y su contexto de uso: desarrollo
e interpretación de las revisiones sistemáticas y de las guías de práctica
clínica.
• Describir la escala GRADE con su doble dimensión: su parte valorativa
relacionada con la calidad de la evidencia y su parte la aplicativa relacionada
con la fuerza de la recomendación.
• Evaluar la «calidad» de la evidencia.
• Ajustar la dirección y fuerza de la recomendación.
INTRODUCCIÓN
En capítulos precedentes hemos abordado la lectura crítica de los estudios

o piezas elementales de evidencia (estudios de tratamiento o prevención,
diagnóstico, pronóstico, etc.), y hemos identificado los elementos para rea
lizar un juicio de valor sobre su validez, sobre la importancia y precisión
del efecto, así como unas reflexiones sobre su aplicabilidad.
Asimismo, hemos hecho lectura crítica de las síntesis, que responden
a una pregunta clínica estructurada PICO y que incluyen un grupo de
estudios que han sido seleccionados, evaluados y sintetizados de modo
explícito y sistemático. También en capítulos previos hemos introducido
los diferentes tipos de documentos de evidencia y, entre ellos, las GPC y
otros sumarios de evidencias.

Tanto las RS como las guías de práctica y otros sumarios comparten el

hecho de que las piezas de evidencia que las constituyen (los estudios) no
son directamente accesibles al lector y, por tanto, no es posible una lectura
crítica «directa» del modo en que hemos practicado. Sin embargo, necesi-
tamos un modo de saber si podemos confiar en la calidad de la evidencia
contenida en esos documentos y, en el caso de las guías, si podemos confiar
en las recomendaciones.
¿QUÉ ES GRADE?
GRADE es el acrónimo de Grading of Recommendations, Assessment,

Development, and Evaluations, que es un método para valorar la calidad
de la evidencia y para señalar la dirección y fuerza de las recomendacio-
nes de uso en las GPC.
El interés por la jerarquización de la evidencia se inicia en Canadá en
1979 (1). Desde entonces se han usado múltiples instrumentos para este
propósito, generando con ello una cierta confusión. Una RS de 2002 (2),
ampliada en 2008 (3), identificó hasta 50 instrumentos usados para este fin,
que, puntuados por los expertos metodólogos, produjeron una destacada
ventaja en las puntuaciones de los de GRADE y SIGN (Scottish Interco-
llegiate Guidelines Network). Finamente, el panel propuso usar el primero,
y estimular su desarrollo y difusión, tarea que actualmente continúa el
grupo de trabajo GRADE (www.gradeworkinggroup.org).
El método ha sido adoptado por múltiples organizaciones produc-
toras de evidencia y/o de guías de práctica, de modo que su uso se ha
extendido con extraordinaria rapidez (4). Actualmente, GRADE es un
instrumento esencial para quienes realizan RS, e imprescindible para
las personas involucradas en la formulación de recomendaciones en el
contexto de GPC.
Por extensión, su conocimiento es clave para los clínicos y profesionales
de la salud, que como usuarios de evidencia preevaluada han de com-
prender las revisiones y los sumarios de evidencia, y como decisores clínicos
han de interpretar las guías de práctica e integrar sus recomendaciones con
los valores y preferencias de los pacientes.
DESCRIPCIÓN DE LA ESCALA GRADE

La escala separa explícitamente la calidad de la evidencia (5) del grado
de recomendación (6) (cuadro 11-1), y lo hace así porque asume que los
procesos son diferentes y los criterios que se usan en cada una de las es-
calas son esencialmente distintos. No obstante, plantea una relación de
dependencia de ambos procesos, y así la calidad de la evidencia resul-
tante es usada como un elemento determinante en la formulación de las
recomendaciones.
11. De la evidencia a la recomendación. GRADE 183
CUADRO 11-1
E S C A L A G R A D E PA R A L A C A L I D A D
DE LA EVIDENCIA Y EL GRADO
DE RECOMENDACIÓN
Calidad de la evidencia
• Alta calidad (⊕⊕⊕⊕ o A): estamos seguros de que el efecto mostrado
en los estudios refleja el efecto real existente
• Moderada calidad (⊕⊕⊕⊝ o B): estamos bastante seguros de que el
efecto mostrado en los estudios está cerca del auténtico efecto real
• Baja calidad (⊕⊕⊝⊝ o C): creemos que el auténtico efecto puede
diferir significativamente del estimado en estos estudios
• Muy baja calidad (⊕⊝⊝⊝ o D): es casi seguro que el auténtico
efecto difiere del que ofrecen estos estudios
Grado de recomendación
• Fuerte a favor (↑↑ o 1)
• Débil a favor (↑? o 2)
• Débil en contra (↓? o 2)
• Fuerte en contra (↓↓ o 1)
Para expresar la calidad de la evidencia GRADE, usa una escala con

cuatro categorías decrecientes, que se representa con los símbolos o letras
que se muestran en el cuadro 11-1, y cuyo significado describimos:
• Alta calidad: significa que es poco probable que nuevos estudios
cambien el efecto estimado, es decir, confiamos bastante en esta

estimación del efecto, es evidencia prácticamente cerrada.
• Moderada calidad: aunque confiamos que nuestra estimación está
cerca del auténtico efecto, es posible que nuevos estudios puedan
cambiar de modo sustancial la estimación del efecto, es decir, aunque
estamos relativamente seguros, aún es evidencia abierta.
• Baja calidad: creemos que el auténtico efecto puede ser muy distinto
del que hemos observado o, en términos de futuro, es probable que
nueva investigación tenga gran impacto y cambie nuestra estimación
de la evidencia.
• Muy baja calidad: estamos realmente inseguros sobre estos resultados
o, de otro modo, es casi seguro que nueva investigación cambie por
completo los resultados de la estimación. Dicho en términos prácticos,
carecemos de evidencia.
En relación con la recomendación, la escala tiene dos componentes: uno

es la dirección, que podrá ser a favor o en contra de la alternativa estudiada;
y el otro es la fuerza de la recomendación, que tiene, a su vez, dos categorías,
fuerte o débil (llamada también discrecional o condicional). Combinando
fortaleza y dirección, se obtiene una escala ordinal, como se muestra en la
figura 11-2 (v. más adelante) y en el cuadro 11-1.
CARACTERÍSTICAS ESENCIALES DE ESTA METODOLOGÍA

• El método se ha desarrollado, fundamentalmente, para comparaciones
entre alternativas terapéuticas o preventivas, y a ello nos
circunscribiremos en este capítulo. Hay desarrollos GRADE para
estudios de diagnóstico, salud pública o sistemas de salud que tienen
sus especificidades y retos particulares, y que no abordaremos aquí.
No existe, sin embargo, desarrollo adecuado para el pronóstico
(aunque el pronóstico tenga clara relación con la elección de opciones).
• El proceso tiene dos partes diferenciadas para cumplimentar las
escalas mencionadas: una relacionada con la evaluación de la calidad
de la evidencia relativa a una determinada pregunta PICO; y una
segunda que es una recomendación de uso, que se realiza sopesando
los efectos positivos y negativos de la intervención comparada,
considerando la calidad de la evidencia, e incorporando valores del
paciente y de la colectividad (fig. 11-1).
• Sin duda, la característica más destacable de GRADE es que el
proceso se centra en los desenlaces y, a diferencia de otras jerarquías
de evidencia, GRADE no se limita a valorar un solo desenlace, sino
que considera todos los desenlaces relevantes, tanto los beneficiosos
como los indeseados. Ya señalamos en capítulos previos la existencia
de tres tipos de desenlaces clínicos (críticos para la decisión,
importantes, pero no críticos, y no importantes); pues bien, GRADE
incorpora los desenlaces críticos e importantes no críticos, y no toma
en consideración los no importantes. Asimismo, comentamos
previamente que la arquitectura de estudio (definida por los detalles
del diseño y conducción) permite probar simultáneamente el efecto de
la intervención sobre varios desenlaces. Sin embargo, la influencia
de esos detalles del diseño y conducción sobre la validez del estudio
es diferente para cada desenlace (p. ej., la ausencia de cegamiento
puede ser esencial si consideramos un desenlace subjetivo como
los síntomas, pero será menos relevante si analizamos un desenlace
como mortalidad o infarto de miocardio). Por tanto, la calidad de la
evidencia no puede predicarse de un diseño en general, sino que debe
valorarse para cada desenlace específico.
• GRADE no se aplica habitualmente a estudios individuales (no es
un modo de leer críticamente un artículo), sino que valora el cuerpo
de evidencia sobre una cuestión PICO para sus diversos desenlaces
FIGURA 11-1 Proceso de evaluación de la evidencia y realización de recomendaciones.

ECA, ensayo clínico aleatorio.
posibles, y ello tiene dos consecuencias distintas, según el contexto.

En cada caso será preciso determinar cuál es la evidencia incorporable
para cada conjunto «PICO-desenlace», y cabe esperar que las RS del
futuro aborden todos los desenlaces importantes y críticos. Dichas
consecuencias son las siguientes:
• Si se trata de RS, es posible que algunos estudios incluidos no
hayan estudiado desenlaces críticos o importantes no críticos y, por
tanto, esos estudios no contribuirán a la estimación combinada de
ese particular desenlace.
• Si se trata de GPC (que contendrán múltiples preguntas PICO, cada

una de las cuales con diversos desenlaces, cuya importancia clínica
es pactada al comienzo del proceso), es posible que algunos de los
desenlaces críticos o importantes no críticos no hayan sido objeto
de estudio en la RS seleccionada. En tal caso, puede ser necesario
usar otra revisión, realizar su propia RS ad hoc o usar estudios
observacionales (esto puede ocurrir para desenlaces como efectos
adversos, especialmente si son raros o tardíos).
• El método tras analizar cada uno de los desenlaces separadamente
condensa el proceso en el llamado perfil de evidencia, que ofrece para
cada desenlace una información explícita de la calidad de la evidencia
y de los resultados de los estudios agregados, llamado este último
resumen de datos. Ese perfil es útil para hacer una valoración global
del conjunto de la evidencia sobre esa pregunta PICO considerando
todos los desenlaces. Por tanto, es una herramienta de interés para
clínicos lectores de revisiones y panelistas o usuarios de GPC.
• Una característica final es que el método ofrece un marco flexible y
explícito para la incorporación de los valores y preferencias de los
pacientes en las recomendaciones y en el uso de ellas.
Veamos, pues, cómo se evalúa la calidad de la evidencia y cómo se
formulan las recomendaciones.
¿CÓMO EVALUAR LA CALIDAD DE LA EVIDENCIA?
El método propone realizar un juicio o calificación inicial y un ajuste pos-

terior En cada caso será preciso determinar cuál es la evidencia incorporable
para cada conjunto «PICO-desenlace», y cabe esperar que las RS del futuro
aborden todos los desenlaces importantes y críticos, teniendo en cuenta
características metodológicas y otras reflexiones de contexto.
Dado que nos referimos a comparaciones terapéuticas o preventivas, el
diseño adecuado será el ECA y, en nuestro caso, la RS de ensayos aleatorios.
Sin embargo, no siempre dispondremos de la revisión y, en algunas circuns-
tancias, será necesario incluir estudios observacionales.
Como la unidad de valoración es el desenlace, para cada desenlace
enjuiciaremos su calidad, considerando las características de los estudios
de la revisión:
• Juicio inicial: basándonos en la asunción descrita y si se trata de ECA,
calificaremos la evidencia de alta calidad y, si procede de estudios
observacionales, la calificaremos de baja calidad.
• Ajuste posterior: aunque en general esa calidad inicial responde a
la superioridad conocida de los ECA sobre los observacionales, hay
detalles particulares del diseño o reflexiones de contexto que en el
caso de los ECA harán bajar la calificación en la escala 4 (una o dos
categorías por cada defecto), o en el caso de los observacionales

subir (una o dos categorías) la puntuación. Este es un punto
distintivo esencial con respecto a otros sistemas de jerarquización
de la evidencia que equiparan de forma automática tipo de diseño y
grado de evidencia. GRADE reconoce la importancia del diseño del
estudio para establecer el grado de evidencia, pero también que un
ensayo de baja calidad proporcione evidencia baja, o que un estudio
observacional proporcione evidencia moderada.
Veamos, pues, cuáles son esos ajustes.
AJUSTES A LA BAJA A PARTIR DE ENSAYOS CLÍNICOS ALEATORIOS

(ALTA CALIDAD INICIAL)
Son cinco los factores que pueden restar puntuación de calidad a la es-
timación del efecto para ese desenlace.
RIESGO DE SESGO
O la existencia de defectos en el diseño o conducción de los estudios que
compromete su validez (la clásicamente llamada validez interna). Tales
problemas, comentados en los capítulos 4 y 5, son:
• No ocultación de la secuencia de aleatorización.
• Ausencia de cegamiento.
• Pérdidas excesivas en el seguimiento.
• Ausencia de análisis por intención de tratar.
• Detención precoz por supuesto beneficio.
• Comunicación selectiva de desenlaces, particularmente los que no
muestran efecto.
EVIDENCIA INDIRECTA
Puede adoptar, típicamente, dos formas.
En unos casos, la evidencia proviene de una comparación indirecta,

es decir, A es mejor que B, y B mejor que C, luego A es mejor que C,
o alternativamente A y B comparadas con placebo, pero no entre sí.
En otros casos se trata de ligeros cambios en el PICO: las poblaciones son
muy diferentes (diferente gravedad de la enfermedad o distintos tratamien-
tos asociados), o las intervenciones o comparaciones son algo diferentes
(diferente dosis de una u otra droga) y, en ocasiones, son diferentes modos de
medir el desenlace, o se miden algunos a través de una variable subrogada.
En esos casos se generan dudas respecto de la calidad de la evidencia y
por ello se baja una o dos categorías la puntuación.
IMPRECISIÓN
Cuando los estudios incluyen relativamente pocos pacientes, y es-
pecialmente si ocurren pocos eventos los intervalos de confianza son muy
amplios, baja la puntuación, porque esa evidencia podría cambiar si nuevos

estudios con más efectivos tuvieran otros resultados. Por ello, un IC am-
plio, especialmente cuando incluye al umbral de decisión, disminuye su
credibilidad y sugiere reducir la calidad de la evidencia en al menos un
escalón. Adicionalmente, GRADE considera que puede haber imprecisión
con IC estrechos, cuando estos se basan en un número muy reducido de
eventos: en estos casos, el resultado es estadísticamente significativo a
expensas de un efecto implausible, exageradamente grande (efecto de es-
tudios pequeños) y debe ser contemplado con escepticismo.
INCONSISTENCIA
La existencia de diferentes estimados del efecto entre los distintos
estudios requiere estudiar la heterogeneidad, especialmente si el (los) es-
tudio(s) inconsistente(s) puede(n) cambiar la dirección del efecto. Cuando
no encontramos una explicación satisfactoria para ello, hay que poner en
duda la estimación y bajar uno o dos puntos la puntuación de calidad.
SESGO DE PUBLICACIÓN
Si existen dudas al respecto, la calidad de la evidencia se resiente; es
particularmente probable cuando hay pocos estudios y también en los es-
tudios financiados por la industria.
AJUSTES AL ALZA A PARTIR DE ESTUDIOS OBSERVACIONALES

(BAJA CALIDAD)
Aun cuando ya hemos comentado su interés para algunos desenlaces
concretos, los estudios observacionales son considerados de baja cali-
dad por su propensión a los sesgos (generalmente la sobreestimación del
efecto); sin embargo, en circunstancias excepcionales, y siempre que no
tengan defectos metodológicos, su evidencia puede calificarse de moderada
(y quizá de alta); tales circunstancias son:
• Cuando el efecto estimado es muy grande y es consistente entre
estudios, se puede aumentar a moderada o incluso a alta calidad la
evidencia. Por ejemplo, en una RS observacional (7) de la profilaxis
del tromboembolismo con anticoagulantes orales en pacientes con
sustitución valvular, la OR fue de 0,17 (IC 95%: 0,13-0,24), que es
tan intensa y plausible que debe considerarse evidencia de alta
calidad.
• Existencia de relación dosis-respuesta. Por ejemplo, el riesgo de
sangrado en pacientes con sobredosificación de anticoagulantes orales
procede de estudios observacionales, pero el hecho de que cuanto
mayor es la sobredosificación más riesgo de sangrado existe, aumenta
nuestra confianza en la evidencia sobre ese efecto adverso de la
anticoagulación.
• Plausibilidad de un factor de confusión. A veces, la existencia de

factores de confusión cuyo efecto va en contra del efecto detectado
hace más creíble el efecto detectado.
CONCEPTUALIZANDO LA CALIDAD DE LA EVIDENCIA

Durante todo el capítulo hemos tratado la calidad de la evidencia, y
conviene realizar alguna precisión sobre ese concepto. El concepto va más
allá de la tradicional validez (interna) de la epidemiologia clínica, y supone
más bien la confianza en la estimación basada en una red argumental que
incluye la validez interna, pero también otros argumentos vinculados a la
precisión, a la consistencia o al sesgo de publicación.
En nuestro capítulo hay un matiz adicional según contexto. Así, para el
caso de las RS, la calidad de la evidencia significa en qué medida confiamos
que un efecto estimado es correcto, y en el contexto de las guías, refleja en
qué medida un efecto estimado es adecuado para justificar una recomen-
dación determinada.
El concepto, además, debe diferenciarse de otros de áreas próximas y,
en particular, del de la calidad de una RS, y también del de la calidad de
una GPC, conceptos que incluyen diferentes componentes y para los que
disponemos de instrumentos específicos, como AMSTAR (8) y AGREE (9),
respectivamente.
PRODUCTOS GRÁFICOS DE GRADE
Un objetivo de GRADE es ofrecer un sistema transparente y explícito

para la presentación de la calidad de la evidencia disponible que pueda ser
usado para su eventual aplicación clínica o para su uso por los panelistas
de las GPC. En la tabla 11-1 se muestra el denominado perfil de evidencia
para alguno de los ejemplos que introduciremos (anticoagulación frente a
antiagregación como prevención secundaria en pacientes con ictus no car-
dioembólico). En la tabla se puede apreciar la ordenación por desenlaces y

la separación entre la valoración de la calidad (columnas de la izquierda)
y los resultados resumidos (columnas de la derecha).
CÓMO SE REALIZA LA RECOMENDACIÓN

Como señalábamos, hay dos dimensiones en la recomendación que
analizaremos de modo separado.
DIRECCIÓN DE LA RECOMENDACIÓN
La formulación de una recomendación a favor o en contra de una inter-
vención depende del balance global entre los desenlaces beneficiosos y los
indeseados del tratamiento o intervención frente a una alternativa concreta.
TABLA 11-1 Perfil de evidencia para anticoagulación frente a antiagregación como prevención secundaria en pacientes con ictus no cardioembólico
Calidad estimada Resumen de los resultados
N.° de participantes Calidad Riesgo

(n estudios) Riesgo Evidencias Sesgo de de la evidencia Índice de eventos relativo
Años de seguimiento de sesgo Inconsistencia indirectas Imprecisión publicación en general en el estudio (%) (IC 95%) Riesgo basal asumido
Diferencia
Con del riesgo con
Con anticoagulante Riesgo con anticoagulante
antiagregantes oral antiagregantes oral (IC 95%)
Mortalidad en general (desenlace importante)
5.400 (5 estudios) Riesgo de Severa No severo No severa No Moderada 127 de 2.707 172 de 2.693 1,36 Moderado
0-5 años sesgo encontrado debido a la (4,7) (6,4) (1,09-1,7) 50 muertes por 18 muertes más
no inconsistencia cada 1.000 por cada 1.000
severo (de 5 más a
35 más)
Ictus recurrente no letal (isquémico o/y hemorrágico) (desenlace crítico)
5.400 (5 estudios) Riesgo de No severa No severo No severa No Alta 253 de 2.707 260 de 2.693 1,03 Moderado
0-5 años sesgo encontrado (9,3) (9,7) (0,88-1,22) 106 apoplejías 3 apoplejías más
no por cada por cada 1.000
severo 1.000 (de menos de
13 a 23 más)
Infarto de miocardio no letal (desenlace importante)
1.637 (2 estudios) Riesgo de No severa No severo Severa No Moderada 40 de 812 (4,9) 37 de 825 (4,5) 0,91 Moderado
3-5 años sesgo encontrado debido a la (0,59-1,4) 13 IM por cada 1 IM menos por
no imprecisión 1.000 cada 1.000
severo (de 5 menos a
5 más)
Hemorragia extracraneal mayor, no letal (desenlace crítico)
3.194 (4 estudios) Riesgo de No severa No severo No severa No Alta 23 de 1.604 82 de 1.590 RR 3,6 Moderado
0-5 años sesgo encontrado (1,4) (5,2) (2,29-5,66) 10 episodios 26 episodios más
no de sangrado de sangrado
severo por cada por cada 1.000
1.000 (de 13 más a
47 más)
En negrita, calidad general de la evidencia estimada en función de las observaciones anteriores.
IC 95%, intervalo de confianza al 95%; IM, infarto de miocardio.
Modificada de (10).
Si, considerados en su conjunto, los primeros superan a los segundos,

se debe establecer una recomendación a favor; en caso contrario, se es-
tablecerá una recomendación en contra de la intervención. Entre los efectos
deseados de la intervención podemos citar la reducción de la mortalidad, la
prevención de eventos morbosos, la mejoría de los síntomas, la mejoría de
la calidad de vida o la reducción del consumo de recursos. Por el contrario,
entre los efectos indeseados se encuentran la reducción de la longevidad,
la aparición de complicaciones graves o de efectos colaterales, la reducción
de la calidad de vida, las molestias asociadas a su uso o el aumento de los
costes.
Por ejemplo, en el caso de la anticoagulación oral frente a antiagregan-
tes en pacientes con antecedentes de ictus isquémico no cardioembólico,
se valoró su efecto sobre la mortalidad global, la aparición de un nuevo
ictus (isquémico o hemorrágico) no letal, el infarto de miocardio no letal
y las hemorragias extracraneales no letales (v. tabla 11-1). El metaanálisis
mostró que la warfarina apenas influyó en nuevos ictus cardioembólicos
(RR: 1,03; 0,86-1,22) o infartos de miocardio (RR: 0,91; 0,59-1,4) y, en cambio,
se encontró un exceso de muertes (RR: 1,35; 1,09-1,7) y de hemorragias
extracraneales (RR: 3,6; 2,29-5,66) en los pacientes tratados con anticoa-
gulantes, por lo que la dirección de la recomendación es en contra de la
anticoagulación oral en estos pacientes.
FUERZA DE LA RECOMENDACIÓN
Aunque la relación riesgo-beneficio es un continuo, GRADE establece
cuatro categorías de recomendación: fuerte a favor, débil a favor, débil en
contra y fuerte en contra (fig. 11-2).
FIGURA 11-2 Categorías de recomendación.

La fuerza de la recomendación depende del grado de confianza que se

tiene en la relación entre las consecuencias deseables e indeseables de la
intervención. Si estamos muy convencidos de que los beneficios esperados
superan a los efectos adversos (o viceversa), deberemos establecer una
recomendación fuerte a favor (o, en su caso, en contra). Por el contrario, si
la confianza sobre la relación riesgo-beneficio es menor, se formulará una
recomendación débil.
En cualquier caso, el grado de recomendación debe ir acompañado
del grupo de comparación. Por ejemplo, en el caso del ictus isquémico no
cardioembólico, el enunciado de la recomendación debe especificar que
se refiere al uso de anticoagulantes orales en comparación con los antia-
gregantes.
DETERMINANTES DE LA FUERZA DE LA RECOMENDACIÓN

El grado de confianza en el balance entre riesgos y beneficios depende
de varios factores. Los más importantes son la magnitud estimada de los
efectos beneficiosos y los efectos adversos, el grado de evidencia sobre
los efectos importantes, las preferencias del paciente y los costes. En prin-
cipio, una diferencia importante entre los efectos beneficiosos y los efectos
adversos, y una alta calidad de evidencia apoyan el establecimiento de
una recomendación fuerte, especialmente si hay una escasa variabilidad
de las preferencias y un coste favorable. Por el contrario, un beneficio neto
de escasa magnitud o una calidad de evidencia baja favorecerían una reco-
mendación débil, más aún si hay variabilidad importante o incertidumbre
en las preferencias de los pacientes, o los costes asociados a la intervención
son elevados (tabla 11-2).
Sin embargo, no hay reglas fijas, y hay que integrar todos los factores.
Así, puede haber recomendaciones fuertes respaldadas por evidencias de
baja calidad. Ello ocurre, por ejemplo, cuando la evidencia de un efecto
adverso es muy baja en un tratamiento protector y cómodo frente a una
alternativa más segura, igualmente efectiva, pero más incómoda. Por ejem-
plo, en gestantes de entre 6-12 semanas con trombosis venosas profundas,
TABLA 11-2 Principios generales para las recomendaciones

Dominio Recomendación según escenario
Equilibrio entre efectos deseables Cuanto mayor equilibrio, menor fuerza de
y adversos recomendación
Calidad de la evidencia Cuanta menor confianza en la calidad de la
evidencia, menor fuerza de recomendación
Valores y preferencias Cuanta más variabilidad entre personas y cuanta
menor confianza en la estimación de los valores
y preferencias, menor fuerza de recomendación
Uso de recursos (costes) Cuanto mayor coste, menor fuerza de recomendación
los anticoagulantes orales frente a heparina tienen similar efectividad; esta

última es más costosa y más molesta y, aunque el riego de malformaciones
por los anticoagulantes es ciertamente pequeño, casi todas las mujeres
preferían la heparina.
Las GPC deben ser explícitas sobre la forma en que se cuantifican estas
dimensiones, y en especial las preferencias. Por ejemplo, las recomendacio-
nes respecto a un tratamiento antitrombótico pueden ser diferentes según el
peso que se le dé a los desenlaces favorables (infartos o ictus evitados) y a
los efectos adversos (hemorragias extracraneales). Así, en las guías de ictus
anteriormente citadas, se asume explícitamente que, como promedio, los
pacientes consideran un ictus (isquémico o hemorrágico) como tres veces
más desfavorable que una hemorragia mayor extracraneal.
De igual forma, es importante especificar la población a la que se aplica;
por ejemplo, la relación riesgo-beneficio puede ser favorable en pacientes
con alto riesgo, pero desfavorable en pacientes con bajo riesgo de eventos.
En el caso de la anticoagulación frente a la antiagregación a largo plazo
en pacientes con ictus no cardioembólico, los anticoagulantes añadieron
18 muertes (entre 5 y 35) y 26 hemorragias extracraneales (entre 13 y 47) por
cada 1.000 pacientes tratados, sin diferencias claras en la incidencia de un
nuevo ictus o de infarto de miocardio. Aunque la calidad de la evidencia
del aumento de las hemorragias fue alta, la calidad de la evidencia del
aumento de la mortalidad fue solo moderada, debido a inconsistencia (I2:
62%). En consecuencia, los panelistas propusieron una recomendación 1B
en contra de los anticoagulantes en estos pacientes.
SIGNIFICADO DE LA FUERZA DE LA RECOMENDACIÓN

PARA PACIENTES Y CLÍNICOS
Desde el punto de vista del paciente, una recomendación fuerte es aque-
lla que adoptaría la práctica totalidad de los pacientes bien informados. Por
el contrario, si una parte sustancial de pacientes discrepara respecto a la
decisión que hay que elegir, entonces la recomendación sería débil.

Aunque comentar las decisiones con el paciente es siempre necesario,
en el caso de las recomendaciones débiles es especialmente importante que
el clínico le dedique un tiempo a la decisión compartida, para asegurarse
de que la decisión basada en la recomendación es coherente con las prefe-
rencias del paciente.
SIGNIFICADO DE LA FUERZA DE LA RECOMENDACIÓN

PARA LOS DECISORES POLÍTICOS
Desde el punto de vista de los decisores políticos, una recomendación
fuerte significa que puede ser adoptada en la mayoría de las situaciones,
y que una variación en la práctica clínica en este caso es inaceptable, por
lo que podría utilizarse como criterio de calidad. Por el contrario, las va-
riaciones poblacionales relacionadas con recomendaciones débiles pueden
ser apropiadas y, por tanto, su uso como criterio de calidad no estaría jus-
tificado.
El hecho de que una recomendación sea fuerte no significa que debe ser
implantada de forma prioritaria. Para los decisores políticos, la prioridad
de la implantación de una intervención debe tener en cuenta otros factores,
como la prevalencia de la enfermedad, la facilidad de implementación, los
costes sociales, el impacto potencial o la equidad.
El lector interesado en profundizar puede obtener más información en:
• Serie de artículos en BMJ (v. http://www.gradeworkinggroup.org/
publications/).
• Serie de Journal of Clinical Epidemiology (v. en http://www.jclinepi.
com/content/jce-GRADE-Series).
Bibliografía
1. The periodic health examination. Canadian Task Force on the Periodic Health Examination.
Can Med Assoc J. 1979;121:1193-1254.
2. West S, King V, Carey T, Lohr KN, McKoy N, Sutton SF, et al. Systems to Rate the Strength
of Scientific Evidence. Rockville: Agency for Healthcare Research and Quality (US); 2002
[20/07/2014]. Disponible en: http://www.ncbi.nlm.nih.gov/books/NBK11930/#A86871.
ref82.
3. Shukla V, Bai A, Milne S, Wells G. Systematic review of the evidence grading system for
grading level of evidence. German J Evidence and Quality in Health Care. 2008;102:43.
4. Guyatt GH, Oxman AD, Vist GE, Kunz R, Falck-Ytter Y, Alonso-Coello P, GRADE Working
Group. et al. GRADE: an emerging consensus on rating quality of evidence and strength
of recommendations. BMJ. 2008;336:24-26.
5. Guyatt GH, Oxman AD, Kunz R, Vist GE, Falck-Ytter Y, Schünemann HJ. GRADE Working
Group, GRADE: what is «quality of evidence» and why is it important to clinicians? BMJ.
2008;336:995-998.
6. Guyatt GH, Oxman AD, Kunz R, Falck-Ytter Y, Vist GE, Liberati A, et al.; GRADE Working
Group. GRADE: going from evidence to recommendations. BMJ. 2008;336:1049-1051.
7. Cannegieter SC, Rosendaal FR, Briet E. Thromboembolic and bleeding complications in
patients with mechanical heart valve prostheses. Circulation. 1994;89:635-641.
8. Shea BJ, Grimshaw JM, Wells GA. Development of AMSTAR: a measurement tool to assess
the methodological quality of systematic reviews. BMC Med Res Methodol. 2007;7:10.
9. Brouwers M, Kho ME, Browman GP, Cluzeau F, Feder G, Fervers B, et al.; AGREE Next
Steps Consortium. AGREE II: Advancing guideline development, reporting and evaluation
in healthcare. Can Med Assoc J. 2010;182:E839-E842.
10. Lansberg MG, O’Donnell MJ, Khatri P, Lang ES, Nguyen-Huynh MN, Schwartz NE, et al.;
American College of Chest Physicians. Antithrombotic and thrombolytic therapy for is-
chemic stroke: Antithrombotic Therapy and Prevention of Thrombosis, 9th ed: American
College of Chest Physicians Evidence-Based Clinical Practice Guidelines. Chest. 2012;141
(2 Suppl):e601S-e636S.

Cabello JB, Latour J. De la evidencia a la recomendación. GRADE. En: Cabello Juan B, editor.
Lectura crítica de la evidencia clínica. Barcelona: Elsevier; 2015. p. 181-194.

Lectura Crítica de La Evidencia Clinica PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Lectura Crítica de La Evidencia Clinica PDF

Cargado por

Copyright:

Formatos disponibles

LECTURA CRÍTICA

Juan Bautista Cabello López

Fotocopiar es un delito (Art. 270 C.P.)

ISBN (versión impresa): 978-84-9022-447-2

Depósito legal (versión impresa): B. 8.213-2015

A Casti, quien desde la discreción fue esencial en cada una de las

Marisa Montes por todos los miembros de CASPe

Presentación de la colección Cuidados de Salud Avanzados ix

1 ¿Por qué la lectura crítica? 1

2 Lectura crítica para la práctica clínica basada en la evidencia 7

3 Formulando preguntas para la práctica clínica 21

4 Lectura crítica de estudios de tratamiento.

5 Lectura crítica de estudios de tratamiento. Revisiones sistemáticas

6 Lectura crítica de estudios de diagnóstico 87

7 Lectura crítica de estudios de pronóstico. Estudios de cohortes 101

8 Lectura crítica de estudios de reglas de predicción clínica 117

9 Lectura crítica de estudios cualitativos 133

10 Documentos de evidencia. El sistema 6S. Evidencia a pie

11 De la evidencia a la recomendación. GRADE 181

Cuidados de Salud Avanzados es una colección de monografías dirigidas

Loreto Maciá Soler

Permitidme que presente este libro recordando una experiencia personal.

también una herramienta de valor incalculable para profesores, tutores de

Forgive me if I introduce this book with a personal story. In 1969 as a young

Sir Iain Chalmers

Juan Bautista Cabello López

Nuestro agradecimiento a Manuel Alós (jefe del Servicio de Farmacia

Jaime Latour Pérez

UNA HISTORIA CLÍNICA

Los trabajos de John E. Wennberg, en la década de los ochenta, sacaron a

© 2015. Elsevier España, S.L.U. Reservados todos los derechos

aplicación de la evidencia a la práctica clínica y habían desarrollado un pro-

los talleres CASPe, en los grupos hispanoparlantes de los cursos «How to

¿HAY QUE LEER CRÍTICAMENTE EN EL SIGLO XXI?

Los clínicos somos tradicionalmente unos grandes productores y con-

poco actualizados y habitualmente no bajan al detalle de los estudios que

En análogo sentido, la Unidad de Información e Investigación en Salud

UNA PREOCUPACIÓN CRECIENTE

él describía la disolución de los límites entre facultades de Medicina, hos-

dureza en los conflictos de la industria con los investigadores, la academia

Para ese nuevo escenario, la lectura crítica constituye un elemento de

Cómo citar este capítulo:

OBJETIVOS DEL CAPÍTULO

El modo de transmitir el saber fue objeto de discusión desde la anti-

© 2015. Elsevier España, S.L.U. Reservados todos los derechos

También señalaba Platón que el texto no elige a su lector y debe ser

LA LECTURA Y SUS ESPECIFICIDADES

La lectura es un proceso de gran complejidad cognitiva (1), y existen

DIMENSIÓN TEXTUAL SIMPLE

DIMENSIÓN RELACIONAL (INTRA- E INTERTEXTUAL)

En las revistas médicas, el equivalente lector sería la identificación de

DIMENSIÓN SOCIAL Y CULTURAL

*Recopilados en EQUATOR (http://www.equator-network.org/).

• CCT Current Controlled Trials: http://www.controlled-trials.com/

Research (EQUATOR; www.equator-network.org) y que son

LECTURA CRÍTICA EN EL CONTEXTO CLÍNICO

Las convenciones mencionadas configuran un marco de valores que

4. El cuarto tipo es el conocimiento establecido, que incluye cosas no

Pero leer críticamente es, en realidad, una habilidad intelectual (como

APRENDIENDO A LEER CRÍTICAMENTE

Como señalábamos, una parte crucial de la enseñanza de la lectura

a interactuar con el texto). Es decir, una vez configurada la visión de esas

• En el contexto de aplicación clínica, si los resultados son poco