Está en la página 1de 39

PRÁCTICA BASADA EN LA EVIDENCIA Y LECTURA CRÍTICA

DE LA LITERATURA
Eduardo López Briz

Servicio de Farmacia. Hospital Universitario y Politécnico La Fe. Valencia


(España). CASP España.

RESUMEN

La práctica basada en la evidencia (PBE) se ha convertido en el nuevo


paradigma del ejercicio clínico de los profesionales de la salud. A pesar de su
desigual implantación, por otro lado cada vez más amplia, ha pasado a formar
parte del lenguaje habitual de gestores, políticos y clínicos. Sin embargo su
plena implementación requiere de la inversión en medios, en tecnología y en
formación. La adquisición de habilidades de lectura crítica de la literatura es la
piedra angular sobre la que debe levantarse el edificio de la PBE.

1
PRÁCTICA BASADA EN LA EVIDENCIA

Son las 8:45 de la mañana. En la consulta de Medicina de Familia de un centro


de salud en un barrio de una gran ciudad un médico adjunto está acompañado
del R-3 mientras ve a una paciente de 46 años, en buen estado de salud,
conocida del centro, sin antecedentes de interés, que acude por pesadez de
piernas y cansancio de dos semanas de evolución. Tras la anamnesis y la
exploración, el adjunto tranquiliza a la paciente y le prescribe algunos ejercicios
y medidas higiénicas, recomendándole una nueva visita al cabo de un mes
para valorar la evolución. Cuando la paciente ha salido, el residente le
pregunta al adjunto si no hubiera estado indicada la prescripción de algún
heparinoide de aplicación local. El adjunto esboza una sonrisa y le sugiere que
busque ensayos clínicos (EC) de pentosano polisulfato sódico en PubMed. Al
día siguiente, el residente comenta con el adjunto que no ha encontrado ningún
ensayo, y que va a modificar su práctica habitual, en la que recomendaba
profusamente este medicamento para flebitis, hematomas y contusiones.

Situaciones parecidas a estas se plantean en la práctica diaria 2 veces por


cada tres pacientes (1), y esta cifra esté probablemente infravalorada. Es
ilusorio pensar que los profesionales actúan siempre de acuerdo con las más
sólidas evidencias. Un análisis de 3.000 tratamientos llevado a cabo por
Clinical Evidence puso de manifiesto que únicamente en un 11% de ellos se
podía estar seguro de su eficacia por los EC realizados; un 24% eran
tratamientos probablemente beneficiosos, un 7% presentaban equilibrio entre
beneficios y perjuicios, un 5% no eran probablemente beneficiosos, un 3% eran
ineficaces o peligrosos y un 50% eran de eficacia desconocida
(http://clinicalevidence.bmj.com/x/set/static/cms/efficacy-categorisations.html).

Los profesionales de la salud trabajamos en un medio en el que la toma de


decisiones es constante, pero cómo se ejecuta esta acción es variable. En
unas ocasiones es por tradición (―siempre se ha hecho así‖), en otras por
convención (―todo el mundo lo hace así‖) o por convicción (―yo pienso que esta
manera es la mejor‖) pero la mejor manera es sin duda de acuerdo con un
análisis sistemático de la evidencia (2). En este contexto surgió hacia
mediados de los 80 lo que ahora conocemos como medicina basada en la

2
evidencia (MBE) o práctica basada en la evidencia (PBE)* y que se ha
convertido en el nuevo paradigma de la práctica clínica. De las 294 citas que
aparecían en PubMed cuando se buscaba ―evidence based medicine‖ en 1992
se ha pasado a casi 127.000 en 2016, convirtiéndose en el octavo avance
médico más importante desde el año 1.840, por delante de los ordenadores, la
inmunología o el diagnóstico por la imagen (3).

¿A qué llamamos PBE?

Sackett estableció en 1996 el concepto inicial de la PBE como el uso


consciente, explícito y juicioso de la mejor evidencia disponible para la toma de
decisiones acerca del cuidado de pacientes individuales (4). Su evolución
posterior integró las evidencias publicadas de mayor calidad con la experiencia
clínica y los valores y experiencias únicos del paciente (5), proporcionando el
marco conceptual en el que ahora se sitúa.

La práctica médica tradicional, basada en la experiencia clínica no sistemática,


las teorías fisiopatológicas y el conocimiento acumulado en libros de texto y
artículos de opinión de expertos en la materia, se ha mostrado incapaz de
solucionar los problemas de la práctica habitual (6), por lo que se hacía
necesario un nuevo modelo de ejercicio clínico. Este surge de la mano de la
PBE mediante una aproximación en 5 pasos: en primer lugar hay que convertir
la cuestión clínica en una pregunta que pueda ser respondida (formato PICO,
ver más adelante); se trata luego de buscar la mejor evidencia publicada,
analizarla críticamente e integrarla con la experiencia clínica y los valores del
paciente para aplicarla posteriormente, evaluando sus resultados (7).

El desarrollo de los recursos electrónicos de información, la aparición de


iniciativas editoriales orientadas hacia la evaluación crítica de lo publicado
(Colaboración Cochrane, Clinical Evidence, etc.) y la implementación de
nuevas técnicas de aprendizaje han ayudado en gran medida a la diseminación
de la PBE, consolidando su liderazgo como herramienta clínica de primera
magnitud (5).

Bases filosóficas, antecedentes y críticas


*
Pensamos que la expresión ―práctica basada en la evidencia‖ es más generalizadora e
incluyente que ―medicina basada en la evidencia‖, y es la que usaremos en todo el texto.

3
La PBE parece tener su origen en las corrientes positivistas y neopositivistas
aparecidas a finales del siglo XIX y principios del XX de la mano de Bertrand
Russell y el Círculo de Viena. De acuerdo con ellos, los enunciados científicos
o son verdades lógico-matemáticas o deben proceder de la observación
empírica (verificacionismo) (8). Desde una visión de ―ciencias‖ bien poco se
puede objetar, pero no han faltado críticas desde el punto de vista filosófico a
estas bases epistemológicas de la PBE (9), algunas de ellas realmente
ridículas (10).

Más interesantes son las críticas que se han hecho desde otros puntos de vista
que nos resultan en general más inteligibles. Samarkos (11) las agrupa en tres
categorías:

a) Las relacionadas con su excesivamente rápida diseminación y su


papel preponderante en la medicina institucional que determina las
políticas sanitarias.
b) Las relacionadas con sus aspectos prácticos, ya que ―denigra la
experiencia clínica, ignora las preferencias y valores del paciente, …,
es un instrumento de control presupuestario, su práctica se aleja de
la cabecera del enfermo, restringe la autonomía del médico y cuando
no existe fuerte evidencia conduce al nihilismo terapéutico‖. Además,
continúan las críticas, no hay pruebas de que la PBE mejore el
cuidado del paciente.
c) Las relacionadas con su base ética (―la opinión de los practicantes de
la MBE es la más cercana a la verdad‖) y su filosofía del
conocimiento (alto valor concedido a la estadística y muy bajo a la
fisiopatología, lo que limita las inferencias de causación; la MBE no
es un nuevo paradigma ni produce nuevo conocimiento científico,
sino que es una forma práctica de ejercicio de la medicina).

Estas críticas no andan absolutamente desprovistas de razón, pero en muchos


casos denotan un conocimiento imperfecto de las bases de la PBE. En primer
lugar, asociar a la PBE un predominio institucional denota una consideración
superficial de la realidad. Por más que el discurso oficial sea en numerosas
ocasiones ese, el mundo real se mueve en otro marco lamentablemente

4
diferente (12). Las críticas a los aspectos prácticos se contestan fácilmente,
sólo hay que remitirse a la definición formulada más arriba (5): integración de la
experiencia clínica con los valores del paciente y utilización de la mejor
evidencia disponible, lo que no implica necesariamente la más barata ni la
abstención terapéutica si no se dispone de un megaensayo clínico.

Es frecuente que se achaque a la PBE que no se aplique a sí misma sus


propios métodos de demostración. Es difícil el diseño de ensayos que pongan
de manifiesto las ventajas de la PBE sobre los métodos tradicionales medidas
en forma de outcomes relevantes, pero las evidencias son crecientes. Uno de
los más recientes, llevado a cabo en nuestro país, mostró una reducción de la
mortalidad de un 1,1% (p < 0,02) y una disminución de la estancia de 3 días (p
= 0,002) cuando se comparó la atención mediante PBE frente a cuidado
estándar, con tasas de readmisión similares (13).

Finalmente, con respecto a las críticas del tercer grupo, hay que darles la razón
al menos en parte, ya que la PBE no es una ciencia sino una forma práctica de
ejercerla y no pretende en absoluto explicar nada sino tratar pacientes de la
mejor manera posible. Por otro lado, si consideramos los aspectos éticos bajo
el prisma ―principialista‖, tanto la beneficencia como la no maleficencia y la
justicia salen reforzadas con la PBE si se la compara con cualquier otra forma
de ejercicio de la práctica sanitaria basado en impresiones personales sin base
o en elucubraciones fisiopatológicas no concretadas en la vida real.

Limitaciones y fortalezas de la PBE

Es cierto que la PBE ha venido a refrescar el aire del rancio academicismo,


pero su desarrollo no está exento de limitaciones. En primer lugar requiere de
medios, en forma de tiempo y dinero, para su aprendizaje e implementación, lo
que en aquellos profesionales menos motivados puede suponer un
inconveniente. En segundo lugar, existe una clara dependencia de los EC, y
muchas veces su disponibilidad está limitada o las poblaciones incluidas no son
representativas de la realidad social. Por ejemplo, se calcula que serían
necesarios 127 EC con más de 60.000 pacientes a lo largo de 286 años para
determinar la combinación óptima de medicamentos para el Alzheimer (14). En
tercer lugar, la evidencia procedente de EC o revisiones sistemáticas tiene una

5
aplicabilidad real moderada; se calcula que el hiato entre recomendaciones
basadas en la evidencia y la práctica es de alrededor del 50%, principalmente
debido a que los EC no son relevantes para clínicos, decisores y políticos por
los estrictos criterios de inclusión y a que su realización tiene lugar en ámbitos
muchas veces hospitalarios, alejados de escenarios comunitarios en los que
luego se pondrá en práctica la intervención (15).

Las fortalezas de la PBE radican sobre todo en su fuerte dependencia del


empirismo (―las teorías pueden estar equivocadas, los hechos nunca‖), en su
universalidad de aprendizaje, en su flexibilidad y adaptabilidad frente a la
aparición de nuevas evidencias que pudieran contradecir las anteriores y en el
desarrollo de una jerarquía de la evidencia que permite priorizar unos tipos de
hallazgos frente a otros de manera estructurada, justificada y transparente.

La jerarquía de la evidencia y su calidad

Una de los planteamientos programáticos básicos de la PBE es, como antes


hemos mencionado, la utilización de la mejor evidencia disponible. Este
adjetivo comparativo implica el establecimiento de una escala o jerarquía de
evidencias que las ordene de acuerdo con un rango de calidad predefinido.

De acuerdo con estos principios se construyó la llamada pirámide de la


evidencia (Figura 1), en la que se disponen los tipos de estudios en función de
su nivel de sesgo a diferente altura en la pirámide, sesgo que va disminuyendo
desde la base al vértice. Es incierto el origen de la pirámide, pero sí es
conocido que la primera gradación de niveles de evidencia tuvo lugar en fecha
tan temprana como 1979, en un documento de la Canadian Task Force on the
Periodic Health Examination (16). Existen diferentes variedades y versiones de
la pirámide, pero la mayor parte de ellas representan en la cúspide las RS con
o sin meta-análisis, aunque algunas variantes sitúan ahí los EC n=1, mientras
que otras separan la validez externa e interna (17).

6
Figura 1. Pirámide de la jerarquía de la evidencia. RS = revisiones sistemáticas;
MA = meta-análisis; ECA = ensayos clínicos aleatorizados

Aunque la pirámide puede servir como un modelo básico de jerarquía, no debe


perderse de vista que su construcción asume un mundo ideal, en el que se
trabaja con RS metodológicamente perfectas, EC de diseño exquisito y
estudios de cohortes impecables. Pero el mundo real viene a tirar por tierra
estas concepciones, y con frecuencia nos encontramos RS cuestionables o EC
de calidad más que dudosa de manera que pueda ser preferible a ellos un
buen estudio de cohortes. Asumiendo estas limitaciones, y partiendo de la base
de que la ausencia de sesgos no depende únicamente del diseño del estudio,
surgió hace ya algunos años la iniciativa GRADE (Grading of
Recommendations, Assessment, Development and Evaluations,
www.gradeworkingroup.org) con la idea de valorar la calidad de la evidencia y
señalar la dirección y fuerza de las recomendaciones de uso de la investigación
de síntesis, como RS u otros sumarios de evidencia (18,19). El método ha sido
aceptado por organizaciones de gran prestigio (como la OMS o la base de
datos Cochrane de RS), lo que ha facilitado su difusión.

La escala GRADE separa la calidad de la evidencia del grado de


recomendación (Tabla 1), aunque plantea una relación de dependencia entre

7
ambos. Una peculiaridad de este sistema es que se centra en los desenlaces,
de manera que se consideran todos ellos si son relevantes, tanto los
beneficiosos como los indeseados. Tras los análisis correspondientes se
concreta el proceso en el llamado ―perfil de evidencia‖, que proporciona para
cada desenlace información sobre la calidad de la evidencia que lo sustenta
(19).

Tabla 1. Escala GRADE sobre calidad de la evidencia y grado de recomendación (19).

CALIDAD DE LA EVIDENCIA

ALTA Es poco probable que nuevos estudios cambien el


efecto estimado, es decir, confiamos bastante en
esta estimación del efecto, es evidencia
prácticamente cerrada.
MODERADA Aunque confiamos en que nuestra estimación está
cerca del auténtico efecto, es posible que nuevos
estudios puedan cambiar de modo sustancial la
estimación del efecto, es decir, aunque estamos
relativamente seguros, aún es evidencia abierta.
BAJA Creemos que el auténtico efecto puede ser muy
distinto del que hemos observado o, en términos
de futuro, es probable que nueva investigación
tenga gran impacto y cambie nuestra estimación
de la evidencia.
MUY BAJA Estamos realmente inseguros sobre estos
resultados o, de otro modo, es casi seguro que
nueva investigación cambie por completo los
resultados de la estimación. Carecemos de
evidencia.
GRADO DE RECOMENDACIÓN

Fuerte a favor

Débil a favor

Débil en contra

Fuerte en contra

Brevemente, para evaluar la calidad de la evidencia el método propone realizar


un juicio inicial que se basa apriorísticamente en el tipo de estudio (ECA,
observacional) y un ajuste posterior (al alza o a la baja) en función de su
calidad, que puede hacer bajar ―puestos‖ a un EC o ascenderlos a un estudio
observacional. Pueden hacer bajar de categoría a un EC un importante riesgo
de sesgo (ver más adelante la lectura crítica de EC), las evidencias indirectas
(comparaciones indirectas, poblaciones o intervenciones muy diferentes), la
8
imprecisión (intervalos de confianza amplios), la inconsistencia (diferencias de
la dirección del efecto entre los distintos estudios) o el sesgo de publicación.
Por el contrario, pueden hacer ascender de categoría a un estudio
observacional un efecto muy grande (riesgos relativos u odds ratio muy altos o
muy bajos), la existencia de relación dosis-respuesta o la plausibilidad de los
factores de confusión (19).

Con respecto a la recomendación, se compone de dos vectores: la dirección y


la fuerza. La dirección dependerá del balance de beneficios y daños de las
alternativas comparadas: a favor si los primeros superan a los segundos y en
contra si es al revés. Por su parte, la fuerza de la recomendación dependerá
del grado de confianza que se tenga en la relación entre las consecuencias
deseadas a indeseables de la intervención (fuerte o débil) (19).

LECTURA CRÍTICA DE LA LITERATURA

Como ya se ha mencionado previamente, uno de los pilares sobre los que se


fundamenta la PBE es el análisis o lectura crítica (LC) de la literatura científica.
Entendemos como tal el proceso de examinar cuidadosa y sistemáticamente la
investigación para determinar su fiabilidad, su valor y su relevancia en un
contexto particular (20). La LC tiene, por tanto, características complejas y
exige altos niveles de interacción del lector con el texto; requiere además
adentrarse en la realización de juicios de valor (inexistentes en otros tipos de
lectura) acerca del contenido y precisa de una serie de habilidades y
conocimientos específicos que encajen en un esquema de valores
preconcebido (21).

Es poco probable que encontremos algún profesional sanitario con una cierta
experiencia que no afirme sin margen de duda que practica sistemáticamente
la LC cuando consume artículos relacionados con su especialidad. Sin
embargo, la realidad es muy diferente. Un estudio llevado a cabo en Canadá
mostró que únicamente un 50% de un grupo de 1.000 médicos de familia
entrevistados tenían conocimientos razonables acerca de métodos de LC y de
interpretación de resultados de artículos de investigación (22). Si extrapolamos
estos resultados a nuestro medio la perspectiva no es demasiado

9
tranquilizadora, teniendo en cuenta que una parte importante de las decisiones
que los clínicos toman diariamente se basan en la aplicación de los resultados
de la literatura biomédica publicada.

Justamente en esta incapacidad de los decisores para interpretar


adecuadamente la evidencia de las publicaciones científicas tuvieron su origen,
en la Universidad McMaster de Ontario (Canadá), los primeros intentos de
crear herramientas sistemáticas de LC, que posteriormente fueron llevadas al
Reino Unido y dieron lugar al Critical Appraisal Skills Programme (CASP), un
programa destinado a enseñar habilidades de LC a los clínicos y a los
gerentes. Un poco más tarde, en 1997, se crea en España la rama española de
CASP, conocida como CASPe (www.redcaspe.org), que desde esa fecha ha
enseñado en más de 600 talleres a un variado espectro de alumnos, que van
desde gerentes y políticos hasta profesionales de la salud (médicos,
farmacéuticos, enfermeros, psicólogos) e incluso usuarios (23).

Una cuestión que se plantea frecuentemente cuando se abordan temas de LC


es su papel (y su necesidad) cuando se trata de analizar publicaciones que ya
han sufrido un proceso de peer-review antes de ser aceptadas en revistas de
reconocido prestigio: ¿Cómo puede criticarse metodológicamente un artículo
aparecido en British Medical Journal, Lancet, New England Journal of Medicine
u otra publicación de su calidad? ¿Cómo se les puede haber pasado algo por
alto a los revisores y al equipo editorial? El lector interesado puede consultar el
magnífico libro de Richard Smith (24), antiguo editor de British Medical Journal
para conocer mejor el complejo entramado de la edición científica, sus
conflictos de intereses y los sesgos de juicio de algunos revisores, lo que le
dejará mucho más claro que la LC no es una opción, sino una necesidad.
Permítasenos un único ejemplo. En uno de los ensayos pivotales de
voriconazol en aspergilosis invasiva se usó como fármaco de comparación
anfotericina B desoxicolato (a pesar de que se disponía ya de la forma
liposómica) pero no se premedicó a los pacientes para reducir la toxicidad de la
infusión de ésta o su nefrotoxicidad, aunque la duración prevista del tratamiento
era de 84 días; la media de tiempo de tratamiento con voriconazol fue de 77
días y de 10 días con anfotericina. Es obvio que los resultados favorecieron al
nuevo medicamento (25). Esta publicación reportó a la revista cuantiosos

10
ingresos gracias a las separatas vendidas y un considerable aumento del factor
de impacto, ya que el laboratorio fabricante orquestó una serie de
publicaciones en revistas secundarias que citaban inexcusablemente el ensayo
pivotal pero que en pocas (o ninguna) ocasión citaron el sesgo que se ha
mencionado (26).

¿Por qué necesitamos adquirir habilidades para la lectura crítica de la


literatura?

La LC de la literatura constituye una útil herramienta para ayudar al profesional


a sobrevivir a la sobrecarga de información (se estima que Medline recoge
700.000 nuevas referencias cada año (23)), identificando los artículos que son
realmente relevantes, y representando una parte básica de su currículo para la
PBE.

Con cierta frecuencia los profesionales juzgamos la calidad de lo publicado por


el prestigio de la fuente y nos hacemos una idea del contenido del artículo con
la sola lectura del resumen. Esta práctica puede llevarnos a tomar decisiones
equivocadas (―No ha de ser oro cuanto reluce‖, Fernando de Rojas, La
Celestina) y la LC nos proporciona los recursos para combatirlo. En general se
considera a la base de datos de revisiones sistemáticas de la Cochrane Library
como una fuente de alta calidad por el rigor metodológico de sus publicaciones
pero ello no obsta para le apliquemos los métodos de la LC cuando sea
necesario. Recientemente se publicó una RS en este repertorio acerca del
papel de los opioides en el dolor irruptivo oncológico (27) que en realidad
constituía una actualización de una RS previa. Entre los ensayos que se
incluyeron en el metaanálisis figuraban titulaciones de dosis de fentanilo
transmucoso, comparaciones de opioides con placebo y ensayos clínicos con
importantes sesgos de selección. Además, se vieron diferencias en intensidad
dolorosa entre morfina y fentanilo donde estadísticamente no las había y se
acabó concluyendo una superioridad de fentanilo transmucoso y nasal sobre la
morfina que distaba bastante de la realidad. Una LC de este artículo por parte
de algunos lectores y la reclamación correspondiente ocasionó su retirada (que
no su retractación) algún tiempo después.

11
En otras ocasiones los datos de los resúmenes no coinciden con los del texto,
los resultados carecen de relevancia clínica o se ha seleccionado la muestra
del ensayo excesivamente (―Antes de que la verdad se ponga los pantalones,
la mentira ha dado una vuelta al mundo‖, Winston Churchill). Actualmente la
base del tratamiento del dolor irruptivo en el cáncer es la utilización de fentanilo
transmucoso y así viene recogido en un buen número de guías, procedimientos
y recomendaciones de expertos. Sin embargo, el ensayo clínico que sustenta
este uso (28), en el que se comparaba morfina oral de liberación rápida con
fentanilo transmucoso, adolecía de un sesgo de selección importante, ya que
se sometió a los pacientes a un proceso previo de selección (run in) de forma
que únicamente entraron en el ensayo aquellos que respondieron al fentanilo
transmucoso, lo que eliminó a un 31% de los pacientes inicialmente
seleccionados. Es fácil comprender que, a la hora de dar el paso de la eficacia
a la efectividad, parece poco probable que seamos capaces a priori de conocer
qué pacientes van a responder a fentanilo y cuáles no, con lo que en el mejor
de los casos nos aseguramos con fentanilo transmucoso un 31% de fracasos.

Finalmente, es también necesario aplicar las habilidades de LC a lo publicado


porque hay mucho en juego, y no es necesario recordar aquí en qué sentido
marchan los intereses económicos de la industria farmacéutica (―Poderoso
caballero es Don Dinero‖, Francisco de Quevedo). Una revisión de 167
metaanálisis mostró que los ensayos financiados por empresas con ánimo de
lucro tenían 5 veces más posibilidades de recomendar el tratamiento
experimental que los financiados por empresas sin ánimo de lucro (OR 5,3; IC
95% 2,0-14,4) (29), lo que tampoco puede suponer ninguna sorpresa a estas
alturas. Otro estudio más reciente puso de manifiesto sobre una muestra de
319 ensayos que los promocionados por la industria adoptan con más
frecuencia un diseño de no inferioridad/equivalencia (OR 3,2, IC 95% 1,5-6,6) y
tienen resultados más favorables (OR 2,8; IC 95% 1,6-4,7) (30)

¿Cómo hacer LC? Clubs de lectura (Journal clubs)

Los clubs de lectura nacieron en el siglo XIX como lugares de reunión de los
médicos para relacionarse con otros colegas y leer la entonces escasa prensa
médica. En la actualidad el concepto ha cambiado y entendemos como tales la

12
reunión habitual de un grupo de profesionales con objeto de discutir
críticamente la validez y aplicabilidad clínica de los artículos de las revistas
biomédicas (31). Su utilidad formativa es indiscutible y forman parte del
currículo académico en numerosas facultades de EEUU (32).

Los clubs de lectura, además de promover y enseñar habilidades de lectura


crítica, proporcionan actualización del conocimiento dentro de un área,
promueven discusión sobre controversias científicas, sirven como semillero de
ideas de investigación y crean una base de datos del grupo que puede ser útil
para las personas que se incorporan a él de nuevas (32).

Su funcionamiento es sencillo y muy relacionado con la enseñanza en


―pequeño grupo‖. Tras la selección de un líder natural (un residente mayor, un
tutor de residentes u otra persona con experiencia) encargado de seleccionar el
material a discutir, facilitar su difusión, estimular la participación y actuar de
moderador en las reuniones, es el pequeño grupo el que toma el protagonismo.
El número ideal de participantes es de 10-12, que se reúnen semanal o
quincenalmente de acuerdo con un programa discutido y acordado previamente
durante no más de 45-60 minutos. Este modelo se diferencia claramente del
modelo clásico de las sesiones bibliográficas habituales de los servicios
clínicos, fundamentalmente por el carácter participativo de los clubs de lectura
y por su metodología de discusión, que responde a esquemas explícitos (32).

La mecánica de funcionamiento general implica el planteamiento inicial de una


pregunta clínica situada en un escenario coherente, que se encarga a una
persona o pequeño grupo para la siguiente reunión. El o los encargados
realizan en primer lugar una búsqueda bibliográfica con el fin de localizar el
artículo que será revisado y presentado críticamente en la próxima reunión del
club. Tras una breve introducción al conocimiento previo del problema o de la
enfermedad, se discute la forma en que se ha hecho la búsqueda, para pasar a
continuación a debatir acerca de la validez del estudio, sus resultados y su
aplicabilidad. El producto final es un CAT (critical appraisal topic), documento
en el que se recoge de forma muy resumida (1-2 páginas) la evaluación crítica
llevada a cabo (32,33).

13
Las ganancias de este modelo de enseñanza han sido demostradas en algunos
ensayos clínicos, y se dirigen fundamentalmente a cambios en el modo de
abordar la literatura biomédica, aumento de conocimientos de Epidemiología
Clínica y mayor confianza en las capacidades propias para hacer LC, pero no
se han podido demostrar mejora de las capacidades clínicas o mejores
resultados en los pacientes (32).

¿De qué recursos disponemos para hacer LC?

La adquisición de habilidades de LC es, como gran parte del aprendizaje de


otras materias, un proceso continuo cuyas ganancias aumentan a medida que
se va practicando, pero que tiene como característica distintiva frente al
aprendizaje tradicional memorístico académico un fuerte componente
participativo. Es clásica la pirámide de Bales acerca de las tasas de retención
memorística según los distintos modelos de aprendizaje: 5% con el modelo
lección, 10% con la lectura, 20% con audiovisuales, 30% mediante
demostración, 50% con discusión en grupos, 75% a través de práctica de
ejercicios y 80% enseñando a otros (34). Estas cifras admiten poca duda
acerca de los modelos de enseñanza que debemos escoger para la LC.

Siguiendo este principio, numerosas organizaciones plantean talleres de


enseñanza de LC, aunque es obligatorio reconocer que todas ellas utilizan los
métodos (¡y en muchas ocasiones la documentación!) de CASP España. Esta
última organiza eventos educativos en formato taller a todo lo largo de la
geografía nacional, y su calendario puede consultarse en su web
(www.redcaspe.org).

Aparte del aprendizaje presencial, se dispone de numerosos recursos on-line.


Ruiz y Cabello (32) recogen las direcciones de diversos clubs de lectura
electrónicos, donde pueden consultarse los CAT producidos y descargarse
herramientas útiles. Como manuales de referencia, pueden citarse algunos que
a nuestro juicio reúnen tanto solidez científica como capacidad didáctica:

 Strauss SE, Scott Richardson W, Glasziou P, Haynes RB. Medicina


basada en la evidencia. Cómo ejercer y enseñar la MBE. 2ª ed. Madrid:
Elsevier; 2006.

14
 Guyatt G, Rennie D, Meade MO, Cook DJ eds. Users guide to the
medical literature. A manual for evidence-based clinical practice. 3ª ed.
McGraw Hill Education; 2015.
 Cabello JB ed. Lectura crítica de la evidencia clínica. Barcelona:
Elsevier; 2015. p. 7-20.
 Greenhalgh T. How to read a paper. The basics of evidence-based
medicine. 5ª ed. Chichester: Wiley-Blackwell BMJ Books; 2014.

Para la práctica diaria resultan de gran utilidad las plantillas de LC de CASPe


(Anexos I y II), que serán las que seguiremos en las páginas siguientes para
adentrarnos de manera necesariamente somera en el análisis crítico de los dos
tipos principales de estudios que ayudan a establecer la eficacia de los
tratamientos: los ensayos clínicos y las revisiones sistemáticas. Se trata de una
herramienta organizada en tres secciones (validez, resultados y aplicabilidad),
cada una de las cuales se divide en preguntas con tres posibles respuestas (sí,
no, no sé). Usualmente va asociada a un escenario (virtual o real) y el máximo
partido se le saca tras haber recibido formación metodológica previa (21).

Lectura crítica de ensayos clínicos

Aunque suele afirmarse que el primer EC de la era moderna lo llevó a cabo


James Lind, cirujano del HMS Salisbury, para determinar el valor de los cítricos
en el tratamiento del escorbuto, sus carencias metodológicas (principalmente la
falta de aleatorización) lo convierten más bien en una anécdota interesante. Es
sin duda más correcto situar el nacimiento de la moderna investigación clínica
en el ensayo que Bradford-Hill et al. condujeron en 1948 con estreptomicina
para el tratamiento de la tuberculosis, puesto que en él se introdujo por primera
vez la aleatorización simple siguiendo una secuencia de números aleatorios
(35).

En la actualidad se admite que el EC adecuadamente diseñado es la más


poderosa herramienta metodológica para demostrar la eficacia o la efectividad
de las intervenciones. Pero (devil is in the details) ¿qué entendemos por
―adecuadamente diseñado‖? A lo largo de las siguientes líneas intentaremos
aproximarnos a aquellos aspectos de los EC que les confieren su fuerza
probatoria y su robustez metodológica.

15
La primera cuestión a analizar es la pregunta de investigación. Generalmente
los EC intentan responder a preguntas acerca del valor de unas intervenciones
comparativamente con otras, pero es necesario conocer otros detalles que
aparecen presentes en la pregunta estructurada en el llamado formato PICO,
acrónimo de Pacientes, Intervención, Control y Outcomes (resultados). El valor
didáctico de la formulación de preguntas clínicas en la práctica diaria está fuera
de toda duda (36) pero en el contexto de la LC adquiere otro carácter. Se trata
de evaluar si la población del ensayo está bien definida (criterios de inclusión y
exclusión), la intervención experimental y la de control son reproducibles
(fármacos, dosis, vías, etc.) y los desenlaces (resultados) primarios y
secundarios son explícitos. Habitualmente estos tres aspectos vienen
formulados de manera muy resumida en el último párrafo de la introducción de
los artículos pero para conocerlos en detalle es necesario acudir al apartado de
material y métodos. En la siguiente tabla 2 vemos una pregunta en formato
PICO formulada en un estudio y su posible mejora:

Tabla 2. Pregunta en formato PICO y su posible mejora

Pregunta PICO Problema Pregunta PICO mejorada

En niños con asma … Población demasiado En niños (2-5 años) con asma
vagamente descrita, sin (intermitente, leve persistente,
especificar bien edad ni moderada persistente, grave
gravedad del asma. persistente) …

… el uso de tratamiento Imprecisa, es necesario ¿el uso de montelukast más


específico… definir mejor la medicación. broncodilatadores
adrenérgicos…

.. comparado con no usar Imprecisa, es necesario …comparado con el uso de


medicación… definir mejor si no se usa broncodilatadores adrenérgicos
nada o sólo el tratamiento solos…
de base

… disminuye los síntomas Imprecisa, es necesario … disminuye el uso de


del asma? definir mejor los resultados broncodilatadores a demanda,
que se espera medir o o disminuye el nº de visitas a
mejorar. urgencias, o disminuye la tasa
de ingresos, o disminuye el nº
de visitas al médico, o…?

16
A partir de la pregunta PICO estructurada es posible detectar con mayor
facilidad si la población está bien descrita y es apropiada para los fines del EC,
si la intervención es reproducible, si la comparación respeta el equipoise
(equilibrio entre beneficios y riesgos) o si por el contrario es inadecuada, y por
último si los resultados se orientan a los pacientes o a la enfermedad
(resultados subrogados) (37).

El segundo punto que debe analizarse es la aleatorización, procedimiento por


el que se distribuye a los pacientes en los grupos del ensayo en función de una
secuencia aleatoria, de manera que la posibilidad de caer en una rama o en
otra es fija e igual para todos los participantes. Por concepto, la aleatorización
es lo que distingue a un EC de un estudio de cohortes, lo que hace que deba
ser considerada de manera especialmente atenta. Una correcta aleatorización
nos permitirá estar seguros de que los grupos son similares tanto en las
características que conocemos y que pueden ser predictivas del resultado
como en aquellas que no conocemos o que nos son desconocidas (―el preciso
compás del azar‖, L.E. Aute) (37).

De acuerdo con la relevancia crucial de la aleatorización, no es suficiente con


que sea declarada en el diseño (el papel es muy sufrido) sino que es necesario
asegurarse de que se ha llevado a cabo por procedimientos tales que aseguren
su calidad o, mejor aún su existencia. Una aleatorización dudosa o mal
realizada equivale de hecho a una ―no aleatorización‖, ya que se trata de un
concepto categórico. El procedimiento más sencillo es la llamada aleatorización
simple (moneda al aire, secuencia generada por ordenador, etc.) que
usualmente suele generar grupos desiguales en tamaño, por lo que en
ocasiones se recurre a otros tipos como la aleatorización por bloques, la
aleatorización equilibrada por covariables o la adaptativa (38). Son malos
métodos de aleatorización los que llevan a cabo este procedimiento de acuerdo
con la fecha de nacimiento, el número de historia clínica, el día de la semana
de reclutamiento, una secuencia alternante, etc. En estos casos la probabilidad
de caer en un grupo u otro está ―predeterminada‖, por lo que su calidad es
baja, y los estudios que recurren a ellas se conocen como ―cuasi
aleatorizados‖.

17
El resultado del proceso de aleatorización cristaliza usualmente en los EC en la
llamada ―Tabla 1‖, donde aparece la distribución de las características en los
brazos obtenidos y que en ocasiones y por puro azar puede reflejar cierto
desequilibrio entre los factores pronósticos, lo que obligaría a hacer análisis
multivariante para analizar su posible influencia en los resultados.

Tan importante como asegurarse de la existencia de aleatorización es hacerlo


de la ocultación de la secuencia generada (ocultación de la secuencia de
aleatorización u OSA). De acuerdo con ello, debe ser imposible para el
investigador conocer en qué grupo caerá el paciente que va a ser aleatorizado,
ya que ese conocimiento puede condicionar su actitud clínica ante el paciente,
forzando su exclusión o su inclusión en un grupo diferente al que le
pertenecería de acuerdo con la secuencia aleatoria, lo que, ocioso es decirlo,
alteraría completamente el proceso. Existe evidencia empírica de que la
ausencia de OSA es el factor que provoca mayor sobreestimación del efecto
experimental y, por tanto, mayor sesgo en los EC (39). Buenos métodos de
ocultar la secuencia de aleatorización pueden ser encargar el proceso a un
agente externo (p. ej. el Servicio de Farmacia o una central de aleatorización) o
el uso de sobres opacos y numerados.

La tercera de las cuestiones clave (que las plantillas de CASPe califican junto a
las dos anteriores como de ―eliminación‖) es determinar si los datos de los
resultados o desenlaces han sido recogidos de manera incompleta. Ello
puede ocurrir tanto por la pérdida de datos como por exclusiones del análisis.

a) La pérdida de datos puede tener lugar por numerosos mecanismos:


abandonos voluntarios del ensayo, falta de presentación a las visitas,
incapacidad o muerte, entre otros. Dado que los EC se prolongan
generalmente durante un tiempo más o menos largo, estas pérdidas no
son raras y el tratamiento es delicado. En general se acepta que
pérdidas del 5% de la muestra son tolerables y que pérdidas superiores
al 20% originarán un sesgo de los resultados inaceptable (40). Es
importante detectar si las pérdidas se producen de manera balanceada
en todos los grupos o si, por el contrario, son más abundantes en uno de
los brazos. Puede servirnos de ayuda para su visualización rápida el

18
diagrama de flujo cada vez más frecuente en los EC en el que se refleja
qué ha pasado en cada momento con los participantes del ensayo.
Si las pérdidas se encuentran en la zona de incertidumbre (entre el 5% y
el 20%) puede recurrirse a hacer una especie de análisis de sensibilidad
situándonos en el peor de los casos (todos los pacientes perdidos
tuvieron desenlaces desfavorables) y en el mejor de ellos (todos los
pacientes perdidos tuvieron desenlaces favorables). La consideración de
ambos extremos nos dará una idea de la robustez de los hallazgos del
EC (37).
b) Las exclusiones del análisis se producen cuando no se analiza a los
pacientes en el grupo al que fueron originalmente asignados. El único
procedimiento de análisis de los datos que preserva la aleatorización y
que se acerca a la práctica real es el llamado análisis por intención de
tratar (AIT), que consiste justamente en mantener el análisis de los
pacientes en el grupo donde les situó el proceso de sorteo. La
alternativa es el llamado análisis por protocolo (APP), en el que se
analizan los resultados de los pacientes en el grupo en el que acabaron
el ensayo. En los ensayos de superioridad el AIT es más conservador,
por lo que es éste el que debemos elegir; en los ensayos de
equivalencia/no inferioridad, por el contrario, lo conservador es el APP.
La evidencia empírica pone de manifiesto que los EC que se desvían del
AIT muestran mayores efectos de la intervención experimental (41). Un
ejemplo: un EC en el que se comparó vinflunina más mejor tratamiento
de soporte frente a mejor tratamiento de soporte en carcinoma urotelial
avanzado no fue capaz de demostrar diferencias significativas entre los
grupos cuando se analizaron los datos según AIT (HR 0,88; IC 95%
0,69-1,12) pero sí cuando se recurrió a un AIT ―modificado‖: HR 0,77; IC
95% 0,61-0,98 (42).

El cegado o enmascaramiento es el procedimiento por el cual se asegura que


los participantes, los investigadores, los recolectores de los datos o los
analistas de los mismos desconocen qué intervención se aplica a cada
paciente (37). En función del grado de desconocimiento se hablará de ensayos
abiertos, simple ciego, doble ciego o triple ciego.

19
El enmascaramiento constituye sin duda una de las características de los EC
más conocida y que, a priori, parece influir más en el resultado. Sin embargo,
los estudios metaepidemiológicos señalan que la sobreestimación del efecto no
sobrepasa el 20% (recuérdese que para la OSA era del 40%), especialmente si
se analizan variables subjetivas. Es poco probable que el conocimiento de la
naturaleza de la intervención pueda influir en la valoración de una variable dura
epidemiológicamente hablando como la mortalidad o el embarazo (sesgo de
comprobación) pero sí puede tenerla en la toma de medidas de cuidados del
participante (sesgo de actuación) o en el análisis de los resultados (sesgo de
detección).

En ocasiones el diseño o la naturaleza del EC no permiten el enmascaramiento


de pacientes o investigadores (p.ej. en la comparación de un tratamiento
médico con uno quirúrgico), pero ello no compromete en absoluto su validez.
En estos casos se hará necesario simplemente el cegamiento de las personas
que recogen los datos y de los analistas de los mismos.

Es muy importante tener clara la diferencia entre la OSA y el cegamiento. La


OSA ayuda a prevenir el sesgo de selección, protege la secuencia de
aleatorización antes y hasta que la intervención es llevada a cabo y siempre
puede hacerse. El cegamiento ayuda a prevenir el sesgo de comprobación,
protege la secuencia de aleatorización después de la adscripción de los
participantes a un grupo, y no siempre puede hacerse (43).

Aunque no es un sesgo que tenga que ver con el diseño del ensayo, la
comunicación selectiva de resultados debe ser considerada cuando se lleva
a cabo LC porque puede distorsionar nuestra percepción del efecto. Se sabe
que en el 62% de los EC al menos un desenlace ha sido cambiado, introducido
u omitido (44) y ello ocurre más frecuentemente (como era de esperar) con
aquellos resultados negativos o no significativos. No es fácil percatarse de este
tipo de sesgos, y en ocasiones es necesario recurrir a los registros
centralizados de ensayos para poner de manifiesto las diferencias entre lo
previsto en el protocolo y lo realmente realizado.

En la tabla 3 aparecen resumidos los principales sesgos que puede tener un


EC.

20
Tabla 3. Principales fuentes de sesgo en los ensayos clínicos

Sesgo ¿Cuándo se produce? Solución Observaciones


Sesgo de selección Cuando participantes Ocultación de la La OSA se comunica en
potencialmente elegibles son secuencia de menos del 10% de los
(Selection bias) selectivamente excluidos del estudio aleatorización ensayos clínicos publicados en
porque el investigador sabe el grupo (OSA) las más prominentes revistas
al que serán asignados si participan. en 5 lenguas diferentes.
Sesgo de Cuando los resultados o las Cegamiento Cegar la recolección de datos
comprobacion, conclusiones de un ensayo son y su análisis.
sesgo de verificación sistemáticamente distorsionados por
el conocimiento de la intervención
(Ascertainment bias) que han recibido los participantes.
Sesgo de actuación, Cuando hay una cointervención en Cegamiento Cegar la recolección de datos
sesgo de conducta uno de los grupos, es decir, y su análisis.
diferencias de tratamiento que van
(Performance bias) más allá de la mera intervención.
Sesgo de detección Cuando hay un análisis sesgado de Cegamiento Cegar la recolección de datos
los desenlaces o resultados debido y su análisis.
(Detection bias) al conocimiento de la intervención
que ha recibido el participante.
Sesgo de desgaste Cuando hay un manejo sesgado de Análisis por En ensayos de equivalencia-
las desviaciones del protocolo intención de no inferioridad es más
(Attrition bias) (alteración de los criterios de tratar. conservador el análisis por
inclusión, falta de adherencia) o de protocolo.
las pérdidas de seguimiento tras la
aleatorización.

(Modificada de Jadad AR, Enkin MW. Bias in Randomized Controlled Trials. En , Jadad AR, Enkin MW.
Randomized Controlled Trials: Questions, Answers, and Musings. 2ª ed. Oxford: Blackwell Publishing Ltd;
2007. p. 29-47).

Una vez evaluada la validez interna de un EC de acuerdo con lo que hemos


visto hasta ahora y antes de pasar a la aplicabilidad (validez externa) es
necesario detenerse en los resultados. La expresión de éstos viene,
lógicamente, condicionada por el tipo de variable a medir. En general, para
variables continuas (tensión arterial, glucemia) se recurre a la diferencia de
medias acotada por su error estándar o el intervalo de confianza. Son
preferibles las variables categóricas (muerte, infarto, ictus) porque nos permiten
trabajar con indicadores epidemiológicos que nos son conocidos y cuyo manejo
es más intuitivo. En la tabla 4 vemos algunos de ellos:

21
Tabla 4. Ejemplo de presentación de resultados

Evento

Eexp/Ec Ec-Eexp/Ec [Eexp-Ec] 1/RAR


Control Exp.

Ec Eexp RR RRR RAR NNT

Ec = eventos en grupo control; Eexp = eventos en grupo experimental; RR = riesgo relativo; RRR
= reducción relativa de riesgo; RAR = reducción absoluta de riesgo; NNT = número necesario a
tratar

Escapa al alcance de este capítulo la descripción pormenorizada de las


ventajas e inconvenientes de estas medidas de efecto, más propia de un
tratado de Epidemiología clínica, pero nos detendremos un poco en una de
ellas que consideramos de especial interés. Nos referimos al NNT. Por
concepto, entendemos como tal el número de pacientes que es necesario tratar
con una terapia frente a otra para obtener una unidad de beneficio adicional
(45). Si comparamos A con B en mortalidad y calculamos un NNT de 120,
significa que es necesario tratar a 120 pacientes con A en lugar de con B para
evitar 1 muerte adicional. El valor del NNT reside en su carácter adimensional y
no relativo, lo que lo hace intuitivamente muy comprensible. Se dispone de
algunas herramientas gráficas que facilitan su interpretación para legos en
forma porcentual (http://www.nntonline.net/).

A pesar de su gran valor, el NNT viene marcado por algunas limitaciones que
es necesario conocer y considerar (45,46). En primer lugar, su dependencia del
riesgo ―basal‖ (eventos en el grupo control) hace que la misma intervención
tenga NNT diferentes en poblaciones con riesgo basal diferente y que, por
tanto, los beneficios sean mayores en poblaciones más graves. En segundo
lugar, su dependencia del tiempo, ya que a medida que transcurre éste y como
consecuencia del aumento del Eexp el NNT disminuirá. Finalmente, los NNT de
un EC serán tantos como desenlaces medidos, y todos ellos deberán ser
tomados en consideración en el proceso de la toma de decisión clínica.

Por último, y para cerrar el apartado de resultados, resaltaremos la necesidad


de definir la precisión de nuestra medida mediante un parámetro que ya hemos

22
utilizado antes, el intervalo de confianza (IC). Habitualmente se escoge el IC
95%, cuyo significado implica que sólo un 5% de las veces el valor real del
parámetro medido se encontrará fuera del intervalo que marcan el límite
superior e inferior del IC (47). Es conveniente y necesario que las medidas de
efecto incluyan el IC como una medida de la los límites entre los que puede
variar el resultado de la intervención. Es fácil darse cuenta de que a efectos de
toma de decisiones no es lo mismo, por ejemplo, un NNT de 150 con un IC
95% de 20-2000 que otro igual pero cuyo IC se estrecha hasta 100-250; este
último nos proporcionará un valor con un menor grado de incertidumbre.

El objetivo final de la LC es la toma de decisiones acerca de pacientes


concretos en un contexto de incertidumbre mínima, una vez analizada la
validez interna del estudio y si sus resultados son relevantes. Por ello, las tres
últimas preguntas de la plantilla CASPe hacen alusión justamente a la
aplicabilidad del ensayo. Entendemos por aplicabilidad la medida en que los
resultados obtenidos en un ensayo clínico se asemejarán a los resultados
esperados cuando una intervención específica sea aplicada a la población de
interés bajo condiciones reales y no experimentales (48). Las preguntas del
tercer bloque que podemos ver en el Anexo I vienen a ser un sumario
realmente esquemático de la aplicabilidad, pero la realidad es que su análisis
no es en absoluto sencillo, y esta dificultad viene definida por el conocido hiato
existente entre eficacia y efectividad. Una interesante revisión de estos
aspectos puede verse en el artículo de Rothwell (49).

Lectura crítica de revisiones sistemáticas

La PBE necesita de acuerdo con sus principios una jerarquía que ordene las
evidencias de acuerdo con su valor, pues se acepta que no todas ellas son
iguales. En esta estructura piramidal las RS con meta-análisis se sitúan, como
se ha visto antes, en lo más alto (17).

Tradicionalmente, los profesionales hemos usado los artículos de revisión para


obtener una amplia visión acerca de un problema clínico, ya que poner toda
nuestra confianza en un solo estudio podría ser arriesgado (50). Estas
revisiones, a las que podemos llamar ―narrativas‖, raramente proporcionan
respuesta a cuestiones clínicas concretas, expresan el punto de vista del autor

23
o autores (a menudo un experto o varios) y no son reproducibles, por lo que
cabría calificarlas mejor como artículos de opinión (50), lo que las arrojaría a la
base de la pirámide de jerarquía de la evidencia (ver antes). A diferencia de
estas revisiones, una RS es una investigación científica en la que la unidad de
análisis son los estudios originales primarios, a partir de los cuales se pretende
contestar a una pregunta de investigación claramente formulada y estructurada,
mediante un proceso sistemático, explícito y reproducible que evalúa la calidad
de los estudios incluidos (50,51).

Las RS tienen dos ventajas fundamentales. En primer lugar, mediante la


combinación de los datos mejoran la capacidad de estudiar la consistencia de
los resultados, ya que al aumentar la n (agregando estudios similares)
aumentamos el poder estadístico. Además, la existencia de efectos similares
en diversos escenarios proporciona también un plus de credibilidad de los
resultados (52). Un inconveniente clave en las RS es que producen
estimaciones que son tan fiables como los estudios analizados (garbage in,
garbage out). Un meta-análisis derivado de EC con bajo riesgo de sesgo
siempre será mejor que otro procedente de estudios observacionales con
menor protección frente al sesgo (53).

De manera similar a los EC, la LC de las RS analiza de manera estructurada


tres aspectos fundamentales: credibilidad de la metodología, confianza en las
estimaciones de los resultados y aplicabilidad (Anexo II). Describiremos a
continuación con algo de detalle estas cuestiones.

La primera piedra en la construcción de la credibilidad la pone la pregunta


clínica debidamente formulada. Este elemento no se diferencia excesivamente
de lo que se ha visto para los EC, es decir, formato PICO con las partes
claramente definidas. En el caso de las RS adquiere especial importancia la
concreción de los apartados, pues ello nos dará una medida de la validez de
las conclusiones. Es fácil de entender que no es lo mismo una pregunta del tipo
‖en pacientes con cáncer, ¿prolonga la quimioterapia la supervivencia global?‖
que otra como ―en pacientes diagnosticados de cáncer de mama irresecable o
metastásico, HER2 positivo, que no hayan recibido tratamiento previo anti-
HER2 o quimioterapia para la enfermedad metastásica, y con buen estado
general (ECOG 0-1), ¿aumenta pertuzumab + trastuzumab + docetaxel la

24
supervivencia global más que trastuzumab + docetaxel?‖. Parece lógico y
razonable, pero no es raro encontrar en la literatura preguntas genéricas o mal
formuladas. Un caso extremo lo encontramos en un artículo publicado bajo el
epígrafe de ―revisión sistemática‖ (54) en el que se declaran como objetivos de
la RS ―Describir algunas generalidades relacionadas con la obesidad y el
sobrepeso y revisar la asociación que puede darse entre estas circunstancias y
la enfermedad mental, en general, y la esquizofrenia, en particular, y su
influencia en la administración de antipsicóticos atípicos en el peso corporal de
estos pacientes‖. Es difícil encontrar aquí ninguno de los términos de la
pregunta PICO.

La segunda pregunta tiene que ver con el tipo de artículos con los que se va a
construir la RS, lo que viene a ser el trasunto de los criterios de inclusión de un
EC. Para que la RS pueda ser reproducible es necesario conocer qué artículos
se van a incluir: EC, estudios de cohortes, series de casos, etc. Esta elección
depende fundamentalmente de la pregunta formulada. Si vamos a analizar
eficacia de tratamientos, deberemos buscar EC; por el contrario, si vamos a
intentar estimar la incidencia de algún efecto adverso será preciso recurrir a la
búsqueda de estudios de cohortes o de casos y controles, porque es poco
probable que encontremos demasiada información en EC.

Una buena parte de la calidad de una RS va a venir definida por lo


exhaustividad de la búsqueda bibliográfica, lo que significa que es
necesario ir más allá de las bases de datos más conocidas (PubMed, Embase,
Índice Médico Español, Cochrane Central Register of Controlled Trials, etc.) y
buscar en fuentes que podemos calificar como menos agradecidas. No es este
el lugar de recoger las diferentes bases de datos existentes además de las
mencionadas (Teseo, CINAHL, LILACS, etc.) pero no deben pasarse por alto.
Es evidente que según la pregunta formulada la información en estas fuentes
―menores‖ podrá ser irrelevante, porque es poco probable que un megaensayo
no sea publicado en alguna revista que venga recogida en PubMed o Embase,
pero un 42% de los meta-análisis publicados incluyeron al menos un EC no
indexado en PubMed (55).

No debe olvidarse en ningún caso la búsqueda en los registros de EC


(clinicaltrials.gov, controlled-trials.com, base de datos de EC de la OMS)

25
porque nos proporcionará información acerca de si hay EC en curso o
finalizados y pendientes de publicación. Aunque no suelen aparecer los
resultados, se dispone de información acerca del investigador principal, al que
se puede solicitar un avance de los mismos. De manera análoga, puede
contactarse también con el laboratorio farmacéutico que comercializa alguno de
los medicamentos estudiados en busca de información no publicada.

El contacto con expertos en la materia y el seguimiento de las referencias


(chequeo de la bibliografía de los artículos encontrados en la búsqueda)
pueden ayudarnos también a localizar artículos de difícil acceso o ―literatura
gris‖.

Un tipo de sesgo específico de las RS es el llamado sesgo de publicación, que


en ocasiones puede dar al traste con una buena revisión. En una de sus formas
más simples puede adquirir la forma simple de una aparentemente inocente
restricción del idioma de búsqueda. No es raro encontrar RS que en el
apartado de Material y Métodos especifican que ―no se buscaron artículos en
lenguas diferentes del inglés‖. Es claro que este tipo de métodos pueden pasar
por alto un volumen de información cuya dimensión no podemos conocer a
priori.

Una herramienta útil para calibrar el sesgo de publicación es el llamado funnel


plot o diagrama de embudo. Se trata de un sencillo diagrama en el que se
representa el efecto de los distintos estudios (abscisas) frente a su precisión o
tamaño de muestra (ordenadas) para observar cómo de simétrica es su
distribución con respecto al eje que marca el efecto agregado obtenido en la
RS (56). Cuanto más simétrica sea la distribución de los puntos, más seguros
estaremos de la ausencia de sesgo de publicación. El funnel plot adquiere
relevancia a partir de un número de estudios superior a 10. Aunque a escala
reducida (con menos de 10 estudios), en la figura 2 podemos ver un ejemplo en
el que dos de los puntos se escapan del ―embudo‖, lo que hablaría en favor de
un posible sesgo de publicación.

150
100 26
n

50
Figura 2. Funnel plot. Se ha representado el tamaño de la muestra frente al
riesgo relativo (RR). El diamante más grande corresponde al RR agregado.

El sesgo de publicación puede distorsionar completamente los resultados de


una RS, ya que sabemos que los EC con resultados positivos, en inglés o
promovidos por la industria farmacéutica tienen más probabilidades de ser
publicados (50). Cuando se revisaron los EC sobre 12 antidepresivos de nueva
generación aprobados por la FDA pudo comprobarse que se publicaron 37 de
los 38 que dieron resultados positivos para el fármaco experimental, pero sólo
3 de los 36 con resultados negativos (57). Una RS sobre la eficacia de estos
fármacos hubiera proporcionado resultados realmente sesgados. En la
actualidad, y desde hace unos pocos años, las agencias reguladoras obligan a
publicar todos los EC que son registrados y las revistas no admiten a
publicación EC no registrados (58) con lo que parece que el círculo contra el
―fraude por omisión‖ se estrecha. Pero ―hecha la ley, hecha la trampa‖: los
resultados no convenientes pueden demorarse años en ser publicados o
pueden hacerlo en revistas de escaso impacto o reducida distribución.

Por último, se ha mencionado varias veces la reproducibilidad como


característica distintiva de las RS y ello implica, como es lógico, unos criterios
de búsqueda transparentes y explícitos. Sabemos que cada base de datos
tiene un lenguaje de interrogación y un thesaurus de términos propios, por lo
que hay que facilitar al lector de la RS la estructura de la búsqueda en cada
una de ellas, de manera que cualquiera que la repita obtenga exactamente los
mismos resultados.

27
Un punto crucial en la LC de una RS es la evaluación de la calidad de los
estudios originales incluidos. Puede hacerse una buena RS
(metodológicamente hablando) a partir de estudios de baja calidad pero sus
conclusiones tendrán dudosa fiabilidad, ya que los estudios menos rigurosos
suelen sobreestimar los efectos de las intervenciones. Sabemos a partir del
apartado anterior cuáles son los aspectos nucleares de calidad en un EC
(buena aleatorización, OSA, AIT, enmascaramiento), lo que nos proporciona
herramientas para valorar los estudios individuales. La escala más
comúnmente utilizada es la que usa la Cochrane Collaboration en sus RS para
la detección del sesgo en los EC originales; se basa en una serie de dominios
(generación de la secuencia de aleatorización, OSA, cegamiento de pacientes,
personal y evaluadores, datos de resultados incompletos, notificación selectiva
de resultados y otras fuentes de sesgo) que se califican de acuerdo con
criterios explícitos en bajo riesgo de sesgo, alto riesgo de sesgo o riesgo
desconocido. Cada tipo genera un color para cada ensayo (bajo riesgo verde,
alto riesgo rojo, riesgo desconocido amarillo), de manera que al final puede
verse de un vistazo el ―semáforo‖ y hacerse una idea aproximada del sesgo de
la RS (59). En cualquier caso, y como consumidores críticos de RS, lo que
debemos analizar es el esfuerzo que han hecho los autores para evaluar la
calidad, y qué tratamiento le dan luego a esta evaluación. En algunas RS se
practica un análisis de los resultados incluyendo o eliminando los EC de menor
calidad para ver cómo varía el resultado y cuánto de robusto es éste.

En aquellas RS que se acompañan de meta-análisis es necesario considerar la


heterogeneidad de los estudios. Pensemos que se van a combinar de manera
matemática resultados que proceden de EC que son diferentes en muchos
aspectos, y estas diferencias deben ser reconocidas y valoradas. El abordaje
de la heterogeneidad implica dos aproximaciones diferentes: una cualitativa o
clínica y otra cuantitativa o estadística; ambas son complementarias y deben
ser evaluadas.

La heterogeneidad cualitativa o clínica puede valorarse mediante el análisis de


las características descriptivas de los estudios originales, fundamentalmente de
aquellas relacionadas con la pregunta PICO: poblaciones similares,
intervenciones y controles parecidos, resultados equivalentes. Pensemos en lo

28
poco coherente clínicamente que resultaría combinar los resultados de EC en
adultos y en niños, con dosis altas y bajas de un determinado fármaco o en
diferentes estadios de gravedad de una enfermedad. Una RS cuyo objetivo era
estimar el valor de la albúmina como fluido de reanimación en sepsis incluyó 17
EC de los que 14 eran en adultos y 3 en niños con malaria (60). Aunque la
heterogeneidad estadística fue muy baja, es evidente que desde un punto de
vista clínico las poblaciones de adultos y de niños deberían ser consideradas
separadamente. En este caso, se debería haber realizado análisis de
subgrupos, metarregresión o haber comprobado el resultado de cada estudio (o
su conjunto) en el resultado global (50).

La heterogeneidad cuantitativa o estadística puede apreciarse a simple vista en


el diagrama forest plot que acompaña a los meta-análisis (y que explicaremos
más adelante). Estudios con efectos en la misma dirección y con intervalos de
confianza solapados van a indicarnos una heterogeneidad baja. Una manera
de medir cuantitativamente la heterogeneidad viene dada por el estadístico I2:
valores de 0-40% indican baja heterogeneidad mientras que valores superiores
al 50% indican alta heterogeneidad.

El resultado final de una RS con meta-análisis es una estimación del tamaño


de un efecto o de una diferencia entre grupos, y cuya medida dependerá del
tipo de desenlace: RR, OR, RAR, HR, diferencias estandarizada de medias o
diferencias ponderadas de medias. Habitualmente el resultado se refleja en un
gráfico que conocemos como forest plot. Típicamente, la estimación de cada
estudio se presenta como un cuadrado con una superficie proporcional a su
peso (y, por tanto, a su precisión) y una línea horizontal que señala su IC; el
resultado agregado aparece hacia la base del diagrama en forma de un rombo
o diamante cuya anchura refleja también su IC (53,61).

Es importante en las RS con meta-análisis llevar a cabo un análisis de


sensibilidad para explorar la consistencia y robustez de los resultados. Este
análisis consiste en repetir el meta-análisis omitiendo cada vez uno de los
estudios incluidos y viendo cómo se modifica la estimación del agregado; si
éste no se modifica en su dirección (más activa la intervención que el control o
al revés), magnitud y significación estadística por los cambios, podemos
concluir razonablemente que los resultados son robustos. Si por el contrario

29
hay cambio de dirección del agregado cuando se elimina alguno de los
estudios de más peso, los resultados deberán ser interpretados con
precaución.

Análogamente a lo que ocurría con los EC, el objetivo final de la LC de una RS


es estimar cuánto me puedo fiar de ella a la hora de aplicar los resultados a
mis pacientes. Esta es una decisión que debe tomarse de manera individual y
valorando cada uno de los aspectos antedichos.

Los consensos de publicación

La manera habitual en que la comunidad investigadora comunica sus hallazgos


es la publicación en las revistas científicas, y la calidad con que estos hallazgos
son comunicados determinará en gran parte su usabilidad posterior. La
comunicación incompleta o selectiva de los métodos del estudio o de los
resultados impide su evaluación crítica y también su utilización en
investigaciones futuras, RS o guías de práctica. Colateralmente, la sociedad en
su conjunto puede verse perjudicada si pacientes o gestores sanitarios desean
utilizar información procedente de estudios mal escritos o mal comunicados
(62). Con objeto de aumentar la confiabilidad y el valor de la literatura publicada
en ciencias de la salud se desarrolló 15 años atrás la iniciativa internacional
EQUATOR (Enhancing the Quality and Transparency of Health Research)
(http://www.equator-network.org/), que elabora documentos guía para orientar y
promover la comunicación científica precisa y transparente, especificando los
ítems que deben ser contemplados cuando se publica un estudio, desde el
título hasta las conclusiones (tabla 5). De especial interés son los consensos
CONSORT (para EC) y PRISMA (para RS), que proporcionan una inestimable
ayuda no sólo antes de enviar el artículo a una revista sino también en el
diseño inicial del estudio.

30
Tabla 5. Guías EQUATOR para la publicación de estudios
Tipo de estudio Consenso Extensiones

Ensayos clínicos CONSORT SÍ*

Estudios observacionales STROBE SÍ*

Revisiones sistemáticas PRISMA SÍ*

Comunicación de casos CARE

Investigación cualitativa SRQR COREQ

Estudios diagnósticos o pronósticos STARD TRIPOD

Estudios de mejora de calidad SQUIRE

Evaluaciones económicas CHEERS

Estudios preclínicos en animal de experimentación ARRIVE

Protocolos de estudios SPIRIT PRISMA-P

(disponible en http://www.equator-network.org/about-us/. Acceso septiembre de 2016)

*Disponibilidad de guías específicas para distintos tipos de estudios (p. ej. las extensiones de
CONSORT incluyen ensayos de n=1, estudios de equivalencia/no inferioridad, EC pragmáticos,
etc.)

31
Bibliografía

1. Del Fiol G, Workman TE, Gorman PN. Clinical questions raised by


clinicians at the point of care. A systematic review. JAMA Intern
Med 2014; 174:710-8.
2. Glasziou P. Why is evidence-based medicine important? Evid Based
Med 2006; 11:133-5. doi. 10.1136/ebm.11.5.133.
3. Anónimo. Medical milestones. BMJ 2007. Disponible en
http://www.bmj.com /cgi/content/full/334/suppl_1/DC3 (acceso mayo de
2007).
4. Sackett DL, Rosenberg WMC, Gray JAM, Haynes RB, Richardson WS.
Evidence based medicine: what it is and what it isn’t. BMJ 1996; 312:71-
2.
5. Straus SE, Richardson WS, Glasziou P, Haynes RB. Medicina basada
en la evidencia. Cómo practicar y enseñar la MBE. 3ª ed. Madrid:
Elsevier; 2006.
6. Ibáñez Pradas V, Modesto Alapont V. Introducción a la medicina basada
en la evidencia. Cir Pediatr 2005; 18:55-60.
7. Straus SE, McAlister FA. Evidence-based medicine: a commentary on
common criticisms. CMAJ 2000; 163:837-41.
8. Ortega Calvo M, Cayuela Domínguez A. Medicina basada en la
evidencia: una crítica filosófica sobre su aplicación en atención primaria.
Rev Esp Salud Pública 2002; 76:115-20.

9. Sehon SR, Stanley DE. A philosophical analysis of the evidence-based


medicine debate. BMC Health Serv Res 2003; 3:14..
10. Holmes D, Murray SJ, Perron A, Rail G. Deconstructing the evidence-
based discourse in health sciences: truth, power and fascism. Int J Evid
Based Healthc 2006; 4:180-6.
11. Samarkos MG. The philosophy of Evidence-based medicine. Hospital
Chronicles 2006; 1:27–35.
12. Sánchez López MC, Madrigal de Torres M, Sánchez Sánchez JA,
Menárguez Puche JA, Aguinaga Ontoso E ¿Qué pensamos los médicos
de familia sobre la medicina basada en la evidencia? Un estudio con
grupos focales. Aten Primaria 2010; 42:507-13.

32
13. Emparanza JI, Cabello JB, Burls AJE. Does evidence–based practice
improve patient outcomes? An analysis of a natural experiment in a
Spanish hospital. J Eval Clin Pract 2015; 21:1059-65.
14. Saber JL, Kalafut M. Combination therapies and the theoretical limits of
evidence-based medicine. Neuroepidemiology 2001; 20:57-64.
15. Glasgow RE, Magid DJ, Beck A, Ritzwoller D, Estabrooks PA. Practical
clinical trials for translating research to practice: design and
measurements recommendations. Med Care 2005; 43:551-7.
16. Canadian Task Force on the Periodic Health Examination. The periodic
health examination. CMAJ 1979; 121:1193-254.
17. Murad MH, Asi N, Alsawas M, Alahdab F. New evidence pyramid. Evid
Based Med 2016; 21:125-7.
18. Guyatt GH, Oxman AD, Vist GE, Kunz R, Falck-Ytter Y, Alonso-Coello P,
et al. for the GRADE Working Group. GRADE: an emerging consensus
on rating quality of evidence and strength of recommendations. BMJ
2008; 336:924–6.
19. Cabello López JB, Latour Pérez J. De la evidencia a la recomendación.
GRADE. En: Cabello JB ed. Lectura crítica de la evidencia clínica.
Barcelona: Elsevier; 2015. p. 181-94.
20. Burls A. What is critical appraisal? 2ª ed. Oxford, UK: University of
Oxford; 2009. (What is…? series). Disponible en
http://www.medicine.ox.ac.uk/ bandolier/painres/download/whatis
/what_is_critical_appraisal.pdf (acceso marzo 2011).
21. Cabello JB, Emparanza JI. Lectura crítica para la práctica clínica basada
en la evidencia. En: Cabello JB ed. Lectura crítica de la evidencia clínica.
Barcelona: Elsevier; 2015. p. 7-20.
22. Goodwin M, Seguin L. Critical appraisal skills of family physicians in
Ontario, Canada. BMC Medical Education 2003; 3:10.
23. Burls A, Emparanza JI, Cabello JB. ¿Por qué la lectura crítica? En:
Cabello JB ed. Lectura crítica de la evidencia clínica. Barcelona:
Elsevier; 2015. p. 1-6.
24. Smith R. The trouble with medical journals. London: The Royal Society of
Medicine Press Ltd.; 2011.

33
25. Herbrecht R, Denning DW, Patterson TF, Bennett JE, Greene RE,
Oestmann JW, et al. Voriconazole versus amphotericin b for primary
therapy of invasive aspergillosis. New Engl J Med 2002; 347:408-15.
26. Gotzsche PC. Deadly medicines and organised crime. How big pharma
has corrupted healthcare. London: Radcliffe Publishing; 2013.
27. Zeppetella G, Davies AN. Opioids for the management of breakthrough
pain in cancer patients. Cochrane Database Syst Rev. 2013 Oct
21;10:CD004311. doi: 10.1002/14651858.CD004311.pub3.
28. Coluzzi PH, Schwartzberg L, Conroy JD, Charapata S, Gay M, Busch
MA, et al. Breakthrough cancer pain: a randomized trial comparing oral
transmucosal fentanyl citrate (OTFC) and morphine sulfate immediate
release (MSIR). Pain 2001; 91:123-30.
29. Als-Nielsen B, Chen W, Gluud C, Kjaergard LL. Association of funding
and conclusions in randomized drug trials: a reflection of treatment effect
or adverse events? JAMA 2003; 290:921-8.
30. Flacco ME, Manzoli L, Boccia S, Capasso L, Aleksovska K, Rosso A, et
al. Head-to-head randomized trials are mostly industry sponsored and
almost always favor the industry sponsor. J Clin Epidemiol 2015; 68:811-
20.
31. Spillane AJ, Crowe PJ. The role of the journal club in surgical training.
Aust N Z J Surg. 1998;68:288–91.
32. Ruiz García V, Cabello López JB. Clubes de lectura en el siglo XXI. Med
Clin (Barc) 2010; 135:556–60.
33. Phillips RS, Glasziou P. What makes evidence-based journal clubs
succeed? Evid Based Med 2004; 9:36-7.
34. Bales E. Corporate universities vs traditional universities: Friends or
foes? Third annual EDINEB (Educational Innovations in Economics and
Business) International Conference. Orlando, Florida, USA; 1996.
35. Chalmers I, Dukan E, Podolsky SH, Davey Smith G. The advent of fair
treatment allocation schedules in clinical trials during the 19th and early
20th centuries. J R Soc Med 2012; 105:221–7.
36. Long M, Blankenburg R, Butani L. Questioning as a teaching tool.
Pediatrics 2015; 135:406-8.

34
37. López Briz E, Pijoan Zubizarreta JI, Cabello López JB. Lectura crítica de
estudios de tratamiento. Ensayos clínicos aleatorios. En: Cabello JB ed.
Lectura crítica de la evidencia clínica. Barcelona: Elsevier; 2015. p. 35-
62.
38. McPherson GC, Campbell MK, Elbourne R. Use of randomization in
clinical trials: a survey of the UK practice. Trials 2012; 13: 198.
39. Wood L, Egger M, Gluud LL, Schlulz KF, Juni P, Altmann D, et al.
Empirical evidence of bias in treatment effect estimates in controlled
trials with different interventions and outcomes: meta-epidemiological
study. BMJ 2008; 336:601-5.
40. Dumville JC, Torgerson DJ, Hewitt CE. Reporting attrition in randomised
controlled trials. BMJ 2006, 332: 969–71.
41. Abraha I, Cherubini A, Cozzolino F, De Florio R, Luchetta ML, Rimland
JM, et al. Deviation from intention to treat analysis in randomised trials
and treatment effect estimates: meta-epidemiological study. BMJ 2015;
350:h2445. doi: 10.1136/bmj.h2445.
42. Bellmunt J, Theodore C, Demkov T, Komyakov B, Sengelov L, Daugaard
G, et al. Phase III Trial of Vinflunine Plus Best Supportive Care
Compared With Best Supportive Care Alone After a Platinum-Containing
Regimen in Patients With Advanced Transitional Cell Carcinoma of the
Urothelial Tract. J Clin Oncol 2009; 27:4454-61.
43. Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical evidence of
bias: dimensions of methodological quality associated with estimates of
treatment effects in controlled trials. JAMA 1995; 273:408–12.
44. Chan AW, Hróbjartsson A, Haahr MT, Gøtzsche PC, Altman DG.
Empirical evidence for selective reporting of outcomes in randomized
trials: comparison of protocols to published articles. JAMA 2004;
291:2457-65.
45. McAlister FA. The ―number needed to treat‖ turns 20 — and continues to
be used and misused. CMAJ 2008, 179: 549-53.
46. Laupacis A, Sackett DL, Roberts RS. An assessment of clinically useful
measures of the consequences of treatment. N Engl J Med 1988;
318:1728-33.

35
47. Sedgwick P. Understanding confidence intervals. BMJ 2014; 349:g6051
doi: 10.1136/bmj.g6051.

48. Atkins D, Chang S, Gartlehner G, Buckley DI, Whitlock EP, Berliner E, et


al. Assessing the Applicability of Studies When Comparing Medical
Interventions. Agency for Healthcare Research and Quality; January
2011. Methods Guide for Comparative Effectiveness Reviews. AHRQ
Publication No. 11-EHC019-EF. Diasponible en
http://effectivehealthcare.ahrq.gov/ (acceso mayo de 2014).

49. Rothwell PM. External validity of randomised controlled trials: "to whom
do the results of this trial apply?" Lancet 2005; 365:82-93.
50. Ruiz García V, Carbonell Sanchis R, Urreta Barallobre I. Lectura crítica
de estudios de tratamiento. Revisiones sistemáticas de ensayos clínicos
aleatorios. Cabello JB ed. Lectura crítica de la evidencia clínica.
Barcelona: Elsevier; 2015. p. 63-86.
51. Ferreira González I, Urrutia G, Alonso-Coello P. Revisiones sistemáticas
y metaanálisis: bases conceptuales e interpretación. Rev Esp Cardiol
2011; 64:688–96.
52. Glasziou P, Irwig L, Bain C, Colditz G. Systematic Reviews in Health
Care. A Practical Guide. Cambridge: Cambridge University Press; 2001.
53. Murad MH, Montori VM, Ioannidis JP, Jaeschke R, Deveraux PJ, Prasad
K, et al. How to read a systematic review and meta-analysis and apply
the results to patient care: users' guides to the medical literature.
JAMA 2014; 312:171-9.
54. Joffre-Velázquez VM, García-Maldonado G, Saldívar-González AH,
Martínez-Perales G. Revisión sistemática de la asociación entre
sobrepeso, obesidad y enfermedad mental, con énfasis en el trastorno
esquizofrénico. Rev Colomb Psiquiat 2009; 38: 705-16.
55. Egger M, Juni P, Bartlett C, Holenstein F, Sterne J. How important are
comprehensive literature searches and the assessment of trial quality in
systematic reviews? Empirical study. Health Technol Assess 2003;7:1-
76.
56. Sedgwick P. Meta-analysis: how to read a funnel plot. BMJ 2013;
346:f1342 doi: 10.1136/bmj.f1342.

36
57. Turner EH, Matthews AM, Linardatos E, Tell RA, Rosenthal R. Selective
publication of antidepressant trials and its influence on apparent efficacy.
N Engl J Med 2008; 358:252-60.
58. Prayle AP, Hurley MN, Smyth AR. Compliance with mandatory reporting
of clinical trial results on ClinicalTrials.gov: cross sectional study. BMJ
2011; 344: d7373 doi: 10.1136/bmj.d7373.
59. Higgins JPT, Green S. Cochrane Handbook for systematic reviews of
interventions. 2ª ed. Chichester: Wiley; 2011.
60. Delaney AP, Dan A, McCaffrey J, Finfer S. The role of albumin as a
resuscitation fluid for patients with sepsis: A systematic review and meta-
analysis. Crit Care Med 2011; 39: 386-91.
61. Ried K. Interpreting and understanding meta-analysis graphs. A practical
guide. Aust Fam Physician 2006; 35:635-8.
62. Simera I, Altman DG, Moher D, Schulz KF, Hoey J. Guidelines for
reporting health research: the EQUATOR Network’s survey of guideline
authors. PLoS Med 2008; 5: e139. doi:10.1371/journal.pmed.0050139.

37
ANEXO I

11 Preguntas para dar sentido a un ensayo clínico

A. ¿Son válidos los resultados del ensayo?


Preguntas de eliminación
Sí No sé No
1 ¿Se orienta el ensayo a una pregunta claramente definida?
Una pregunta debe definirse en términos de:
P La población de estudio.
I La intervención realizada.
O Los resultados considerados.
Sí No sé No
2 ¿Fue aleatoria la asignación a los tratamientos?
¿Se mantuvo oculta la secuencia de aleatorización?
Sí No sé No
3 ¿Fueron adecuadamente considerados hasta el final del estudio todos los pacientes
que entraron en él?
¿El seguimiento fue completo?
¿Se analizaron los pacientes en el grupo al que fueron aleatoriamente asignados?

Preguntas de detalle
Sí No sé No
4 ¿Se mantuvieron ciegos al tratamiento los pacientes, los clínicos y el personal del
estudio?
Los pacientes.
Los clínicos.
El personal del estudio.
Sí No sé No
5 ¿Fueron similares los grupos al comienzo del estudio?
En términos de otros factores que pudieran tener efecto sobre el resultado: edad, sexo, etc.
Sí No sé No
6 ¿Al margen de la intervención en estudio los grupos fueron tratados de igual modo?

B. ¿Cuáles son los resultados?


7 ¿Cómo de grande fue el efecto del tratamiento?
¿Qué resultados se midieron?
¿Qué estimadores se usaron?
8 ¿Cómo es la precisión de la estimación del efecto del tratamiento?
¿Cuáles son sus intervalos de confianza?

C. ¿Pueden ayudarnos estos resultados?


9 ¿Pueden aplicarse estos resultados en tu medio o población local?
¿Crees que los pacientes incluidos en el ensayo son suficientemente parecidos a tus pacientes?
10 ¿Se tuvieron en cuenta todos los resultados de importancia clínica?
En caso negativo, ¿en qué afecta eso a la decisión a tomar?
11 ¿Los beneficios a obtener justifican los riesgos y los costes?
Es improbable que pueda deducirse del ensayo, pero ¿qué piensas tú al respecto?

38
ANEXO II

10 Preguntas para ayudarte a entender una revisión

A. ¿Son válidos los resultados de la revisión?


Preguntas de eliminación
Sí No sé No
1 ¿Se hizo la revisión sobre un tema claramente definido?
Un tema debe ser definido en términos de:
- La población de estudio.
- La intervención realizada.
- Los resultados considerados.
Sí No sé No
2 ¿Buscaron los autores el tipo de artículos adecuado?
El mejor “tipo de estudio” es el que:
- Se dirige a la pregunta objeto de la revisión
- Tiene un diseño apropiado para la pregunta

Preguntas de detalle
Sí No sé No
3 ¿Crees que estaban incluidos los estudios importantes y relevantes?
- ¿Qué bases de datos bibliográficos se han usado?
- ¿Se hizo seguimiento de las referencias?
- ¿Se contactó personalmente con expertos?
- ¿Se buscaron estudios no publicados?
- ¿Se buscaron estudios en idiomas diferentes del inglés?
Sí No sé No
4 ¿Crees que los autores de la revisión han hecho suficiente esfuerzo para valorar la calidad
de los estudios incluidos?
PISTA: Los autores necesitan considerar el rigor de los estudios que han identificado. La falta de rigor puede
afectar al resultado de los estudios (“No es oro todo lo que reluce” El Mercader de Venecia Acto II)
Sí No sé No
5 ¿Si los resultados de los diferentes estudios han sido mezclados para obtener un resultado
“combinado”, ¿era razonable hacer eso?
PISTA: Considera si
- los resultados de los estudios eran similares entre sí
- los resultados de todos los estudios incluidos están claramente presentados
- están discutidos los motivos de cualquier variación de resultados

B. ¿Cuáles son los resultados?


6 ¿Cuál es el resultado global de la revisión?
PISTA: Considera
- si tienes claros los resultados últimos de la revisión
- ¿cuáles son? (numéricamente si es apropiado
- ¿cómo están expresados los resultados? (NNT, odds-ratio, etc.)
7 ¿Cuán precisos son los resultados?
PISTA: Busca los intervalos de confianza de los estimadores

C. ¿Son los resultados aplicables en tu medio? Sí No sé No


8 ¿Se pueden aplicarse los resultados en tu medio?
PISTA: Considera si
- los pacientes cubiertos por la revisión pueden ser suficientemente diferentes de los de tu área
- tu medio parece ser muy diferente al del estudio
9 ¿Se han considerado todos los resultados importantes para tomar la decisión?
10 ¿Los beneficios merecen la pena frente a los perjuicios y costes?
Aunque no esté planteado explícitamente en la revisión, ¿qué opinas?

39

También podría gustarte