Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DE LA LITERATURA
Eduardo López Briz
RESUMEN
1
PRÁCTICA BASADA EN LA EVIDENCIA
2
evidencia (MBE) o práctica basada en la evidencia (PBE)* y que se ha
convertido en el nuevo paradigma de la práctica clínica. De las 294 citas que
aparecían en PubMed cuando se buscaba ―evidence based medicine‖ en 1992
se ha pasado a casi 127.000 en 2016, convirtiéndose en el octavo avance
médico más importante desde el año 1.840, por delante de los ordenadores, la
inmunología o el diagnóstico por la imagen (3).
3
La PBE parece tener su origen en las corrientes positivistas y neopositivistas
aparecidas a finales del siglo XIX y principios del XX de la mano de Bertrand
Russell y el Círculo de Viena. De acuerdo con ellos, los enunciados científicos
o son verdades lógico-matemáticas o deben proceder de la observación
empírica (verificacionismo) (8). Desde una visión de ―ciencias‖ bien poco se
puede objetar, pero no han faltado críticas desde el punto de vista filosófico a
estas bases epistemológicas de la PBE (9), algunas de ellas realmente
ridículas (10).
Más interesantes son las críticas que se han hecho desde otros puntos de vista
que nos resultan en general más inteligibles. Samarkos (11) las agrupa en tres
categorías:
4
diferente (12). Las críticas a los aspectos prácticos se contestan fácilmente,
sólo hay que remitirse a la definición formulada más arriba (5): integración de la
experiencia clínica con los valores del paciente y utilización de la mejor
evidencia disponible, lo que no implica necesariamente la más barata ni la
abstención terapéutica si no se dispone de un megaensayo clínico.
Finalmente, con respecto a las críticas del tercer grupo, hay que darles la razón
al menos en parte, ya que la PBE no es una ciencia sino una forma práctica de
ejercerla y no pretende en absoluto explicar nada sino tratar pacientes de la
mejor manera posible. Por otro lado, si consideramos los aspectos éticos bajo
el prisma ―principialista‖, tanto la beneficencia como la no maleficencia y la
justicia salen reforzadas con la PBE si se la compara con cualquier otra forma
de ejercicio de la práctica sanitaria basado en impresiones personales sin base
o en elucubraciones fisiopatológicas no concretadas en la vida real.
5
aplicabilidad real moderada; se calcula que el hiato entre recomendaciones
basadas en la evidencia y la práctica es de alrededor del 50%, principalmente
debido a que los EC no son relevantes para clínicos, decisores y políticos por
los estrictos criterios de inclusión y a que su realización tiene lugar en ámbitos
muchas veces hospitalarios, alejados de escenarios comunitarios en los que
luego se pondrá en práctica la intervención (15).
6
Figura 1. Pirámide de la jerarquía de la evidencia. RS = revisiones sistemáticas;
MA = meta-análisis; ECA = ensayos clínicos aleatorizados
7
ambos. Una peculiaridad de este sistema es que se centra en los desenlaces,
de manera que se consideran todos ellos si son relevantes, tanto los
beneficiosos como los indeseados. Tras los análisis correspondientes se
concreta el proceso en el llamado ―perfil de evidencia‖, que proporciona para
cada desenlace información sobre la calidad de la evidencia que lo sustenta
(19).
CALIDAD DE LA EVIDENCIA
Fuerte a favor
Débil a favor
Débil en contra
Fuerte en contra
Es poco probable que encontremos algún profesional sanitario con una cierta
experiencia que no afirme sin margen de duda que practica sistemáticamente
la LC cuando consume artículos relacionados con su especialidad. Sin
embargo, la realidad es muy diferente. Un estudio llevado a cabo en Canadá
mostró que únicamente un 50% de un grupo de 1.000 médicos de familia
entrevistados tenían conocimientos razonables acerca de métodos de LC y de
interpretación de resultados de artículos de investigación (22). Si extrapolamos
estos resultados a nuestro medio la perspectiva no es demasiado
9
tranquilizadora, teniendo en cuenta que una parte importante de las decisiones
que los clínicos toman diariamente se basan en la aplicación de los resultados
de la literatura biomédica publicada.
10
ingresos gracias a las separatas vendidas y un considerable aumento del factor
de impacto, ya que el laboratorio fabricante orquestó una serie de
publicaciones en revistas secundarias que citaban inexcusablemente el ensayo
pivotal pero que en pocas (o ninguna) ocasión citaron el sesgo que se ha
mencionado (26).
11
En otras ocasiones los datos de los resúmenes no coinciden con los del texto,
los resultados carecen de relevancia clínica o se ha seleccionado la muestra
del ensayo excesivamente (―Antes de que la verdad se ponga los pantalones,
la mentira ha dado una vuelta al mundo‖, Winston Churchill). Actualmente la
base del tratamiento del dolor irruptivo en el cáncer es la utilización de fentanilo
transmucoso y así viene recogido en un buen número de guías, procedimientos
y recomendaciones de expertos. Sin embargo, el ensayo clínico que sustenta
este uso (28), en el que se comparaba morfina oral de liberación rápida con
fentanilo transmucoso, adolecía de un sesgo de selección importante, ya que
se sometió a los pacientes a un proceso previo de selección (run in) de forma
que únicamente entraron en el ensayo aquellos que respondieron al fentanilo
transmucoso, lo que eliminó a un 31% de los pacientes inicialmente
seleccionados. Es fácil comprender que, a la hora de dar el paso de la eficacia
a la efectividad, parece poco probable que seamos capaces a priori de conocer
qué pacientes van a responder a fentanilo y cuáles no, con lo que en el mejor
de los casos nos aseguramos con fentanilo transmucoso un 31% de fracasos.
Los clubs de lectura nacieron en el siglo XIX como lugares de reunión de los
médicos para relacionarse con otros colegas y leer la entonces escasa prensa
médica. En la actualidad el concepto ha cambiado y entendemos como tales la
12
reunión habitual de un grupo de profesionales con objeto de discutir
críticamente la validez y aplicabilidad clínica de los artículos de las revistas
biomédicas (31). Su utilidad formativa es indiscutible y forman parte del
currículo académico en numerosas facultades de EEUU (32).
13
Las ganancias de este modelo de enseñanza han sido demostradas en algunos
ensayos clínicos, y se dirigen fundamentalmente a cambios en el modo de
abordar la literatura biomédica, aumento de conocimientos de Epidemiología
Clínica y mayor confianza en las capacidades propias para hacer LC, pero no
se han podido demostrar mejora de las capacidades clínicas o mejores
resultados en los pacientes (32).
14
Guyatt G, Rennie D, Meade MO, Cook DJ eds. Users guide to the
medical literature. A manual for evidence-based clinical practice. 3ª ed.
McGraw Hill Education; 2015.
Cabello JB ed. Lectura crítica de la evidencia clínica. Barcelona:
Elsevier; 2015. p. 7-20.
Greenhalgh T. How to read a paper. The basics of evidence-based
medicine. 5ª ed. Chichester: Wiley-Blackwell BMJ Books; 2014.
15
La primera cuestión a analizar es la pregunta de investigación. Generalmente
los EC intentan responder a preguntas acerca del valor de unas intervenciones
comparativamente con otras, pero es necesario conocer otros detalles que
aparecen presentes en la pregunta estructurada en el llamado formato PICO,
acrónimo de Pacientes, Intervención, Control y Outcomes (resultados). El valor
didáctico de la formulación de preguntas clínicas en la práctica diaria está fuera
de toda duda (36) pero en el contexto de la LC adquiere otro carácter. Se trata
de evaluar si la población del ensayo está bien definida (criterios de inclusión y
exclusión), la intervención experimental y la de control son reproducibles
(fármacos, dosis, vías, etc.) y los desenlaces (resultados) primarios y
secundarios son explícitos. Habitualmente estos tres aspectos vienen
formulados de manera muy resumida en el último párrafo de la introducción de
los artículos pero para conocerlos en detalle es necesario acudir al apartado de
material y métodos. En la siguiente tabla 2 vemos una pregunta en formato
PICO formulada en un estudio y su posible mejora:
En niños con asma … Población demasiado En niños (2-5 años) con asma
vagamente descrita, sin (intermitente, leve persistente,
especificar bien edad ni moderada persistente, grave
gravedad del asma. persistente) …
16
A partir de la pregunta PICO estructurada es posible detectar con mayor
facilidad si la población está bien descrita y es apropiada para los fines del EC,
si la intervención es reproducible, si la comparación respeta el equipoise
(equilibrio entre beneficios y riesgos) o si por el contrario es inadecuada, y por
último si los resultados se orientan a los pacientes o a la enfermedad
(resultados subrogados) (37).
17
El resultado del proceso de aleatorización cristaliza usualmente en los EC en la
llamada ―Tabla 1‖, donde aparece la distribución de las características en los
brazos obtenidos y que en ocasiones y por puro azar puede reflejar cierto
desequilibrio entre los factores pronósticos, lo que obligaría a hacer análisis
multivariante para analizar su posible influencia en los resultados.
La tercera de las cuestiones clave (que las plantillas de CASPe califican junto a
las dos anteriores como de ―eliminación‖) es determinar si los datos de los
resultados o desenlaces han sido recogidos de manera incompleta. Ello
puede ocurrir tanto por la pérdida de datos como por exclusiones del análisis.
18
diagrama de flujo cada vez más frecuente en los EC en el que se refleja
qué ha pasado en cada momento con los participantes del ensayo.
Si las pérdidas se encuentran en la zona de incertidumbre (entre el 5% y
el 20%) puede recurrirse a hacer una especie de análisis de sensibilidad
situándonos en el peor de los casos (todos los pacientes perdidos
tuvieron desenlaces desfavorables) y en el mejor de ellos (todos los
pacientes perdidos tuvieron desenlaces favorables). La consideración de
ambos extremos nos dará una idea de la robustez de los hallazgos del
EC (37).
b) Las exclusiones del análisis se producen cuando no se analiza a los
pacientes en el grupo al que fueron originalmente asignados. El único
procedimiento de análisis de los datos que preserva la aleatorización y
que se acerca a la práctica real es el llamado análisis por intención de
tratar (AIT), que consiste justamente en mantener el análisis de los
pacientes en el grupo donde les situó el proceso de sorteo. La
alternativa es el llamado análisis por protocolo (APP), en el que se
analizan los resultados de los pacientes en el grupo en el que acabaron
el ensayo. En los ensayos de superioridad el AIT es más conservador,
por lo que es éste el que debemos elegir; en los ensayos de
equivalencia/no inferioridad, por el contrario, lo conservador es el APP.
La evidencia empírica pone de manifiesto que los EC que se desvían del
AIT muestran mayores efectos de la intervención experimental (41). Un
ejemplo: un EC en el que se comparó vinflunina más mejor tratamiento
de soporte frente a mejor tratamiento de soporte en carcinoma urotelial
avanzado no fue capaz de demostrar diferencias significativas entre los
grupos cuando se analizaron los datos según AIT (HR 0,88; IC 95%
0,69-1,12) pero sí cuando se recurrió a un AIT ―modificado‖: HR 0,77; IC
95% 0,61-0,98 (42).
19
El enmascaramiento constituye sin duda una de las características de los EC
más conocida y que, a priori, parece influir más en el resultado. Sin embargo,
los estudios metaepidemiológicos señalan que la sobreestimación del efecto no
sobrepasa el 20% (recuérdese que para la OSA era del 40%), especialmente si
se analizan variables subjetivas. Es poco probable que el conocimiento de la
naturaleza de la intervención pueda influir en la valoración de una variable dura
epidemiológicamente hablando como la mortalidad o el embarazo (sesgo de
comprobación) pero sí puede tenerla en la toma de medidas de cuidados del
participante (sesgo de actuación) o en el análisis de los resultados (sesgo de
detección).
Aunque no es un sesgo que tenga que ver con el diseño del ensayo, la
comunicación selectiva de resultados debe ser considerada cuando se lleva
a cabo LC porque puede distorsionar nuestra percepción del efecto. Se sabe
que en el 62% de los EC al menos un desenlace ha sido cambiado, introducido
u omitido (44) y ello ocurre más frecuentemente (como era de esperar) con
aquellos resultados negativos o no significativos. No es fácil percatarse de este
tipo de sesgos, y en ocasiones es necesario recurrir a los registros
centralizados de ensayos para poner de manifiesto las diferencias entre lo
previsto en el protocolo y lo realmente realizado.
20
Tabla 3. Principales fuentes de sesgo en los ensayos clínicos
(Modificada de Jadad AR, Enkin MW. Bias in Randomized Controlled Trials. En , Jadad AR, Enkin MW.
Randomized Controlled Trials: Questions, Answers, and Musings. 2ª ed. Oxford: Blackwell Publishing Ltd;
2007. p. 29-47).
21
Tabla 4. Ejemplo de presentación de resultados
Evento
Ec = eventos en grupo control; Eexp = eventos en grupo experimental; RR = riesgo relativo; RRR
= reducción relativa de riesgo; RAR = reducción absoluta de riesgo; NNT = número necesario a
tratar
A pesar de su gran valor, el NNT viene marcado por algunas limitaciones que
es necesario conocer y considerar (45,46). En primer lugar, su dependencia del
riesgo ―basal‖ (eventos en el grupo control) hace que la misma intervención
tenga NNT diferentes en poblaciones con riesgo basal diferente y que, por
tanto, los beneficios sean mayores en poblaciones más graves. En segundo
lugar, su dependencia del tiempo, ya que a medida que transcurre éste y como
consecuencia del aumento del Eexp el NNT disminuirá. Finalmente, los NNT de
un EC serán tantos como desenlaces medidos, y todos ellos deberán ser
tomados en consideración en el proceso de la toma de decisión clínica.
22
utilizado antes, el intervalo de confianza (IC). Habitualmente se escoge el IC
95%, cuyo significado implica que sólo un 5% de las veces el valor real del
parámetro medido se encontrará fuera del intervalo que marcan el límite
superior e inferior del IC (47). Es conveniente y necesario que las medidas de
efecto incluyan el IC como una medida de la los límites entre los que puede
variar el resultado de la intervención. Es fácil darse cuenta de que a efectos de
toma de decisiones no es lo mismo, por ejemplo, un NNT de 150 con un IC
95% de 20-2000 que otro igual pero cuyo IC se estrecha hasta 100-250; este
último nos proporcionará un valor con un menor grado de incertidumbre.
La PBE necesita de acuerdo con sus principios una jerarquía que ordene las
evidencias de acuerdo con su valor, pues se acepta que no todas ellas son
iguales. En esta estructura piramidal las RS con meta-análisis se sitúan, como
se ha visto antes, en lo más alto (17).
23
o autores (a menudo un experto o varios) y no son reproducibles, por lo que
cabría calificarlas mejor como artículos de opinión (50), lo que las arrojaría a la
base de la pirámide de jerarquía de la evidencia (ver antes). A diferencia de
estas revisiones, una RS es una investigación científica en la que la unidad de
análisis son los estudios originales primarios, a partir de los cuales se pretende
contestar a una pregunta de investigación claramente formulada y estructurada,
mediante un proceso sistemático, explícito y reproducible que evalúa la calidad
de los estudios incluidos (50,51).
24
supervivencia global más que trastuzumab + docetaxel?‖. Parece lógico y
razonable, pero no es raro encontrar en la literatura preguntas genéricas o mal
formuladas. Un caso extremo lo encontramos en un artículo publicado bajo el
epígrafe de ―revisión sistemática‖ (54) en el que se declaran como objetivos de
la RS ―Describir algunas generalidades relacionadas con la obesidad y el
sobrepeso y revisar la asociación que puede darse entre estas circunstancias y
la enfermedad mental, en general, y la esquizofrenia, en particular, y su
influencia en la administración de antipsicóticos atípicos en el peso corporal de
estos pacientes‖. Es difícil encontrar aquí ninguno de los términos de la
pregunta PICO.
La segunda pregunta tiene que ver con el tipo de artículos con los que se va a
construir la RS, lo que viene a ser el trasunto de los criterios de inclusión de un
EC. Para que la RS pueda ser reproducible es necesario conocer qué artículos
se van a incluir: EC, estudios de cohortes, series de casos, etc. Esta elección
depende fundamentalmente de la pregunta formulada. Si vamos a analizar
eficacia de tratamientos, deberemos buscar EC; por el contrario, si vamos a
intentar estimar la incidencia de algún efecto adverso será preciso recurrir a la
búsqueda de estudios de cohortes o de casos y controles, porque es poco
probable que encontremos demasiada información en EC.
25
porque nos proporcionará información acerca de si hay EC en curso o
finalizados y pendientes de publicación. Aunque no suelen aparecer los
resultados, se dispone de información acerca del investigador principal, al que
se puede solicitar un avance de los mismos. De manera análoga, puede
contactarse también con el laboratorio farmacéutico que comercializa alguno de
los medicamentos estudiados en busca de información no publicada.
150
100 26
n
50
Figura 2. Funnel plot. Se ha representado el tamaño de la muestra frente al
riesgo relativo (RR). El diamante más grande corresponde al RR agregado.
27
Un punto crucial en la LC de una RS es la evaluación de la calidad de los
estudios originales incluidos. Puede hacerse una buena RS
(metodológicamente hablando) a partir de estudios de baja calidad pero sus
conclusiones tendrán dudosa fiabilidad, ya que los estudios menos rigurosos
suelen sobreestimar los efectos de las intervenciones. Sabemos a partir del
apartado anterior cuáles son los aspectos nucleares de calidad en un EC
(buena aleatorización, OSA, AIT, enmascaramiento), lo que nos proporciona
herramientas para valorar los estudios individuales. La escala más
comúnmente utilizada es la que usa la Cochrane Collaboration en sus RS para
la detección del sesgo en los EC originales; se basa en una serie de dominios
(generación de la secuencia de aleatorización, OSA, cegamiento de pacientes,
personal y evaluadores, datos de resultados incompletos, notificación selectiva
de resultados y otras fuentes de sesgo) que se califican de acuerdo con
criterios explícitos en bajo riesgo de sesgo, alto riesgo de sesgo o riesgo
desconocido. Cada tipo genera un color para cada ensayo (bajo riesgo verde,
alto riesgo rojo, riesgo desconocido amarillo), de manera que al final puede
verse de un vistazo el ―semáforo‖ y hacerse una idea aproximada del sesgo de
la RS (59). En cualquier caso, y como consumidores críticos de RS, lo que
debemos analizar es el esfuerzo que han hecho los autores para evaluar la
calidad, y qué tratamiento le dan luego a esta evaluación. En algunas RS se
practica un análisis de los resultados incluyendo o eliminando los EC de menor
calidad para ver cómo varía el resultado y cuánto de robusto es éste.
28
poco coherente clínicamente que resultaría combinar los resultados de EC en
adultos y en niños, con dosis altas y bajas de un determinado fármaco o en
diferentes estadios de gravedad de una enfermedad. Una RS cuyo objetivo era
estimar el valor de la albúmina como fluido de reanimación en sepsis incluyó 17
EC de los que 14 eran en adultos y 3 en niños con malaria (60). Aunque la
heterogeneidad estadística fue muy baja, es evidente que desde un punto de
vista clínico las poblaciones de adultos y de niños deberían ser consideradas
separadamente. En este caso, se debería haber realizado análisis de
subgrupos, metarregresión o haber comprobado el resultado de cada estudio (o
su conjunto) en el resultado global (50).
29
hay cambio de dirección del agregado cuando se elimina alguno de los
estudios de más peso, los resultados deberán ser interpretados con
precaución.
30
Tabla 5. Guías EQUATOR para la publicación de estudios
Tipo de estudio Consenso Extensiones
*Disponibilidad de guías específicas para distintos tipos de estudios (p. ej. las extensiones de
CONSORT incluyen ensayos de n=1, estudios de equivalencia/no inferioridad, EC pragmáticos,
etc.)
31
Bibliografía
32
13. Emparanza JI, Cabello JB, Burls AJE. Does evidence–based practice
improve patient outcomes? An analysis of a natural experiment in a
Spanish hospital. J Eval Clin Pract 2015; 21:1059-65.
14. Saber JL, Kalafut M. Combination therapies and the theoretical limits of
evidence-based medicine. Neuroepidemiology 2001; 20:57-64.
15. Glasgow RE, Magid DJ, Beck A, Ritzwoller D, Estabrooks PA. Practical
clinical trials for translating research to practice: design and
measurements recommendations. Med Care 2005; 43:551-7.
16. Canadian Task Force on the Periodic Health Examination. The periodic
health examination. CMAJ 1979; 121:1193-254.
17. Murad MH, Asi N, Alsawas M, Alahdab F. New evidence pyramid. Evid
Based Med 2016; 21:125-7.
18. Guyatt GH, Oxman AD, Vist GE, Kunz R, Falck-Ytter Y, Alonso-Coello P,
et al. for the GRADE Working Group. GRADE: an emerging consensus
on rating quality of evidence and strength of recommendations. BMJ
2008; 336:924–6.
19. Cabello López JB, Latour Pérez J. De la evidencia a la recomendación.
GRADE. En: Cabello JB ed. Lectura crítica de la evidencia clínica.
Barcelona: Elsevier; 2015. p. 181-94.
20. Burls A. What is critical appraisal? 2ª ed. Oxford, UK: University of
Oxford; 2009. (What is…? series). Disponible en
http://www.medicine.ox.ac.uk/ bandolier/painres/download/whatis
/what_is_critical_appraisal.pdf (acceso marzo 2011).
21. Cabello JB, Emparanza JI. Lectura crítica para la práctica clínica basada
en la evidencia. En: Cabello JB ed. Lectura crítica de la evidencia clínica.
Barcelona: Elsevier; 2015. p. 7-20.
22. Goodwin M, Seguin L. Critical appraisal skills of family physicians in
Ontario, Canada. BMC Medical Education 2003; 3:10.
23. Burls A, Emparanza JI, Cabello JB. ¿Por qué la lectura crítica? En:
Cabello JB ed. Lectura crítica de la evidencia clínica. Barcelona:
Elsevier; 2015. p. 1-6.
24. Smith R. The trouble with medical journals. London: The Royal Society of
Medicine Press Ltd.; 2011.
33
25. Herbrecht R, Denning DW, Patterson TF, Bennett JE, Greene RE,
Oestmann JW, et al. Voriconazole versus amphotericin b for primary
therapy of invasive aspergillosis. New Engl J Med 2002; 347:408-15.
26. Gotzsche PC. Deadly medicines and organised crime. How big pharma
has corrupted healthcare. London: Radcliffe Publishing; 2013.
27. Zeppetella G, Davies AN. Opioids for the management of breakthrough
pain in cancer patients. Cochrane Database Syst Rev. 2013 Oct
21;10:CD004311. doi: 10.1002/14651858.CD004311.pub3.
28. Coluzzi PH, Schwartzberg L, Conroy JD, Charapata S, Gay M, Busch
MA, et al. Breakthrough cancer pain: a randomized trial comparing oral
transmucosal fentanyl citrate (OTFC) and morphine sulfate immediate
release (MSIR). Pain 2001; 91:123-30.
29. Als-Nielsen B, Chen W, Gluud C, Kjaergard LL. Association of funding
and conclusions in randomized drug trials: a reflection of treatment effect
or adverse events? JAMA 2003; 290:921-8.
30. Flacco ME, Manzoli L, Boccia S, Capasso L, Aleksovska K, Rosso A, et
al. Head-to-head randomized trials are mostly industry sponsored and
almost always favor the industry sponsor. J Clin Epidemiol 2015; 68:811-
20.
31. Spillane AJ, Crowe PJ. The role of the journal club in surgical training.
Aust N Z J Surg. 1998;68:288–91.
32. Ruiz García V, Cabello López JB. Clubes de lectura en el siglo XXI. Med
Clin (Barc) 2010; 135:556–60.
33. Phillips RS, Glasziou P. What makes evidence-based journal clubs
succeed? Evid Based Med 2004; 9:36-7.
34. Bales E. Corporate universities vs traditional universities: Friends or
foes? Third annual EDINEB (Educational Innovations in Economics and
Business) International Conference. Orlando, Florida, USA; 1996.
35. Chalmers I, Dukan E, Podolsky SH, Davey Smith G. The advent of fair
treatment allocation schedules in clinical trials during the 19th and early
20th centuries. J R Soc Med 2012; 105:221–7.
36. Long M, Blankenburg R, Butani L. Questioning as a teaching tool.
Pediatrics 2015; 135:406-8.
34
37. López Briz E, Pijoan Zubizarreta JI, Cabello López JB. Lectura crítica de
estudios de tratamiento. Ensayos clínicos aleatorios. En: Cabello JB ed.
Lectura crítica de la evidencia clínica. Barcelona: Elsevier; 2015. p. 35-
62.
38. McPherson GC, Campbell MK, Elbourne R. Use of randomization in
clinical trials: a survey of the UK practice. Trials 2012; 13: 198.
39. Wood L, Egger M, Gluud LL, Schlulz KF, Juni P, Altmann D, et al.
Empirical evidence of bias in treatment effect estimates in controlled
trials with different interventions and outcomes: meta-epidemiological
study. BMJ 2008; 336:601-5.
40. Dumville JC, Torgerson DJ, Hewitt CE. Reporting attrition in randomised
controlled trials. BMJ 2006, 332: 969–71.
41. Abraha I, Cherubini A, Cozzolino F, De Florio R, Luchetta ML, Rimland
JM, et al. Deviation from intention to treat analysis in randomised trials
and treatment effect estimates: meta-epidemiological study. BMJ 2015;
350:h2445. doi: 10.1136/bmj.h2445.
42. Bellmunt J, Theodore C, Demkov T, Komyakov B, Sengelov L, Daugaard
G, et al. Phase III Trial of Vinflunine Plus Best Supportive Care
Compared With Best Supportive Care Alone After a Platinum-Containing
Regimen in Patients With Advanced Transitional Cell Carcinoma of the
Urothelial Tract. J Clin Oncol 2009; 27:4454-61.
43. Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical evidence of
bias: dimensions of methodological quality associated with estimates of
treatment effects in controlled trials. JAMA 1995; 273:408–12.
44. Chan AW, Hróbjartsson A, Haahr MT, Gøtzsche PC, Altman DG.
Empirical evidence for selective reporting of outcomes in randomized
trials: comparison of protocols to published articles. JAMA 2004;
291:2457-65.
45. McAlister FA. The ―number needed to treat‖ turns 20 — and continues to
be used and misused. CMAJ 2008, 179: 549-53.
46. Laupacis A, Sackett DL, Roberts RS. An assessment of clinically useful
measures of the consequences of treatment. N Engl J Med 1988;
318:1728-33.
35
47. Sedgwick P. Understanding confidence intervals. BMJ 2014; 349:g6051
doi: 10.1136/bmj.g6051.
49. Rothwell PM. External validity of randomised controlled trials: "to whom
do the results of this trial apply?" Lancet 2005; 365:82-93.
50. Ruiz García V, Carbonell Sanchis R, Urreta Barallobre I. Lectura crítica
de estudios de tratamiento. Revisiones sistemáticas de ensayos clínicos
aleatorios. Cabello JB ed. Lectura crítica de la evidencia clínica.
Barcelona: Elsevier; 2015. p. 63-86.
51. Ferreira González I, Urrutia G, Alonso-Coello P. Revisiones sistemáticas
y metaanálisis: bases conceptuales e interpretación. Rev Esp Cardiol
2011; 64:688–96.
52. Glasziou P, Irwig L, Bain C, Colditz G. Systematic Reviews in Health
Care. A Practical Guide. Cambridge: Cambridge University Press; 2001.
53. Murad MH, Montori VM, Ioannidis JP, Jaeschke R, Deveraux PJ, Prasad
K, et al. How to read a systematic review and meta-analysis and apply
the results to patient care: users' guides to the medical literature.
JAMA 2014; 312:171-9.
54. Joffre-Velázquez VM, García-Maldonado G, Saldívar-González AH,
Martínez-Perales G. Revisión sistemática de la asociación entre
sobrepeso, obesidad y enfermedad mental, con énfasis en el trastorno
esquizofrénico. Rev Colomb Psiquiat 2009; 38: 705-16.
55. Egger M, Juni P, Bartlett C, Holenstein F, Sterne J. How important are
comprehensive literature searches and the assessment of trial quality in
systematic reviews? Empirical study. Health Technol Assess 2003;7:1-
76.
56. Sedgwick P. Meta-analysis: how to read a funnel plot. BMJ 2013;
346:f1342 doi: 10.1136/bmj.f1342.
36
57. Turner EH, Matthews AM, Linardatos E, Tell RA, Rosenthal R. Selective
publication of antidepressant trials and its influence on apparent efficacy.
N Engl J Med 2008; 358:252-60.
58. Prayle AP, Hurley MN, Smyth AR. Compliance with mandatory reporting
of clinical trial results on ClinicalTrials.gov: cross sectional study. BMJ
2011; 344: d7373 doi: 10.1136/bmj.d7373.
59. Higgins JPT, Green S. Cochrane Handbook for systematic reviews of
interventions. 2ª ed. Chichester: Wiley; 2011.
60. Delaney AP, Dan A, McCaffrey J, Finfer S. The role of albumin as a
resuscitation fluid for patients with sepsis: A systematic review and meta-
analysis. Crit Care Med 2011; 39: 386-91.
61. Ried K. Interpreting and understanding meta-analysis graphs. A practical
guide. Aust Fam Physician 2006; 35:635-8.
62. Simera I, Altman DG, Moher D, Schulz KF, Hoey J. Guidelines for
reporting health research: the EQUATOR Network’s survey of guideline
authors. PLoS Med 2008; 5: e139. doi:10.1371/journal.pmed.0050139.
37
ANEXO I
Preguntas de detalle
Sí No sé No
4 ¿Se mantuvieron ciegos al tratamiento los pacientes, los clínicos y el personal del
estudio?
Los pacientes.
Los clínicos.
El personal del estudio.
Sí No sé No
5 ¿Fueron similares los grupos al comienzo del estudio?
En términos de otros factores que pudieran tener efecto sobre el resultado: edad, sexo, etc.
Sí No sé No
6 ¿Al margen de la intervención en estudio los grupos fueron tratados de igual modo?
38
ANEXO II
Preguntas de detalle
Sí No sé No
3 ¿Crees que estaban incluidos los estudios importantes y relevantes?
- ¿Qué bases de datos bibliográficos se han usado?
- ¿Se hizo seguimiento de las referencias?
- ¿Se contactó personalmente con expertos?
- ¿Se buscaron estudios no publicados?
- ¿Se buscaron estudios en idiomas diferentes del inglés?
Sí No sé No
4 ¿Crees que los autores de la revisión han hecho suficiente esfuerzo para valorar la calidad
de los estudios incluidos?
PISTA: Los autores necesitan considerar el rigor de los estudios que han identificado. La falta de rigor puede
afectar al resultado de los estudios (“No es oro todo lo que reluce” El Mercader de Venecia Acto II)
Sí No sé No
5 ¿Si los resultados de los diferentes estudios han sido mezclados para obtener un resultado
“combinado”, ¿era razonable hacer eso?
PISTA: Considera si
- los resultados de los estudios eran similares entre sí
- los resultados de todos los estudios incluidos están claramente presentados
- están discutidos los motivos de cualquier variación de resultados
39