Documentos de Académico
Documentos de Profesional
Documentos de Cultura
(Link: https://www.fisterra.com/guias-clinicas/la-evaluacion-calidad-evidencia-
graduacion-fuerza-recomendaciones-sistema-grade/#)
Las guías de práctica clínica (GPC) han experimentado una enorme transformación durante las
últimas dos décadas. El sistema para clasificar la calidad de la evidencia y graduar la fuerza de
la recomendación es uno de los aspectos que más se ha modificado.
Se amplía la habitual evaluación del riesgo de sesgo a otros factores como, por ejemplo, la
consistencia de los resultados o su precisión.
Se separa de forma explícita la definición de la calidad de la evidencia y de la fuerza de las
recomendaciones.
El sistema GRADE abarca la mayoría de las etapas de elaboración de una GPC, desde la
formulación de la pregunta y la selección de los desenlaces de interés, hasta la formulación de
las recomendaciones y su redacción (Grupo de trabajo sobre GPC, 2016). En este capítulo
desarrollamos con detalle las fases de evaluación de la evidencia y formulación de
recomendaciones.
El sistema GRADE, tal y como se describe en capítulos previos, clasifica la importancia de los
desenlaces en tres categorías, en una escala de 1 a 9.
7-9: desenlace clave (o crítico) para la toma de decisiones.
4-6: desenlace importante pero no clave para la toma de decisiones.
1-3: desenlace no importante. Estos desenlaces no juegan un papel relevante en la formulación
de las recomendaciones y no se incluyen en la tabla de evaluación de la calidad o de los
resultados.
Por ejemplo, a la hora de clasificar los desenlaces para la evaluación de la eficacia de
bisfosfonatos en mujeres con alto riesgo de fractura, podríamos clasificar como claves la
fractura de cadera, la fractura vertebral clínica y la calidad de vida, importante pero no clave la
fractura vertebral radiológica, y como no importante la densidad mineral ósea y los marcadores
óseos.
GRADE establece también que las preguntas clínicas deben estar claramente definidas, no
solo en los componentes en formato PICO (Paciente, Intervención, Comparación y Desenlace o
Outcome), sino también en lo que se refiere al entorno y la perspectiva desde la que se aborda
la pregunta (Alonso-Coello P, 2016; Alonso-Coello P, 2016b). La perspectiva de las guías de
práctica clínica del Programa de Guías de Práctica Clínica en el Sistema Nacional de Salud
(SNS) es, por ejemplo, poblacional. Otras guías como, por ejemplo, muchas de las realizadas
por sociedades científicas, pueden preferir no tener esta perspectiva y centrarse únicamente en
aspectos relacionados con una perspectiva individual.
En el Instrumento AGREE II (Instrumento AGREE II, 2009), los criterios más relevantes
relacionados con la formulación de recomendaciones se recogen en el dominio “rigor en la
elaboración”:
Los métodos para formular las recomendaciones, ¿están claramente descritos?
Al formular las recomendaciones, ¿han sido considerados los beneficios de salud, efectos
secundarios y los riesgos?
¿Hay una relación clara entre cada una de las recomendaciones y las evidencias en las que se
basan?
El sistema GRADE propone las siguientes definiciones (Grupo de trabajo sobre GPC, 2016;
Schünemann H, 2013):
Calidad de la evidencia: indica hasta qué punto nuestra confianza en la estimación de un efecto
es adecuada para apoyar una recomendación.
Fuerza de la recomendación: indica hasta qué punto podemos confiar si poner en práctica la
recomendación conllevará más beneficios que riesgos.
El sistema GRADE puede utilizarse para dar respuesta a distintos tipos de preguntas: sobre
tratamiento, diagnóstico, pronóstico, etc. En este curso describiremos fundamentalmente el
sistema GRADE referido a preguntas sobre tratamiento, ya que es la parte más utilizada y la
más desarrollada por el momento en GRADE. En cualquier caso, la mayoría de los conceptos
que se abordan pueden ser aplicados a otro tipo de preguntas, con sus matizaciones. Para
profundizar sobre GRADE y su utilización para dar respuesta a otro tipo de preguntas, puede
consultarse la bibliografía más extensa (Grupo de trabajo sobre GPC, 2016; Schünemann H,
2013).
Puntos clave
El sistema GRADE abarca la mayoría de las etapas de elaboración de una GPC, desde la
formulación de la pregunta y la selección de los desenlaces de interés hasta la formulación de
las recomendaciones y su redacción.
La calidad de la evidencia refleja la confianza que se puede depositar en los resultados de la
literatura científica para apoyar una recomendación en particular.
La evaluación de la calidad de la evidencia se realiza para cada desenlace de interés
importante para los pacientes. Asimismo, se realiza una evaluación global para todos los
desenlaces a fin de informar el proceso de decisión entre la evidencia y la recomendación.
La fuerza de la recomendación indica hasta qué punto podemos confiar si poner en práctica la
recomendación conllevará más beneficios que riesgos.
Para estructurar la información y favorecer la transparencia en el paso de la evidencia a las
recomendaciones o decisiones, el grupo GRADE ha elaborado unos marcos denominados
marcos de la Evidencia a la Decision (Evidence to Decision (EtD) frameworks).
Evaluación de la calidad de la evidencia
Baja El estimador del efecto puede ser sustancialmente diferente al efecto real.
A partir de este punto inicial (calidad alta para ensayos clínicos y baja para estudios
observacionales), aplica los siguientes factores para bajar o subir la calidad de la evidencia
(Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013; Alonso-Coello P, 2013) (tabla 2):
Factores que pueden bajar la calidad de la evidencia (Alonso-Coello P, 2013; Balshem H, 2011;
Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013):
Al valorar la calidad de la evidencia para un desenlace, tanto para los ECA, que de antemano
se consideran como calidad alta para evaluar el efecto de diferentes intervenciones, como para
los estudios observacionales, que de antemano se consideran como calidad baja, existen
factores que pueden disminuir la calidad en uno o dos grados:
d) Imprecisión.
Para evaluar la precisión al estimar el efecto de una intervención para un desenlace, se debe
considerar su intervalo de confianza y el umbral que determina la diferencia clínicamente
relevante para los pacientes. Si una decisión clínica o recomendación pudiera ser diferente
dependiendo de si se tiene en cuenta un extremo u otro del intervalo de confianza como el
efecto "real" de una intervención, la confianza (y, por tanto, la calidad) en la estimación del
efecto deberían disminuir. Asimismo, incluso con un intervalo de confianza preciso según estos
criterios, si el número de sucesos o el número de sujetos evaluados en los diferentes estudios
son escasos, se debe considerar la necesidad de disminuir la calidad.
e) Sesgo de publicación.
La calidad puede disminuir si se tiene la duda razonable de que no se hayan incluido todos los
estudios realizados. La situación más frecuente se produce cuando, en el contexto de una
revisión sistemática, se incluyen selectivamente los estudios que han mostrado resultados
“positivos” (favorables a la intervención) y se omiten algunos estudios con resultados
“negativos”, sobrestimando en su conjunto el efecto de la intervención. Existen pruebas
estadísticas y gráficas que pueden orientar a la existencia de un sesgo de publicación, como la
revisión de los gráficos de embudo (funnelplots). Esta situación puede llegar a ser más
frecuente y difícil de detectar en los estudios observacionales.
Las situaciones que pueden llevar a incrementar la confianza con los resultados de los estudios
son poco comunes y se suelen aplicar sobre todo a estudios observacionales que evalúan el
impacto de una intervención. Estos aspectos se deberían evaluar después de constatar que no
se encuentra presente ninguna condición para disminuir la calidad de la evidencia debido a un
potencial riesgo de sesgo u otros factores que se han citado previamente.
a) Fuerza de la asociación.
Cuando el efecto observado muestra una asociación fuerte (riesgo relativo u odds ratio >2 ó
<0,5) o muy fuerte (riesgo relativo u odds ratio >5 ó <0,2), es más improbable que este efecto
sea debido a una sobrestimación debido a los factores de confusión y más probable que el
efecto observado sea más cercano al efecto real. En estos casos la calidad puede subir en 1 ó
2 grados. Por ejemplo, una revisión sistemática de estudios observacionales sobre la posición
de los lactantes en la cuna a la hora de dormir para evitar el síndrome de muerte súbita mostró
una reducción importante del riesgo para la posición boca arriba con un OR de 4,1 (IC: 95% 3,1
a 5,5).
b) Gradiente dosis-respuesta.
Estos factores que pueden aumentar o disminuir la calidad de la evidencia no deben tomarse
como elementos individuales que puedan sumarse o restarse para obtener una clasificación de
la calidad, sino que deben ser considerados en su conjunto. Por ejemplo, a la hora de valorar
cuáles son las cifras de control glucémico más adecuadas en pacientes con diabetes tipo 2
(control intensivo vs. habitual), nos encontramos con que, para el desenlace de mortalidad
cardiovascular, la calidad de la evidencia se basa en 18 ensayos clínicos sin limitaciones
importantes, pero con un intervalo de confianza impreciso (ver tabla 3) y una cierta
heterogeneidad en los resultados (I2= 37% p= 0,09). Teniendo en cuenta ambos factores,
bajamos la calidad de alta a moderada, pero no a baja.
Una vez evaluada la calidad de la evidencia científica para cada desenlace, se debe realizar
una clasificación global de la calidad de la evidencia, lo que implica realizar un juicio general de
la calidad entre los desenlaces clave para una determinada pregunta clínica. En este proceso,
se deberían considerar sólo los desenlaces clave, aunque no siempre existen datos. En el caso
de los fármacos para la osteoporosis, se consideraría la calidad de la evidencia para las
fracturas, pero no la de la densidad mineral ósea.
Los perfiles de evidencia son un buen método para presentar la evidencia disponible y los
juicios sobre su calidad. Puede presentarse en forma de perfiles de GRADE (GRADE evidence
profile) o en forma más resumida (Summary of Findings). La tabla 3 muestra el perfil de la
evidencia para la pregunta respecto a las cifras objetivo de HbA1c en la diabetes tipo 2 (control
estricto vs. convencional de la glucemia).
Evide Relati
Nº de Riesgo Sesgo
Dise Inconsist ncia Impreci va
estud de publica
ño encia indire sión (95%
ios sesgo ción
cta CI)
Sin No
RR
limitaci importan Poco
a 29.73 1,01
18 ECA ones te No (-1) probab Clave
1 (0,9- Moder
importa I2= 40% le
1,13) ada
ntes p= 0,08
Sin No
RR
limitaci importan Poco
a 29.73 1,06
18 ECA ones te No (-1) probab Clave
2 1 (0,9- Moder
importa I = 37% le
1,26) ada
ntes p= 0,09
Sin No
Pocos RR
limitaci importan Poco
evento 28.76 0,96
11 ECA ones te No probab Clave
s 0 (0,8- Moder
importa I2= 20% le
(-1)a 1,16) ada
ntes p= 0,26
Sin
RR
limitaci No Poco
28.07 0,87
7 ECA ones importan Sí b No probab Clave
5 (0,71- Moder
importa te le
1,06) ada
ntes
Desenlace 6: Retinopatía.
Sin
RR
limitaci Sí Poco
10.95 0,79 Importa
8 ECA ones I2= 53% Sí b No probab
3 (0,68- Moder nte
importa p= 0,04 le
0,92) ada
ntes
Sí
RR
Sin I2= 79% Poco
28.12 2,05
12 ECA limitaci p No No probab Clave
7 (1,39-
ones >0,0000 le
3,02) Alta
1
Sin RR
limitaci No Poco 0,64
6 ECA ones importan No (-2)c probab 6.960 (0,43 Clave
importa te le a Baja
ntes 0,95)
a
Desenlace 1, 2 y 3: el análisis secuencial de los ensayos informó que se necesitan más
datos.
Desenlace 7: la heterogeneidad fue considerable, explicable por cómo se define la
hipoglucemia. Es improbable que ello cambie el resultado.
b
Variables subrogadas.
c
Pocas amputaciones.
En este ejemplo, considerando todos los desenlaces, la calidad global de la evidencia sería
moderada.
La fuerza de una recomendación refleja el grado de certeza de que los efectos deseables de
una intervención recomendada superan sus efectos no deseables, o viceversa, en la población
de interés. El sistema GRADE considera dos categorías en relación a la fuerza de las
recomendaciones (Grupo de trabajo sobre GPC, 2016):
Recomendación fuerte: se refiere a una recomendación con confianza en que los efectos
deseados de la intervención superan a los indeseables (recomendación fuerte a favor), o en
que los efectos indeseados de la intervención superan los deseados (recomendación fuerte en
contra).
Recomendación débil: se refiere a una recomendación según la cual los efectos deseables
probablemente superan los efectos no deseables (recomendación débil a favor de una
intervención) o los efectos no deseables probablemente son mayores que los efectos
deseables (recomendación débil en contra de una intervención), pero con una incertidumbre
apreciable.
En la tabla 4 se resumen las implicaciones de la fuerza de las recomendaciones desde
diferentes perspectivas (pacientes, clínicos y gestores).
Tabla 4. Implicaciones de la fuerza de las recomendaciones desde diferentes perspectivas
(pacientes, clínicos y gestores).
Recomendación fuerte Recomendación débil
1. Prioridad del problema: ¿el problema constituye una prioridad? Cuanto más severo es un
problema, más probable es que sea una prioridad y que deba formularse una recomendación
fuerte.
Desenlaces:
1. Mortalidad por todas las causas: sin efecto.
2. Mortalidad cardiovascular: sin efecto.
3. IAM no fatal: poco beneficio.
4. ACV no fatal: sin efecto.
5. Nefropatía: sin efecto.
6. Retinopatía: poco beneficio.
7. Hipoglucemia: riesgos/inconv. importantes/modestos.
8. Amputaciones: poco beneficio.
6. Recursos/Costes. ¿Son altos los costes que se requieren para poner en marcha la
intervención?¿Es alta la incertidumbre en torno a los recursos necesarios? Cuanto mayor es el
coste, menos probable es que una intervención se recomiende. Cuando el uso de recursos se
considera fundamental para una decisión acerca de una recomendación, es aconsejable su
evaluación económica mediante métodos formales o la búsqueda de evidencia acerca de su
relación entre costes y beneficios.
Otros ejemplos:
La recomendación acerca del control glucémico sería débil y quedaría redactada de la siguiente
forma (Ezkurra P, 2015):
“En general se sugieren unas cifras objetivo orientativas menores del 7% de HbA1c. No
obstante, el objetivo debería estar basado en la evaluación individualizada teniendo en cuenta
el riesgo de complicaciones de la diabetes, comorbilidad, esperanza de vida y preferencias de
los pacientes.
Se sugiere plantear objetivos menos estrictos, entre 7,5%-8%, para los ancianos, pacientes con
multimorbilidad o para iniciar la insulinización o la triple terapia.
Se puede considerar un tratamiento intensivo con el objeto de reducir las cifras de HbA1c por
debajo del 6,5% en pacientes jóvenes o recién diagnosticados sin comorbilidad.
Se sugiere implicar a las personas con diabetes tipo 2 en las decisiones sobre su nivel objetivo
de HbA1c.”
El sistema GRADE cuenta con un software para la aplicación del mismo denominado
GRADEpro GDT. El software es una propuesta para sintetizar y presentar información para la
toma de decisiones en el campo de la salud. GRADEpro GDT permite la elaboración de tablas
de resumen de los hallazgos tanto para revisiones sistemáticas como para las evaluaciones de
tecnologías, facilitando el desarrollo de GPC y otro tipo de decisiones. Recientemente, ha
incorporado una base de datos que incluye un repositorio de este tipo de formatos para su
adopción, adaptación o uso en nuevas GPC. GRADEpro GDT, así como algunos de los
formatos de presentación, han sido desarrollados gracias al proyecto DECIDE (Developing and
Evaluating Communication Strategies to Support Informed Decisions and Practice Based on
Evidence) (Treweek S, 2013).
DECIDE es un proyecto Europeo impulsado por el grupo GRADE que tuvo como objetivo
mejorar la diseminación de las recomendaciones en salud para diferentes grupos de interés
(profesionales sanitarios, ciudadanos, pacientes y gestores). Para ello se desarrollaron
formatos óptimos de presentación y se actualizó el software original de GRADEpro (Kristiansen,
2015). Sus resultados ya se están implementando en algunas de las instituciones más
influyentes en la elaboración de revisiones sistemáticas, la formulación de recomendaciones y
toma de decisiones sanitarias como la Colaboración Cochrane, la OMS o la propia NICE. En
nuestro entorno ya han sido incorporados en la actualización del manual de elaboración de
GPC en el Sistema Nacional de Salud de 2016 (Grupo de trabajo sobre GPC, 2016). Entre los
formatos de presentación desarrollados están las tablas interactivas de resumen de los
hallazgos (https://isof.epistemonikos.org/#/), las herramientas de apoyo a las decisiones
compartidas ligadas a las GPC (Agoritsas T, 2015) o el marco de la evidencia a las decisiones
(Alonso Coello P, 2016).
Existen otros softwares para la aplicación de GRADE. Entre ellos destaca la iniciativa MAGIC
(Vandvik, 2013), la cual dispone de MAGIC app, una aplicación para desarrollar GPC
electrónicas, síntesis de información y herramientas de apoyo a la toma de decisiones ligada a
las GPC. La iniciativa colaboró junto al grupo GRADE en el desarrollo de los formatos de
presentación resultado del proyecto DECIDE mencionado anteriormente. Es un software similar
a GRADEpro que destaca por su desarrollo de los aspectos de publicación, simultáneos a los
de elaboración.
La evaluación de estos nuevos formatos de presentación electrónicas de las GPC han sido
favorables entre los profesionales a los que van dirigidas las GPC (Brandt, 2017).