GRADE Fisterra Lesctura 21-02-2023

La evaluación de la calidad de la evidencia y la graduación de la fuerza de las
recomendaciones: el sistema GRADE
(Link: https://www.fisterra.com/guias-clinicas/la-evaluacion-calidad-evidencia-
graduacion-fuerza-recomendaciones-sistema-grade/#)
Características del sistema GRADE
Las guías de práctica clínica (GPC) han experimentado una enorme transformación durante las
últimas dos décadas. El sistema para clasificar la calidad de la evidencia y graduar la fuerza de
la recomendación es uno de los aspectos que más se ha modificado.
La actualización del manual de elaboración de GPC en el Sistema Nacional de Salud de 2016

(Grupo de trabajo sobre GPC, 2016) ya presenta únicamente la metodología desarrollada por el
grupo GRADE (Grading the Quality of Evidence and the Assessment of Recomendations)
(Alonso-Coello P, 2013; Schünemann H, 2013), para evaluar la calidad de la evidencia y
formular las recomendaciones. En dicha actualización ya no se incluye el sistema SIGN
(Scottish Intercollegiate Guidelines Network), como en la versión anterior. Progresivamente, por
tanto, las guías del Programa de Guías de Práctica Clínica en el Sistema Nacional de Salud
(SNS) que ahora utilizan el sistema SIGN serán progresivamente actualizadas con el sistema
GRADE.
Las diferencias más relevantes entre GRADE (http://www.gradeworkinggroup.org) y otros

sistemas previos son las siguientes (Grupo de trabajo sobre GPC, 2016): La evaluación de la
calidad de la evidencia se centra en el análisis por separado para cada desenlace de interés,
que el grupo de trabajo habrá priorizado previamente en la fase de formulación de preguntas
clínicas.
Se amplía la habitual evaluación del riesgo de sesgo a otros factores como, por ejemplo, la
consistencia de los resultados o su precisión.
Se separa de forma explícita la definición de la calidad de la evidencia y de la fuerza de las
recomendaciones.
El sistema GRADE abarca la mayoría de las etapas de elaboración de una GPC, desde la
formulación de la pregunta y la selección de los desenlaces de interés, hasta la formulación de
las recomendaciones y su redacción (Grupo de trabajo sobre GPC, 2016). En este capítulo
desarrollamos con detalle las fases de evaluación de la evidencia y formulación de
recomendaciones.
Al separar explícitamente la calidad de la evidencia y la fuerza de las recomendaciones,

GRADE se utiliza también para la evaluación de la calidad de la evidencia en las revisiones
sistemáticas; de hecho, la Colaboración Cochrane ha adoptado este sistema.
Respecto a la formulación de las preguntas clínicas, GRADE propone la clasificación de la

importancia de los desenlaces de interés, normalmente desde el punto de vista del paciente o
aquellos afectados por las recomendaciones. Los desenlaces más importantes serán los que
deben ser considerados a la hora de evaluar su calidad, así como a la hora de formular las
recomendaciones.
El sistema GRADE, tal y como se describe en capítulos previos, clasifica la importancia de los
desenlaces en tres categorías, en una escala de 1 a 9.
7-9: desenlace clave (o crítico) para la toma de decisiones.
4-6: desenlace importante pero no clave para la toma de decisiones.
1-3: desenlace no importante. Estos desenlaces no juegan un papel relevante en la formulación
de las recomendaciones y no se incluyen en la tabla de evaluación de la calidad o de los
resultados.
Por ejemplo, a la hora de clasificar los desenlaces para la evaluación de la eficacia de
bisfosfonatos en mujeres con alto riesgo de fractura, podríamos clasificar como claves la
fractura de cadera, la fractura vertebral clínica y la calidad de vida, importante pero no clave la
fractura vertebral radiológica, y como no importante la densidad mineral ósea y los marcadores
óseos.
GRADE establece también que las preguntas clínicas deben estar claramente definidas, no
solo en los componentes en formato PICO (Paciente, Intervención, Comparación y Desenlace o
Outcome), sino también en lo que se refiere al entorno y la perspectiva desde la que se aborda
la pregunta (Alonso-Coello P, 2016; Alonso-Coello P, 2016b). La perspectiva de las guías de
práctica clínica del Programa de Guías de Práctica Clínica en el Sistema Nacional de Salud
(SNS) es, por ejemplo, poblacional. Otras guías como, por ejemplo, muchas de las realizadas
por sociedades científicas, pueden preferir no tener esta perspectiva y centrarse únicamente en
aspectos relacionados con una perspectiva individual.
En el Instrumento AGREE II (Instrumento AGREE II, 2009), los criterios más relevantes
relacionados con la formulación de recomendaciones se recogen en el dominio “rigor en la
elaboración”:
Los métodos para formular las recomendaciones, ¿están claramente descritos?
Al formular las recomendaciones, ¿han sido considerados los beneficios de salud, efectos
secundarios y los riesgos?
¿Hay una relación clara entre cada una de las recomendaciones y las evidencias en las que se
basan?
El sistema GRADE propone las siguientes definiciones (Grupo de trabajo sobre GPC, 2016;
Schünemann H, 2013):
Calidad de la evidencia: indica hasta qué punto nuestra confianza en la estimación de un efecto
es adecuada para apoyar una recomendación.
Fuerza de la recomendación: indica hasta qué punto podemos confiar si poner en práctica la
recomendación conllevará más beneficios que riesgos.
El sistema GRADE puede utilizarse para dar respuesta a distintos tipos de preguntas: sobre
tratamiento, diagnóstico, pronóstico, etc. En este curso describiremos fundamentalmente el
sistema GRADE referido a preguntas sobre tratamiento, ya que es la parte más utilizada y la
más desarrollada por el momento en GRADE. En cualquier caso, la mayoría de los conceptos
que se abordan pueden ser aplicados a otro tipo de preguntas, con sus matizaciones. Para
profundizar sobre GRADE y su utilización para dar respuesta a otro tipo de preguntas, puede
consultarse la bibliografía más extensa (Grupo de trabajo sobre GPC, 2016; Schünemann H,
2013).
Puntos clave
El sistema GRADE abarca la mayoría de las etapas de elaboración de una GPC, desde la
formulación de la pregunta y la selección de los desenlaces de interés hasta la formulación de
las recomendaciones y su redacción.
La calidad de la evidencia refleja la confianza que se puede depositar en los resultados de la
literatura científica para apoyar una recomendación en particular.
La evaluación de la calidad de la evidencia se realiza para cada desenlace de interés
importante para los pacientes. Asimismo, se realiza una evaluación global para todos los
desenlaces a fin de informar el proceso de decisión entre la evidencia y la recomendación.
La fuerza de la recomendación indica hasta qué punto podemos confiar si poner en práctica la
recomendación conllevará más beneficios que riesgos.
Para estructurar la información y favorecer la transparencia en el paso de la evidencia a las
recomendaciones o decisiones, el grupo GRADE ha elaborado unos marcos denominados
marcos de la Evidencia a la Decision (Evidence to Decision (EtD) frameworks).
Evaluación de la calidad de la evidencia
La calidad de la evidencia, también denominada confianza o, más recientemente, certidumbre,

en las GPC refleja el grado de confianza que tenemos en que la estimación de un efecto es
adecuada para apoyar una recomendación y se evalúa para cada uno de los desenlaces de
interés (idealmente los claves y, en ausencia de éstos, los importantes).
Aunque la calidad de la evidencia es un espectro continuo, GRADE propone una clasificación

en cuatro categorías (Alonso-Coello P, 2013; Balshem H, 2011):
Tabla 1. Clasificación de la calidad de la evidencia.

Confianza alta en que el estimador del efecto disponible en la literatura científica
Alta
se encuentra muy cercano al efecto real.
Es probable que el estimador del efecto se encuentre cercano al efecto real,

Moderada
aunque podrían existir diferencias sustanciales.
Baja El estimador del efecto puede ser sustancialmente diferente al efecto real.
Es muy probable que el estimador del efecto sea sustancialmente diferente al

Muy baja
efecto real.
En el sistema GRADE, la calidad de la evidencia para un determinado desenlace arranca con el

diseño de los estudios: inicialmente considera a los ensayos clínicos aleatorizados (ECA) como
fuente de calidad alta, y a los estudios observacionales sin limitaciones importantes como
fuente de calidad baja. En las revisiones sistemáticas, la evaluación de los factores que afectan
a la calidad de la evidencia debe realizarse sobre el diseño y las características de los estudios
que incluye la revisión (ya sea un conjunto de estudios o de un único estudio). Las series de
casos son estudios observacionales no controlados en los que la calidad de la evidencia
debería bajarse automáticamente de baja a muy baja. La opinión de experto no se considera un
tipo de evidencia científica al que aplicar los factores modificadores de la calidad de la
evidencia, sino que refleja la interpretación de los resultados de la evidencia, o de la ausencia
de ésta, en función de su conocimiento y experiencia.
A partir de este punto inicial (calidad alta para ensayos clínicos y baja para estudios
observacionales), aplica los siguientes factores para bajar o subir la calidad de la evidencia
(Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013; Alonso-Coello P, 2013) (tabla 2):
Tabla 2. Factores que modifican la calidad de la evidencia.

Factores que permiten bajar la calidad de la evidencia
Limitaciones en el diseño o ejecución de los estudios ↓ 1 o 2 grados

Inconsistencia entre los resultados de diferentes estudios ↓ 1 o 2 grados
Disponibilidad de evidencia indirecta ↓ 1 o 2 grados
Imprecisión de los estimadores del efecto ↓ 1 o 2 grados
Sesgo de publicación ↓ 1 grado
Factores que permiten aumentar la calidad de la evidencia
Magnitud del efecto importante ↑ 1 o 2 grados
Gradiente dosis-respuesta relevante ↑ 1 grado
Impacto de las variables de confusión plausibles ↑ 1 grado
Factores que pueden bajar la calidad de la evidencia (Alonso-Coello P, 2013; Balshem H, 2011;
Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013):
Al valorar la calidad de la evidencia para un desenlace, tanto para los ECA, que de antemano
se consideran como calidad alta para evaluar el efecto de diferentes intervenciones, como para
los estudios observacionales, que de antemano se consideran como calidad baja, existen
factores que pueden disminuir la calidad en uno o dos grados:
a) Limitaciones en el diseño o la ejecución de los estudios (riesgo de sesgo).
En los ECA se consideran: las limitaciones en la secuencia de aleatorización, limitaciones en el

enmascaramiento de investigadores, personal implicado en el estudio o participantes en el
estudio, pérdidas de seguimiento importantes y la ausencia de análisis por intención de tratar,
descripción selectiva de los resultados u otros sesgos (ensayos interrumpidos prematuramente
por beneficio, uso de medidas de resultado no validadas, etc.).
En los estudios observacionales se consideran: limitaciones en los criterios de inclusión de los

pacientes, limitaciones en la medida de los resultados (como el sesgo de memoria), el control
inadecuado de los factores de confusión o el seguimiento incompleto.
A la hora de valorar globalmente el riesgo de sesgo de un conjunto de estudios con diferentes

limitaciones, se debe realizar un juicio global, teniendo en cuenta la contribución de los estudios
a la estimación del efecto (por ejemplo, los estudios de mayor tamaño contribuyen más o dando
más peso a los de mejor calidad).
b) Inconsistencia entre los resultados de diferentes estudios.
La inconsistencia se refiere a la variabilidad o heterogeneidad de los resultados entre los

estudios disponibles para un determinado desenlace. Se deben explorar las posibles causas de
la variabilidad, principalmente las diferencias en la población, la intervención, los desenlaces o
el riesgo de sesgo de los estudios.
En los metanálisis, la existencia de heterogeneidad se suele medir mediante una prueba de

contraste de hipótesis (una p <0,10 nos sugiere que los resultados difieren entre sí más de lo
que cabría esperar por el mero azar) o mediante el estadístico I 2 (adquiere valores entre 0 y
100, mide la magnitud de la heterogeneidad, cuanto mayor sea su valor mayor
heterogeneidad). En ocasiones, la diferencia en la variabilidad de los resultados puede
explicarse por diferencia entre distintos subgrupos; en estos casos puede ser más adecuado
realizar recomendaciones diferenciadas para los subgrupos en lugar de bajar la calidad de la
evidencia por inconsistencia.
c) Ausencia de evidencia directa.
La confianza en un estimador se reduce si se detecta que existen diferencias importantes entre

la población donde se aplicará la GPC y la incluida en los estudios (por ejemplo, medio
hospitalario vs. atención primaria, o pacientes de alto riesgo vs. bajo riesgo), entre la
intervención que se pretende evaluar y la que se practicó en los estudios disponibles (por
ejemplo, un programa de deshabituación tabáquica realizada por un equipo multidisciplinar vs.
intervención de deshabituación en la consulta). También se debe considerar disminuir la
calidad de la evidencia por evidencia indirecta ante la ausencia de comparaciones directas
entre las intervenciones de interés o cuando no existen desenlaces claves y la recomendación
se basa sólo en desenlaces intermedios.
d) Imprecisión.
Para evaluar la precisión al estimar el efecto de una intervención para un desenlace, se debe
considerar su intervalo de confianza y el umbral que determina la diferencia clínicamente
relevante para los pacientes. Si una decisión clínica o recomendación pudiera ser diferente
dependiendo de si se tiene en cuenta un extremo u otro del intervalo de confianza como el
efecto "real" de una intervención, la confianza (y, por tanto, la calidad) en la estimación del
efecto deberían disminuir. Asimismo, incluso con un intervalo de confianza preciso según estos
criterios, si el número de sucesos o el número de sujetos evaluados en los diferentes estudios
son escasos, se debe considerar la necesidad de disminuir la calidad.
En las GPC se valora un conjunto de desenlaces de interés y la decisión de bajar la calidad de

la evidencia por imprecisión depende del umbral que determina la diferencia mínima relevante
para los pacientes y del balance entre efectos deseables e indeseables de la intervención.
Por ejemplo, si un fármaco anticoagulante para la prevención de episodios vasculares (ictus

isquémicos) reduce el riesgo en un 5% (intervalo de confianza del 95% [IC: 95%] del 9 al 1%)
en términos absolutos, las repercusiones de esta imprecisión deberían valorarse teniendo en
cuenta también los riesgos. Si el fármaco se asociara a un incremento absoluto de las
hemorragias graves extracraneales del 4%, no realizaríamos la misma recomendación en los
dos extremos del intervalo de confianza para la reducción de ictus: en el supuesto de una
reducción del riesgo de ictus del 1%, los riesgos son superiores a los beneficios, mientras que
en el supuesto del 9%, los beneficios podrían compensar los riesgos. En este caso, bajaríamos
la calidad de la evidencia por imprecisión para el desenlace de ictus.
e) Sesgo de publicación.
La calidad puede disminuir si se tiene la duda razonable de que no se hayan incluido todos los
estudios realizados. La situación más frecuente se produce cuando, en el contexto de una
revisión sistemática, se incluyen selectivamente los estudios que han mostrado resultados
“positivos” (favorables a la intervención) y se omiten algunos estudios con resultados
“negativos”, sobrestimando en su conjunto el efecto de la intervención. Existen pruebas
estadísticas y gráficas que pueden orientar a la existencia de un sesgo de publicación, como la
revisión de los gráficos de embudo (funnelplots). Esta situación puede llegar a ser más
frecuente y difícil de detectar en los estudios observacionales.
Factores que pueden aumentar la calidad de la evidencia:
Las situaciones que pueden llevar a incrementar la confianza con los resultados de los estudios
son poco comunes y se suelen aplicar sobre todo a estudios observacionales que evalúan el
impacto de una intervención. Estos aspectos se deberían evaluar después de constatar que no
se encuentra presente ninguna condición para disminuir la calidad de la evidencia debido a un
potencial riesgo de sesgo u otros factores que se han citado previamente.
a) Fuerza de la asociación.
Cuando el efecto observado muestra una asociación fuerte (riesgo relativo u odds ratio >2 ó
<0,5) o muy fuerte (riesgo relativo u odds ratio >5 ó <0,2), es más improbable que este efecto
sea debido a una sobrestimación debido a los factores de confusión y más probable que el
efecto observado sea más cercano al efecto real. En estos casos la calidad puede subir en 1 ó
2 grados. Por ejemplo, una revisión sistemática de estudios observacionales sobre la posición
de los lactantes en la cuna a la hora de dormir para evitar el síndrome de muerte súbita mostró
una reducción importante del riesgo para la posición boca arriba con un OR de 4,1 (IC: 95% 3,1
a 5,5).
b) Gradiente dosis-respuesta.
La existencia de un gradiente dosis-respuesta es un factor reconocido para establecer con

mayor certidumbre una relación causa-efecto. En estas circunstancias este gradiente puede
aumentar nuestra confianza en los resultados.
c) Impacto de las variables de confusión plausibles.
En los estudios observacionales rigurosos se controlan los factores pronósticos conocidos

asociados con el desenlace de interés. No siempre es posible controlar todas las variables de
confusión, que pueden reducir o reforzar el impacto de la intervención. Por ejemplo, varios
estudios observacionales han mostrado que el uso del preservativo por parte de varones que
tienen sexo con varones reduce el riesgo de infección por VIH comparado con no usarlo,
estudios en los que el análisis no se ha ajustado por el número de parejas sexuales. Otros
estudios han mostrado que los usuarios de preservativos tienen un mayor número de parejas
sexuales que los varones que no los usan. De haberse ajustado por este factor, es posible que
la asociación entre uso de preservativo y prevención de infección por VIH fuera mayor (Grupo
de trabajo sobre GPC, 2016).
Estos factores que pueden aumentar o disminuir la calidad de la evidencia no deben tomarse
como elementos individuales que puedan sumarse o restarse para obtener una clasificación de
la calidad, sino que deben ser considerados en su conjunto. Por ejemplo, a la hora de valorar
cuáles son las cifras de control glucémico más adecuadas en pacientes con diabetes tipo 2
(control intensivo vs. habitual), nos encontramos con que, para el desenlace de mortalidad
cardiovascular, la calidad de la evidencia se basa en 18 ensayos clínicos sin limitaciones
importantes, pero con un intervalo de confianza impreciso (ver tabla 3) y una cierta
heterogeneidad en los resultados (I2= 37% p= 0,09). Teniendo en cuenta ambos factores,
bajamos la calidad de alta a moderada, pero no a baja.
Una vez evaluada la calidad de la evidencia científica para cada desenlace, se debe realizar
una clasificación global de la calidad de la evidencia, lo que implica realizar un juicio general de
la calidad entre los desenlaces clave para una determinada pregunta clínica. En este proceso,
se deberían considerar sólo los desenlaces clave, aunque no siempre existen datos. En el caso
de los fármacos para la osteoporosis, se consideraría la calidad de la evidencia para las
fracturas, pero no la de la densidad mineral ósea.
Presentación de los resultados de la evaluación de la evidencia
Los perfiles de evidencia son un buen método para presentar la evidencia disponible y los
juicios sobre su calidad. Puede presentarse en forma de perfiles de GRADE (GRADE evidence
profile) o en forma más resumida (Summary of Findings). La tabla 3 muestra el perfil de la
evidencia para la pregunta respecto a las cifras objetivo de HbA1c en la diabetes tipo 2 (control
estricto vs. convencional de la glucemia).
Tabla 3. Ejemplo de perfil de evidencia. (Hemmingsen B, 2011)

Resumen de
los resultados
Evaluación de la calidad Magni

Nº de
tud
pacie
del Calida Importa
ntes
efecto d ncia
Evide Relati
Nº de Riesgo Sesgo
Dise Inconsist ncia Impreci va
estud de publica
ño encia indire sión (95%
ios sesgo ción
cta CI)
Desenlace 1: Mortalidad por todas las causas.
Sin No
RR
limitaci importan Poco
a 29.73 1,01
18 ECA ones te No (-1) probab Clave
1 (0,9- Moder
importa I2= 40% le
1,13) ada
ntes p= 0,08
Desenlace 2: Mortalidad cardiovascular.
Sin No
RR
a 29.73 1,06
18 ECA ones te No (-1) probab Clave
2 1 (0,9- Moder
importa I = 37% le
1,26) ada
ntes p= 0,09
Desenlace 3: IAM no fatal.
12 ECA Sin No No (-1)a Poco 29.17 RR Clave

limitaci importan probab 4 0,87
ones
(0,76- Moder
importa te le
1,0) ada
ntes
Desenlace 4: ACV no fatal.
Sin No
Pocos RR
evento 28.76 0,96
11 ECA ones te No probab Clave
s 0 (0,8- Moder
importa I2= 20% le
(-1)a 1,16) ada
ntes p= 0,26
Desenlace 5: Insuficiencia renal terminal.
Sin
RR
limitaci No Poco
28.07 0,87
7 ECA ones importan Sí b No probab Clave
5 (0,71- Moder
importa te le
1,06) ada
ntes
Desenlace 6: Retinopatía.
Sin
RR
limitaci Sí Poco
10.95 0,79 Importa
8 ECA ones I2= 53% Sí b No probab
3 (0,68- Moder nte
importa p= 0,04 le
0,92) ada
ntes
Desenlace 7: Hipoglucemia severa.
Sí
RR
Sin I2= 79% Poco
28.12 2,05
12 ECA limitaci p No No probab Clave
7 (1,39-
ones >0,0000 le
3,02) Alta
1
Desenlace 8: Amputaciones (extremidades inferiores).
Sin RR
limitaci No Poco 0,64
6 ECA ones importan No (-2)c probab 6.960 (0,43 Clave
importa te le a Baja
ntes 0,95)
a
Desenlace 1, 2 y 3: el análisis secuencial de los ensayos informó que se necesitan más
datos.
Desenlace 7: la heterogeneidad fue considerable, explicable por cómo se define la
hipoglucemia. Es improbable que ello cambie el resultado.
b
Variables subrogadas.
c
Pocas amputaciones.
En este ejemplo, considerando todos los desenlaces, la calidad global de la evidencia sería
moderada.
Cada pregunta clínica deber acompañarse además de un resumen redactado de forma

narrativa, en el que se describen brevemente los resultados de la búsqueda, la selección de
estudios, sus características y resultados de los estudios para los distintos desenlaces.
Formulación de las recomendaciones
La fuerza de una recomendación refleja el grado de certeza de que los efectos deseables de
una intervención recomendada superan sus efectos no deseables, o viceversa, en la población
de interés. El sistema GRADE considera dos categorías en relación a la fuerza de las
recomendaciones (Grupo de trabajo sobre GPC, 2016):
Recomendación fuerte: se refiere a una recomendación con confianza en que los efectos
deseados de la intervención superan a los indeseables (recomendación fuerte a favor), o en
que los efectos indeseados de la intervención superan los deseados (recomendación fuerte en
contra).
Recomendación débil: se refiere a una recomendación según la cual los efectos deseables
probablemente superan los efectos no deseables (recomendación débil a favor de una
intervención) o los efectos no deseables probablemente son mayores que los efectos
deseables (recomendación débil en contra de una intervención), pero con una incertidumbre
apreciable.
En la tabla 4 se resumen las implicaciones de la fuerza de las recomendaciones desde
diferentes perspectivas (pacientes, clínicos y gestores).
Tabla 4. Implicaciones de la fuerza de las recomendaciones desde diferentes perspectivas
(pacientes, clínicos y gestores).
Recomendación fuerte Recomendación débil
La mayoría de las personas

estarían de acuerdo con la La mayoría de las personas en esta
acción recomendada y sólo una situación estarían de acuerdo con
pequeña proporción no lo estaría. la acción sugerida, pero muchos no
lo estarían.
Las herramientas formales para
Para pacientes
la toma de decisiones Las herramientas para la toma de
probablemente no serán decisiones pueden ser útiles como
necesarias para ayudar a las ayuda para la toma de decisiones
personas a tomar decisiones coherentes con los valores y
coherentes con sus valores y preferencias de cada persona.
preferencias.
Para profesionales La mayoría de las personas Reconoce que diferentes opciones

sanitarios debería recibir la intervención serán apropiadas para cada
recomendada. paciente individual y que se deberá
alentar a que cada paciente
alcance una decisión de manejo
coherente con sus valores y
preferencias.
Las herramientas para la toma de
decisiones pueden ser útiles como
ayuda para la toma de decisiones
coherentes con los valores y
preferencias de cada persona.
El desarrollo de políticas sanitarias

requerirá considerables debates y
La recomendación puede ser
la participación de los diversos
adaptada a la política sanitaria en
grupos de interés.
la mayoría de las situaciones.
Para La documentación adecuada del
La adherencia a esta
decisores/gestores proceso de toma de decisiones
recomendación incluida en la
para una recomendación débil
guía, puede ser utilizado como
podría utilizarse como una medida
un criterio de calidad o indicador
de calidad, en particular, si está
de rendimiento.
basada en evidencia de alta
calidad.
De la evidencia a la recomendación: factores a tener en cuenta en la graduación de las

recomendaciones (Alonso-Coello P, 2016; Alonso-Coello P, 2018; Grupo de trabajo sobre GPC,
2016; Schünemann H, 2013):
El paso de la evidencia a la recomendación requiere tener en cuenta otros aspectos, además

de la calidad de la evidencia. Estos aspectos o “juicios” deben reflejarse de forma explícita y
transparente. Para estructurar la información y favorecer la transparencia en el paso de la
evidencia a las recomendaciones o decisiones, el grupo GRADE ha elaborado una serie de
marcos para la formulación de las recomendaciones y otras decisiones denominado Evidence
to Decision (EtD) frameworks (Alonso-Coello P, 2018 [1]; Alonso-Coello P, 2018 [2]). Para cada
una de las preguntas, se debe presentar claramente la pregunta, los subgrupos de población a
los que va dirigido, el entorno (ámbito al cual va dirigida la recomendación) y la perspectiva (por
ejemplo, poblacional o paciente individual), y los siguientes criterios y consideraciones:
1. Prioridad del problema: ¿el problema constituye una prioridad? Cuanto más severo es un
problema, más probable es que sea una prioridad y que deba formularse una recomendación
fuerte.
2. Efectos deseables e indeseables: ¿cuál es la magnitud de los efectos deseables

(beneficios)?¿Cuál es la magnitud de los efectos indeseables (riesgos y carga de tratamiento)?
Cuanto más sustanciales sean los efectos deseables y menos los indeseables, es más
probable que deba recomendarse una intervención y, por tanto, mayor probabilidad de formular
una recomendación fuerte.
3. Calidad de la evidencia: ¿cuál es la calidad global de la evidencia? (alta, moderada, baja,

muy baja, no hay estudios incluidos). Cuanto mayor sea la calidad de la evidencia, mayor
probabilidad de realizar una recomendación fuerte.
4. Importancia de los desenlaces para los pacientes. ¿Existe incertidumbre o variabilidad en

cómo los pacientes valoran los desenlaces de interés? Cuanto mayor sea la incertidumbre,
menor es la probabilidad de formular una recomendación fuerte. En el caso de la diabetes tipo
2 y el control estricto de la glucemia frente al convencional, existe incertidumbre acerca de
cómo los pacientes valorarán la carga de la medicación debida a un control más estricto
(posible insulinización, más fármacos orales, más analíticas y consultas), el mayor riesgo de
hipoglucemia frente a ligeros beneficios en las complicaciones para la diabetes.
5. Teniendo en cuenta la magnitud de los beneficios y riesgos y la incertidumbre

respecto a cómo los pacientes valoran los distintos desenlaces, el balance entre los
efectos deseados e indeseados, ¿favorece a la intervención? En el caso del control
glucémico, el balance entre beneficios y riesgos es muy ajustado: puede mejorar alguna de las
complicaciones de la diabetes en pequeña magnitud a costa de un mayor riesgo de
hipoglucemia severa y de mayor carga del tratamiento, con incertidumbre acerca de cómo los
pacientes pueden valorar estos resultados. Todo ello hace más probable que la recomendación
sea débil, a pesar de que la calidad de la evidencia sea moderada.
Desenlaces:
1. Mortalidad por todas las causas: sin efecto.
2. Mortalidad cardiovascular: sin efecto.
3. IAM no fatal: poco beneficio.
4. ACV no fatal: sin efecto.
5. Nefropatía: sin efecto.
6. Retinopatía: poco beneficio.
7. Hipoglucemia: riesgos/inconv. importantes/modestos.
8. Amputaciones: poco beneficio.
6. Recursos/Costes. ¿Son altos los costes que se requieren para poner en marcha la
intervención?¿Es alta la incertidumbre en torno a los recursos necesarios? Cuanto mayor es el
coste, menos probable es que una intervención se recomiende. Cuando el uso de recursos se
considera fundamental para una decisión acerca de una recomendación, es aconsejable su
evaluación económica mediante métodos formales o la búsqueda de evidencia acerca de su
relación entre costes y beneficios.
7. Teniendo en cuenta el balance entre efectos deseables e indeseables, es decir, el

beneficio neto (criterios 2 a 5) y el coste, la relación coste-beneficio, ¿favorece la
intervención?
8. Equidad, aceptabilidad y factibilidad. ¿Cuál es el impacto sobre la equidad?¿Es aceptable

la intervención para los grupos de interés clave?¿Es factible implementar la intervención?
Otros ejemplos:
A. El tratamiento con corticoides sistémicos en las exacerbaciones en la enfermedad pulmonar

obstructiva crónica (EPOC) presenta un balance beneficio-riesgo favorable (reduce el riesgo de
fracaso terapéutico, la necesidad de tratamiento adicional, la estancia hospitalaria y aumenta la
capacidad funcional, aunque presenta eventos adversos leves). La calidad de la evidencia es
moderada. No hay razones para pensar que la mayoría de los pacientes, una vez informados,
no aceptarían el tratamiento. Y finalmente, el coste de los corticoides es muy bajo. En conjunto,
por tanto, tenemos evidencia de calidad moderada (disminuye algo nuestra confianza en la
estimación del efecto) y no hay otros factores adicionales que nos hagan disminuir nuestra
confianza en que el llevar a cabo esta recomendación conllevaría más beneficios que daños.
No conlleva problemas de equidad ni de factibilidad. Por tanto, el grupo elaborador de una guía
probablemente realizaría una recomendación fuerte a favor del uso de corticoides en las
exacerbaciones de la EPOC (National Collaborating Centre for Chronic Conditions, 2004).
B. La prevención del ictus en pacientes con fibrilación auricular de riesgo intermedio (CHADS 2=
1) con anticoagulantes orales, bien antagonistas de la vitamina K (warfarina y acenocumarol) o
nuevos anticoagulantes orales (NACO) en comparación con aspirina. Warfarina muestra un
balance beneficio riesgo favorable (9 ictus menos y 3 sangrados extracraneales no fatales más
por cada 1.000 pacientes tratados), siendo la calidad de la evidencia moderada (You JJ, 2012).
No se dispone de datos comparativos entre aspirina y nuevos anticoagulantes (aunque sí entre
warfarina y NACO, la evidencia para los NACO sería, en todo caso, indirecta). En cuanto a los
valores y preferencias, los pacientes asignan, en términos generales, tres veces más
importancia a evitar un ictus que a sufrir un sangrado extracraneal grave. No obstante, estas
estimaciones de los valores y preferencias son muy variables (MacLean S, 2012). En cuanto al
coste, aspirina y warfarina tienen bajo coste. En el caso de los NACO, el coste es mucho más
elevado y en nuestro medio su impacto en presupuesto es muy relevante. En conjunto, por
tanto, tenemos evidencia de calidad moderada (disminuye algo nuestra confianza en la
estimación del efecto) y el coste es bajo para warfarina. El balance entre beneficios y riesgo
favorece a warfarina, aunque, debido al riesgo basal relativamente bajo de estos pacientes, es
modesto. Los valores y preferencias de los pacientes son variables. Por tanto, hay algunos
factores que disminuyen nuestra confianza en que el llevar a cabo esta recomendación
conllevaría más beneficios que daños en la mayoría de pacientes. Por tanto, el grupo
elaborador de una guía probablemente formularía una recomendación débil a favor de los
anticoagulantes antagonistas de la vitamina K, comparados con la aspirina, en esta población
(You JJ, 2012). No recomendaría los NACO en esta población, debido sobre todo a la ausencia
de evidencia directa y a su alto coste.
Respecto a la redacción de recomendaciones, GRADE propone la adopción de una

terminología específica para reflejar la fuerza, utilizando para ello expresiones como “se
recomienda/no se recomienda” o “se debe/no se debe” cuando se habla de recomendaciones
fuertes, y “se sugiere/no se sugiere” o “se podría” para recomendaciones débiles.
La recomendación acerca del control glucémico sería débil y quedaría redactada de la siguiente
forma (Ezkurra P, 2015):
“En general se sugieren unas cifras objetivo orientativas menores del 7% de HbA1c. No
obstante, el objetivo debería estar basado en la evaluación individualizada teniendo en cuenta
el riesgo de complicaciones de la diabetes, comorbilidad, esperanza de vida y preferencias de
los pacientes.
Se sugiere plantear objetivos menos estrictos, entre 7,5%-8%, para los ancianos, pacientes con
multimorbilidad o para iniciar la insulinización o la triple terapia.
Se puede considerar un tratamiento intensivo con el objeto de reducir las cifras de HbA1c por
debajo del 6,5% en pacientes jóvenes o recién diagnosticados sin comorbilidad.
Se sugiere implicar a las personas con diabetes tipo 2 en las decisiones sobre su nivel objetivo
de HbA1c.”
Tecnologías para aplicación de GRADE
El sistema GRADE cuenta con un software para la aplicación del mismo denominado
GRADEpro GDT. El software es una propuesta para sintetizar y presentar información para la
toma de decisiones en el campo de la salud. GRADEpro GDT permite la elaboración de tablas
de resumen de los hallazgos tanto para revisiones sistemáticas como para las evaluaciones de
tecnologías, facilitando el desarrollo de GPC y otro tipo de decisiones. Recientemente, ha
incorporado una base de datos que incluye un repositorio de este tipo de formatos para su
adopción, adaptación o uso en nuevas GPC. GRADEpro GDT, así como algunos de los
formatos de presentación, han sido desarrollados gracias al proyecto DECIDE (Developing and
Evaluating Communication Strategies to Support Informed Decisions and Practice Based on
Evidence) (Treweek S, 2013).
DECIDE es un proyecto Europeo impulsado por el grupo GRADE que tuvo como objetivo
mejorar la diseminación de las recomendaciones en salud para diferentes grupos de interés
(profesionales sanitarios, ciudadanos, pacientes y gestores). Para ello se desarrollaron
formatos óptimos de presentación y se actualizó el software original de GRADEpro (Kristiansen,
2015). Sus resultados ya se están implementando en algunas de las instituciones más
influyentes en la elaboración de revisiones sistemáticas, la formulación de recomendaciones y
toma de decisiones sanitarias como la Colaboración Cochrane, la OMS o la propia NICE. En
nuestro entorno ya han sido incorporados en la actualización del manual de elaboración de
GPC en el Sistema Nacional de Salud de 2016 (Grupo de trabajo sobre GPC, 2016). Entre los
formatos de presentación desarrollados están las tablas interactivas de resumen de los
hallazgos (https://isof.epistemonikos.org/#/), las herramientas de apoyo a las decisiones
compartidas ligadas a las GPC (Agoritsas T, 2015) o el marco de la evidencia a las decisiones
(Alonso Coello P, 2016).
Existen otros softwares para la aplicación de GRADE. Entre ellos destaca la iniciativa MAGIC
(Vandvik, 2013), la cual dispone de MAGIC app, una aplicación para desarrollar GPC
electrónicas, síntesis de información y herramientas de apoyo a la toma de decisiones ligada a
las GPC. La iniciativa colaboró junto al grupo GRADE en el desarrollo de los formatos de
presentación resultado del proyecto DECIDE mencionado anteriormente. Es un software similar
a GRADEpro que destaca por su desarrollo de los aspectos de publicación, simultáneos a los
de elaboración.
La evaluación de estos nuevos formatos de presentación electrónicas de las GPC han sido
favorables entre los profesionales a los que van dirigidas las GPC (Brandt, 2017).

GRADE Fisterra Lesctura 21-02-2023

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

GRADE Fisterra Lesctura 21-02-2023

Cargado por

Copyright:

Formatos disponibles

La evaluación de la calidad de la evidencia y la graduación de la fuerza de las

recomendaciones: el sistema GRADE

Características del sistema GRADE

La actualización del manual de elaboración de GPC en el Sistema Nacional de Salud de 2016

Las diferencias más relevantes entre GRADE (http://www.gradeworkinggroup.org) y otros

Al separar explícitamente la calidad de la evidencia y la fuerza de las recomendaciones,

Respecto a la formulación de las preguntas clínicas, GRADE propone la clasificación de la

La calidad de la evidencia, también denominada confianza o, más recientemente, certidumbre,

Aunque la calidad de la evidencia es un espectro continuo, GRADE propone una clasificación

Tabla 1. Clasificación de la calidad de la evidencia.

Es probable que el estimador del efecto se encuentre cercano al efecto real,

Es muy probable que el estimador del efecto sea sustancialmente diferente al

En el sistema GRADE, la calidad de la evidencia para un determinado desenlace arranca con el

Tabla 2. Factores que modifican la calidad de la evidencia.

Limitaciones en el diseño o ejecución de los estudios ↓ 1 o 2 grados

Disponibilidad de evidencia indirecta ↓ 1 o 2 grados

Imprecisión de los estimadores del efecto ↓ 1 o 2 grados

Sesgo de publicación ↓ 1 grado

Factores que permiten aumentar la calidad de la evidencia

Magnitud del efecto importante ↑ 1 o 2 grados

Gradiente dosis-respuesta relevante ↑ 1 grado

Impacto de las variables de confusión plausibles ↑ 1 grado

a) Limitaciones en el diseño o la ejecución de los estudios (riesgo de sesgo).

En los ECA se consideran: las limitaciones en la secuencia de aleatorización, limitaciones en el

En los estudios observacionales se consideran: limitaciones en los criterios de inclusión de los

A la hora de valorar globalmente el riesgo de sesgo de un conjunto de estudios con diferentes

b) Inconsistencia entre los resultados de diferentes estudios.

La inconsistencia se refiere a la variabilidad o heterogeneidad de los resultados entre los

En los metanálisis, la existencia de heterogeneidad se suele medir mediante una prueba de

c) Ausencia de evidencia directa.

La confianza en un estimador se reduce si se detecta que existen diferencias importantes entre

En las GPC se valora un conjunto de desenlaces de interés y la decisión de bajar la calidad de

Por ejemplo, si un fármaco anticoagulante para la prevención de episodios vasculares (ictus

Factores que pueden aumentar la calidad de la evidencia:

La existencia de un gradiente dosis-respuesta es un factor reconocido para establecer con

c) Impacto de las variables de confusión plausibles.

En los estudios observacionales rigurosos se controlan los factores pronósticos conocidos

Presentación de los resultados de la evaluación de la evidencia

Tabla 3. Ejemplo de perfil de evidencia. (Hemmingsen B, 2011)

Evaluación de la calidad Magni

Desenlace 1: Mortalidad por todas las causas.

Desenlace 2: Mortalidad cardiovascular.

Desenlace 3: IAM no fatal.

12 ECA Sin No No (-1)a Poco 29.17 RR Clave

Desenlace 4: ACV no fatal.

Desenlace 5: Insuficiencia renal terminal.

Desenlace 7: Hipoglucemia severa.

Desenlace 8: Amputaciones (extremidades inferiores).

Cada pregunta clínica deber acompañarse además de un resumen redactado de forma

Formulación de las recomendaciones

La mayoría de las personas

Para profesionales La mayoría de las personas Reconoce que diferentes opciones

El desarrollo de políticas sanitarias

De la evidencia a la recomendación: factores a tener en cuenta en la graduación de las

El paso de la evidencia a la recomendación requiere tener en cuenta otros aspectos, además

2. Efectos deseables e indeseables: ¿cuál es la magnitud de los efectos deseables

3. Calidad de la evidencia: ¿cuál es la calidad global de la evidencia? (alta, moderada, baja,

4. Importancia de los desenlaces para los pacientes. ¿Existe incertidumbre o variabilidad en

5. Teniendo en cuenta la magnitud de los beneficios y riesgos y la incertidumbre

7. Teniendo en cuenta el balance entre efectos deseables e indeseables, es decir, el

8. Equidad, aceptabilidad y factibilidad. ¿Cuál es el impacto sobre la equidad?¿Es aceptable

A. El tratamiento con corticoides sistémicos en las exacerbaciones en la enfermedad pulmonar

Respecto a la redacción de recomendaciones, GRADE propone la adopción de una