Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.
Radiología. 2015;57(S1):22---28
www.elsevier.es/rx
ARTÍCULO ESPECIAL
Centro de Salud Loreto-Puntales, Distrito Sanitario Bahía de Cádiz-La Janda, Cádiz, España
PALABRAS CLAVE Resumen Una nueva prueba diagnóstica debe validarse, mediante su comparación con un
Diagnóstico; estándar de referencia en un espectro apropiado de pacientes.
Técnicas y Las pruebas diagnósticas no son absolutamente exactas, sino que pueden existir falsos posi-
procedimientos tivos y falsos negativos.
diagnósticos; Una buena prueba diagnóstica será la que ofrezca una aceptable proporción de resultados
Diagnóstico por positivos en personas enfermas y una aceptable proporción de resultados negativos en personas
Imagen; sanas.
Sensibilidad y La mejor medida de la utilidad de una prueba diagnóstica la constituyen los cocientes de
especificidad; probabilidad, que determinan cuánto más probable es el resultado de una prueba entre las
Valor predictivo personas enfermas que entre las sanas.
de las pruebas En el presente artículo se abordan las nociones estadísticas fundamentales para interpretar
los resultados de un artículo de pruebas diagnósticas, pero con un planteamiento orientado a la
clínica, dando prioridad a la comprensión de los conceptos frente a los elementos matemáticos.
© 2014 SERAM. Publicado por Elsevier España, S.L.U. Todos los derechos reservados.
KEYWORDS Critical reading of articles about diagnostic tests (Part II): Analyzing results
Diagnosis;
Diagnostic techniques Abstract A new diagnostic test needs to be validated through comparison with a reference
and procedures; standard in an appropriate spectrum of patients.
Diagnostic imaging; Diagnostic tests are not perfectly accurate; on the contrary, there can be false-positive and
Sensitivity false-negative findings.
and specificity; A good diagnostic test is that which provides an acceptable proportion of positive results
Predictive value when a determinate condition is present in patients and an acceptable proportion of negative
of tests results when it is absent.
http://dx.doi.org/10.1016/j.rx.2014.11.004
0033-8338/© 2014 SERAM. Publicado por Elsevier España, S.L.U. Todos los derechos reservados.
Documento descargado de http://www.elsevier.es el 18/01/2016. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.
The best measure of the usefulness of a diagnostic test is the likelihood ratio, which informs
us to what degree a particular result is more likely in a person in whom a condition is present
than in a person in whom the condition is absent.
The present article discusses the fundamental statistical concepts necessary to interpret the
results section of an article about a diagnostic test; however, the approach is clearly oriented
toward clinical practice, with emphasis on concepts rather than mathematics.
© 2014 SERAM. Published by Elsevier España, S.L.U. All rights reserved.
24 G. Moratalla Rodríguez
Tabla 1 Interpretación de los resultados del índice kappa Tabla 2 Medidas de comparación de una prueba diagnós-
tica con su estándar de referencia
Índice kappa (k) Interpretación de la fuerza de la
concordancia Estándar de referencia
< 0,20 Pobre Enfermo (+) Sano (---)
0,21-0,40 Débil Prueba Positiva VP FP Tp
0,41-0,60 Moderada diagnóstica
0,61-0,80 Buena Negativa FN VN Tn
0,81-1 Muy buena Te Ts P
FN: falso negativo; FP: falso positivo; P: población; Te: total de
enfermos; Tn: total de negativos; Tp: total de positivos; Ts: total
variabilidad de las mediciones, pero son de especial consi- de sanos; VN: verdadero negativo; VP: verdadero positivo.
deración en el diagnóstico radiológico los relacionados con Cálculos verticales. Especificidad (Es) = VN/Ts; proporción de
falsos negativos (1-Se) = Fn/Te; proporción de falsos positivos
las variaciones de interpretación de los observadores: en pri-
(1-Es) = FP/Ts; Sensibilidad (S) = VP/Te.
mer lugar consigo mismo (variabilidad intraobservador); en Cálculos horizontales. Valor predictivo positivo (VPP) = VP/Tp;
segundo lugar con otros observadores (variabilidad interob- valor predictivo negativo (VPN) = VN/Tn; prevalencia (p) = Te/P.
servador).
La fiabilidad puede medirse con diversos estimadores:
para variables categóricas con los índices kappa y kappa pon- Descriptores básicos
derado (según sean nominales u ordinales) y para variables
continuas con el coeficiente de correlación intraclase4 . Para interpretar la tabla 2, se asume que el estándar de
El índice kappa es una medida de la concordancia entre referencia establece el diagnóstico. Comparando la prueba
distintas mediciones, y se calcula comparando en una tabla con el estándar, observamos dos situaciones de coincidencia:
de n x n los resultados de las diferentes interpretaciones de los verdaderos positivos (VP), o casos en que el resultado
medida, entre un observador consigo mismo, o entre varios positivo de la prueba y el estándar coinciden, y los verda-
observadores5 . A modo de orientación, se presenta en la deros negativos (VN). Cuando hay discordancia encontramos
tabla 1 una lista de categorías para interpretación del índice casos de falsos positivos en los cuales el estándar es nega-
kappa. tivo y la prueba positiva, o falsos negativos (FN) en los que
El índice kappa es muy utilizado para el análisis de con- el estándar es positivo y la prueba negativa3 .
cordancia pues evita los problemas de interpretación de los Los VP son determinaciones «correctas» de la prueba y
simples porcentajes de concordancia respecto a los errores los FN son determinaciones «incorrectas» de la prueba en la
de este en los datos marginales. También tiene sus proble- población que tiene la enfermedad (casos clasificados por el
mas de aplicabilidad, y sus detractores. estándar como enfermos).
Como conclusión, es importante considerar que si un Los VN son determinaciones «correctas» de la prueba y
estudio aporta información sobre la fiabilidad de las medi- los FP son determinaciones «incorrectas» de la prueba en
ciones en la prueba diagnóstica y en el estándar de la población que no tiene la enfermedad (casos clasificados
referencia, incorpora sólidos argumentos para aceptar que por el estándar como sanos).
sus resultados son válidos, al menos en el aspecto de la Correcta e incorrecta es una forma de hablar, pues el
precisión de los test diagnósticos analizados. estándar de referencia perfecto no existe y sus mediciones
también están sometidas a error.
Cuando se compara una prueba con su estándar, se pue-
La comparación jerárquica entre prueba den estimar una serie de cálculos, aceptando que el estándar
diagnóstica y estándar de referencia define el diagnóstico de la enfermedad. Si dichos cálculos
se realizan desde el diagnóstico al resultado de la prueba,
La situación más simple para comparar una prueba diagnós- se hacen en sentido vertical de la tabla. Si los cálculos se
tica con su estándar es aquella que presupone resultados realizan desde el resultado de la prueba al diagnóstico, se
dicotómicos (ambos test son positivos o negativos), y que hacen en sentido horizontal de la tabla. Los cálculos ver-
el estándar es la prueba más próxima a la «certeza» diag- ticales informan de la validez de la prueba, y los cálculos
nóstica. Aunque esta situación raras veces se encuentra en horizontales informan de la seguridad de la prueba.
la práctica clínica (ciertas mediciones son «indeterminadas»
y no caben en la categoría ni de positivo ni de negativo) la Cálculos combinados verticales. Validez de la
emplearemos por cuestiones didácticas, pues permite expli- prueba6
car el cálculo de los indicadores para medir la validez de una
prueba diagnóstica. Siguiendo con la tabla 2, y leyendo en sentido vertical,
La tabla 2 explica los descriptores básicos1 y la relación podemos estimar una serie de probabilidades de sucesos: la
entre ellos. Para que estas medidas tengan validez, es nece- probabilidad de que un caso se clasifique en cada una de las
sario (entre otras cosas) que las mediciones de la prueba cuatro casillas en relación al total de casos de su columna.
diagnóstica y su estándar se realicen de manera ciega, pues Dichas probabilidades se expresan como proporciones.
la interpretación de una prueba puede verse influida si quien El primer cálculo que puede hacerse es la probabilidad
realiza la medición conoce previamente el resultado de su de que la prueba identifique a una persona como enferma
comparación. (prueba positiva) cuando realmente lo está (estándar
Documento descargado de http://www.elsevier.es el 18/01/2016. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.
positivo). Basta dividir los VP entre el total de personas con probabilidad, de una prueba positiva o negativa7 . Su gran
la enfermedad (Te). Este índice se denomina proporción ventaja es que son aplicables clínicamente, pues se basan
de verdaderos positivos o sensibilidad (Se). Por tanto en el proceder habitual, pero sus resultados son muy depen-
Se = VP/Te. Su probabilidad complementaria sería la pro- dientes de la prevalencia de la enfermedad. Ello hace que
porción de falsos negativos (probabilidad de que la prueba los valores predictivos de una prueba evaluada en unas
clasifique a una persona como sana cuando realmente tiene condiciones determinadas no puedan ser aplicables, en la
la enfermedad). Por tanto 1-Se = FN/Te. Una prueba muy práctica, a la misma prueba aplicada en otras condiciones
sensible tendrá una alta probabilidad de verdaderos positi- diferentes, y este es precisamente el gran problema de su
vos y una baja probabilidad de falsos negativos: una prueba aplicabilidad.
sensible, cuando es negativa descarta con una alta proba- En la tabla 3 se muestra un ejemplo que aclara la influen-
bilidad la presencia de enfermedad. Puede usarse la regla cia de la prevalencia en los valores predictivos. Podemos
nemotécnica en inglés SnNout: Sn sensitivity, N negative, observar cómo al disminuir la prevalencia del 50% (100/200)
out. Es decir: una prueba sensible negativa descarta. al 0,99% (100/10100), permanecen casi inalterables sensibi-
El segundo cálculo que puede hacerse es la probabi- lidad y especificidad, el VPP disminuye y el VPN aumenta.
lidad de que la prueba identifique a una persona como
sana (prueba negativa) cuando realmente lo está (estándar Índices que permitan comparar pruebas
negativo). Basta dividir los VN entre el total de personas
diagnósticas
sanas (Ts). Este índice se denomina proporción de verda-
deros negativos o especificidad (Es). Por tanto Es = VN/Ts. Otra forma de describir el comportamiento de una prueba
Su probabilidad complementaria sería la proporción de fal- diagnóstica es mediante el empleo de los cocientes de
sos positivos (probabilidad de que la prueba clasifique a una probabilidad, que surgen de la necesidad de disponer de
persona como enferma cuando realmente está sana). Por índices que no dependan de la prevalencia de la enfer-
tanto 1-Es = FP/Ts. Una prueba muy específica tendrá una medad. Los cocientes de probabilidad (llamados también
alta probabilidad de verdaderos negativos y una baja proba- likelihood ratios, razones de verosimilitud o razones de pro-
bilidad de falsos positivos: una prueba específica, cuando es babilidad) permiten resolver el conflicto de la combinación
positiva confirma con una alta probabilidad la presencia de entre sensibilidad y especificidad1 .
enfermedad. Puede usarse la regla nemotécnica en inglés El cociente de probabilidad, estima cuánto más probable
SpPin: Sp Specificity, P positive, in. Es decir: una prueba es el resultado de una prueba en las personas con enferme-
específica positiva confirma. dad en relación a las personas sanas.
Los cálculos verticales informan de las características de Existen dos tipos de cocientes de probabilidad, según los
una prueba diagnóstica suponiendo que conocemos previa- resultados posibles de la prueba: cociente de probabilidad
mente si la persona tiene la enfermedad. Esta situación es positivo, y cociente de probabilidad negativo.
propia de la investigación, pero no suele ser común en la El cociente de probabilidad positivo (CP + ) estima cuánto
práctica clínica. más probable es obtener un resultado positivo en sujetos
Tanto sensibilidad como especificidad son proporciones enfermos que en sujetos sanos. Si nos fijamos en la tabla 2,
y por tanto se pueden calcular sus intervalos de confianza, vemos que la probabilidad de obtener un resultado positivo
igual que para cualquier proporción. Es un criterio de calidad en sujetos enfermos equivale a la proporción de verdaderos
de un estudio de validez de pruebas diagnósticas que aporte positivos, es decir la sensibilidad (Se). La probabilidad de
los intervalos de confianza de sus mediciones. obtener un resultado positivo en sujetos sanos equivale a la
proporción de falsos positivos, es decir el complementario
de la especificidad (1-Es). Por tanto (CP + ) = (Se)/(1-Es).
Cálculos combinados horizontales. Seguridad de la
El cociente de probabilidad negativo (CP-) estima cuánto
prueba más probable es obtener un resultado negativo en sujetos
enfermos que en sujetos sanos. La probabilidad de obtener
Leyendo la tabla 2 en sentido horizontal podemos calcular un resultado negativo en sujetos enfermos equivale a la pro-
también una serie de probabilidades: la probabilidad de que porción de falsos negativos, es decir el complementario de
un caso se clasifique en cada una de las cuatro casillas en la sensibilidad (1-Se). La probabilidad de obtener un resul-
relación al total de casos de su fila. tado negativo en sujetos enfermos equivale a la proporción
El primer cálculo que podemos estimar es la probabilidad de verdaderos negativos, es decir la especificidad (Es). Por
de presentar la enfermedad cuando la prueba ha resul- tanto (CP-) = (1-Se)/(Es).
tado positiva. Se define intuitivamente como proporción de Su interpretación es similar al riesgo relativo: los cocien-
enfermos entre los test positivos, y se denomina valor pre- tes de probabilidad adoptan valores entre 0 e infinito, siendo
dictivo positivo (VPP). Por tanto VPP = VP/Tp. uno el valor nulo (igualdad de probabilidad). Cuanto más se
El segundo cálculo que podemos estimar es la probabili- eleve el CP por encima de uno más se incrementa la probabi-
dad de estar sano cuando la prueba ha resultado negativa. lidad de diagnóstico; cuanto más disminuya el CP por debajo
Se define intuitivamente como proporción de sanos entre de uno más disminuirá la probabilidad de diagnóstico4 . Pode-
los test negativos, y se denomina valor predictivo negativo mos interpretarlos de la siguiente manera:
(VPN). Por tanto VPN = VN/Tn.
Al contrario que la sensibilidad y la especificidad, que • CP >10: incrementos amplios de la probabilidad diagnós-
son características inherentes a la prueba, los cálculos tica.
horizontales son índices guiados por el resultado de la • CP 5-10: incrementos moderados de la probabilidad diag-
prueba, e informan sobre las consecuencias, en términos de nóstica.
Documento descargado de http://www.elsevier.es el 18/01/2016. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.
26 G. Moratalla Rodríguez
Tabla 3 Ejemplo de la influencia de la prevalencia en los índices de comparación de una prueba diagnóstica con su estándar
de referencia
Característica evaluada
Característica evaluada
Sensibilidad
0,6 Mala
considerar la indicación de una angio-TC pulmonar para el
diagnóstico de tromboembolismo pulmonar. Dicha prueba Regular
tiene una sensibilidad de 83% y una especificidad de 96%, 0,4
con unos cocientes de probabilidad CP+ 20,74 y CP- 0,17
respectivamente8 . Se atiende a un paciente que presenta un 0,2
edema y enrojecimiento de toda la pierna izquierda, episo-
dio de disnea y dolor torácico, tiene taquipnea con sat O2
98% y en la radiografía de tórax se aprecia un derrame pleu- 0
0 0,2 0,4 0,6 0,8 1
ral mínimo. Estimaríamos que la probabilidad de tener un
1-Especificidad
tromboembolismo pulmonar, antes de hacer la prueba sería
del 90%. Aplicando los CP de la angio-TC pulmonar la proba- Figura 1 Ejemplo de construcción de curvas ROC. Tomada de:
bilidad posprueba, en caso de ser positiva se incrementaría Hrc.es (2014). Curvas ROC [online] [consultado 27 Abr 2014].
al 99%. Si el resultado fuera negativo la probablidad de tener Disponible en: http://www.hrc.es/bioest/roc 1.html.
un tromboembolismo se reduciría al 59%. En este caso, en
que la clínica aporta información favorable a una alta pro-
babilidad preprueba a favor del diagnóstico el rendimiento
de hacer una prueba más podría ser discutible. La primera decisión que se podría adoptar es definir un
Si el caso fuera un contexto de muy baja probabilidad punto de corte, o umbral de diagnóstico entre todos los valo-
preprueba (pongamos el 1%) la probabilidad de tener un res posibles de la variable, pero suele ser una decisión difícil
tromboembolismo en caso de hacer una angio-TC con resul- de tomar en la práctica pues no existe un punto de corte
tado positivo aumentaría al 18%, y se reduciría al 0,1% en que discrimine perfectamente a los sujetos enfermos de los
caso de resultado negativo. Hacer la prueba en estas condi- sanos. Más bien al contrario, lo que suele ocurrir es un sola-
ciones aporta un valor añadido también discutible. pamiento de los resultados de las pruebas diagnósticas en
Supongamos que atendemos a un paciente que tiene las poblaciones enferma y sana. En el ejemplo anterior, una
edema en toda la pierna, con empastamiento, se queja de persona podría estar sana con una glucemia basal de 128, y
accesos de tos, y la radiología es normal. Estimamos que su otra podría tener diabetes con una glucemia de 124.
probabilidad de tener un tromboembolismo pulmonar es del Así, las características intrínsecas de la prueba (sensibi-
50%. Si la angio-TC fuese positiva la probabilidad del diag- lidad y especificidad) van a variar según donde se determine
nóstico de tromboembolismo se incrementa al 95%, mientras el punto de corte. En nuestro ejemplo, un punto de corte
que si fuese negativa se reduce al 15%. En condiciones de demasiado alto asegura una alta especificidad a costa de una
mayor incertidumbre previa, hacer una prueba con buenos baja sensibilidad (confirma la enfermedad si la prueba es
cocientes de probabilidad ofrece un rendimiento mayor. positiva, pero no descarta la enfermedad si la prueba
Otras ventajas de los cocientes de probabilidad son: per- es negativa). Al contrario un punto de corte demasiado bajo
miten comparar pruebas entre sí o evaluar test secuenciales, asegura una alta sensibilidad, pero a costa de una baja espe-
son intuitivos de interpretar, y evitan el cálculo de los valo- cificidad (descarta la enfermedad si la prueba es negativa,
res predictivos. Entre sus desventajas están la ausencia de pero no confirma la enfermedad si la prueba es positiva).
linealidad, y la necesidad de convertir las probabilidades en De todo ello se deduce, intuitivamente, que el punto de
odds en el cálculo de la probabilidad posprueba9 . corte ideal será el que determine el mejor equilibrio entre
En los estudios que evalúan pruebas diagnósticas, los sensibilidad y especificidad.
cocientes de probabilidad se obtienen a partir de medi- Para determinar la relación entre la sensibilidad y especi-
das en una muestra de una población, por lo cual siempre ficidad de una prueba, en función del umbral de diagnóstico
tienen que acompañarse del correspondiente intervalo de o punto de corte, se construyen las llamadas curvas ROC
confianza. (Receiving Operating Characteristics). En ellas se represen-
tan en el eje «y» los valores de la sensibilidad (Se) para
cada punto de corte, y en el eje «x» los valores del comple-
mentario de la especificidad o proporción de falsos positivos
Pruebas diagnósticas con resultados múltiples (1-Es)10 .
o continuos. Curvas ROC En la figura 1 se expone un ejemplo de construcción de
curvas ROC. La prueba perfecta sería aquella que tuviese
Hasta el momento hemos analizado escenarios en que la un punto de corte que se aproximase al 100% de Se y al
prueba diagnóstica solamente podría tener dos resultados: 0% de proporción de falsos positivos (1-Es). En la figura
positivo/negativo. Un ejemplo típico de esto sería el cultivo puede comprobarse que las curvas ROC de una buena prueba
de una muestra biológica. diagnóstica son aquellas cuyo vértice se aproxima al ángulo
Existen muchas pruebas que se miden con una variable superior izquierdo del eje de coordenadas (máxima sensibi-
ordinal, o con una variable continua. Un ejemplo sería el lidad y especificidad). Una prueba inútil sería aquella cuya
nivel de glucemia para diagnosticar la diabetes mellitus. curva ROC fuese la diagonal, pues en todos los puntos de
Documento descargado de http://www.elsevier.es el 18/01/2016. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.
28 G. Moratalla Rodríguez
corte coincidirían la Se (proporción de verdaderos positivos) Confidencialidad de los datos. Los autores declaran que en
con 1-Es (proporción de falsos positivos). este artículo no aparecen datos de pacientes.
Conclusiones: puntos clave para analizar los Derecho a la privacidad y consentimiento informado. Los
autores declaran que en este artículo no aparecen datos de
resultados de un artículo de pruebas
pacientes.
diagnósticas