Análisis de Resultados

Documento descargado de http://www.elsevier.es el 18/01/2016.
Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.
Radiología. 2015;57(S1):22---28
www.elsevier.es/rx
ARTÍCULO ESPECIAL
Lectura crítica de artículos de pruebas diagnósticas II:

análisis de resultados
G. Moratalla Rodríguez ∗
Centro de Salud Loreto-Puntales, Distrito Sanitario Bahía de Cádiz-La Janda, Cádiz, España
Recibido el 15 de mayo de 2014; aceptado el 5 de noviembre de 2014

Disponible en Internet el 30 de diciembre de 2014
PALABRAS CLAVE Resumen Una nueva prueba diagnóstica debe validarse, mediante su comparación con un
Diagnóstico; estándar de referencia en un espectro apropiado de pacientes.
Técnicas y Las pruebas diagnósticas no son absolutamente exactas, sino que pueden existir falsos posi-
procedimientos tivos y falsos negativos.
diagnósticos; Una buena prueba diagnóstica será la que ofrezca una aceptable proporción de resultados
Diagnóstico por positivos en personas enfermas y una aceptable proporción de resultados negativos en personas
Imagen; sanas.
Sensibilidad y La mejor medida de la utilidad de una prueba diagnóstica la constituyen los cocientes de
especificidad; probabilidad, que determinan cuánto más probable es el resultado de una prueba entre las
Valor predictivo personas enfermas que entre las sanas.
de las pruebas En el presente artículo se abordan las nociones estadísticas fundamentales para interpretar
los resultados de un artículo de pruebas diagnósticas, pero con un planteamiento orientado a la
clínica, dando prioridad a la comprensión de los conceptos frente a los elementos matemáticos.
© 2014 SERAM. Publicado por Elsevier España, S.L.U. Todos los derechos reservados.
KEYWORDS Critical reading of articles about diagnostic tests (Part II): Analyzing results
Diagnosis;
Diagnostic techniques Abstract A new diagnostic test needs to be validated through comparison with a reference
and procedures; standard in an appropriate spectrum of patients.
Diagnostic imaging; Diagnostic tests are not perfectly accurate; on the contrary, there can be false-positive and
Sensitivity false-negative findings.
and specificity; A good diagnostic test is that which provides an acceptable proportion of positive results
Predictive value when a determinate condition is present in patients and an acceptable proportion of negative
of tests results when it is absent.
∗ Autor para correspondencia.

Correo electrónico: morrogui@gmail.com
http://dx.doi.org/10.1016/j.rx.2014.11.004
0033-8338/© 2014 SERAM. Publicado por Elsevier España, S.L.U. Todos los derechos reservados.
Documento descargado de http://www.elsevier.es el 18/01/2016. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.
Lectura crítica de artículos de pruebas diagnósticas II: análisis de resultados 23
The best measure of the usefulness of a diagnostic test is the likelihood ratio, which informs
us to what degree a particular result is more likely in a person in whom a condition is present
than in a person in whom the condition is absent.
The present article discusses the fundamental statistical concepts necessary to interpret the
results section of an article about a diagnostic test; however, the approach is clearly oriented
toward clinical practice, with emphasis on concepts rather than mathematics.
© 2014 SERAM. Published by Elsevier España, S.L.U. All rights reserved.
Introducción puede ser capaz de detectar nódulos de unas determinadas

características hay que contar con la probabilidad de que el
observador pueda interpretarlo erróneamente.
El diagnóstico es un proceso complejo, siempre basado en
Por seguridad entendemos la capacidad del test para
la incertidumbre. Esta incertidumbre se puede acotar por
predecir la presencia o ausencia de enfermedad. Se mide
medio de instrumentos estadísticos basados en la teoría de
mediante los valores predictivos (positivo y negativo).
la probabilidad1 . El proceso diagnóstico supone asignar a una
Es importante considerar otros aspectos como sencillez
persona o grupo una cierta probabilidad de tener una enfer-
de aplicación del test, aceptabilidad, seguridad y costes.
medad. Para conocer esa probabilidad es preciso obtener
En este artículo se revisan los conceptos estadísticos que
información. Esa información permite que aumente (confir-
se emplean en la evaluación de los resultados de un test
mar la enfermedad) o disminuya (descartar la enfermedad)
diagnóstico respecto a su precisión, validez y seguridad.
la probabilidad de asignar una etiqueta diagnóstica. La infor-
mación diagnóstica se puede obtener tanto de exploraciones
complementarias, como de síntomas o signos clínicos. Todas Algunas consideraciones sobre el proceso
estas fuentes de información pueden ser consideradas test de medición de los resultados de una prueba
diagnósticos y sometidas a evaluación1 . diagnóstica
Los test diagnósticos (o pruebas diagnósticas) no son
absolutamente exactos, y existen situaciones en que
En los estudios de evaluación de pruebas diagnósticas,
clasifican como enferma a una persona sana (falso positivo)
se compara dicha prueba con un estándar de referencia,
o bien como sana a una persona enferma (falso negativo)2 .
al que se presupone superior jerarquía. Dicha compara-
Existen diversos factores que afectan a los resultados de
ción ha de hacerse en unas condiciones de calidad en el
un test, por lo cual es necesario que una nueva prueba
proceso de medida tanto de la prueba diagnóstica como
diagnóstica sea validada. La mayoría de los estudios de
del estándar de referencia. Es importante considerar que
validez de test diagnósticos se realizan mediante la compa-
en el proceso de medición de la prueba diagnóstica o del
ración del test con otra prueba considerada un estándar de
estándar de referencia, pueden cometerse errores tanto de
referencia (gold standard).
precisión como de validez.
Un test es válido si detecta a la mayoría de las personas
La precisión se relaciona con la reproducibilidad o fiabili-
con la enfermedad, descarta a la mayoría de las personas
dad, es decir si las medidas son parecidas entre sí cuando se
sanas y sus resultados positivos indican una alta probabilidad
repiten un número determinado de veces. La validez tiene
de que la enfermedad esté presente2 . En otras palabras, un
relación con la exactitud, es decir en qué medida se parecen
buen test diagnóstico será el que ofrezca una aceptable pro-
los resultados de la prueba o el estándar de referencia a la
porción de resultados positivos en personas enfermas y una
realidad.
aceptable proporción de resultados negativos en personas
Aunque las condiciones en que se realizan las medidas de
sanas3 .
la prueba y el estándar de referencia son importantísimas
Las condiciones que se pueden exigir a un test diagnós-
en la calidad de los estudios sobre test diagnósticos, este
tico para valorar su utilidad son básicamente tres: validez,
artículo se centra en las medidas de comparación entre
precisión y seguridad3 .
ambos. Los aspectos a considerar serán la magnitud de los
Por validez se entiende la capacidad de un test para
resultados y su precisión, tras comprender los cuales se
medir lo que realmente debe medir. En este concepto esta-
podrá proceder a su correcta interpretación y aplicación.
rán incluidas la sensibilidad y la especificidad.
Por precisión, reproducibilidad o fiabilidad se entiende
la capacidad de un test para ofrecer los mismos resultados Primera medida de comparación: la fiabilidad,
cuando se repite su aplicación. En la precisión influyen facto- reproducibilidad o precisión de las medidas
res como la propia variabilidad biológica, las características
inherentes al propio test y la influencia del observador. La fiabilidad o precisión de una prueba viene determinada
En el diagnóstico radiológico es importante considerar el por la estabilidad de las mediciones cuando son repetidas
efecto del observador, pues aunque una radiografía de tórax en condiciones similares4 . Diversos factores influyen en la
24 G. Moratalla Rodríguez
Tabla 1 Interpretación de los resultados del índice kappa Tabla 2 Medidas de comparación de una prueba diagnós-
tica con su estándar de referencia
Índice kappa (k) Interpretación de la fuerza de la
concordancia Estándar de referencia
< 0,20 Pobre Enfermo (+) Sano (---)
0,21-0,40 Débil Prueba Positiva VP FP Tp
0,41-0,60 Moderada diagnóstica
0,61-0,80 Buena Negativa FN VN Tn
0,81-1 Muy buena Te Ts P
FN: falso negativo; FP: falso positivo; P: población; Te: total de
enfermos; Tn: total de negativos; Tp: total de positivos; Ts: total
variabilidad de las mediciones, pero son de especial consi- de sanos; VN: verdadero negativo; VP: verdadero positivo.
deración en el diagnóstico radiológico los relacionados con Cálculos verticales. Especificidad (Es) = VN/Ts; proporción de
falsos negativos (1-Se) = Fn/Te; proporción de falsos positivos
las variaciones de interpretación de los observadores: en pri-
(1-Es) = FP/Ts; Sensibilidad (S) = VP/Te.
mer lugar consigo mismo (variabilidad intraobservador); en Cálculos horizontales. Valor predictivo positivo (VPP) = VP/Tp;
segundo lugar con otros observadores (variabilidad interob- valor predictivo negativo (VPN) = VN/Tn; prevalencia (p) = Te/P.
servador).
La fiabilidad puede medirse con diversos estimadores:
para variables categóricas con los índices kappa y kappa pon- Descriptores básicos
derado (según sean nominales u ordinales) y para variables
continuas con el coeficiente de correlación intraclase4 . Para interpretar la tabla 2, se asume que el estándar de
El índice kappa es una medida de la concordancia entre referencia establece el diagnóstico. Comparando la prueba
distintas mediciones, y se calcula comparando en una tabla con el estándar, observamos dos situaciones de coincidencia:
de n x n los resultados de las diferentes interpretaciones de los verdaderos positivos (VP), o casos en que el resultado
medida, entre un observador consigo mismo, o entre varios positivo de la prueba y el estándar coinciden, y los verda-
observadores5 . A modo de orientación, se presenta en la deros negativos (VN). Cuando hay discordancia encontramos
tabla 1 una lista de categorías para interpretación del índice casos de falsos positivos en los cuales el estándar es nega-
kappa. tivo y la prueba positiva, o falsos negativos (FN) en los que
El índice kappa es muy utilizado para el análisis de con- el estándar es positivo y la prueba negativa3 .
cordancia pues evita los problemas de interpretación de los Los VP son determinaciones «correctas» de la prueba y
simples porcentajes de concordancia respecto a los errores los FN son determinaciones «incorrectas» de la prueba en la
de este en los datos marginales. También tiene sus proble- población que tiene la enfermedad (casos clasificados por el
mas de aplicabilidad, y sus detractores. estándar como enfermos).
Como conclusión, es importante considerar que si un Los VN son determinaciones «correctas» de la prueba y
estudio aporta información sobre la fiabilidad de las medi- los FP son determinaciones «incorrectas» de la prueba en
ciones en la prueba diagnóstica y en el estándar de la población que no tiene la enfermedad (casos clasificados
referencia, incorpora sólidos argumentos para aceptar que por el estándar como sanos).
sus resultados son válidos, al menos en el aspecto de la Correcta e incorrecta es una forma de hablar, pues el
precisión de los test diagnósticos analizados. estándar de referencia perfecto no existe y sus mediciones
también están sometidas a error.
Cuando se compara una prueba con su estándar, se pue-
La comparación jerárquica entre prueba den estimar una serie de cálculos, aceptando que el estándar
diagnóstica y estándar de referencia define el diagnóstico de la enfermedad. Si dichos cálculos
se realizan desde el diagnóstico al resultado de la prueba,
La situación más simple para comparar una prueba diagnós- se hacen en sentido vertical de la tabla. Si los cálculos se
tica con su estándar es aquella que presupone resultados realizan desde el resultado de la prueba al diagnóstico, se
dicotómicos (ambos test son positivos o negativos), y que hacen en sentido horizontal de la tabla. Los cálculos ver-
el estándar es la prueba más próxima a la «certeza» diag- ticales informan de la validez de la prueba, y los cálculos
nóstica. Aunque esta situación raras veces se encuentra en horizontales informan de la seguridad de la prueba.
la práctica clínica (ciertas mediciones son «indeterminadas»
y no caben en la categoría ni de positivo ni de negativo) la Cálculos combinados verticales. Validez de la
emplearemos por cuestiones didácticas, pues permite expli- prueba6
car el cálculo de los indicadores para medir la validez de una
prueba diagnóstica. Siguiendo con la tabla 2, y leyendo en sentido vertical,
La tabla 2 explica los descriptores básicos1 y la relación podemos estimar una serie de probabilidades de sucesos: la
entre ellos. Para que estas medidas tengan validez, es nece- probabilidad de que un caso se clasifique en cada una de las
sario (entre otras cosas) que las mediciones de la prueba cuatro casillas en relación al total de casos de su columna.
diagnóstica y su estándar se realicen de manera ciega, pues Dichas probabilidades se expresan como proporciones.
la interpretación de una prueba puede verse influida si quien El primer cálculo que puede hacerse es la probabilidad
realiza la medición conoce previamente el resultado de su de que la prueba identifique a una persona como enferma
comparación. (prueba positiva) cuando realmente lo está (estándar
positivo). Basta dividir los VP entre el total de personas con probabilidad, de una prueba positiva o negativa7 . Su gran
la enfermedad (Te). Este índice se denomina proporción ventaja es que son aplicables clínicamente, pues se basan
de verdaderos positivos o sensibilidad (Se). Por tanto en el proceder habitual, pero sus resultados son muy depen-
Se = VP/Te. Su probabilidad complementaria sería la pro- dientes de la prevalencia de la enfermedad. Ello hace que
porción de falsos negativos (probabilidad de que la prueba los valores predictivos de una prueba evaluada en unas
clasifique a una persona como sana cuando realmente tiene condiciones determinadas no puedan ser aplicables, en la
la enfermedad). Por tanto 1-Se = FN/Te. Una prueba muy práctica, a la misma prueba aplicada en otras condiciones
sensible tendrá una alta probabilidad de verdaderos positi- diferentes, y este es precisamente el gran problema de su
vos y una baja probabilidad de falsos negativos: una prueba aplicabilidad.
sensible, cuando es negativa descarta con una alta proba- En la tabla 3 se muestra un ejemplo que aclara la influen-
bilidad la presencia de enfermedad. Puede usarse la regla cia de la prevalencia en los valores predictivos. Podemos
nemotécnica en inglés SnNout: Sn sensitivity, N negative, observar cómo al disminuir la prevalencia del 50% (100/200)
out. Es decir: una prueba sensible negativa descarta. al 0,99% (100/10100), permanecen casi inalterables sensibi-
El segundo cálculo que puede hacerse es la probabilidad y especificidad, el VPP disminuye y el VPN aumenta.
lidad de que la prueba identifique a una persona como
sana (prueba negativa) cuando realmente lo está (estándar Índices que permitan comparar pruebas
negativo). Basta dividir los VN entre el total de personas
diagnósticas
sanas (Ts). Este índice se denomina proporción de verda-
deros negativos o especificidad (Es). Por tanto Es = VN/Ts. Otra forma de describir el comportamiento de una prueba
Su probabilidad complementaria sería la proporción de fal- diagnóstica es mediante el empleo de los cocientes de
sos positivos (probabilidad de que la prueba clasifique a una probabilidad, que surgen de la necesidad de disponer de
persona como enferma cuando realmente está sana). Por índices que no dependan de la prevalencia de la enfer-
tanto 1-Es = FP/Ts. Una prueba muy específica tendrá una medad. Los cocientes de probabilidad (llamados también
alta probabilidad de verdaderos negativos y una baja proba- likelihood ratios, razones de verosimilitud o razones de pro-
bilidad de falsos positivos: una prueba específica, cuando es babilidad) permiten resolver el conflicto de la combinación
positiva confirma con una alta probabilidad la presencia de entre sensibilidad y especificidad1 .
enfermedad. Puede usarse la regla nemotécnica en inglés El cociente de probabilidad, estima cuánto más probable
SpPin: Sp Specificity, P positive, in. Es decir: una prueba es el resultado de una prueba en las personas con enferme-
específica positiva confirma. dad en relación a las personas sanas.
Los cálculos verticales informan de las características de Existen dos tipos de cocientes de probabilidad, según los
una prueba diagnóstica suponiendo que conocemos previa- resultados posibles de la prueba: cociente de probabilidad
mente si la persona tiene la enfermedad. Esta situación es positivo, y cociente de probabilidad negativo.
propia de la investigación, pero no suele ser común en la El cociente de probabilidad positivo (CP + ) estima cuánto
práctica clínica. más probable es obtener un resultado positivo en sujetos
Tanto sensibilidad como especificidad son proporciones enfermos que en sujetos sanos. Si nos fijamos en la tabla 2,
y por tanto se pueden calcular sus intervalos de confianza, vemos que la probabilidad de obtener un resultado positivo
igual que para cualquier proporción. Es un criterio de calidad en sujetos enfermos equivale a la proporción de verdaderos
de un estudio de validez de pruebas diagnósticas que aporte positivos, es decir la sensibilidad (Se). La probabilidad de
los intervalos de confianza de sus mediciones. obtener un resultado positivo en sujetos sanos equivale a la
proporción de falsos positivos, es decir el complementario
de la especificidad (1-Es). Por tanto (CP + ) = (Se)/(1-Es).
Cálculos combinados horizontales. Seguridad de la
El cociente de probabilidad negativo (CP-) estima cuánto
prueba más probable es obtener un resultado negativo en sujetos
enfermos que en sujetos sanos. La probabilidad de obtener
Leyendo la tabla 2 en sentido horizontal podemos calcular un resultado negativo en sujetos enfermos equivale a la pro-
también una serie de probabilidades: la probabilidad de que porción de falsos negativos, es decir el complementario de
un caso se clasifique en cada una de las cuatro casillas en la sensibilidad (1-Se). La probabilidad de obtener un resul-
relación al total de casos de su fila. tado negativo en sujetos enfermos equivale a la proporción
El primer cálculo que podemos estimar es la probabilidad de verdaderos negativos, es decir la especificidad (Es). Por
de presentar la enfermedad cuando la prueba ha resul- tanto (CP-) = (1-Se)/(Es).
tado positiva. Se define intuitivamente como proporción de Su interpretación es similar al riesgo relativo: los cocien-
enfermos entre los test positivos, y se denomina valor pre- tes de probabilidad adoptan valores entre 0 e infinito, siendo
dictivo positivo (VPP). Por tanto VPP = VP/Tp. uno el valor nulo (igualdad de probabilidad). Cuanto más se
El segundo cálculo que podemos estimar es la probabili- eleve el CP por encima de uno más se incrementa la probabi-
dad de estar sano cuando la prueba ha resultado negativa. lidad de diagnóstico; cuanto más disminuya el CP por debajo
Se define intuitivamente como proporción de sanos entre de uno más disminuirá la probabilidad de diagnóstico4 . Pode-
los test negativos, y se denomina valor predictivo negativo mos interpretarlos de la siguiente manera:
(VPN). Por tanto VPN = VN/Tn.
Al contrario que la sensibilidad y la especificidad, que • CP >10: incrementos amplios de la probabilidad diagnós-
son características inherentes a la prueba, los cálculos tica.
horizontales son índices guiados por el resultado de la • CP 5-10: incrementos moderados de la probabilidad diag-
prueba, e informan sobre las consecuencias, en términos de nóstica.
Tabla 3 Ejemplo de la influencia de la prevalencia en los índices de comparación de una prueba diagnóstica con su estándar
de referencia
Característica evaluada
Presente (Prueba de referencia +) Ausente (Prueba de referencia ---)

Prueba diagnóstica + 80 30 110
Prueba diagnóstica --- 20 70 90
100 100 200
IC 95%
Sensibilidad 80,0% 71,1% a 86,7%
Especificidad 70,0% 60,4% a 78,1%
Valor predictivo positivo 72,7% 63,7% a 80,2%
Valor predictivo negativo 77,8% 68,2% a 85,1%
Característica evaluada
Presente (Prueba de referencia +) Ausente (Prueba de referencia ---)

Prueba diagnóstica + 80 3000 3080
Prueba diagnóstica --- 20 7000 7020
100 7000 10100
IC 95%
Sensibilidad 80,0% 71,1% a 86,7%
Especificidad 70,0% 69,1% a 70,9%
Valor predictivo positivo 2,6% 2,1% a 3,2%
Valor predictivo negativo 99,7% 99,6% a 99,8%
• CP 2-5: incrementos pequeños de la probabilidad diagnós-

tica.
• CP 1-2: incrementos insignificantes de la probabilidad
diagnóstica. Tabla 4 Ejemplo de la aplicación de los cocientes de pro-
• CP 1: sin cambios de la probabilidad diagnóstica. babilidad para conocer la probabilidad posprueba
• CP 0,5-1: descensos insignificantes de la probabilidad Sensibilidad 94,1% 87,0 a 97,5%
diagnóstica. Especificidad 87,5% 78,5 a 93,1%
• CP 0,2-0,5: descensos pequeños de la probabilidad diag- Valor predictivo 88,9% 80,7 a 93,9%
nóstica. positivo
• CP 0,1-0,2: descensos moderados de la probabilidad diag- Valor predictivo 93,3% 85,3 a 97,1%
nóstica. negativo
• CP < 0,1: descensos amplios de la probabilidad diagnós- Proporción de falsos 12,5% 6,9 a 21,5%
tica. positivos
Proporción de falsos 5,9% 2,5 a 13,0%
La principal ventaja de los cocientes de probabilidad, es negativos
que permiten calcular la probabilidad posprueba de tener CPP o LR(+) 7,53 4,21 a 13,48
la enfermedad, para un contexto en el que esta se presente CPN o LR(-) 0,07 0,03 a 0,16
con una prevalencia determinada. Conocidos los cocientes Cálculo de las probabilidades posprueba
de probabilidad de una prueba diagnóstica y la probabilidad (teorema de Bayes)
que tiene una persona de presentar una enfermedad antes
de aplicar dicha prueba (probabilidad preprueba), podemos Probabilidad 6,0%
conocer mediante cálculos estadísticos (aplicación del teo- preprueba estimada
rema de Bayes) en qué medida cambia la probabilidad de IC 95%
estar enfermo si en la prueba se obtienen resultados positi- Probabilidad 32,5% 23,7 a 42,7%
vos o negativos (según el cociente de probabilidad aplicado). posprueba positiva
En términos generales, el teorema de Bayes relaciona la pro- (PPPP)
babilidad de un suceso frente a otro: vincula la probabilidad 1 -PPPP 67,5% 57,3 a 76,3%
de un suceso A dado un suceso B con la probabilidad de B 1 - PPPN 99,6% 94,3 a 100,
dado A. Probabilidad 0,4% 0,0 a 5,7%
En la tabla 4 se pueden ver los cálculos bayesianos. Se posprueba negativa
parte de una prueba con unos cocientes de probabilidad (PPPN)
determinados, y la probabilidad preprueba estimada es del
6%. Si la prueba es positiva la probabilidad de padecer la
enfermedad aumenta hasta más de un 30%. En cambio si la Tipos de curvas ROC

1
prueba es negativa, la probabilidad de estar enfermo dismi-
nuye a menos del 0,5%. Se omitirán los cálculos estadísticos,
pues en la actualidad pueden emplearse calculadoras que 0,8
facilitan al clínico el proceso matemático. Buena
Apliquemos un ejemplo. La decisión clínica consiste en
Sensibilidad
0,6 Mala
considerar la indicación de una angio-TC pulmonar para el
diagnóstico de tromboembolismo pulmonar. Dicha prueba Regular
tiene una sensibilidad de 83% y una especificidad de 96%, 0,4
con unos cocientes de probabilidad CP+ 20,74 y CP- 0,17
respectivamente8 . Se atiende a un paciente que presenta un 0,2
edema y enrojecimiento de toda la pierna izquierda, episo-
dio de disnea y dolor torácico, tiene taquipnea con sat O2
98% y en la radiografía de tórax se aprecia un derrame pleu- 0
0 0,2 0,4 0,6 0,8 1
ral mínimo. Estimaríamos que la probabilidad de tener un
1-Especificidad
tromboembolismo pulmonar, antes de hacer la prueba sería
del 90%. Aplicando los CP de la angio-TC pulmonar la proba- Figura 1 Ejemplo de construcción de curvas ROC. Tomada de:
bilidad posprueba, en caso de ser positiva se incrementaría Hrc.es (2014). Curvas ROC [online] [consultado 27 Abr 2014].
al 99%. Si el resultado fuera negativo la probablidad de tener Disponible en: http://www.hrc.es/bioest/roc 1.html.
un tromboembolismo se reduciría al 59%. En este caso, en
que la clínica aporta información favorable a una alta pro-
babilidad preprueba a favor del diagnóstico el rendimiento
de hacer una prueba más podría ser discutible. La primera decisión que se podría adoptar es definir un
Si el caso fuera un contexto de muy baja probabilidad punto de corte, o umbral de diagnóstico entre todos los valo-
preprueba (pongamos el 1%) la probabilidad de tener un res posibles de la variable, pero suele ser una decisión difícil
tromboembolismo en caso de hacer una angio-TC con resul- de tomar en la práctica pues no existe un punto de corte
tado positivo aumentaría al 18%, y se reduciría al 0,1% en que discrimine perfectamente a los sujetos enfermos de los
caso de resultado negativo. Hacer la prueba en estas condi- sanos. Más bien al contrario, lo que suele ocurrir es un sola-
ciones aporta un valor añadido también discutible. pamiento de los resultados de las pruebas diagnósticas en
Supongamos que atendemos a un paciente que tiene las poblaciones enferma y sana. En el ejemplo anterior, una
edema en toda la pierna, con empastamiento, se queja de persona podría estar sana con una glucemia basal de 128, y
accesos de tos, y la radiología es normal. Estimamos que su otra podría tener diabetes con una glucemia de 124.
probabilidad de tener un tromboembolismo pulmonar es del Así, las características intrínsecas de la prueba (sensibi-
50%. Si la angio-TC fuese positiva la probabilidad del diag- lidad y especificidad) van a variar según donde se determine
nóstico de tromboembolismo se incrementa al 95%, mientras el punto de corte. En nuestro ejemplo, un punto de corte
que si fuese negativa se reduce al 15%. En condiciones de demasiado alto asegura una alta especificidad a costa de una
mayor incertidumbre previa, hacer una prueba con buenos baja sensibilidad (confirma la enfermedad si la prueba es
cocientes de probabilidad ofrece un rendimiento mayor. positiva, pero no descarta la enfermedad si la prueba
Otras ventajas de los cocientes de probabilidad son: per- es negativa). Al contrario un punto de corte demasiado bajo
miten comparar pruebas entre sí o evaluar test secuenciales, asegura una alta sensibilidad, pero a costa de una baja espe-
son intuitivos de interpretar, y evitan el cálculo de los valo- cificidad (descarta la enfermedad si la prueba es negativa,
res predictivos. Entre sus desventajas están la ausencia de pero no confirma la enfermedad si la prueba es positiva).
linealidad, y la necesidad de convertir las probabilidades en De todo ello se deduce, intuitivamente, que el punto de
odds en el cálculo de la probabilidad posprueba9 . corte ideal será el que determine el mejor equilibrio entre
En los estudios que evalúan pruebas diagnósticas, los sensibilidad y especificidad.
cocientes de probabilidad se obtienen a partir de medi- Para determinar la relación entre la sensibilidad y especi-
das en una muestra de una población, por lo cual siempre ficidad de una prueba, en función del umbral de diagnóstico
tienen que acompañarse del correspondiente intervalo de o punto de corte, se construyen las llamadas curvas ROC
confianza. (Receiving Operating Characteristics). En ellas se represen-
tan en el eje «y» los valores de la sensibilidad (Se) para
cada punto de corte, y en el eje «x» los valores del comple-
mentario de la especificidad o proporción de falsos positivos
Pruebas diagnósticas con resultados múltiples (1-Es)10 .
o continuos. Curvas ROC En la figura 1 se expone un ejemplo de construcción de
curvas ROC. La prueba perfecta sería aquella que tuviese
Hasta el momento hemos analizado escenarios en que la un punto de corte que se aproximase al 100% de Se y al
prueba diagnóstica solamente podría tener dos resultados: 0% de proporción de falsos positivos (1-Es). En la figura
positivo/negativo. Un ejemplo típico de esto sería el cultivo puede comprobarse que las curvas ROC de una buena prueba
de una muestra biológica. diagnóstica son aquellas cuyo vértice se aproxima al ángulo
Existen muchas pruebas que se miden con una variable superior izquierdo del eje de coordenadas (máxima sensibi-
ordinal, o con una variable continua. Un ejemplo sería el lidad y especificidad). Una prueba inútil sería aquella cuya
nivel de glucemia para diagnosticar la diabetes mellitus. curva ROC fuese la diagonal, pues en todos los puntos de
corte coincidirían la Se (proporción de verdaderos positivos) Confidencialidad de los datos. Los autores declaran que en
con 1-Es (proporción de falsos positivos). este artículo no aparecen datos de pacientes.
Conclusiones: puntos clave para analizar los Derecho a la privacidad y consentimiento informado. Los
autores declaran que en este artículo no aparecen datos de
resultados de un artículo de pruebas
pacientes.
diagnósticas
• Un artículo de evaluación de pruebas diagnósticas debe

Conflicto de intereses
proporcionar información respecto a validez, fiabilidad y
seguridad. El autor declara no tener ningún conflicto de intereses.
• La validez se mide con los cálculos de sensibilidad y espe-
cificidad, que deben mostrarse en los resultados o, al Bibliografía
menos, aportar información que permita su cálculo.
• Es importante que aporten información sobre la fiabilidad, 1. Cabello López JB, Pozo Rodríguez F. Estudios de evaluación
en especial si en la prueba intervienen observadores. La de las pruebas diagnósticas en cardiología. Rev Esp Cardiol.
fiabilidad se mide en la mayoría de los casos mediante 1997;50:507---19.
análisis de concordancia con el índice kappa. 2. Greenhalgh T. Papers that reports diagnostic or screening test.
BMJ. 1997;315:540---3.
• La seguridad se mide con el cálculo de los valores pre-
3. Pita Fernández S, Pértegas Díaz S. Pruebas diagnósticas:
dictivos, aunque estos en la práctica tienen un valor muy sensibilidad y especificidad. Cad Aten Primaria. 2003;10:
limitado por ser influidos de manera importante por la 120---4.
prevalencia de la enfermedad. 4. Sangrador CO, Orejas G. Epidemiología y metodología científica
• Un estudio debe proporcionar información que permita aplicada a la pediatría (IV): Pruebas diagnósticas. An Esp Pediat.
el cálculo de los cocientes de probabilidad. Si la prueba 1999;50(Iv):301---14.
tiene varios niveles o puntos de corte, se deben poder cal- 5. López A, Galparsoro DU, Fernández P. Medidas de concor-
cular los cocientes de probabilidades correspondientes. dancia: el índice de Kappa. Cad Aten Primaria. 1996;6:
• Si la prueba diagnóstica permite obtener resultados múl- 169---71.
tiples o continuos, debe evaluarse mediante curvas ROC. 6. Altman DG, Bland JM. Statistics notes diagnostic tests 1: sensi-
tivity and specificity. BMJ. 1994;308:1552.
• Para informar de la precisión de los resultados todos los
7. Altman DG, Bland JM. Statistics notes diagnostic tests 2: pre-
cálculos deben incorporar el intervalo de confianza. dictive values. BMJ. 1994;309:102.
8. Stein PD, Fowler SE, Goodman LR, Gottschalk A, Hales CA, Hull
En este artículo se ha obviado, en la medida de lo posible, RD, et al. Multidetector computed tomography for acute pul-
describir las fórmulas para los cálculos estadísticos. Existen monary embolism. N Engl J Med. 2006;354:2317---27.
calculadoras disponibles en la web que permiten realizar 9. Dujardin B, Van den Ende J, Van Gompel A, Unger JP, Van der
todos los cálculos relacionados con las pruebas diagnósticas. Stuyft P. Likelihood ratios: a real improvement for clinical deci-
En la página web de CASPe puede descargarse una de ellas: sion making? Eur J Epidemiol. 1994;10:29---36.
http://redcaspe.org/drupal/?q=node/3011 . 10. López de Ullibarri Galparsoro I, Píta Fernández S. Curvas ROC.
Pueden encontrarse otros ejemplos en la literatura cien- Cad Aten Primaria. 1998;5:229---35.
11. Critical Appraisal Skills Programme Español (CASPe) [actuali-
tífica de radiología, así como referencias de interés para el
zado 26 Feb 2012; consultado 7 May 2014]. Disponible en.
radiólogo que desee profundizar en el campo de los estudios http://www.redcaspe.org. Actualizado 10 de julio de 2014.
de pruebas diagnósticas12 . 12. Busel M, Silva F. Radiología basada en la evidencia: estrategia
conceptual focalizada para la práctica de la imagenología. Rev
Responsabilidades éticas Chil Radiol. 2004;10:109---17.
Protección de personas y animales. Los autores declaran

que para esta investigación no se han realizado experimen-
tos en seres humanos ni en animales.

Análisis de Resultados

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis de Resultados

Cargado por

Copyright:

Formatos disponibles

Documento descargado de http://www.elsevier.es el 18/01/2016.

Lectura crítica de artículos de pruebas diagnósticas II:

Recibido el 15 de mayo de 2014; aceptado el 5 de noviembre de 2014

∗ Autor para correspondencia.

Lectura crítica de artículos de pruebas diagnósticas II: análisis de resultados 23

Introducción puede ser capaz de detectar nódulos de unas determinadas

Lectura crítica de artículos de pruebas diagnósticas II: análisis de resultados 25

Presente (Prueba de referencia +) Ausente (Prueba de referencia ---)

Presente (Prueba de referencia +) Ausente (Prueba de referencia ---)

• CP 2-5: incrementos pequeños de la probabilidad diagnós-

Lectura crítica de artículos de pruebas diagnósticas II: análisis de resultados 27

enfermedad aumenta hasta más de un 30%. En cambio si la Tipos de curvas ROC

• Un artículo de evaluación de pruebas diagnósticas debe

Protección de personas y animales. Los autores declaran

También podría gustarte