Está en la página 1de 31

Sensibilidad y Especificidad

Klgo. Sebastin Espinoza


Pruebas diagnsticas

En ciencias de la salud, es habitual querer conocer el real estado de un


paciente respecto a la presencia o ausencia de una enfermedad o de
un microorganismo, malignidad de un tumor, etc. El procedimiento que
se utiliza para determinar dicho estado se denomina gold standard, el
cual clasifica a los pacientes en dos categoras, una de las cuales indica
mayor gravedad del hallazgo que la otra.
Sin embargo, establecer este gold standard es difcil por varias razones,
por lo que se recurre a los test diagnsticos, que intentan determinar el
estado del paciente por mtodos alternativos.
Si existiera una prueba diagnstica perfecta, entonces entregara
resultados siempre correctos. Sin embargo, esto en la realidad no es
cierto.
Escenarios posibles

Presencia de la enfermedad
Resultado de la Prueba
Si No

Positivo

Negativo
Qu se espera de una prueba diagnstica?

Validez: Es el grado en que un test mide lo que se supone que debe medir. Con que
frecuencia el resultado del test es confirmado por procedimientos diagnsticos ms
complejos y rigurosos? La sensibilidad y la especificidad de un test son medidas de su
validez.
Reproductividad: es la capacidad del test para ofrecer los mismos resultados cuando se
repite su aplicacin en circunstancias similares. La variabilidad biolgica del hecho
observado, la introducida por el propio observador y la derivada del propio test ,
determinan su reproductividad.
Seguridad: La seguridad viene determinada por el valor predictivo de un resultado positivo
o negativo. Con que seguridad un test predecir la presencia o ausencia de
enfermedad? Ante un resultado positivo de un test qu probabilidad existe de que este
resultado indique presencia de la enfermedad?
Ejemplo:

En un estudio del centro de control de enfermedades de EEUU (1985), se desea valorar la


precisin de 13 laboratorios en el anlisis de orina para diversos medicamentos. Cada
laboratorio recibi 100 muestras de orina; 30-40% de estas se agreg una concentracin
conocida de un medicamento.
Muestras positivas Muestras negativas
Medicamento total Correctamente identificadas total Correctamente identificadas
Barbitricos 455 187 689 689
Anfetaminas 572 177 637 618
Metadona 533 469 663 583
Cocana 416 150 793 785
Codena 481 216 715 708
Morfina 468 178 728 713
Enfermedad
Prueba Presente Ausente total
diagnostica Positiva a b a+b
Verdaderos Falsos
positivos Positivos
(VP) (FP)
Negativa c d c+d
Falsos Verdaderos
Negativos Negativos
(FN) (VN)
Total a+c b+d n
Sensibilidad

a b a+b
Verdaderos Falsos
Proporcin o porcentaje de casos positivos Positivos
positivos clasificados correctamente (VP) (FP)

por el test
c d c+d
Falsos Verdaderos
Negativos Negativos
= = (FN) (VN)
+ +

a+c b+d n
Especificidad

a b a+b
Verdaderos Falsos
Proporcin o porcentaje de casos positivos Positivos
negativos clasificados correctamente (VP) (FP)

por el test
c d c+d
Falsos Verdaderos
Negativos Negativos
= = (FN) (VN)
+ +

a+c b+d n
Mtodos de evaluacin de un test

La utilidad de un test se puede evaluar a travs de la razn de


verosimilitud de positivos (RVP) y negativos (RVN), valores
predictivos positivo (VP+) y negativo (VP-).
RVP: Mide cunto es
ms probable que el test
entregue un resultado
positivo en los enfermos
respecto de los sanos.

RVN: Mide cunto es


ms probable que el test
entregue un resultado
negativo en los enfermos
respecto de los sanos.
Valores de RV
La tabla siguiente resume la interpretacin de los
valores de las RV:

Valores de la razn RVN RVP

Es ms probable la Es ms probable la
Bajos
deteccin de sanos deteccin de FP

Es ms probable la Es ms probable la
Altos
deteccin de FN deteccin de casos

La RVP y RVN pueden tomar valores mayores o


iguales a cero.
Valor predictivo positivo

a b a+b
Probabilidad de que un Verdaderos Falsos
positivos Positivos
individuo con un resultado
(VP) (FP)
positivo tenga la enfermedad

c d c+d
Falsos Verdaderos
Negativos Negativos
(+) = = (FN) (VN)
+ +
a+c b+d n
Valor predictivo negativo

Resultado a b a+b
Probabilidad de que un
Verdader Falsos
individuo con un resultado os Positivos
negativo no tenga la Positivo positivos (FP)
(VP)
enfermedad

c d c+d
Falsos Verdaderos
Negativo Negativos Negativos
(FN) (VN)
() = =
+ +
a+c b+d n
En estudios prospectivos

Ejemplo
= =
Se quiere determinar la habilidad del + +
ultrasonido en el diagnstico de apendicitis

en nios. La siguiente tabla muestra la = =
clasificacin del ultrasonido para 109 nios + +
con apendicitis y 174 sin apendicitis
=
1
Apendicitis 1
Presente Ausente Total =

Ultrasonido (+) 94 9 103

(-) 15 165 180 (+) = =
+ +
Total 109 174

() = =
+ +
Resultados =

+
=
94
109
= 0,862 86,2%

165
= = = 0,948 94,8%
Apendicitis + 174

Presente Ausente Total


0,862
ultrasonido (+) 94 9 103 = = = 16,57
1 10,948
(-) 15 165 180
Total 109 174 1 10,862
= = = 0,146
0,948

94
+ = = = 0,912 91,2%
+ 103

165
= = = 0,917 91,7%
+ 180
En estudios retrospectivos

Importante:

El diseo permite estimar la sensibilidad y la


especificidad, pero no los valores predictivos
positivo y negativo, a menos que Considere la
prevalencia de la enfermedad
VP(+): Estima la probabilidad de estar enfermo
dado que se tiene un resultado positivo en la
prueba.

VP(-): Estima la probabilidad de estar sano dado


que se tiene un resultado negativo en la prueba.

Donde p es la prevalencia de la enfermedad.


Ejemplo

Un test diagnstico para cierta


enfermedad tiene sensibilidad + =
de 80% y especificidad de 60%. +[(1)(1)]
Si la prevalencia de la
enfermedad es de 5% cual es + = 0,050,8
= 0,095 9,5%
el valor predictivo positivo y 0,050,8+[(10,05)(10,6)]
negativo del test?
(1)
=
1 +(1)

(10,05)0,6
= = 0,983 98,3%
10,05 0,6+0,05(10,8)
Rol de la prevalencia

Los valores de sensibilidad y especificidad presentan la desventaja de que no


proporcionan informacin relevante a la hora de tomar una decisin clnica ante el
resultado de la prueba. Sin embargo, tienen la ventaja adicional de que son propiedades
intrnsecas a la prueba diagnstica, y definen su validez independientemente de cul sea
la prevalencia de la enfermedad en la poblacin a la cual se aplica.
Por el contrario, el concepto de valores predictivos presenta la limitacin de que
dependen en gran medida de lo frecuente que sea la enfermedad a diagnosticar en la
poblacin objeto de estudio. Cuando la prevalencia de la enfermedad es baja, un
resultado negativo permitir descartar la enfermedad con mayor seguridad, siendo as el
valor predictivo negativo mayor. Por el contrario, un resultado positivo no permitir
confirmar el diagnstico, resultando en un bajo valor predictivo positivo.
Se aplic la misma prueba diagnstica a de VIH a dos poblaciones
de similares caractersticas de acuerdo a la tabla siguiente

Poblacin A Poblacin B

Resultado Resultado del


VIH+ VIH- VIH+ VIH-
del test test

Positivo 5970 13970 19940 Positivo 796000 10000 806000

Negativo 30 2780030 2780060 Negativo 4000 1990000 1994000

6000 2794000 2800000 800000 2000000 2800000

Que pasa con la prevalencia en ambas poblaciones?


qu se puede comentar de los VPP y VPN?
Anlisis de pruebas diagnsticas
numricas

Qu pasa con las variables continuas?


Cuando el test diagnstico es numrico, la sensibilidad y
especificidad dependern del punto de corte establecido en la
variable para clasificar los positivos y negativos del test.
As surgen las siguientes preguntas:
1. Qu tan buen predictor es el test diagnstico para la
enfermedad?
2. Cul es el punto de corte en la variable que arroja la mayor
sensibilidad y especificidad?
Curva ROC
Curva ROC

Receiver Operating Characteristic.

Es una grfico de la sensibilidad versus 1-especificidad,


construido usando distintos puntos de corte para la variable
numrica, y evaluando la sensibilidad y especificidad para
cada punto de corte.
Ejemplo:

Se quiere construir un modelo predictivo de infeccin en una unidad de cuidados


intensivos. Para esto se identificaron 4 variables asociadas con la presencia de infeccin:
sexo, edad, PCR y recuento de blancos. Se construy un score de riesgo que arroj los
siguientes resultados:

Ausente

753.3 658.92 566.6 844.49 467.29 1056.32 416.55 738.7 954.02 7.49 564.82 634.88 688.12 874.44 483.9 33.95 684.81
594.97

Presente

1696.21 1115.21 1093.48 922.06 917.09 908.84 700.59 895.31 787.9 1799.1 959.8 584.2 1013.03 876.68 340.33 732.31
897.43 1020.87 1442.85 1095.81 1217.8
Correctly
Cutpoint Sensitivity Specificity Classified LR+ LR-

( >= 1 ) 100.00% 0.00% 53.85% 1.0000


( >= 2 ) 90.48% 44.44% 69.23% 1.6286 0.2143
( >= 3 ) 19.05% 100.00% 56.41% 0.8095
( > 3 ) 0.00% 100.00% 46.15% 1.0000

Para 3 categoras
Infeccion 1 2 3 Total

Ausente 8 10 0 18
Presente 2 15 4 21

Total 10 25 4 39
Detailed report of sensitivity and specificity

Para 5 categoras Correctly


Cutpoint Sensitivity Specificity Classified LR+ LR-

( >= 1 ) 100.00% 0.00% 53.85% 1.0000


( >= 2 ) 95.24% 11.11% 56.41% 1.0714 0.4286
( >= 3 ) 85.71% 66.67% 76.92% 2.5714 0.2143
( >= 4 ) 33.33% 100.00% 64.10% 0.6667
( >= 5 ) 14.29% 100.00% 53.85% 0.8571
( > 5 ) 0.00% 100.00% 46.15% 1.0000
score1
Infeccion 1 2 3 4 5 Total

Ausente 2 10 6 0 0 18
Presente 1 2 11 4 3 21

Total 3 12 17 4 3 39
Correctly
Cutpoint Sensitivity Specificity Classified LR+ LR-

( >= 1 ) 100.00% 0.00% 53.85% 1.0000


( >= 2 ) 100.00% 11.11% 58.97% 1.1250 0.0000
( >= 3 ) 95.24% 11.11% 56.41% 1.0714 0.4286
( >= 4 ) 95.24% 27.78% 64.10% 1.3187 0.1714
( >= 5 ) 85.71% 66.67% 76.92% 2.5714 0.2143
( >= 6 ) 61.90% 88.89% 74.36% 5.5714 0.4286
( >= 7 ) 33.33% 100.00% 64.10% 0.6667
( >= 9 ) 14.29% 100.00% 53.85% 0.8571
( >= 10 ) 9.52% 100.00% 51.28% 0.9048
( > 10 ) 0.00% 100.00% 46.15% 1.0000

Para 9 categoras
Correctly
Cutpoint Sensitivity Specificity Classified LR+ LR-

( >= 1 ) 100.00% 0.00% 53.85% 1.0000


( >= 3 ) 100.00% 11.11% 58.97% 1.1250 0.0000
( >= 4 ) 95.24% 11.11% 56.41% 1.0714 0.4286
( >= 5 ) 95.24% 27.78% 64.10% 1.3187 0.1714
( >= 6 ) 90.48% 44.44% 69.23% 1.6286 0.2143
( >= 7 ) 85.71% 66.67% 76.92% 2.5714 0.2143
( >= 8 ) 76.19% 77.78% 76.92% 3.4286 0.3061
( >= 9 ) 42.86% 94.44% 66.67% 7.7143 0.6050
( >= 10 ) 33.33% 100.00% 64.10% 0.6667
( >= 11 ) 19.05% 100.00% 56.41% 0.8095
( >= 13 ) 14.29% 100.00% 53.85% 0.8571
( >= 15 ) 9.52% 100.00% 51.28% 0.9048
( > 15 ) 0.00% 100.00% 46.15% 1.0000

Para 12 categoras
ROC Asymptotic Normal
Obs Area Std. Err. [95% Conf. Interval]

score2 39 0.8386 0.0627 0.71583 0.96142


score3 39 0.8307 0.0652 0.70292 0.95846

Cul criterio es mejor? Ho: area(score2) = area(score3)


chi2(1) = 0.15 Prob>chi2 = 0.7015