Epidemiología y Demografía Sanitaria: Estudios de Las Pruebas Diagnósticas

Epidemiología y demografía sanitaria
Bloque de epidemiología
Tema 13
Estudios de las pruebas
diagnósticas
Dr. Esteve Fernández

¿Qué queremos aprender?
1. El concepto de variación en la medición y
reproducibilidad.
2. Los conceptos y manera de calcular la sensibilidad
y especificidad.
3. Los conceptos y manera de calcular los valores
predictivos.
4. La utilidad de las curvas ROC y de las razones de
verosimilitud.
5. Uso de pruebas diagnósticas en serie y en paralelo.
6. Los diseños para valorar la utilidad de las pruebas
diagnósticas
Estructura de la sesión
1. Variación en la medición.
2. Reproducibilidad o concordancia de medidas.
3. Validez de una prueba diagnóstica.
4. Uso de pruebas diagnósticas en serie y en
paralelo.
5. Diseños para valorar una prueba diagnóstica.
Materiales para el aprendizaje
0. (Diapositivas de la lección)
1. Lectura recomendada
• Capítulo 14 libro Piédrola Gil y Capítulo 3 libro
Fletcher y cols.
2. Lecturas complementarias
• Artículos Aula Global
3. Seminario de resolución de problemas nº 9
Variación en la medición
Las apariencias a la mente son de cuatro clases.
Cosas hay que son lo que parecen ser;
o no lo son y no parecen serlo;
o lo son y no parecen serlo;
o no son y sí parecen serlo.
Es tarea del hombre sabio
el decidir correctamente
en todos esos casos
Epícteto (siglo II dC)

Discursos (libro I, cap. 27)
La práctica de la medicina clínica
consiste en interpretar signos,
síntomas y “pruebas diagnósticas”
para tomar decisiones: diagnosticar,
tratar, o no tratar…
Valores hipotéticos de TA sistólica en un individuo
Tensión arterial sistólica (mm Hg)
200 -
180 -
160 -
140 -
120 -
100 -
80 -
tiempo
Fuentes de variabilidad
Reproducibilidad o concordancia
Grado en que concuerdan dos o más
mediciones sobre la misma muestra
Validez
Grado en que una medición coincide con la
verdad
Validez y reproducibilidad…...
Reproducibilidad o
concordancia de medidas
Reproducibilidad
Repetibilidad / Concordancia /
Acuerdo / Fiabilidad
Grado en en que una variable tiene el

mismo valor cuando se mide varias veces
en la misma muestra
 La reproducibilidad es previa a la validez
 El consenso (alta reproducibilidad) es útil

en ausencia de referente
• interobservador
grado de coincidencia de un
observador consigo mismo
• entre observadores
grado de concordancia entre dos
o más observadores
Reproducibilidad de variables categóricas
Acuerdo total
Observador B
Po = (a+d) / (a+b+c+d)
+ –
Observador A
Acuerdo específico en
lo positivo + a b
Po+ = 2a / (2a+b+c)
– c d
lo negativo
Po- = 2d / (2d+b+c)
Problemas
 Depende de los pares discordantes
 Puede haber concordancia al azar
Índice Kappa (test de Cohen)
Resume la concordancia entre dos medidas de una
variable en escala cualitativa, tras eliminar la
concordancia debida al azar.
Observador B
p0  pe
+ – Kappa 
Observador A
1  pe
+ a b k
p0   pii
i 1
– c d
k
pe   pi. * p.i
i 1
Concordancia entre dos radiólogos
al leer una mamografía (imagen patológica sí/no)
Acuerdo total
Observador B Po = (a+d) / (a+b+c+d)
Observador A
Sí No Po = 0,8637 = 86,4%
Sí 71 41 112 Acuerdo específico en

lo positivo
No 42 455 497 Po+ = 2a / (2a+b+c)
Po+ = 0,6311 = 63,1%
113 496 609
lo negativo
Po- = 2d / (2d+b+c)
Po- = 0,9164 = 91,6%
Pasamos a probabilidades…
Observador B
Sí No
71 112
Sí  0.1166  0.1839
609 609
Observador A
455 497
No  0.7471  0.8161
609 609
113 496
 0.1856  0.8144
609 609
k
p0   pii  0.1166  0.7471  0.8637
i 1
k
pe   pi. * p.i  (0.1856 * 0.1839)  (0.8144 * 0.8161)  0.6989
i 1
p0  pe 0.8637  0.6979
Kappa    0.547
1  pe 1  0.6989
Clasificaciones propuestas para la
interpretación del índice kappa
Landis and
Koch (1977) Altman (1991) Fleiss (1981) Byrt (1996)
1
Excellent
Almost Very good Excellent
perfect Very good
0,8
Substantial Good Good
0,6 Fair
to
Moderate Moderate good Fair
0,4
Fair Fair Slight
0,2
Slight Poor
0 Poor
Poor
Poor No
agreement
-1.0
¿Y si tuvieramos tres opciones de respuesta?
Observador B
+ +/– –
Observador A
+ Kappa ponderada
+/– p0 w  pew
w 
1  pew
–
Problemas con el uso de kappa
• Depende de la prevalencia de “verdaderos

positivos” (o del desequilibrio entre resultados
negativos y positivos)
 dar el valor de  , Po+ y Po-
• Puede estar sesgado por la asimetría de las

discordancias
 plantear diferentes escenarios de acuerdo
Reproducibilidad de variables continuas
Ej.: Concordancia entre dos balanzas en la

medida del peso
• Pueden categorizarse  pérdida de información

• No usar coeficiente de correlación
(regresión a la media)
• Trabajar con la “diferencia entre variables”
y sus medias:
 coeficiente de correlación intraclase
 t de Student para datos apareados
Validez de una
prueba diagnóstica
Validez
Grado en el que los resultados

de una medición corresponden
al fenómeno real (“la verdad”)
ENFERMEDAD
Sí No
+ Verdaderos Falsos
positivos a b positivos
PRUEBA
c d
– Falsos Verdaderos
negativos negativos
Cosas hay que son o no son y sí
lo que parecen ser; ENFERMEDAD parecen serlo.
Sí No
+ Verdaderos Falsos
PRUEBA
c d
– Falsos Verdaderos
negativos negativos
o no lo son y no parecen
o lo son y no parecen
serlo;
serlo;
Validez
– Grado en que los resultados de una prueba
corresponden realmente a aquello que se está
midiendo.
– Capacidad de la prueba para medir el fenómeno
que se está estudiando.
– Capacidad de una prueba diagnóstica de clasificar
correctamente a enfermos y no enfermos.
Parámetros de validez interna:

– Sensibilidad (S) de la prueba
– Especificidad (E) de la prueba
Parámetros de validez interna: sensibilidad
Sensibilidad
Probabilidad de que la prueba sea positiva si la
enfermedad está presente.
ENFERMEDAD
Sí No
a
Sensibilidad: S =
+ Verdaderos Falsos a+c
PRUEBA
Ejemplo:
c d
– Falsos Verdaderos S=0,75 u 75%
negativos negativos La prueba es positiva en
el 75% de los que tienen
la enfermedad
Parámetros de validez interna: especificidad
ENFERMEDAD
Sí No
d
Especificidad: E =
+ Verdaderos Falsos b+d
PRUEBA
c
Ejemplo:
d
– Falsos Verdaderos E=0,90 u 90%
negativos negativos La prueba es negativa en
el 90% de los que no
tienen la enfermedad
Especificidad
Probabilidad de que la prueba sea negativa en los
individuos sanos.
Ejemplo: Validez del diagnóstico clínico de la faringitis
en 152 pacientes (patrón de oro: cultivo)
Cultivo faríngeo
+ –
Diagnóstico clínico
a
Sensibilidad: S =
a+c
+ 27 35 S = 27 / 37 = 73%
– 10 77 d
Especificidad: E =
b+d
E = 77 / 112 = 69%
IC95%: S= 0,73 (0,66 - 0,80)
p  1,96  (p (1-p) / N) E= 0,69 (0,61 - 0,76)

Interés de pruebas sensibles
• Cuando el precio de omitir un diagnóstico sea elevado
o cuando existe riesgo de extensión de la enfermedad
Objetivo: detectar que se tiene la enfermedad (para
tratarla o prevenir su extensión)
Ej.: linfoma, Sida
• En las primeras etapas diagnósticas, cuando hay
numerosas posibilidades diagnósticas, con la intención
de disminuir éstas.
Objetivo: descartar procesos.
Ej.: sospecha de neoplasia
Una prueba sensible sobre todo es útil

cuando su resultado es negativo.
Interés de pruebas específicas
• Útiles para confirmar un diagnóstico que ha sido
sugerido por otros datos  una prueba específica da
pocos resultados “falsos positivos”.
Objetivo: confirmar que no se tiene el proceso
• Cuando los falsos positivos pueden causar perjuicio

importante al paciente (físico, emocional o
económico).
Una prueba específica sobre todo es

útil cuando su resultado es positivo.
¿Relación entre S y E?
• Aparentemente no están relacionadas: la S se mide
entre los que tienen la enfermedad y la E entre los
que están sanos...
Angina
IAM
[CPK]
VN FP
que están sanos...
Angina
IAM
[CPK]
FN VP
que están sanos...
Angina
IAM
[CPK]
VN FP  Especificidad
FN VP  Sensibilidad
VN FP  Especificidad

Relación
FN VP  Sensibilidad inversa
Cuanto más exigente sea el criterio,

menor será la sensibilidad y
mayor la especificidad
CPK
Relación inversa Puntos de
corte Valor S E
entre S y E 1 70 100.0 17.7
2 120 94.0 40.3
3 140 92.5 59.7
4 160 85.1 82.3
5 180 82.6 83.9
6 200 73.1 87.1
7 220 70.1 90.3
8 260 67.2 90.3
9 300 61.2 90.3
10 340 68.2 90.3
11 400 32.8 96.8
12 500 16.8 100.0
La relación inversa
entre S y E
suele representarse
sensibilidad
mediante la curva ROC
“receiver operating
characteristic”
sensibilidad
vs.
1 – especificidad
1 – especificidad
Curva ROC
FP+FN
• Permite el cálculo del área
bajo la curva
sensibilidad
• Impresión gráfica de la
relación entre S y E
• Facilita elección puntos de VN+VP
corte Diagnósticos
• Permite valorar todo el
espectro de valores
correctos
• Permite comparar pruebas
diagnósticas (gráfica y
estadísticamente)
1 – especificidad
Valores predictivos
En clínica normalmente deseamos saber

si el resultado (positivo o negativo) de la
prueba es correcto o no, es decir, la
probabilidad de la enfermedad tras
saber el resultado de la prueba
Valor predictivo positivo
• Probabilidad que tiene una prueba de detectar
enfermos cuando da un resultado positivo
ENFERMEDAD
Sí No
a
VPP =
+ Verdaderos Falsos a+b
PRUEBA
Ejemplo:
c d
– Falsos Verdaderos VPP=0,99 0 99%
negativos negativos El 99% de los pacientes
con la prueba positiva
tiene realmente la
enfermedad
Valor predictivo positivo
• Probabilidad que tiene una prueba de detectar
enfermos cuando da un resultado positivo
a
VPP =
a+b
El VPP depende de la
P*S
prevalencia o probabilidad VPP =
a priori de la enfermedad P * S + (1 – P) (1 – E)
Cuando la muestra no es
representativa se calcula a P: prevalencia
partir del Teorema de Bayes S: sensibilidad
E: especificidad
Valor predictivo negativo
• Probabilidad que tiene una prueba de detectar sanos
cuando da un resultado negativo
ENFERMEDAD
Sí No
c
VPN =
+ Verdaderos Falsos c+d
PRUEBA
Ejemplo:
c d
– Falsos Verdaderos VPN=0,10 0 10%
negativos negativos El 10% de los pacientes
con la prueba negativa
tiene realmente la
enfermedad
Valor predictivo negativo
• Probabilidad que tiene una prueba de detectar sanos
cuando da un resultado negativo
c
VPN =
c+d
El VPN depende de la
(1 – P) * E
prevalencia o probabilidad VPP =
a priori de la enfermedad (1 – P) E + P (1 – S)
Cuando la muestra no es
representativa se calcula a P: prevalencia
partir del Teorema de Bayes S: sensibilidad
E: especificidad
Valores predicitivos --implicaciones
Dado que dependen de la prevalencia:
• Las pruebas diagnósticas funcionan mejor cuando

la prevalencia de la enfermedad es mayor
• El uso de pruebas diagnósticas debe tener en
cuenta las características de la enfermedad en el
contexto en que se usan
• La prevalencia de enfermedad depende del nivel
asistencial
Razones de verosimilitud
(razones de probabilidad diagnóstica)
(likelihood ratios)
Parámetros independientes de la
prevalencia de la enfermedad que
aglutinan la información sobre
sensibilidad y especificidad
Razón de verosimilitud positiva (RVP)
La RVP relaciona…
… la ventaja preprueba de diagnosticar la
enfermedad (odds de prevalencia, P / 1 – P)
… con la ventaja posprueba de un resultado
positivo (odds del VPP, VPP / 1 – VPP)
VPP P S
= X
1 – VPP 1–P 1–E
Razón de verosimilitud positiva (RVP)
Cuanto mayor es la RVP (sobre 1) más importante es la

contribución de un resultado positivo de la prueba en
el diagnóstico de la enfermedad.
Ejemplo
RVP=8 indica que el resultado es proporcionalmente 8
veces más frecuente en los enfermos que en los no
enfermos
RVP >10 -- prueba excelente

RVP 5-10 -- prueba buena
RVP 2-5 -- prueba regular
RVP 1-2 -- deficiente
Razón de verosimilitud negativa (RVN)
La RVN relaciona…
… la ventaja preprueba de diagnosticar la
enfermedad (odds de prevalencia, P / 1 – P)
… con el inverso de la ventaja posprueba de un
resultado negativo (odds del VPN, VPN / 1 – VPN)
1 – VPN P 1–S
= X
VPN 1–P E
Razón de verosimilitud negativa (RVN)
1–S La RVN valora la contribución de un

resultado negativo en la “no
E confirmación” de la enfermedad
más importante cuanto más cerca de 0
Se puede definir RVN al revés.

Informa de la relación entre la ventaja E
preprueba de no enfermedad y la ventaja
posprueba del resultado negativo, y su
1–S
escala es similar a la de la RVP
Uso de pruebas diagnósticas
múltiples
Pruebas diagnósticas múltiples
• Tipos:
– pruebas en paralelo (a la vez): un resultado
positivo de cualquiera de ellas se considera
diagnóstico de la enfermedad
– pruebas en serie (consecutivas): sólo se

considera el diagnóstico de enfermedad cuando
todas las pruebas dan positivas.
Pruebas en paralelo
• Cuando se necesita un diagnóstico rápido
(Ej.: pacientes hospitalizados o en urgencias)
Prueba A o prueba B o prueba C positivas
A +
– aumentan la sensibilidad y
el VP negativo
–
B + – disminuyen la especificidad
y el VP positivo
–
C +
–
Pruebas en paralelo
• Especialmente útiles cuando se requiere una
prueba muy sensible pero sólo se dispone de
pruebas relativamente insensibles que miden
diferentes fenómenos clínicos.
• Es menos probable que la enfermedad se pase

por alto, pero también hay más falsos positivos.
• Perjuicio: el tratamiento de algunos pacientes sin

la enfermedad.
Pruebas en serie
• Cuando no se precisa una evaluación rápida
• Cuando alguna de las pruebas tiene un coste o un
riesgo elevado
Prueba A y prueba B y prueba C positivas
A + B + C +
– – –
-- aumentan la especificidad y el VP positivo
-- disminuyen la sensibilidad y el VP negativo
Diseños para valorar
pruebas diagnósticas
Diseños para valorar pruebas diagnósticas
Aspectos clave
• Seleccionar una muestra que represente a los

pacientes o a la población en la que se aplicará la
prueba
• Se debe estudiar la prueba diagnóstica bajo
condiciones reales de aplicación (sin que el estudio
influya en cómo se realizan)
• Independencia de las observaciones: en los estudios
de concordancia es crucial que los observadores no
se influyan
Estudio transversal
• Único que se utiliza en los estudios de reproducibilidad

• Segundo más usado en el estudio de la validez
• La prueba se aplica a una muestra representativa de los

sujetos en los que luego se utilizará y todos los resultados
se confirman mediante una prueba de referencia
• Permite calcular S y E; VPP y VPN; RVP y RVN
 punto clave: selección de la muestra

Estudio de casos y controles
• Diseño más usado en estudios de validez, y al mismo

tiempo el que más problemas plantea
• Se seleccionan casos con la enfermedad y controles con

diagnósticos diferenciales de la enfermedad (y con
confirmación del diagnóstico mediante la prueba de
referencia)
• Permite calcular la S en los casos y la E en los controles
Si enfermos y no enfermos no guardan la debida

proporción no se pueden calcular los VPP y VPN
Estudio de cohortes
• Se utilizan menos para valorar pruebas diagnósticas
• A partir de una muestra representativa de la población de

referencia se forman dos cohortes, una con la prueba
positiva y otra con la prueba negativa. En la cohorte con la
prueba positiva se aplica la prueba de referencia y la
cohorte con prueba negativa se sigue para descartar el
diagnóstico
La declaración STARD
Standards for Reporting of Diagnostic Accuracy
Es una guía de 25 puntos (y un diagrama de flujo), que

pueden utilizar autores, editores, revisores y lectores
para la redacción de artículos sobre pruebas
diagnósticas y para su evaluación
Disponible en Aula Global

Recapitulación
1. Variación en la medición
Grado en que concuerdan dos o más
mediciones sobre la misma muestra
Validez
Grado en que una medición coincide
con la verdad
Recapitulación
2. Reproducibilidad o concordancia
• Acuerdo total Observador B

• Acuerdo específico en lo + –
Observador A
positivo
• Acuerdo específico en lo + a b
negativo
– c d
• Índice Kappa
• Índice Kappa ponderado
Recapitulación
3. Validez de una prueba diagnóstica

ENFERMEDAD
Sí No
Grado en el que los
+ Verdaderos Falsos
resultados de una medición
PRUEBA
corresponden al fenómeno c d
real (“la verdad”) – Falsos Verdaderos
negativos negativos
• Sensibilidad (S) y Especificidad (E)

• Curva ROC
• Valores predictivos (VPP y VPN)
• Razones de verosimilitud (RVP y RVN)
Recapitulación
4. Pruebas diagnósticas múltiples
Pruebas en paralelo A +
• aumentan la sensibilidad y el VPN

B – +
• disminuyen la especificidad y el VPP
C – +
Pruebas en serie
–
• aumentan la especificidad y el VPP
• disminuyen la sensibilidad y el VPN
A + B + C +
– – –
Recapitulación
5. Diseños para valorar pruebas diagnósticas
• estudios transversales
• estudios de casos y controles
• estudios de cohortes
• La declaración STARD
Epidemiología y demografía sanitaria
Bloque de epidemiología
Tema 13
Estudios de las pruebas
diagnósticas
Dr. Esteve Fernández

Epidemiología y Demografía Sanitaria: Estudios de Las Pruebas Diagnósticas

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Epidemiología y Demografía Sanitaria: Estudios de Las Pruebas Diagnósticas

Cargado por

Copyright:

Formatos disponibles

Epidemiología y demografía sanitaria

Dr. Esteve Fernández

Epícteto (siglo II dC)

Grado en en que una variable tiene el

 La reproducibilidad es previa a la validez

 El consenso (alta reproducibilidad) es útil

Sí 71 41 112 Acuerdo específico en

• Depende de la prevalencia de “verdaderos

• Puede estar sesgado por la asimetría de las

Ej.: Concordancia entre dos balanzas en la

• Pueden categorizarse  pérdida de información

Grado en el que los resultados

Parámetros de validez interna:

IC95%: S= 0,73 (0,66 - 0,80)

p  1,96  (p (1-p) / N) E= 0,69 (0,61 - 0,76)

Una prueba sensible sobre todo es útil

• Cuando los falsos positivos pueden causar perjuicio

Una prueba específica sobre todo es

VN FP  Especificidad

Cuanto más exigente sea el criterio,

En clínica normalmente deseamos saber

Dado que dependen de la prevalencia:

• Las pruebas diagnósticas funcionan mejor cuando

Cuanto mayor es la RVP (sobre 1) más importante es la

RVP >10 -- prueba excelente

1–S La RVN valora la contribución de un

Se puede definir RVN al revés.

– pruebas en serie (consecutivas): sólo se

• Es menos probable que la enfermedad se pase

• Perjuicio: el tratamiento de algunos pacientes sin

• Seleccionar una muestra que represente a los

• Único que se utiliza en los estudios de reproducibilidad

• La prueba se aplica a una muestra representativa de los

• Permite calcular S y E; VPP y VPN; RVP y RVN

 punto clave: selección de la muestra

Estudio de casos y controles

• Diseño más usado en estudios de validez, y al mismo

• Se seleccionan casos con la enfermedad y controles con

• Permite calcular la S en los casos y la E en los controles

Si enfermos y no enfermos no guardan la debida

• Se utilizan menos para valorar pruebas diagnósticas

• A partir de una muestra representativa de la población de

Es una guía de 25 puntos (y un diagrama de flujo), que

Disponible en Aula Global

• Acuerdo total Observador B

3. Validez de una prueba diagnóstica

• Sensibilidad (S) y Especificidad (E)

4. Pruebas diagnósticas múltiples

• aumentan la sensibilidad y el VPN

5. Diseños para valorar pruebas diagnósticas

Dr. Esteve Fernández

También podría gustarte