Está en la página 1de 20

Unidad 10.

Tamizaje y Diagnóstico

Introducción.
Es muy frecuente confundir una prueba de tamizaje, comúnmente conocida como prueba de
screening y prueba diagnóstica.

Se define como tamizaje al proceso de identificar a través de un estudio o prueba de cualquier tipo
(examen físico, análisis de sangre, mamografía, etc.) individuos asintomáticos portadores de
estadios tempranos de una enfermedad o algún precursor de ella.

La detección de cáncer de cuello de útero mediante una prueba de Papanicolau (detecta lesiones
precancerosas), tacto rectal para la detección de cáncer de próstata, la búsqueda de factores de
riesgo cardiovascular, colonoscopia en sujetos con antecedentes familiares de cáncer de colon, son
algunos ejemplos de pruebas de tamizaje.

El tamizaje se refiere a la aplicación de una prueba en una población aparentemente sana con el
propósito de clasificarla en relación a la probabilidad que tienen los sujetos de padecer o no una
determinada enfermedad.
No diagnostica por si mismo; aquellos individuos con prueba de tamizaje positiva deberán luego
realizarse estudios diagnósticos para determinar si están realmente enfermos o no.

Tamizaje muy frecuentemente es considerado como sinónimo de Detección Precoz de una


enfermedad. La diferencia es que en este último caso los sujetos ya tienen algún signo o síntoma
pero no han consultado y, por lo tanto, se desconoce su existencia. En este caso debemos aplicar
una prueba diagnóstica en lugar de una prueba de tamizaje.

Ejemplo
En el cáncer de mama se podría hacer diagnóstico precoz ante la presencia de un nódulo mamario
palpable mediante biopsia del nódulo.(La paciente ya tiene signos de la enfermedad)
En cambio como tamizaje de cáncer de mama se solicita periódicamente la realización de una
mamografía. (La paciente no tiene signos de la enfermedad)

Una asunción implícita es que la Detección Precoz de una enfermedad, ya sea en el período
asintomático o mediante la detección de precursores de la enfermedad, determina un mejor
pronóstico.
Dada esta presunción, la detección precoz de las enfermedades o de sus precursores se considera
hoy en día una práctica de rutina.
Sin embargo esto no significa que el tratamiento precoz siempre determine un mejor pronóstico.
Está demostrado que la sobrevida del cáncer de pulmón no cambia con su Detección Precoz a través
de una prueba de tamizaje.

Antes de implementar una prueba de tamizaje o de diagnóstico a una población, es necesario tener
en cuenta características específicas de estas pruebas, las características de la enfermedad, los
riesgos y beneficios de estas pruebas, sus costos y las futuras consecuencias de los estudios
diagnósticos que se deben aplicar a la población que resultó positiva para una prueba de tamizaje.
Comencemos en primera instancia conociendo en que circunstancias es apropiado implementar un
programa de tamizaje, y luego veremos que características deben tener las pruebas de tamizaje y
diagnósticas para que sean consideradas útiles para el objetivo para las que fueron diseñadas.

Criterios para introducir un Programa de Tamizaje.

Una prueba de tamizaje puede aplicarse si la enfermedad en cuestión cumple con al menos uno de
los siguientes criterios:

1. Sus consecuencias podrían ser graves


Un programa de tamizaje debe para estar justificado si elimina o disminuye consecuencias
graves de una enfermedad.
El hipotiroidismo congénito, si bien es infrecuente y no tiene alta mortalidad, la falta de
detección precoz y por ende de tratamiento, tiene consecuencias devastadoras; por otro lado
la hernia inguinal es muy común pero no es grave y puede ocurrir que nunca se transforme en
sintomática, por lo tanto un programa de tamizaje no estaría justificado.

2. El tratamiento iniciado en el período asintomático debe tener beneficios claros en términos de


reducción de morbi mortalidad comparado con un tratamiento iniciado en la fase sintomática
de la enfermedad.
El tratamiento temprano debe demostrar que modifica el pronóstico de la enfermedad, para lo
cual la enfermedad debe tener un período preclínico detectable por algún método.
El cáncer de páncreas no tiene periodo pre clínico detectable, ya que cuando los signos y/o
síntomas se presentan la enfermedad ya ha avanzado, en cambio el melanoma tiene signos que
permiten su detección precoz y por lo tanto, si se detecta en esta etapa, es curable.

3. La prevalencia de la enfermedad en la población donde se aplicaría un programa de tamizaje


debe ser elevada. Esto se refiere a la Prevalencia de las lesiones preclínicas y guarda relación
con los costos de un programa de tamizaje (número de casos detectados vs. número de sujetos
evaluado). Es por eso que estos programas, en su gran mayoría, se realizan en poblaciones
consideradas de alto riesgo para la enfermedad que se desea prevenir. Por ejemplo, diabetes
en sujetos obesos, cáncer de vejiga en trabajadores expuestos a sustancias carcinógenas,
enfermedad coronaria en sujetos con múltiples factores de riesgo coronario.

ejemplo
La diabetes, es grave, ya que puede producir muchas otras enfermedades que pueden llevar a la
muerte. El tratamiento en su etapa temprana cambia el pronóstico de la misma: disminuye la tasa
de accidente cerebrovascular, infarto de miocardio, insuficiencia renal, neuropatías, entre otros
eventos. La Prevalencia de diabetes es muy alta, por lo tanto esta enfermedad cumple con los tres
criterios requeridos para implementa un programa de tamizaje.

No todos los criterios mencionados son necesarios para justificar un programa de tamizaje.
La fenilcetonuria es una enfermedad de muy baja prevalencia, pero sus consecuencias son muy
graves e irreversibles.
La combinación de gravedad con la disponibilidad de una prueba de tamizaje simple y barata
justifica la implementación de un programa a nivel de salud pública.
Desde el punto de vista ético, las consecuencias de no diagnosticar tempranamente una
enfermedad o detectar una lesión precursora y tratarla de forma precoz, deben balancearse con
los riesgos, molestias y costo de la prueba de tamizaje y la subsecuente prueba diagnóstica a la que
someterá al paciente.
Un aspecto fundamental para implementar un programa de tamizaje son ciertas características que
debe poseer la prueba que se desea utilizar para la detección preclínica o precoz de una
enfermedad.

Características de una Prueba de Tamizaje

Una prueba de tamizaje ideal sería aquella que detectara la mayoría de los casos con la enfermedad
como prueba positiva y la mayoría de los casos sin enfermedad como prueba negativa.

 Además debe ser barata, fácil de implementar en la población y de administrar al paciente,


debe ser poco riesgosa y su resultado debe ser válido, confiable y repetible.

Al igual que una prueba de tamizaje, las pruebas diagnósticas, también deben poseer características
de validez, confiabilidad y repetibilidad, pero a diferencia de las pruebas de tamizaje, pueden ser
caras y/o riesgosas. Esto es admisible debido que es necesario llegar a un diagnóstico e implementar
un tratamiento para mejorar el pronóstico del paciente.

Criterios de Validez. Sensibilidad y Especificidad

Tanto las pruebas de tamizaje y de Diagnóstico se evalúan a través de criterios de validez:


Sensibilidad y Especificidad.

Lo que se desea es que la prueba discrimine lo más perfectamente posible personas con lesiones
preclínicas o enfermedad precoz como prueba positiva y sin lesiones o sin enfermedad precoz como
prueba negativa.

El calculo de la sensibilidad y especificidad de una prueba de tamizaje o diagnóstica depende del


tipo de variable que arroje el resultado de la prueba.

Estudios con Resultados Dicotómicos (Positivo o Negativo)


En términos matemáticos, la Sensibilidad de una prueba de tamizaje o diagnóstica es la proporción
de sujetos con prueba positiva obtenidos de una muestra en la cual todos sujetos son enfermos.

numero de sujetos con test positivo


Sensibilidad  x 100
numero total de sujetos enfermos

Una prueba de tamizaje empleada en 100 pacientes enfermos hernia de disco cervical y solo 30 dan
positivos, la Sensibilidad de esta prueba es de 30 % y entonces la proporción de falsos negativos es
de 70 %. La capacidad de esta prueba para discriminar enfermos es muy baja; dos tercios de los
sujetos enfermos no serán detectados.
La Especificidad de una prueba es la proporción de sujetos con prueba negativa pertenecientes a
una muestra donde todos los sujetos son sanos.

numero de sujetos con test negativo


Especificidad  x 100
numero total de sujetos sanos

En el mismo ejemplo anterior, si ahora tenemos 100 sujetos sanos y sólo 40 dan negativo, la prueba
tiene 40 % de Especificidad. En este caso, 60 % de los sujetos serán positivos para la prueba, por lo
que la proporción de falsos positivos es muy alta.

Si utilizamos esta prueba de tamizaje (especificidad de 40 % y sensibilidad de 30 %), estaremos


sobreclasificando sujetos enfermos (falsos positivos) por su baja especificidad, los que luego serán
derivado a una prueba diagnóstica, la cual puede ser no sólo costosa sino que puede implicar riesgos
para el paciente y además muchos sujetos enfermos no serán detectados y no derivados a pruebas
diagnósticas, por lo que no recibirán tratamiento. Una prueba de tamizaje con estas características
de validez debería no ser aceptada, dadas las consecuencias que produciría su implementación.

La población considerada como enferma o sana, resulta de aplicar una prueba considerada como
método de referencia o gold estándar para la detección de la patología de interés.

A medida que nuevas pruebas de tamizaje o diagnóstico son desarrolladas, antes de ser aplicadas a
la población, deben ser comparadas con las pruebas que hasta ese momento poseen los mejores
criterios de validez, para clasificar poblaciones enfermas y sanas, llamados métodos de referencia.

Ejemplo
Supongamos que estamos evaluando una nueva prueba para implementar un programa de tamizaje
para cáncer de colon. El método de referencia es la biopsia de la pieza obtenida en cirugía y la nueva
prueba son las características visuales de la lesión evaluadas por colonoscopia. Tomamos entonces
1.000 sujetos, de los cuales en 100 la biopsia fue positiva y en 900 fue negativa. (Tabla 1)

Tabla 1.

Resultado de la biopsia (método de referencia)


Resultado de la nueva prueba Enfermos Sanos Total
Positivo 65 120 185
Negativo 35 780 815
Total 100 900 1.000
Sensibilidad 65 %
Especificidad 86.6 %

La Sensibilidad de la nueva prueba es de: 65/100 = 65 % (número de sujetos clasificados como


enfermos por la nueva prueba dividido total de enfermos), en este ejemplo tenemos 65 sujetos
clasificados por la nueva prueba como positivos de un total de 100 sujetos considerados enfermos
de acuerdo a los resultados de la biopsia.
La Especificidad es del 86.6 % (780/900)
La nueva prueba detectó como sanos a 780 sujetos de un total de 900 sujetos clasificados como
sanos por la biopsia.

Cuando se conduce un programa de Tamizaje, este se aplica a una gran cantidad de sujetos, algunos
realmente enfermos o sanos (Verdaderos positivos y verdaderos negativos).
La prueba, al no ser perfecta, clasificará algunos sujetos sanos como enfermos (falso positivo) y
algunos enfermos como sanos (falso negativo) (Tabla 2)

Tabla 2.

Prueba de referencia
Resultado de la nueva Enfermos Sanos
prueba
Positiva Tiene la enfermedad y la No Tienen la enfermedad y la
nueva prueba + nueva prueba +
Verdaderos Positivos Falsos Positivos
(VP) (FP)
Negativa Tienen la enfermedad y la No tienen la enfermedad y la
nueva prueba - nueva prueba -
Falsos negativos Verdaderos Negativos
(FN) (VN)

VP VN
Sensibilidad  Especificidad 
VP  FN VN  FP

¿Cuántos falsos negativos produjo la prueba en el ejemplo anterior? Sobre un total de 100
enfermos, la nueva prueba clasifico a 35 como negativos, siendo estos verdaderos enfermos. La tasa
de falsos negativos fue de 35 %.

Matemáticamente se verifica que:

1- Sensibilidad = Falsos Negativos

En el ejemplo = 1 – 0.65= 0.35  100 = 35 %

El problema de tener falsos negativos radica en que, si la enfermedad es grave y existe un


tratamiento efectivo, estos sujetos podrían morir por falta de detección precoz por falta de
tratamiento.

La proporción de falsos positivos fue del 13.3 %, ya que detectó como positivos a 120 sujetos de 900
con biopsia negativa.

En este caso se puede obtener la tasa de falsos positivos como:


1- Especificidad= Falsos Positivos

Aplicado a los resultados anteriores,

Falsos Positivos = 1 – 0.866 = 0.133  100 = 13.3 %

El problema con la cantidad de falsos positivos que detecte un prueba es que toda esta población
de falsos positivos será sometida a estudios diagnósticos más sofisticados, caros y algunas veces con
más riesgo y molestias para el paciente. Esto redunda en un gasto en salud innecesario.
Además, estas personas sufren períodos de ansiedad y angustia prolongados hasta que la prueba
diagnóstica descarta el resultado de la prueba de Tamizaje.

La decisión de aceptar una prueba nueva como válida depende del balance entre su Sensibilidad y
su Especificidad.
Se debe balancear el riesgo de sobrediagnosticar sujetos no enfermos vs. no detectar algunos casos
enfermos.

Si la prueba es diagnóstica, se le pedirá mucha más Especificidad que Sensibilidad. Lo que queremos
es descartar con la mayor seguridad posible la enfermedad en la mayor cantidad de pacientes sanos.
Por supuesto que siempre tendremos falsos negativos y falsos positivos, pero en una proporción
muy diferente a la que pueden presentar las prueba de Tamizaje, en las cuales estamos mas
interesados en su alta sensibilidad, ya que los que deseamos es detectar la mayor proporción posible
de sujetos que tengan probabilidad de tener la enfermedad en etapa temprana o una lesión precoz.
Si existe un tratamiento que administrado en la etapa precoz de la enfermedad, una vez confirmada
con una prueba diagnostica, el pronóstico del paciente podría ser mucho mejor.

Hasta acá hemos incorporado muchos nuevos conceptos. Hora de descansar!


Resultados de Estudios con Variables Continuas.

Hasta ahora hemos analizado prueba de tamizaje o de diagnóstico que sólo tienen dos resultados
posibles: positivos o negativos.
Muy frecuentemente se realiza tamizaje de enfermedades que se miden a través de variables
continuas, como índice de masa corporal para identificar obesidad o la filtrado glomerular para
detectar sujetos con insuficiencia renal.

En estos casos se debe determinar un punto de corte, mediante el cual diremos que un sujeto es
obeso o que padece insuficiencia renal.

En una población de 20 sujetos hipotiroideos y 20 no hipotiroideos se le realiza una determinación


de TSH (hormona estimulante de la tiroides) como prueba diagnóstica para hipotiroidismo. En esta
población se puede observar que los sujetos hipotiroideos tienen valores más altos de TSH que los
no hipotiroideos sin un punto de corte claro entre ambos grupos. (Fig. 1 A.)

No obstante, debemos seleccionar un punto de corte de TSH para clasificar a la población como
hipotiroidea o no.

Supongamos que el punto de corte de TSH que se establece es bajo, para decir que la prueba es
positiva y el paciente es hipotiroideo. Todo sujeto con valores de TSH superior al punto de corte
será considerado como hipotiroideo (Fig. 1 B.)

Aplicando los resultados a una tabla 2  2 obtenemos una Sensibilidad de 90 % (18/20) y una
Especificidad de 30 % (6/20).

Con estos parámetros se concluye que muchos hipotiroideos serán diagnosticados como tales,
mientras que muchos no hipotiroideos serán considerados como enfermos.
La prueba es demasiado sensible por lo tanto “detecta” muy fácilmente sujetos hipotiroideos (falsos
negativos = 10%), pero también incluye sujetos sanos como enfermos (falsos positivos= 70 %), los
que recibirán tratamiento con probabilidad de sufrir efectos adversos por la medicación, sin ninguna
necesidad.

Si en cambio seleccionamos un punto de corte de TSH alto, pocos hipotiroideos serán clasificados
como tales y muchos no hipotiroideos serán clasificados como normales.
En este caso la Sensibilidad es de 40 % (8 enfermos de 20 fueron correctamente clasificados) por lo
que varios enfermos no fueron detectados como tales (falsos negativos 60 %) y la Especificidad de
85 %, 17 sanos de 20 fueron clasificados correctamente o lo que es lo mismo, 3 sujetos fueron
clasificados como enfermos (15 % de falsos positivos). (Fig. 1 C)

Como vemos, el punto de corte seleccionado influencia claramente la Sensibilidad y la Especificidad


de una Prueba de diagnóstico o Tamizaje. También se puede ver cómo al aumentar un parámetro
el otro disminuye. Podemos elegir un punto de corte con alta Sensibilidad; en ese caso casi todos
los enfermos se clasificaran como tales, pero también se clasificaran erróneamente a muchos
sujetos sanos (baja Especificidad), por lo que la tasa de falsos positivos será alta.
Fig.1.

Hipotiroideos No hipotiroideos
Hipotiroideos No hipotiroideos
Valor alto
Valor alto Hipotiroideos No
Hipotiroideos

18 14

+
TSH TSH 2 6

20 20

Valor bajo Valor bajo

A B

Hipotiroideos No hipotiroideos

Hipotiroideos No
Hipotiroideos
Valor alto
8 3
+
-

TSH 12 17

20 20
Valor bajo

Curvas ROC

En la vida real no existe una clara separación de valores entre enfermos y sanos. Por lo tanto el
punto de corte debe seleccionarse teniendo en cuenta el valor que ofrezca la mejor Sensibilidad y
Especificidad.

Para encontrar el mejor punto de corte se utiliza la llamada Curva ROC (Receiver Operating
Characteristic).
Lo que hace esta curva es determinar qué punto de corte del resultado de la prueba abarca la
mayoría de los sujetos bien clasificados, obteniéndose de esta manera la mejor Sensibilidad y
Especificidad.

ejemplo
Vamos a buscar el mejor punto de corte de TSH para diagnóstico de hipotiroidismo, y tomamos
como método de referencia los valores de hormonas tiroideas (T3 y T 4) bajos.

Lo que hacemos es dividir a los sujetos en sanos y enfermos de acuerdo con sus valores de hormonas
tiroideas. La curva busca el punto de corte que incluya la mayoría de los sujetos tanto sanos como
enfermos correctamente clasificados. (Fig. 2)
Si la prueba fuera perfecta cubriría el 100 % de la superficie del recuadro y clasificaría perfectamente
enfermos y sanos. Como esto no es biológicamente posible, se busca el punto de corte que
contenga a la mayoría de los sujetos bien clasificados.

La curva compara entre todos los valores posibles su Sensibilidad vs. 1–Especificidad, que es una
forma de expresar los falsos positivos y determina el punto que muestre el mejor balance entre
sensibilidad y especificidad.

Curva ROC. Determinación del mejor punto de corte para TSH.

Sensibilidad
Sensiti vity
1,00

Curva ROC. Punto de corte de TSH

0,75

0,50

0,25

0,00
0,00 0,25 0,50 0,75 1,00

1-Specificity
1-Especificidad
Los resultados de la curva de la figura 2 arrojaron que el valor 4 tiene la mejor Sensibilidad, 62 % y
la mejor Especificidad, 91 %, por lo que es elegido como punto de corte para diagnóstico de
hipotiroidismo. Todo sujetos con valores de TSH ≥ 4 serán considerados hipotiroideos.

Este punto de corte tendrá un 38 % de falsos positivos y un 9 % de falsos negativos.


Dadas las circunstancias, aunque la prueba no sea perfecta, es el mejor balance que se puede
conseguir.

Como toda estimación en estadística, el valor hallado no es “absoluto”. La sensibilidad y


especificidad tienen su IC 95 %, en el caso mostrado la sensibilidad del punto de corte pata TSH
podría variar entre 51 % a 71 % y la especificidad entre 88% a 94 %.

El valor del IC 95 % nos ofrece una idea entre que valores podría estar la “verdadera” sensibilidad y
especificidad de una prueba y el grado de precisión con la que hemos estimados estos parámetros
de validez.
La sensibilidad del valor hallado de punto de corte de TSH podría ser de 51 % o de 71 % o cualquier
valor dentro del IC 95 %. Lo mismo ocurre con la especificidad.

Como hemos visto, la elección del punto de corte es de vital importancia para la validez de una
prueba, evaluada a través de su Sensibilidad y Especificidad.

En la práctica habitual se trata de elegir prueba con alta Sensibilidad para un primer Tamizaje y luego
un prueba con alta Especificidad para realizar el Diagnóstico definitivo, que sólo se realiza en
aquellos que dieron positivos en el Tamizaje.

ejemplo
En un programa de detección de HIV, primero se utiliza el método de ELISA, que es muy sensible,
y sólo a aquellos sujetos que fueron positivos se les realiza medición de carga viral que es altamente
específica. La primera prueba usada es simple, causa mínimas molestias y es relativamente barata,
cumpliendo con los requisitos de una buena prueba de tamizaje. La segunda prueba es más cara,
pero esto está justificada dada la importancia de hacer un correcto diagnóstico.

Criterios de Confiabilidad.

Valor Predictivo Positivo y Negativo de una Prueba de Tamizaje o Diagnóstico

Además de tener en cuenta la validez de una Prueba de Tamizaje o diagnóstica, hay que evaluar la
credibilidad de su resultado.

Además de preguntarnos cuán buena es la prueba para discriminar entre sanos y enfermos,
debemos preguntar: si el resultado de la prueba es positivo ¿cuán confiados podemos estar de que
este resultado es un verdadero positivo?

La credibilidad del resultado de una prueba se valora a través de los que se denomina Valor
Predictivo Positivo y Valor Predictivo Negativo del resultado de la prueba.
Aquí lo que es objeto de duda es el valor del resultado de la prueba y no la prueba en sí misma,
aunque ambas cosas estén íntimamente relacionadas.

Retomando el ejemplo de la prueba de tamizaje para cáncer de colon veremos que la nueva prueba
arrojó en total 185 resultados positivos y 815 negativos.
¿Cuántos de los resultados positivos corresponden a sujetos realmente enfermos?

Porcentaje de resultados positivos en población enferma = (65/185)  100 = 35%

Con esta prueba que tiene 65 % de Sensibilidad y 86.6 % de Especificidad, sólo el 35 % de los
resultados positivos corresponden a sujetos verdaderamente enfermos (valor predictivo positivo).
La nueva prueba dio un total de 185 resultados positivos de los cuales 65 fueron verdaderos
positivos.

¿Cuál es entonces el porcentaje de resultados negativos que corresponden a la población de sanos?

Porcentaje de resultados negativos en población sana = (780/815)  100 = 95.7 %

Con los mismos parámetros de validez, la proporción de resultados negativos que corresponden a
sujetos verdaderamente sanos es del 95.7 % (valor predictivo negativo)

El total de resultados negativos que informo la nueva prueba fue de 815 y 780 correspondieron a
verdaderos negativos.

Valor predictivo positivo y negativo del resultado de un Prueba de Tamizaje

Resultado de la Biopsia (método de referencia)


Resultado del nuevo prueba Enfermos Sanos Total
Positivo 65 a 120 b 185 a + b
Negativo 35 c 780 d 815 c + d
Total 100 900 1.000

A estos parámetros de credibilidad del resultado se los denomina:

1) Valor Predictivo Positivo: definido como el porcentaje de resultados positivos que


corresponden realmente a sujetos enfermos. El valor predictivo positivo se calcula como:

a
VPP =
ab

2) Valor Predictivo Negativo: definido como el porcentaje de resultados negativos que


corresponden realmente a sujetos sanos.

d
VPN =
cd
Una pregunta que surge es ¿por qué si la prueba tiene Sensibilidad de 65 % y Especificidad de
86.6 %, relativamente buenos, su valor predictivo positivo es tan bajo (35 %)?

Si observamos la población veremos que la Prevalencia de enfermedad es del 10 % (100 sujetos de


1.000 fueron diagnosticados por biopsia (prueba de referencia).
Por lo tanto es esperable que la mayoría de los resultados de esta población sean negativos.
Como la prueba no es perfecta, clasifica algunos sujetos sanos como positivos y por la baja
Prevalencia de la enfermedad el resultado positivo no es muy confiable.

La Prevalencia de la enfermedad afecta el valor predictivo del resultado de la prueba.

En un programa de tamizaje de osteoporosis en mujeres > de 70 años


¿Cuántos resultados normales para osteoporosis esperaría encontrar? Seguramente todos los
resultados serán anormales. No obstante, obtendremos resultados normales, los cuales por propio
criterio clínico nos parecerán sospechosos.

Veamos algunos ejemplos.

Cambiemos la Prevalencia de cáncer de colon de 10 % a 30 % porque elegimos hombre mayores de


70 años, en la siguiente tabla se observan resultados encontrados

Cálculo de VPP y VPN en población de alta Prevalencia de la enfermedad

Resultado de la Biopsia
Resultado del nuevo prueba Enfermos Sanos Total VPP
VPN
Positivo 240 77 317 75 %
Negativo 60 623 683 91 %
Total 300 700 1.000
Sensibilidad 80 %
Especificidad 89 %

Ahora, con un 30 % de Prevalencia, los valores de sensibilidad y especificidad son los mismos, pero
el VPP se elevo al 75 % sin casi modificarse el VPN (91 % vs. 95.7 %).

Esto se debe a que en esta población es esperable que la mayoría de los sujetos tengan VPP mas
elevado dadas las características de la población, en particular por su prevalencia de cáncer de
colon, que solo por el hecho de ser una población mas añosa será mas elevada.

Por lo tanto, el valor de la Prevalencia de la enfermedad es vital para la confiabilidad de los


resultados de la prueba.

Otro factor que afecta el valor predictivo de una prueba es la Especificidad del método.

Ya hemos visto cómo el cambio de Prevalencia afecta el VPP de la prueba. Siguiendo con el mismo
ejemplo, ahora utilizamos una prueba con una menor Especificidad
Influencia de la Especificidad en el VPP de la prueba.

Resultado de la Biopsia
Resultado del nuevo prueba Enfermos Sanos Total VPP
VPN
Positivo 240 350 590 40 %
Negativo 60 350 410 85 %
Total 300 700 1.000
Sensibilidad 80 %
Especificidad 50 %

Ahora tenemos un prueba con la misma Sensibilidad (80 %) pero con mucha menor Especificidad
(350/700  100 = 50 %). Esta prueba sólo discriminó correctamente como sanos al 50 % de los
sujetos sanos.
Esto trae como consecuencia que el número de resultados falsos positivos o VPN haya aumentado
mucho, y por lo tanto el valor del VPP cayó a 40 %.

En resumen, para que una Prueba de Tamizaje o diagnóstica sean válidas su Sensibilidad y su
Especificidad deben ser máximas, lo que depende del punto de corte seleccionado como criterio de
positividad.
También sus resultados deben ser confiables, y esto dependerá de la prevalencia de la enfermedad
en la población de estudio.
En los estudios diagnósticos, para que el resultado sea confiable hay que buscar en primer término
poblaciones con alta Prevalencia de la enfermedad y usar prueba con muy buena Especificidad, para
descartar con confianza que el sujeto no esta enfermo.

Criterios de Repetibilidad

Otra característica muy importante de una prueba es su repetibilidad.


¿Podemos obtener el mismo resultado si repetimos la prueba?
Independientemente de la Sensibilidad, la Especificidad y los valores predictivos de una prueba, si
sus resultados no son reproducibles, la prueba no seria útil.

Las fuentes que producen variaciones en los resultados de una prueba son dos:

1) Variabilidad Intrasujeto: Los resultados de una prueba en un mismo individuo varían


durante el día. No es lo mismo medir la glucemia en ayunas que después de las comidas, ni
tomar la tensión arterial en diferentes horas del día.
También las condiciones bajo las que se realiza la prueba (postejercicio, postprandial, en el
consultorio, en casa) producen variabilidad de los resultados.
Es por eso que, a la hora de evaluar un resultado, hay que tener en cuenta las condiciones
en las que se realizó la prueba, y es por esto mismo que muchos estudios se deben realizar
bajo ciertas condiciones para que sus resultados sean comparables.

2) Variabilidad Interobservador: No todos los investigadores que evalúan una prueba llegan al
mismo resultado. Esto es particularmente frecuente en los diagnósticos por imágenes.
Otros ejemplos son el examen físico de un paciente, o el equipo con el que se hace una
determinación de laboratorio; de ahí la importancia de tener patrones de calibración
estándar.
La variabilidad interobservador se evalúa mediante una prueba denominada Kappa o
Prueba de Concordancia.
Con esta prueba se comparan las observaciones de 2 o más observadores y se calcula la
probabilidad de que estos observadores hayan concordado sólo por azar.
Lo importante para nosotros es demostrar que los observadores no han concordado por
azar, sino porque el método es bueno y repetible, independientemente del observador.

Un error muy frecuente al evaluar la variabilidad interobservador es contar el número de


concordancias entre los observadores y dividirlo por el número total de observaciones.

Veamos un ejemplo. En la tabla se muestra la clasificación en grados de 75 tumores determinadas


por 2 patólogos.

Concordancia en el diagnóstico entre dos observadores

Patólogo A Total B
Grado II Grado III
Patólogo B Grado II 41 3 44 (58.6 %)
Grado III 4 27 31 (41.4 %)
Total A 45 (60 %) 30 (40 %)

Estos dos patólogos han concordado en 41 tumores clasificándolos con grado II y en 27


clasificándolos como grado III.
Si cometemos el error de sumar las concordancias y dividirlas por el número total de tumores
obtendremos:

Concordancia: (41 + 27)/75 x 100 = 90.7 %

Este 90 % es falso, ya que no toma en consideración la posibilidad de concordancia por azar.


Si ahora aplicamos la prueba Kappa obtendremos un 81 %, que es mucho menor al obtenido
anteriormente.

La prueba de Kappa se calcula como:

(porcentaje de concordancia observada) -(porcentaje de concordancia esperadada solo por azar)


Kappa =
100 % - (porcentaje de concordancia esperada solo por azar)

El cálculo de los porcentajes esperados por azar lo calcula el programa estadístico.

Lo importante es saber que para determinar el grado de concordancia entre observadores, se debe
utilizar la prueba de Kappa.
Valores de Kappa por encima del 75 % se consideran buenos, entre 75 % y 40 % intermedios y
menores al 40 % malos.

Una vez evaluados los criterios de validez, confiabilidad y repetibilidad de una nueva prueba,
debemos decidir si esta nueva prueba puede sustituir a la considerada hasta el momento como
método de referencia o bien puede ser utilizada como alternativa de la prueba de referencia.

En el caso de que el resultado de la nueva prueba sea una variable dicotómica, la comparación de
su especificidad, sensibilidad , VPP y VPN con el método de referencia nos permite determinar si la
nueva prueba es similar o mejor a la prueba de referencia.

Si el resultado de la nueva prueba es una variable cuantitativa, las dos pruebas se comparan
mediante la prueba de Bland & Altman.
Esta prueba se realiza mediante el empleo de un programa estadístico, pero en síntesis lo que busca
determinar es si los valores encontrados con la nueva prueba no superan los limites del IC 95 % de
la prueba de referencia.

No falta mucho para terminar la clase, pero una pausa para relajarnos no nos viene nada mal,
no?
Introducción de una programa de tamizaje en la población.

Cuando se introduce una nueva Prueba de Tamizaje o de Diagnóstico, los estudios realizados para
determinar sus características de validez, confiabilidad y repetibilidad deben estar bien diseñados.

Todos los pacientes deben realizarse los dos estudios y la comparación del resultado del nuevo
prueba vs. la prueba estándar debe hacerse de forma ciega, para no introducir Sesgos de
Información. Si se conoce el resultado de la prueba estándar, esto influenciará el resultado del
nuevo prueba.

Hay circunstancias en las cuales la prueba de referencia es invasiva o tiene riesgos, y desde el punto
de vista ético no sería correcto realizarlo en pacientes sin indicación.
En este caso los pacientes con resultado negativo en la nueva prueba son seguidos en el tiempo
para evaluar si desarrollan la enfermedad y de esta manera se les evita el riesgo de la prueba
estándar.
La nueva prueba debe evaluarse en diferentes poblaciones con todos los estadios de la enfermedad
para determinar en qué grupo de pacientes se consigue el mejor costo/beneficio.

Una vez determinadas sus características y costo/beneficio, el estudio debe repetirse en un segundo
grupo independiente de pacientes para determinar con mayor confiabilidad si los resultados pueden
ser duplicados.

En resumen, lo que se desea con un buen prueba es que, a través de su validez, el mismo mida o
detecte con la mayor exactitud la variable de interés y con la menor variabilidad posibles.

Todas las características explicadas en este capítulo deben ser tenidas en cuenta a la hora de valorar
la utilidad de una nueva prueba, y a veces la de una prueba que ya está en uso pero que no ha sido
ampliamente estudiada desde este punto de vista.

Para evaluar a nivel poblacional si una prueba de tamizaje reduce la morbi mortalidad de la
enfermedad en la población deben llevarse a cabo estudio clínicos, cuyo diseño es elegido por el
investigador de a cuerdo a sus posibilidades, en general se utilizan estudios caso-control o estudios
de cohorte.
En los estudios caso control, por ejemplo, se seleccionan sujetos que no han demostrado remisión
de la enfermedad como casos y sujetos en los que la enfermedad ha remitido como controles.
A ambos grupos se los interroga acerca de si fueron sometidos a una prueba de tamizaje o no.
Uno de los posibles resultados es que los pacientes con remisión de la enfermedad se hayan
sometido a una prueba de tamizaje en mayor proporción que los sujetos sin remisión. Por lo que la
conclusión podría ser que la detección precoz de la enfermedad haya tenido impacto favorable en
la evolución de la enfermedad.
Como todo estudio caso-control tiene sus ventajas y desventajas, además de sus propios sesgos.

El estudio de cohorte aleatorizado seria el más indicados para evaluar un programa de tamizaje.
En este tipo de estudio, se calcula el numero de sujetos necesarios incluir en cada grupo para
detectar una diferencia de reducción de la morbi mortalidad entre los sujetos asignados al azar a
prueba de tamizaje y entre aquellos no asignados a prueba de tamizaje (factor de exposición) que
el investigador considere importante desde el punto de vista de salud publica.
Los sujetos serán seguidos en el tiempo y al final del estudio se comparará la evolución entre ambos
grupos utilizando un análisis de sobrevida.

También este tipo de estudio tiene sus propios sesgos, ventajas y desventajas.

Independientemente del tipo de estudio que se elija para evaluar el programa de tamizaje, existen
sesgos especiales cuando se evalúa la eficacia de un programa de tamizaje.
El conocimiento de estos sesgos nos permitirá evaluar si los resultados del estudio realizado son
válidos.

 En general se describen 4 sesgos fundamentales.

 Sesgo de Selección:

Puede suceder que los sujetos que acepten participar en el estudio tengan más conciencia de su
salud que los sujetos que no participan. Estos sujetos seguramente concurren regularmente a
controles médicos por lo que puede ser una población de bajo riesgo.

El efecto de este sesgo depende de la enfermedad. Se sabe que el cáncer de cuello de útero está
asociado a un nivel socio económico bajo. Las mujeres que realizan controles periódicos para su
prevención, en general pertenecen a otra clase social, por lo tanto son de menos riesgo. Como ya
sabemos, la Prevalencia es importante para el rendimiento de la prueba y por lo tanto del programa,
por lo que los resultados del estudio pueden ser totalmente erróneos.
Por ejemplo, la mortalidad a 5 años por cáncer de cuello de útero será mucho menor en el grupo de
pacientes de mejor nivel socioeconómico, más allá del hecho de haberlo detectado precozmente.

También puede suceder que los sujetos con más alto riesgo sean los que más participan, en este
caso el resultado del estudio será que los sujetos sometidos a Tamizaje tienen mayor mortalidad.

 Sesgo por contaminación


La contaminación entre sujetos ocurre en los estudios de Diseño Experimental, cuando una persona
asignada al grupo no Tamizaje se somete a la prueba, por ejemplo por referencias de otra asignada
a la intervención, en este caso se pierde la asignación por aleatorizacón y los grupos dejan de ser
comparables.
Los Estudios Ecológicos, donde se comparan poblaciones en lugar de sujetos, son de utilidad ya que
eliminan la posibilidad de contaminación. Si asignamos a un pueblo a prueba de tamizaje y a otro a
no tamizaje, no hay posibilidad de contaminación entre sujetos.

 Lead Time Bias


Podría traducirse como Sesgo por Adelanto. El período que transcurre desde la aparición de la lesión
preclínica hasta el diagnóstico espontáneo por síntomas se denomina Lead Time o tiempo de
adelanto, y a la aparente mejoría de la sobrevida se la conoce como Lead Time Bias o Sesgo por
Adelanto.
Si el objetivo es detectar fases tempranas de una enfermedad, todos aquellos sujetos
diagnosticados tempranamente tendrán mayor sobrevida a 5 años desde el diagnóstico comprado
con los sujetos diagnosticados en la fase sintomática.
Es obvio que el tiempo desde la aparición de una lesión temprana hasta la aparición de la fase
sintomática toma tiempo.
Si no se calcula este período cuando se compara la mortalidad entre los dos grupos se concluirá
erróneamente que el grupo Tamizaje tiene mejor sobrevida, sólo por el hecho de haber sido
diagnosticados antes.

Sesgo por adelanto

Sin Tamizaje Síntomas Muerte

Sobrevida

Sobrevida
Tamizaje Prueba Positivo Síntomas Muerte

Lead Time

Hay dos formas de solucionar este problema.

La primera es comparar el tiempo de sobrevida desde el diagnóstico a la muerte pero calculado


por grupos etarios.
Por ejemplo, en los sujetos de ambos grupos que murieron a los 45 años ¿cuál fue la sobrevida
del cáncer de mama desde el diagnóstico en el grupo Tamizaje y grupo no Tamizaje a los 45
años?
La segunda es: si sabemos cuál es el período de latencia o de adelanto, se lo sumamos al tiempo
de sobrevida del grupo Tamizaje. Si el cáncer de mama tiene un Lead Time de 1 año, lo que
calculamos es la tasa de mortalidad en el grupo Tamizaje a 6 años y en el grupo no Tamizaje a 5
años de seguimiento y luego las comparamos.
Esta última opción no siempre es posible de realizar, ya que el cálculo del tiempo de adelanto
es difícil de determinar.

 El segundo sesgo característico de los programas de Tamizaje es el Lenght Time Bias o Sesgo
de Duración.
Este sesgo se refiere al hecho que en muchos casos el Tamizaje tiene más probabilidad de detectar
lesiones con fases preclínicas más largas, por lo que la progresión a la enfermedad sintomática es
mucho más larga. Obviamente estos individuos van a tener mejor sobrevida y el error es asumir que
el Tamizaje mejora la sobrevida, cuando en realidad se debe a la detección de lesiones que
progresan mucho más lentamente.
Este tiempo de progresión es muy difícil de cuantificar, la forma de controlar este sesgo es realizar
Prueba de Tamizaje seriadas e ir comparando la incidencia de eventos.

Algunas consideraciones sobre programas de tamizaje.

En la aplicación de programas de Tamizaje se corre el riesgo de sobre diagnosticar. Esto se debe que
muchas lesiones preclínicas nunca progresaran a fases sintomáticas o no son fatales. Esto resulta en
mejor sobrevida para el grupo sometido a Tamizaje. A este sesgo se lo denomina Sesgo por sobre
diagnóstico.

Si bien el objetivo de un Programa de Tamizaje es reducir la mortalidad, éste no está exento de


perjuicios, como incremento de la morbilidad, sobre tratamiento en aquellos casos que no
progresen a fases sintomáticas, riesgos propios de la prueba, ansiedad por resultados positivos que
luego se confirman como falsos positivos, riesgo de no detectar lesiones por falsos negativos; todo
esto con la consecuencia del incremento en los costos en salud por sobre diagnóstico y sobre
tratamiento.

Cuando un programa de Tamizaje se introduce por primera vez en una población, la Prevalencia de
lesiones preclínicas es alta, ya que no han sido detectadas con anterioridad. Al transcurrir el tiempo
habrá cada vez menos sujetos con lesiones preclínicas, por lo que la Prevalencia disminuye. Esto
trae como consecuencia que las características de validez y confiabilidad de la prueba se alteren.
Al mismo tiempo la difusión en la población de la existencia de un programa de detección precoz
hará que más sujetos concurran espontáneamente a realizarlo.
Por lo tanto, la evaluación de un programa de Tamizaje debe realizarse periódicamente para evaluar
su utilidad con los cambios de las características poblacionales. Es por esto que muchas Prueba de
Tamizaje que antes se realizaban masivamente ahora sólo tengan indicación en poblaciones de alto
riesgo.
Como hemos aprendido en esta clase, la evaluación de una nueva prueba diagnóstica o de tamizaje
es compleja. Hay que tener en cuenta su sensibilidad y especificidad que depende del punto de
corte que se haya elegido para caracterizar a los sujetos como sanos o enfermos, la credibilidad de
sus resultados, a través de la valoración del valor predictivo positivo y negativo, que depende de la
prevalencia de la población utilizada para evaluar la nueva prueba.

También es importante distinguir que características se desea de una prueba de tamizaje y que
características debe tener una prueba diagnostica.

No menos importante, es la consideración de las consecuencias a nivel individual que pueda


acarrear una prueba de tamizaje, como riesgos, ansiedad por falso positivo, aceptación o rechazo
de la población de la prueba.

No se puede aceptar una nueva prueba diagnóstica o de tamizaje antes que esta haya sido evaluada
en una población adecuada, mediante la conducción de un estudio clínico.

Los resultados del estudio clínico deben considerarse con cautela, dados los posibles sesgos que
pudieron ser introducidos.

También podría gustarte