Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Aristas:
Desafíos de los conjuntos de datos de rayos X: A pesar de las afirmaciones de que alcanzan y / o
superan el nivel médico rendimiento, modelos actuales de aprendizaje profundo para la
clasificación de las patologías que utilizan radiografías de tórax están demostrando no ser
generalizables entre instituciones y aún no están listas para su adopción en entornos clínicos del
mundo real (Zech et al., 2018). Además, las advertencias de Las posibles consecuencias no
deseadas de su uso son discutidas por Cabitza y col. (2017). No está claro cómo extender el éxito
significativo en la visión por computadora utilizando redes neuronales profundas al dominio
médico.
El punto:
Las preguntas abiertas sobre los conjuntos de datos de radiología médica que aún deben abordarse
son:
• Cómo anotar la enorme cantidad de imágenes médicas que requieren los modelos de aprendizaje
profundo [11] y cumplir con los calidad requerida. Anotación manual a gran escala de fuentes en el
dominio general.
• Las etiquetas de imagen clínicamente relevantes que deben definirse y qué criterios deben seguirse
para anotar [11].
• Cómo lidiar con las incertidumbres en los textos de radiología. Los datos médicos se caracterizan
por la incertidumbre y la incompletitud y los sistemas de apoyo a la toma de decisiones de
aprendizaje automático (ML-DSS) deben adaptarse a los datos de entrada que reflejan la
naturaleza de la información médica, en lugar de imponer una idea de precisión e integridad de los
datos que no se ajustan a las historias clínicas de los pacientes y los registros médicos, por lo que la
calidad de los datos está lejos de ser óptima. A este respecto, [10] aconseja precaución con respecto
a las consecuencias no deseadas de la adopción de ML-DSS que eliminan el contexto e ignoran el
hecho de que la variabilidad del observador obedece no solo a deficiencias interpretativas sino
también a la variabilidad intrínseca en los fenómenos observados.
• Cómo controlar eficazmente los posibles factores de confusión, como la presencia de tubos,
catéteres, calidad de la imagen evaluada por radiólogos, posición del paciente, etc. y prevalencia de
entidad desequilibrada, que los modelos aprenden a explotar como características predictivas en
detrimento del patrón radiológico clínico.
Formalización:
El conjunto de datos PadChest consta de todas las radiografías de tórax disponibles que han sido
interpretadas e informadas por 18 radiólogos. en el Hospital Universitario de San Juan, Alicante
(España) desde enero de 2009 a diciembre de 2017, por un importe de 109.931 estudios y 168.861
imágenes diferentes. Este proyecto fue aprobado por el comité de investigación institucional, y
tanto las imágenes como los informes asociados fueron anonimizada y desidentificada por el Banco
de Imágenes Médicas de la Comunidad Valenciana del Departamento de Servicios Universal de
Salud y Salud Pública (BIMCV-CSUSP) y el Departamento de Informática en Salud del Hospital
San Juan. El conjunto de datos PadChest se puede descargar del repositorio del banco de imágenes
médicas (BIMCV - PADCHEST1),habilitado por el Banco de Imágenes Médicas de la Comunidad
Valenciana (BIMCV). La BIMCV ha lanzado varios proyectos en materia de imágenes médicas
poblacionales, cuyo objetivo es desarrollar e implementar una infraestructura con una capacidad de
almacenamiento siguiendo la arquitectura de I + D Cloud CEIB [23 ]. Una de las misiones de este
banco es promover la publicación de conocimiento científico como datos abiertos por sus
instituciones de salud afiliadas. PadChest contiene archivos de imagen que suman hasta 1 TB, un
archivo csv con 33 campos para cada estudio y un archivo de instrucciones que contiene
descripciones de campo, ejemplos e información de búsqueda para una recuperación de imágenes
eficiente. Un ejemplo de un estudio de conjunto de datos conSe pueden encontrar dos proyecciones
en C , junto con sus etiquetas asociadas y campos de información adicional. La metodología
empleada para construir PadChest comprende los siguientes pasos principales:
• Preprocesamiento de las imágenes y extracción de metadatos DICOM.
• Preprocesamiento de los informes
•Anotaciones médicas manuales utilizando una taxonomía jerárquica de hallazgos radiográficos,
diagnósticos diferenciales y sus ubicaciones anatómicas.
• Etiquetado automático del resto de estudios.
Contexto:
Hay una serie de conjuntos de datos de rayos X de tórax disponibles públicamente que se pueden
utilizar para la clasificación y recuperación de imágenes. Tareas. El repositorio del Instituto
Nacional de Salud de América (NIH) [ 4] contiene 112,120 radiografías de tórax de vista frontal,
correspondiente a 30.805 pacientes diferentes, y multi-etiquetados con 14 enfermedades torácicas
diferentes [ 5]. El conjunto de datos del Instituto de Tuberculosis [ 15] consta de 10848 DICOM, de
los cuales 3828 muestran anomalías de la tuberculosis. El conjunto de datos de la Universidad de
Indiana [ 16] comprende 7470 imágenes de rayos X de tórax frontales y laterales, correspondientes
a 3955informes de radiología con anotaciones de enfermedades, como hipertrofia cardíaca, edema
pulmonar, opacidad o derrame pleural. El conjunto de datos JSRT [ 17] consta de 247 radiografías
de las cuales 154 han sido etiquetadas para nódulos pulmonares (100 malignos). [18]también
proporciona máscaras del área pulmonar para la evaluación del rendimiento de la segmentación. El
conjunto de datos de Shenzhen [ 19] tiene un total de 662 imágenes pertenecientes a dos categorías
(normal y tuberculosis).Con respecto a los métodos de anotación aplicados, [20 , 11] utilizó un gran
conjunto de datos que incluía 780.000 documentos de216.000 imágenes que comprenden TC, RM,
PET y otras modalidades de imagen, y semántica categórica extraída automáticamente etiquetas
utilizando un método de modelado de temas no paramétrico. Se consideró que las anotaciones
resultantes no eran específicas. Para aumentar la especificidad de la enfermedad, los autores han
emparejado tipos de patología frecuentes utilizando una ontología de enfermedad y semántica. Sin
embargo, este método asignó etiquetas de enfermedades específicas a alrededor del 10% del
conjunto de datos. En ChestX-Ray-8,[ 4 ] utilizó MetaMap [21], DNorm [22] y reglas de negación
personalizadas aplicadas a un analizador sintáctico para etiquetar el presencia o no de 8 entidades,
que se amplió aún más a 14 entidades en 125.000 imágenes (Chest-XRay14), también aplicando
métodos análogos. Ellos validaron el procedimiento de etiquetado de imágenes frente a 3.800
informes anotados de rayos X imágenes de OpenI - Indiana DB- [ 16]