Está en la página 1de 49

Traducido del inglés al español - www.onlinedoctranslator.

com

Prueba previa de la revista

Aprendizaje profundo para detectar la enfermedad de Alzheimer a partir de neuroimágenes: una


revisión sistemática de la literatura

Sr. Amir Ebrahimighahnavieh, Dr. Raymond Chiong

PII: S0169-2607 (19) 31094-6


DOI: https://doi.org/10.1016/j.cmpb.2019.105242
Referencia: COMM 105242

Aparecer en: Métodos y programas informáticos en biomedicina

Fecha recibida: 8 de julio de 2019


Fecha revisada: 13 de noviembre de 2019
Fecha de aceptación: 25 de noviembre de 2019

Por favor, cite este artículo como: Sr. Amir Ebrahimighahnavieh, Dr. Raymond Chiong, Deep Learning to Detect
Alzheimer's Disease from Neuroimging: A Systematic Literature Review, Métodos y programas informáticos en
biomedicina (2019), doi: https://doi.org/10.1016/j.cmpb.2019.105242

Este es un archivo PDF de un artículo que ha sufrido mejoras después de la aceptación, como la adición de una portada y
metadatos, y el formato para facilitar la lectura, pero aún no es la versión definitiva del registro. Esta versión se someterá a
corrección de estilo adicional, composición tipográfica y revisión antes de que se publique en su forma final, pero estamos
proporcionando esta versión para dar visibilidad temprana del artículo. Tenga en cuenta que, durante el proceso de
producción, se pueden descubrir errores que podrían afectar el contenido, y todas las renuncias legales que se aplican a la
revista pertenecen.

© 2019 Publicado por Elsevier BV


Reflejos

- Se lleva a cabo una revisión de la detección de la enfermedad de Alzheimer (EA) mediante el aprendizaje profundo La

- normalización y el registro de la intensidad son métodos clave de preprocesamiento en la detección de EA Los métodos

- basados en parches en regiones relacionadas con la enfermedad son más útiles para la extracción de características Las

- redes neuronales convolucionales se utilizan cada vez más con resultados impresionantes El aprendizaje de transferencia

- y el aumento de datos son útiles con un número limitado de pacientes

1
Aprendizaje profundo para detectar la enfermedad de Alzheimer

Enfermedad por neuroimagen: una


revisión sistemática de la literatura

Sr. Amir Ebrahimighahnavieh

Dr. Raymond Chiong

La Universidad de Newcastle

Unidad universitaria

Callaghan 2308

Australia

Correo electrónico: raymond.chiong@newcastle.edu.au

Abstracto: La enfermedad de Alzheimer (EA) es una de las principales causas de muerte en los países desarrollados. Desde el punto de vista de la investigación, se han informado resultados impresionantes utilizando algoritmos

asistidos por computadora, pero clínicamente no se dispone de ningún método de diagnóstico práctico. En los últimos años, los modelos profundos se han vuelto populares, especialmente al tratar con imágenes. Desde 2013, el

aprendizaje profundo ha comenzado a recibir una atención considerable en la investigación de detección de EA, y la cantidad de artículos publicados en esta área ha aumentado drásticamente desde 2017. Se ha informado que

los modelos profundos son más precisos para la detección de EA en comparación con las técnicas generales de aprendizaje automático. Sin embargo, la detección de la EA sigue siendo un desafío y, para su clasificación, requiere

una representación de características altamente discriminativa para separar patrones cerebrales similares. Este documento revisa el estado actual de la detección de EA mediante el aprendizaje profundo. A través de una

revisión sistemática de la literatura de más de 100 artículos, presentamos los hallazgos y tendencias más recientes. Específicamente, revisamos biomarcadores y características útiles (información personal, datos genéticos y

escáneres cerebrales), los pasos necesarios de preprocesamiento y las diferentes formas de tratar los datos de neuroimagen que se originan en estudios de modalidad única y multimodal. Los modelos profundos y su

rendimiento se describen en detalle. Aunque el aprendizaje profundo ha logrado un rendimiento notable en la detección de EA, existen varias limitaciones, especialmente con respecto a la disponibilidad de conjuntos de datos y

procedimientos de entrenamiento. revisamos biomarcadores y características útiles (información personal, datos genéticos y escáneres cerebrales), los pasos previos al procesamiento necesarios y las diferentes formas de

tratar los datos de neuroimagen que se originan en estudios de modalidad única y multimodal. Los modelos profundos y su rendimiento se describen en detalle. Aunque el aprendizaje profundo ha logrado un rendimiento

notable en la detección de EA, existen varias limitaciones, especialmente con respecto a la disponibilidad de conjuntos de datos y procedimientos de entrenamiento. revisamos biomarcadores y características útiles

(información personal, datos genéticos y escáneres cerebrales), los pasos previos al procesamiento necesarios y las diferentes formas de tratar los datos de neuroimagen que se originan en estudios de modalidad única y

multimodal. Los modelos profundos y su rendimiento se describen en detalle. Aunque el aprendizaje profundo ha logrado un rendimiento notable en la detección de EA, existen varias limitaciones, especialmente con respecto a

la disponibilidad de conjuntos de datos y procedimientos de entrenamiento.

Palabras llave: aprendizaje profundo; Enfermedad de Alzheimer; redes neuronales convolucionales; redes neuronales recurrentes; codificadores

automáticos; transferencia de aprendizaje.

2
1. Introducción

Con las nuevas tecnologías de inteligencia artificial, los sistemas informáticos se pueden utilizar para mejorar la precisión y la velocidad de

detección de enfermedades en los hospitales, incluso aquellos que tienen pocos expertos médicos. Los avances en el análisis y las imágenes

médicas han proporcionado herramientas poderosas para detectar la neurodegeneración, y existe un gran interés en utilizar la información de las

imágenes para diagnosticar una enfermedad. Recientemente se ha demostrado que una computadora puede realizar una evaluación tan precisa

como la de un radiólogo [1].

La enfermedad de Alzheimer (EA) es un trastorno neurodegenerativo progresivo irreversible que destruye lentamente la memoria y

conduce a dificultades para comunicarse y realizar actividades diarias como hablar y caminar. Eventualmente es fatal. La EA es el tipo más

común de demencia y comprende aproximadamente del 60 al 80% de todos los casos de demencia. Por lo general, comienza en la

mediana edad o en la vejez, posiblemente iniciada por la acumulación de proteínas en y alrededor de las neuronas, y conduce a un

deterioro constante de la memoria (asociado con disfunción sináptica, encogimiento del cerebro y muerte celular) [2]. Los primeros

cambios en el cerebro ocurren antes de que comience el deterioro cognitivo y algunos biomarcadores pueden volverse anormales en

esta etapa temprana. La investigación sugiere que los cambios cerebrales relacionados con la EA pueden comenzar al menos 20 años

antes de que aparezcan los síntomas [2, 3].

Los pacientes en la etapa inicial de la EA se clasifican como personas con deterioro cognitivo leve (DCL) [4, 5], aunque no todos los

pacientes con DCL desarrollarán EA. El DCL es una etapa de transición de lo normal a la EA, en la que una persona tiene cambios leves en

la capacidad cognitiva que son obvios para la persona afectada y sus familiares, pero aún puede realizar las actividades cotidianas.

Aproximadamente entre el 15% y el 20% de las personas de 65 años o más tienen DCL, y entre el 30% y el 40% de las personas con DCL

desarrollan EA dentro de los 5 años [2]. El tiempo de conversión varía de 6 a 36 meses, pero normalmente es de 18 meses. Los pacientes

con DCL se pueden clasificar como convertidores de DCL (DCMc) o no convertidores de DCL (DCMc), lo que significa que el paciente tuvo o

no se convirtió en EA en 18 meses. También hay otros subtipos de DCL que rara vez se mencionan en la literatura, como DCL temprano /

tardío.

Los factores de riesgo más importantes para la EA son los antecedentes familiares y la presencia de genes relacionados en el

genoma de una persona. Un diagnóstico de EA se basa en un examen clínico, así como en una entrevista completa del paciente y sus

familiares [6, 7]. Sin embargo, un diagnóstico de la EA con "verdad fundamental" sólo se puede realizar mediante autopsia, lo que no es

clínicamente útil. Se utiliza un grupo de pacientes con EA con un diagnóstico confirmado por autopsia en [8].

Sin datos reales, los pacientes necesitan otros criterios para confirmar la EA. Dichos criterios podrían mejorar

nuestra comprensión de la EA y hacer posible el diagnóstico en pacientes vivos. En 1984, NINCDS1 y ADRDA2

criterios establecidos para el diagnóstico clínico de EA; en 2007 se revisaron en función del deterioro de la memoria y la

presencia de al menos una característica de apoyo adicional: imágenes de resonancia magnética (MRI) y tomografía por

emisión de positrones (PET) anormales o biomarcadores de tau y amiloide anormales en el líquido cefalorraquídeo [5,

9-11]. NIA3 y la Asociación de Alzheimer también han comenzado a revisar los criterios de diagnóstico para la EA [12-16].

Los nuevos criterios de diagnóstico propuestos incluyen medidas de amiloide cerebral, lesión neuronal y degeneración.

Recientemente se ha concluido que probablemente se justifique la actualización de los criterios cada 3-4 años para

incorporar nuevos conocimientos sobre la fisiopatología y la progresión de la enfermedad [17].

1 Instituto Nacional de Trastornos Neurológicos y Comunicativos y Accidentes Cerebrovasculares


2 Asociación de Enfermedad de Alzheimer y Trastornos Relacionados
3 Instituto Nacional sobre el Envejecimiento

3
El Mini Examen del Estado Mental (MMSE) [18] y la Clasificación de demencia clínica (CDR) [19] son dos de

las pruebas más utilizadas para evaluar la EA [20], aunque debe tenerse en cuenta que usarlos como etiquetas de verdad básica para AD

podría ser incorrecto. Con base en los criterios mencionados anteriormente, la precisión informada del diagnóstico clínico de EA en

comparación con el diagnóstico post-mortem está en el rango de 70 a 90% [21-24]. A pesar de sus limitaciones, el diagnóstico clínico es el

mejor estándar de referencia disponible [25]. También vale la pena señalar que la disponibilidad de todos los biomarcadores reconocidos

es bastante limitada.

En 2010, se informó que el número de personas mayores de 60 años que vivían con demencia era de 35,6 millones en todo

el mundo y 310.000 en Australasia. Se espera que las cifras casi se dupliquen cada 20 años, de modo que para 2050 habrá 115

millones en todo el mundo y 790.000 en Australasia [26]. La demencia se ha convertido en la segunda causa principal de muerte

en Australia, con 13,126 casos reportados en 2016 [27]. Se espera que el costo de enfermería para los pacientes con EA y otros

tipos de demencia aumente considerablemente, convirtiendo a la EA en una de las enfermedades crónicas más caras [2, 28].

Aunque se han investigado varias estrategias de tratamiento para prevenir o ralentizar la enfermedad, el éxito ha sido limitado [

29]. En el futuro, la detección precoz y precisa de la EA es vital para un tratamiento adecuado. La detección temprana de la EA

significa que los pacientes pueden mantener su independencia durante más tiempo; nuevos esfuerzos de investigación

conducirán a una mejor comprensión del proceso de la enfermedad y al desarrollo de nuevos tratamientos [30, 31].

Teniendo en cuenta todo lo anterior, existe la necesidad de una decisión clínica multiclase, imparcial por la experiencia

radiológica variable, que pueda distinguir automáticamente la EA y sus diferentes etapas de un Control Normal (NC). En general,

clasificando Los pacientes con EA de NC o DCL no son tan valiosos como prediciendo Conversión de DCL, porque la EA es

claramente aparente sin utilizar ninguna experiencia cuando es demasiado tarde para el tratamiento. Sin embargo, muchos

estudios todavía abordan el problema de EA frente a NC, ya que es útil en otras tareas de clasificación, especialmente para

comprender los primeros signos de EA. El desafío más importante y principal en la evaluación de la EA es determinar si alguien

tiene DCL o no y predecir si un paciente con DCL desarrollará la enfermedad. Aunque los sistemas asistidos por computadora

disponibles todavía no pueden reemplazar a un experto médico, pueden proporcionar información de respaldo para mejorar la

precisión de las decisiones clínicas. Cabe señalar que no todos los estudios funcionan en AD, MCI o NC. También se consideran

otras etapas de la enfermedad, como DCL temprano / tardío.

La detección de la EA mediante inteligencia artificial suele ser un desafío para los investigadores debido a:

- Baja calidad de adquisición de imágenes médicas y errores en el preprocesamiento y segmentación cerebral.

- Falta de disponibilidad de un conjunto de datos completo que incluya una gran cantidad de sujetos y biomarcadores.

- Varianza baja entre clases en diferentes etapas de la EA. A veces, los signos que distinguen la EA, por ejemplo, el

encogimiento del cerebro, se pueden encontrar en un cerebro sano normal de personas mayores [32].

- La ambigüedad de los límites entre EA / MCI y MCI / NC según los criterios de diagnóstico de EA [25].

- Falta de conocimiento experto, especialmente en la identificación de regiones de interés (ROI) en el cerebro.

- La complejidad de las imágenes médicas en comparación con las imágenes naturales habituales.

Hay algunos estudios de revisión sobre la detección de AD mediante el aprendizaje automático, que cubren temas como

diferentes tipos de clasificadores, modelos unimodales y multimodales, algoritmos de extracción de características, métodos de

selección de características, enfoques de validación y propiedades del conjunto de datos [3, 20, 33-35]. Además, los desafíos de

la competencia, como CADDementia4 [25], TADPOLE5 [36], The Alzheimer's Disease Big Data DREAM Challenge6 [37], y el

4 http://caddementia.grandchallenge.org

4
desafío internacional para la predicción automatizada de MCI a partir de datos de resonancia magnética7 (alojado por la plataforma Kaggle) [38] -

se ha demostrado que es eficaz en el análisis de la EA; pueden proporcionar comparaciones imparciales de algoritmos y

herramientas sobre datos estandarizados que involucran a participantes de todo el mundo. En estos estudios y concursos, se

han investigado y evaluado muchas técnicas diferentes de aprendizaje automático, pero los enfoques tradicionales del

aprendizaje automático no son satisfactorios para tratar problemas tan complicados como AD [39]. Detectar la EA es difícil y una

clasificación exitosa requiere una gran capacidad para discriminar ciertas características entre patrones similares de imágenes

cerebrales.

El aumento en la potencia de procesamiento de las unidades de procesamiento de gráficos (GPU) ha permitido el desarrollo de algoritmos de aprendizaje

profundo de vanguardia. El aprendizaje profundo es un subconjunto del aprendizaje automático en inteligencia artificial que imita el funcionamiento del cerebro

humano en el procesamiento de datos y el reconocimiento de patrones para resolver problemas complejos de toma de decisiones. Los métodos basados en el

aprendizaje profundo han revolucionado el rendimiento en numerosas áreas, como el reconocimiento, la detección, el seguimiento, la segmentación de

imágenes y la clasificación de audio de objetos. El aprendizaje profundo exitoso en la clasificación de imágenes naturales 2D ha beneficiado a los estudios de

aprendizaje profundo en el dominio de las imágenes médicas [40, 41]. En los últimos años, los modelos de aprendizaje profundo, en particular las redes

neuronales convolucionales (CNN), se han desempeñado bien en el campo de las imágenes médicas para la segmentación de órganos y la detección de

enfermedades [42]. Con base en datos de neuroimagen, los modelos de aprendizaje profundo pueden descubrir representaciones ocultas, encontrar vínculos

entre diferentes partes de imágenes e identificar patrones relacionados con enfermedades. Los modelos de aprendizaje profundo se han aplicado con éxito a

imágenes médicas como la resonancia magnética estructural (simplemente llamada resonancia magnética en este artículo), resonancia magnética funcional

(resonancia magnética funcional), PET e imágenes de tensor de difusión (DTI). De esta forma, los investigadores han comenzado recientemente a utilizar

modelos de aprendizaje profundo para detectar la EA a partir de imágenes médicas [40]; sin embargo, todavía queda un largo camino por recorrer antes de que

las técnicas de aprendizaje profundo se puedan utilizar para detectar con precisión la EA.

Este artículo tiene como objetivo revisar el estado actual de la detección de EA mediante el aprendizaje profundo. En particular, nuestro objetivo es

establecer cómo se puede utilizar el aprendizaje profundo en modos supervisados y no supervisados para proporcionar una mejor comprensión de la EA.

Revisamos la detección de EA mediante el aprendizaje profundo para determinar los hallazgos recientes y las tendencias actuales.

Un diagrama de bloques típico de un sistema de detección de AD asistido por computadora se muestra en Figura 1. El contexto aquí

es ver qué tipo de biomarcadores y factores se pueden usar en la detección de EA, qué conjuntos de datos están disponibles, qué tipo de

técnicas de preprocesamiento se necesitan para lidiar con biomarcadores (especialmente en neuroimagen), cómo extraer características

únicas de 3D. escáneres cerebrales, qué modelos profundos son capaces de capturar patrones de EA relacionados con enfermedades, y

cómo manejar datos multimodales.

Los métodos típicos de aprendizaje automático se componen de tres pasos principales: extracción de características, reducción de la

dimensión de características y clasificación. Sin embargo, los investigadores suelen combinar todas estas etapas cuando utilizan técnicas

de aprendizaje profundo. Todos los artículos incluidos en esta revisión se pueden clasificar en términos de entradas, qué biomarcadores

se han utilizado, cómo se han gestionado los biomarcadores y qué técnica de aprendizaje profundo se empleó.

Para comenzar, nuestra estrategia de búsqueda y los criterios de inclusión / exclusión se establecen primero para indicar cómo se seleccionaron los

artículos para su revisión. A continuación, se explican los biomarcadores para la detección de la EA, especialmente los escáneres cerebrales. Después,

5 La predicción de la evolución longitudinal de la enfermedad de Alzheimer, https://tadpole.grand-challenge.org


6 http://dreamchallenges.org

7 https://www.kaggle.com/c/mci-prediction

5
Los métodos de gestión de datos para hacer frente a los escáneres cerebrales son Discussed: basado en voxel, basado en cortes, basado en ROI y
basado en parche (junto con los pasos necesarios de preprocesamiento). Luego, se describen los detalles de los modelos de aprendizaje profundo utilizados

para la detección de AD, junto con las ventajas específicas de cada uno. Finalmente, se discuten los parámetros de entrenamiento, los conjuntos de datos y las

plataformas de software, seguidos de los aspectos más destacados y los desafíos futuros.

Profundo

Exploraciones cerebrales Preprocesamiento Gestión de datos Clasificación


modelo

Variables

Figura 1. Un diagrama de bloques típico de un sistema de detección de AD asistido por computadora.

2 El protocolo de revisión

Desde 2013, la exploración de nuevas estructuras de redes neuronales ha cobrado impulso, con modelos mucho más

profundos que han salido a la luz, especialmente para tratar el procesamiento de imágenes médicas [42]. Se ha revelado la

importancia del aprendizaje profundo en la detección de EA, y desde 2017 el número de artículos publicados en esta área ha

aumentado rápidamente, como se puede ver enFigura 2. Esos números en la Figura 2 muestran artículos preimpresos y

revisados por pares, pero no incluyen capítulos de libros y tesis. Específicamente, hay 9 preimpresiones y 105 artículos

revisados por pares derivados de nuestro proceso de búsqueda y selección.

En términos de precisión de clasificación, los modelos profundos son generalmente más precisos que las técnicas generales de

aprendizaje automático [43-60]. Se han aplicado muchas técnicas diferentes basadas en el aprendizaje profundo a la detección de EA. Sin

embargo, existen una serie de hallazgos controvertidos que nos motivaron a realizar esta revisión de la literatura, con el fin de ver cuál es

la situación actual y cuáles podrían ser las tendencias futuras. Nuestra principal pregunta de investigación fue investigar si las técnicas de

aprendizaje profundo eran capaces de detectar la EA utilizando datos de neuroimagen.

Nuestra revisión sistemática de la literatura sigue una metodología bien definida que pretende ser lo más justa y objetiva posible, en

comparación con una revisión tradicional que intenta resumir los principales resultados [61-63]. Una revisión sistemática de la literatura

consta de tres etapas principales: planificación, ejecución e informes. Su objetivo es establecer una pregunta de investigación, luego

desarrollar un protocolo de revisión, identificar revisiones ya disponibles, desarrollar una estrategia de búsqueda integral, seleccionar

estudios basados en los criterios de selección, analizar contenido, actualizar el protocolo de revisión, realizar una evaluación de calidad,

interpretar resultados y finalmente producir el documento final [64, sesenta y cinco].

El protocolo de revisión detalla cómo se llevará a cabo la revisión. En él se describe la pregunta de investigación, se especifica el

proceso a seguir y se establecen las condiciones que se aplicarán en la selección de estudios; existen métricas de calidad para garantizar

que los estudios elegidos sean relevantes, y los miembros del equipo reciben ciertas tareas para desarrollar el protocolo de revisión. El

protocolo de revisión aquí fue diseñado por el primer autor y revisado y revisado por los otros coautores. Los errores y defectos

identificados por los coautores en los procedimientos de recopilación y agregación de datos se utilizaron para revisar el protocolo de

investigación y las preguntas de investigación. Cada estudio se revisó al menos tres veces para asegurarse de que los datos extraídos

cumplieran plenamente con el protocolo final. La extracción de datos se facilitó al tener un

6
formulario estándar de extracción de datos para cada una de las preguntas de investigación. El formulario de extracción de datos se compiló cuando

el protocolo del estudio se definió primero y luego se revisó si se realizaban cambios. Incluso si la información proporcionada en un

estudio estaba incompleta, se extrajo la totalidad de los datos disponibles para cada pregunta de investigación. Las estadísticas que se

informan aquí se relacionan con la información proporcionada en los artículos principales.

Las preguntas de investigación de este estudio se enumeran a continuación, junto con las secciones que abordan esas preguntas.

- RQ1: ¿Qué tipo de biomarcadores y factores intervienen en la detección de la EA? (Sección 3 y Tabla 2 del

Apéndice 1)

- RQ2: ¿Qué tipo de técnicas de preprocesamiento son necesarias para tratar los biomarcadores, especialmente en

neuroimagen? (Sección 3.1)

- RQ3: ¿Cómo pueden los escáneres cerebrales 3D manejar la extracción de características? (Sección 3.2 y Tabla 2 del Apéndice 1)

- PI4: ¿Qué modelos profundos se han utilizado para capturar patrones de EA relacionados con enfermedades? (Sección 4 y

Tabla 2 del Apéndice 1)

- PI5: ¿Qué conjuntos de datos y plataformas de software son aplicables en esta área? (Sección 5 y Tabla 3 del

Apéndice 1)

- PI6: ¿Cómo se pueden elegir los parámetros de entrenamiento en el proceso de entrenamiento? (Sección 6)

- RQ7: ¿Cuál es el estado actual de la precisión de detección de AD utilizando modelos profundos? (Tablas 4 a 9 del

Apéndice 1).

La estrategia de búsqueda y los criterios de inclusión / exclusión se describen en la siguiente sección, seguidos de una

descripción del proceso de evaluación de la calidad.

47
50
40 33
Numero de trabajos

30
20
dieciséis

6
10 2 3
0
2013 2014 2015 2016 2017 2018
Año

Figura 2. Artículos que utilizan el aprendizaje profundo para detectar la EA a lo largo de los años.

2.1 Estrategia de búsqueda

Para identificar las contribuciones en la detección de EA, se consultaron las bibliotecas digitales IEEE Xplore, ScienceDirect,

SpringerLink y ACM en busca de artículos que contengan "Alzheimer" y "profundo" en el título, el resumen o las palabras clave. Además,

se consultó a Web of Science y Scopus para verificar los hallazgos y ubicar otros artículos en bibliotecas menos conocidas. Se eligieron

estas bases de datos en línea porque ofrecen los textos completos revisados por pares más importantes.

7
revistas y actas de congresos que cubren el campo del aprendizaje profundo. Se esperaba que los términos de búsqueda utilizados

cubren la mayor parte, si no todo, del trabajo que incorpora métodos de aprendizaje profundo para la detección de EA. Además, se utilizó Google

Scholar para búsquedas futuras, es decir, para verificar las citas de los artículos encontrados para actualizar nuestra búsqueda y buscar otros

artículos para asegurarse de que no se haya pasado por alto nada. El proceso de búsqueda fue realizado por el primer autor y la última

actualización se realizó el 8 de abril.th, 2019.

2.2 Criterios de inclusión / exclusión

Los criterios de selección de estudios determinan si un estudio se incluirá o excluirá de la revisión sistemática. Se

definió una versión piloto de los criterios de selección en un subconjunto de los estudios primarios y se desarrolló aún

más una vez finalizado el protocolo de revisión. En esta sección se explica la versión final de los criterios de selección.

Las decisiones sobre inclusión / exclusión no se vieron afectadas por los nombres de los autores, sus instituciones, la

revista o el año de publicación.

Algunos análisis intentaron distinguir la EA de otras anomalías cerebrales como el Parkinson, el síndrome de Down, la

esquizofrenia y el autismo. Estas enfermedades o trastornos están fuera del alcance de esta investigación y, por lo tanto, los

sujetos clasificados como NC se consideran completamente sanos sin ningún trastorno o tratamiento neurológico / psiquiátrico

[66]. En este estudio, se excluyeron los artículos que no utilizaron al menos una modalidad de neuroimagen. Esto significa que

no se incluyeron los estudios que utilizaron EEG, retina, atención visual, disfluencias del habla y similares, sin involucrar

escáneres cerebrales. Además, no se consideran los estudios sin resultados claramente informados sobre problemas de

clasificación (AD / MCI / NC). En otras palabras, no incluimos artículos que investigaran la estimación de, por ejemplo, la

puntuación MMSE o el tiempo de conversión de DCL a EA, modelado de la progresión de EA, finalización de datos de

neuroimagen, técnicas de procesamiento de imágenes o segmentación cerebral sin una precisión de clasificación claramente

informada. Cuando se informaron estudios superpuestos en varias publicaciones (como [67,68]), se incluyeron todas las

publicaciones para comprender incluso las pequeñas diferencias.

Finalmente, después de realizar una búsqueda de texto completo por parte del primer autor, los artículos encontrados se

redujeron a 114 artículos escritos en inglés a partir de 2013 sobre aprendizaje profundo para la detección de EA utilizando

modalidades de neuroimagen. Entre estos 114 artículos, Suk [54, 55, 69-74], Aderghal [75-80] y Cheng & Liu [81-86] tenía la

mayoría de los papeles. Según Google Scholar, las referencias [11], [30], y [32] son las más citadas, mientras que la referencia [

87] tiene la mayor cantidad de citas por año. En esta área de investigación, los principales congresos son losSimposio

internacional IEEE sobre imágenes biomédicas y el Taller internacional sobre aprendizaje automático en imágenes médicas; y las

principales revistas sonNeuroImage, Análisis de imágenes médicas, y IEEE Journal of Biomedical and Health Informatics. Las

categorías de estudios de EA basados en el aprendizaje profundo se incluyen en los siguientes términos de búsqueda:

- Detección o diagnóstico. Aunque la mayoría de los estudios trabajan en la detección de EA, algunos estudios intentan identificar la

naturaleza de la enfermedad, por ejemplo, con la extracción de ROI.

- Transversal o longitudinal. El primero evalúa cada tema en un momento específico, pero el segundo sigue a

los sujetos a lo largo del tiempo [58-60, 88, 89].

- Modalidad única o multimodalidad. A diferencia de los estudios de modalidad única, los estudios de modalidad múltiple

utilizan más de una modalidad de neuroimagen por sujeto para obtener información complementaria.

- Automático o manual. Aunque se prefieren los sistemas completamente automáticos, algunos estudios involucraron la intervención

manual, especialmente para reducir los errores de segmentación del cerebro.

8
2.3 Evaluación de la calidad

A veces es necesario evaluar la calidad de un estudio para respaldar el proceso de inclusión / exclusión o realizar un análisis

comparativo. En este estudio de revisión secundario, hubo un número limitado de artículos primarios y no se necesitó ninguna

otra métrica de exclusión para reducir el número de estudios. No obstante, una evaluación de la calidad sigue siendo útil para

interpretar los resultados del estudio primario o investigar si las diferencias de calidad explican las diferencias en los resultados

del estudio. También es útil como medio para ponderar la importancia de los estudios individuales y orientar las

recomendaciones para futuras investigaciones [61-63].

La evaluación de la calidad depende en gran medida del tipo de revisión sistemática de la literatura y del contenido de los estudios,

por lo que muchos estudios no la realizan [90, 91]. No existen definiciones universales de métricas de calidad para los estudios primarios,

y cada revisión sistemática de la literatura tiene sus propios criterios específicos de tareas. Los criterios de calidad pueden estar

relacionados con los tipos de artículos (revistas o conferencias), revisados por pares o no, la novedad de la idea presentada y la

integridad de la información proporcionada. En nuestro caso, se utilizaron cuatro métricas de calidad diferentes, incluido el tipo de

artículo (preimpresión, conferencia o revista), el impacto científico (número de citas por año), el tamaño del estudio (número de sujetos

en el conjunto de datos) y la integridad de la información proporcionada (de acuerdo con las preguntas de investigación de esta revisión).

El siguiente sistema basado en puntos se utiliza para evaluar la calidad de cada estudio primario:

Tabla 1. Las métricas de calidad definidas en nuestro proceso de evaluación de la calidad.

Puntos
Métrica de calidad

Tipo de artículo Preimpresión Conferencia diario


Impacto científico -
Tamaño del estudio

Lo completo Incompleto Parcialmente completo Casi completo

De acuerdo a tabla 1, la puntuación máxima posible es 8, que solo un artículo de nuestra revisión de la literatura logró [55],

seguido de cuatro artículos con una puntuación de 7 [92-95]. La distribución de las puntuaciones de calidad de los estudios

primarios se da enfigura 3, lo que muestra que la puntuación mínima fue 1 y la media 3,6. La puntuación de calidad de cada

estudio se enumera en la Tabla 2 del Apéndice 1.

9
8 1
7 4
6 7

Puntaje de calidad
5 17
4 29
3 31
2 22
1 3
0 0
0 10 20 30 40
Contar

Figura 3. Distribución de puntuaciones de calidad en estudios primarios.

3 Biomarcadores y características en la detección de EA

La detección precisa de la EA en las etapas iniciales de la enfermedad requiere la evaluación de algunos biomarcadores cuantitativos.

Para detectar la EA, se han investigado varias modalidades de neuroimagen no invasivas como la resonancia magnética, la resonancia

magnética funcional y la PET. De estos biomarcadores, la resonancia magnética es el biomarcador más ampliamente disponible y

utilizado para la detección de EA y ha demostrado un alto rendimiento en la literatura [35, 42, 96]. Utiliza un potente campo magnético y

pulsos de radiofrecuencia para crear una representación en 3D de órganos, tejidos blandos y huesos. La fMRI refleja los cambios

asociados con el flujo sanguíneo. La PET es una técnica de imagen funcional basada en métodos de medicina nuclear que puede observar

procesos metabólicos dentro del cuerpo.

Además de las múltiples modalidades de neuroimagen, existen muchos otros factores que posiblemente sean relevantes

para la detección de la EA: edad, sexo, nivel educativo, patrón del habla, EEG, anomalías retinianas, análisis cinemático postural,

biomarcadores del líquido cefalorraquídeo (LCR), medidas neuropsicológicas (NM) ), Puntaje MMSE y CDR, prueba de memoria

lógica (LM), así como ciertos genes que se cree que son responsables de aproximadamente el 70% del riesgo [35]. Estos factores,

junto con las múltiples modalidades de neuroimagen, pueden complicar el entrenamiento de modelos de aprendizaje profundo.

Figura 4 muestra, en todos los artículos estudiados, la prevalencia de estudios monomodal y multimodal, el porcentaje de cada

modalidad de neuroimagen entre los enfoques monomodal y el porcentaje donde se utilizaron medidas de materia gris (GM) en

estudios basados en RM. Para simplificar, aquí solo se muestra la prevalencia de escáneres cerebrales de modalidad única (ya

que la categoría de modalidad múltiple puede ser muy compleja, como se muestra en la Tabla 2 del Apéndice 1).

En esta sección, se explican primero las técnicas de preprocesamiento para los escáneres cerebrales. A continuación, detallamos diferentes

métodos de gestión de datos para hacer frente a los escáneres cerebrales en 3D. Finalmente, hacemos una amplia comparación de métodos de

gestión de datos.

10
Multi- Crudo
resonancia magnética funcional
modalidad
Único- 9% Resonancia magnética 78% GM
27% 83%
modalidad 22%
73%
MASCOTA

8%

(a) (B) (C)

Figura 4. (a) La prevalencia de estudios de modalidad única y multimodal; (b) de los enfoques de modalidad única,
qué modalidad de neuroimagen se utilizó; y (c) frecuencia de uso de medidas de materia gris (GM) en
Estudios basados en resonancia magnética. Todas las cifras se basan en nuestros artículos de revisión de la literatura.

3.1 Preprocesamiento

Después de esbozar las modalidades de neuroimagen utilizadas para la detección de EA, a continuación, debemos analizar la forma en que los

estudios usan estas modalidades en su arquitectura de aprendizaje profundo. Sin embargo, como preliminar, es necesario reconocer los pasos

necesarios de preprocesamiento. La mayoría de los estudios, especialmente los de aprendizaje automático, necesitan un procesamiento previo

antes de poder manipular los datos. El éxito final de un sistema de clasificación inteligente depende en gran medida de un preprocesamiento eficaz.

Con el advenimiento de las técnicas de aprendizaje profundo, algunos pasos previos al procesamiento se han vuelto menos críticos [82, 83]. Sin

embargo, la mayoría de los estudios todavía utilizan técnicas de preprocesamiento de datos sin procesar, como normalización de intensidad,

registro, segmentación de tejido, extracción del cráneo y corrección de movimiento. Al mismo tiempo, se han propuesto algunos métodos nuevos

de aprendizaje profundo para diferentes rutinas de preprocesamiento [97]. En este apartado se exponen las técnicas de preprocesamiento más

habituales.

La normalización de la intensidad significa mapear las intensidades de todos los píxeles o vóxeles en una escala de referencia. Las

intensidades se normalizan para que estructuras similares tengan intensidades similares [98-103]. El enfoque más comúnmente

adoptado es utilizar el algoritmo de normalización de intensidad no uniforme no paramétrico N3 [104]. N3 es un algoritmo robusto y bien

establecido para afinar los picos del histograma de modo que se reduzca cualquier falta de uniformidad de intensidad. Se ha aplicado

para corregir intensidades tisulares no uniformes en aproximadamente el 30% de los estudios. Otra técnica utilizada en

aproximadamente el 20% de nuestros estudios es el suavizado con un filtro gaussiano, generalmente con FWHM (ancho completo a la

mitad del máximo) de entre 5 y 8 mm; esto reduce el nivel de ruido en la imagen mientras retiene el nivel de la señal [73]. Otro método de

normalización de la intensidad es cambiar la distribución de las intensidades de los vóxeles alrededor de cero (es decir, centrado en cero),

lo que se informó en el 15% de los estudios. Algunos estudios han utilizado otros métodos especiales de normalización de intensidad, por

ejemplo, el procesamiento para eliminar las inhomogeneidades del campo magnético que se produjeron durante la adquisición de

imágenes.

El registro es el proceso de alinear espacialmente los escaneos de imágenes a un espacio anatómico de referencia. Es

esencial debido a la complejidad de las estructuras cerebrales y las diferencias entre los cerebros de diferentes sujetos. El

registro de imágenes ayuda a estandarizar las modalidades de neuroimagen con respecto a una plantilla de tamaño fijo común

(como MNI8). Esta alineación hace posible comparar las intensidades de voxel de escáneres cerebrales de diferentes sujetos,

8 Instituto Neurológico de Montreal

11
asegurarse de que un determinado vóxel en una exploración tenga la misma posición anatómica que en el cerebro de otro paciente.

Sin embargo, el registro no se trata solo de usar un espacio estándar, sino que también se usa a veces para registrar múltiples

modalidades. La comisura anterior (AC) y la comisura posterior (PC) son dos puntos de referencia anatómicos principales en el

cerebro, por lo que otra forma de alinear la geometría de la imagen es la corrección AC-PC: un cerebro que ha sido alineado AC-

PC tiene AC y PC en el mismo plano axial. Otro paso de preprocesamiento es Gradwarp, que corrige las distorsiones geométricas

debido a la no linealidad del gradiente.

El papel de la segmentación de tejido en la exploración cerebral por resonancia magnética es medir el volumen de tejido en cada

región. Dado que la neurodegeneración afecta a la materia gris (GM) en sus etapas iniciales, especialmente en la región del lóbulo

temporal medial [dieciséis, 105], Los mapas de probabilidad de GM (donde GM se compara con la materia blanca, WM) se utilizan

generalmente como entrada en los problemas de clasificación. Los mapas de probabilidad de GM dan una imagen cuantitativa de la

distribución espacial de este tejido en el cerebro donde el brillo de cada vóxel refleja la cantidad de GM local. Sin embargo, se ha utilizado

un método diferente en el que se ha extraído no WM de una resonancia magnética utilizando una máscara de GM en la exploración FDG-

PET correspondiente [106]. Otra técnica de preprocesamiento generalizada es la extracción del cráneo, que extrae el hueso del cráneo de

las imágenes. Esto se puede usar solo o junto con la extirpación del cerebelo o la extirpación del cuello. La última técnica es la corrección

de movimiento, donde se suprimen los artefactos de movimiento en los escáneres cerebrales.Figura 5 muestra la prevalencia de cada

técnica de preprocesamiento en la literatura. Como puede verse, la normalización y el registro de la intensidad se realizan en más del

50% de los estudios.

80
70
60
Prevalencia (%)

50
40
30
20
10
0

Técnica de preprocesamiento

Figura 5. La prevalencia de cada técnica de preprocesamiento en la literatura.

3.2 Gestión de datos de entrada


El objetivo principal de las técnicas de extracción de características es crear un conjunto cuantificado de información precisa, como la

forma, la textura y el volumen de diferentes partes del cerebro basándose en datos de neuroimagen. La información debe transmitir el

patrón de la enfermedad y clasificarse fácilmente. En general, cada problema de clasificación tiene tres etapas: extracción de

características, reducción de dimensiones de características y, finalmente, clasificación. Gracias a la estructura de los modelos de

aprendizaje profundo, todos estos pasos se pueden fusionar en uno. Sin embargo, gestionar toda la modalidad de neuroimagen

12
sigue siendo un desafío. Teniendo en cuenta todos los estudios revisados aquí, los enfoques para la gestión de datos de entrada pueden

agruparse en cuatro categorías diferentes, según el tipo de características extraídas: basadas en voxel, basadas en cortes, basadas en

parches y basadas en ROI [34, 35]. La prevalencia de cada categoría se muestra enFigura 6, con más detalles en las siguientes secciones

(tenga en cuenta, sin embargo, que no todos los estudios se incluyen en estas categorías; por ejemplo, una característica

El método de extracción se utilizó en [107, 108]).

Combinacional
9%
Basado en voxel
21%
Basado en ROI

34%
Basado en rebanadas
Parche-
27%
establecido

9%

Figura 6. La prevalencia de cada enfoque para la gestión de datos de entrada.

3.2.1 Basado en vóxeles

Los enfoques basados en vóxeles son la técnica de análisis más sencilla. Utilizan valores de intensidad de vóxeles de todas las

modalidades de neuroimagen o componentes tisulares (GM / WM en MRI). Esta técnica requiere típicamente co-alineación espacial

(registro), donde las imágenes individuales del cerebro se estandarizan a un espacio tridimensional estándar. La mayoría de los estudios

en esta categoría (alrededor del 70%) realizaron un análisis de imagen de cerebro completo en modo de modalidad única o multimodal.

En el resto de los estudios, sin embargo, la segmentación de tejido (la extracción de GM) se realizó en imágenes de resonancia magnética

antes de aplicar un modelo profundo. Los estudios basados en vóxeles que realizan la segmentación de tejidos no pueden considerarse

análisis de imágenes de cerebro completo, ya que funcionan solo en una parte del cerebro. La ventaja de la segmentación de tejido en las

exploraciones cerebrales por resonancia magnética se explica en la Sección 3.1. En los métodos de aprendizaje automático basados en

vóxeles, generalmente se aplica una técnica de reducción de la dimensión de características, pero esto no es necesariamente útil en

estructuras profundas. No obstante, para superar la alta dimensionalidad de características, se puede emplear un método de

preselección de vóxeles para cada modalidad de neuroimagen de forma independiente; como ejemplo, Ortiz y sus colegas utilizaron elt

-prueba el algoritmo en un estudio basado en ROI para eliminar vóxeles no significativos y disminuir la carga computacional [109].

3.2.2 Basado en rebanadas

Las arquitecturas basadas en cortes asumen que ciertas propiedades de interés pueden reducirse a imágenes

bidimensionales, reduciendo el número de hiperparámetros. Muchos estudios han utilizado su propia técnica única para extraer

cortes de imágenes en 2D de un escáner cerebral en 3D, mientras que otros consideran proyecciones estándar de modalidades

de neuroimagen, como el plano sagital o mediano, el plano coronal o frontal y el plano axial u horizontal. Sin embargo, ninguno

de los estudios en esta categoría realizó un análisis cerebral completo, ya que un corte de imagen 2D no puede incluir toda la

información de un escáner cerebral. Además de utilizar la segmentación de tejidos, los métodos basados en cortes suelen

abarcar la parte central del cerebro e ignorar el resto.

13
La proyección axial es la vista más utilizada. Por ejemplo, Farooq et al. utilizaron exploraciones axiales basadas en cortes de

Volúmenes modificados genéticamente de tal manera que se descartaron porciones desde el principio y el final, que no contienen

información [110]. Otros ejemplos han utilizado cortes axiales medianos de una resonancia magnética [111], 166 cortes axiales de GM [

112], 43 cortes axiales de fMRI [32], y 3 cortes axiales de resonancia magnética [113]. En dos artículos, los últimos 10 cortes a lo largo del

plano axial de cada sujeto se eliminaron del GM, así como los cortes con cero píxeles de media, mientras que todos los demás cortes se

concatenaron y utilizaron [114, 115]. Los cortes axiales de los datos de fMRI también se utilizaron en [116, 117], y nuevamente se

eliminaron las primeras 10 secciones de cada escaneo, ya que no contenían información funcional. Un esfuerzo similar de Qui et al. [118]

utilizó tres cortes en el plano axial de una resonancia magnética, incluidas las áreas anatómicas previamente informadas como regiones

de interés, y estas se correlacionaron con la EA y el DCL. Luo y colegas [119] extrajo siete grupos de cortes (5 cortes en cada grupo) del

plano medio-axial de una resonancia magnética, con un clasificador por grupo.

Un procedimiento de clasificación basado en entropía [120, 121] se utilizó para seleccionar 32 cortes más informativos del plano axial

de cada resonancia magnética. En este método, la entropía de la imagen de cada corte se calculó a partir del histograma, que

proporcionó una medida de variación en cada corte, y los cortes con los valores de entropía más altos se consideraron los más

informativos. Aunque el uso de estos segmentos informativos para el entrenamiento proporcionará robustez, la alta entropía no es

necesariamente discriminativa. Wu y col. adoptó un nuevo método que combinó 3 cortes en una imagen de color RGB para cumplir con

los requisitos de sus arquitecturas de CNN [122]. De entre aproximadamente 160 cortes axiales de resonancias magnéticas, se

descartaron los primeros 15 cortes y los últimos 15 cortes sin información anatómica, lo que resultó en aproximadamente 130 cortes

para cada escaneo. A continuación, se seleccionaron al azar 48 cortes diferentes de los cortes restantes a intervalos de 4 y, por lo tanto,

se generaron 16 imágenes en color RGB para cada escaneo.

Según Gunawardena et al. [52], la vista coronal cubre las tres regiones más importantes del cerebro relacionadas con la EA

(hipocampo, corteza y ventrículo), y utilizaron solo un par de cortes de imagen del plano coronal de las resonancias magnéticas.

Bajo el supuesto de que los sectores intermedios incluyen áreas que tienen características esenciales para la clasificación, 20 [

123] y 7 [124] Se han utilizado cortes de la mitad de la corona de una resonancia magnética. Un enfoque similar [125] enfatizó el

potencial discriminativo de la vista coronal. Cinco cortes sagitales de una resonancia magnética en el centro del hipocampo [77],

62 cortes medio sagital de GM [126], y se empleó un corte sagital de resonancia magnética (incluido el hipocampo) en [127]. Gao

y colegas [128] seleccionó las 50 piezas más grandes del plano sagital de cada resonancia magnética, y luego eliminó las

imágenes más ruidosas y menos útiles; el valor de 50 se eligió en base a la opinión de neurólogos.

Dado que el uso de las tres vistas de escaneos 3D puede proporcionar características complementarias útiles para la

clasificación, existen algunos estudios que tienen en cuenta todas las vistas de imágenes. Por ejemplo, en [94, 129]. En [

85, 86] los cortes de la imagen descompuesta de cada proyección de las exploraciones FDG-PET se dividieron en varios

grupos a intervalos específicos que tenían algo de superposición pero sin registro ni segmentación. En trabajos

relacionados [75, 76], la región hipocampal de las imágenes por resonancia magnética se utilizó en las 3 proyecciones,

pero con solo 3 cortes en el centro de la región hipocampal en cada proyección. Se utilizó un enfoque similar con la

información morfológica de las imágenes de resonancia magnética, como el volumen cortical, el área de superficie, el

grosor cortical promedio y la desviación estándar del grosor en cada ROI [130]. Aderghal usó un método similar excepto

que usó un enfoque multimodal (MRI + DTI) [78].

14
3.2.3 Basado en ROI

En lugar de preocuparse por todo el cerebro, los métodos de ROI se centran en partes concretas del cerebro que se sabe

que se ven afectadas en las primeras etapas de la EA. La definición de ROI generalmente requiere un conocimiento previo de las

regiones anormales y un atlas cerebral como el etiquetado anatómico automatizado (AAL) [131] o la obra de referencia de

Kabani [132], combinado con la experiencia a largo plazo de los investigadores. De esta manera, el volumen de tejido

transgénico de 93 ROI solo de la resonancia magnética [54, 55] junto con la intensidad media de PET del mismo número de ROI

se calcularon como características en [67-71, 87, 133-135]. De manera similar, se extrajeron 83 regiones funcionales de

resonancias magnéticas (GM) y PET en [43, 44, 136]. Choi y colegas [72] calculó los volúmenes de tejido transgénico de 93 ROI, y

luego seleccionó las anomalías regionales utilizando un modelo profundo de cada región. En otro trabajo [50, 137, 138], Se

aplicó el análisis de componentes principales (PCA) después de extraer 93 características volumétricas basadas en el ROI de la

resonancia magnética y la misma cantidad de características para la PET. En [46, 47], Se extrajeron 90 ROI de imágenes de

resonancia magnética funcional y se calculó el coeficiente de correlación entre cada posible par de regiones cerebrales. Ortiz y

colegas [109], utilizando un método de preselección de vóxeles, seleccionó 98 ROI tanto de MRI (solo GM) como de PET, y diseñó

un modelo profundo para cada ROI. Suk y col. [74] seleccionó 116 ROI de imágenes de resonancia magnética funcional y luego

entrenó un modelo profundo en las intensidades medias de cada ROI; de esta forma encontraron, de forma no supervisada y

jerárquica, las relaciones no lineales entre las ROI. Junto con características basadas en parches de GM y magnitudes de

deformación (DM) de resonancias magnéticas, Shi et al. extrajo 113 volúmenes de ROI [59]. Se extrajeron parches de imagen en

cada uno de los 62 ROI de PET [99] o imágenes de resonancia magnética en [98], mientras que 85 ROI de PET [49] y 87 ROI de

PET y MRI (solo GM) [93] se extrajeron, de las cuales estas ROI se utilizaron más en un método basado en parches. En otro

estudio, se extrajeron 90 ROI y luego se calculó una matriz de conectividad de red cerebral a partir de datos multimodales [139].

El corte mediano y sus vecinos más cercanos dentro de un cuadro delimitador 3D del hipocampo se eligieron en [75-78]. Este método

se denominó "enfoque 2D +", ya que pasaron de un volumen 3D a imágenes 2D. Bhatkoti y col. [100] ideó una representación basada en

parches de diferentes subregiones del cerebro, incluyendo hipocampo izquierdo y derecho, occipital medio, parahipocampo, vermis y

fusiforme. Shakeri y col. extrajo características morfológicas como mallas de superficie 3D de la estructura del hipocampo de las

resonancias magnéticas [57]. Dolph y col. [48] extrajo las características de la textura de la Dimensión Fractal (FD), junto con las

características volumétricas, de espesor cortical y del área de la superficie del hipocampo segmentado, de las resonancias magnéticas y

luego calculó las propiedades estadísticas de la Matriz de Co-Ocurrencia de Nivel de Gris (GLCM) para describir la FD patrón de

características. En un estudio multimodal [79, 80], se seleccionaron los lóbulos izquierdo y derecho del hipocampo como las partes más

discriminatorias y se diseñó un modelo profundo para cada región. Collazos-Huertas et al. [140] utilizó mediciones morfológicas de

diferentes partes de las imágenes por resonancia magnética, incluidos los volúmenes corticales y subcorticales, el grosor medio y la

desviación estándar y el área de superficie. En otro estudio de resonancia magnética [141], se segmentaron los dos hipocampos y se

extrajo un parche de imagen 3D local del centro de cada uno; Luego se utilizó un modelo profundo para la clasificación. En [142], Se

seleccionaron 430 características, incluido el grosor cortical, la curvatura, el área de superficie y el volumen, así como el hipocampo, y se

analizaron junto con el sexo, la edad y la puntuación total del MMSE basal. Luego, se eliminaron las características altamente

correlacionadas para producir características independientes. Finalmente, se utilizó un clasificador de bosque aleatorio para la selección

de características para identificar las 20 características más importantes.

Después de descartar las primeras y las últimas 10 secciones sagitales, Karwath et al. utilizó un modelo profundo para extraer ROI

informativos de las exploraciones PET [102]. Li y col. [51] seleccionó ROI de la segmentación GM de MRI, y luego calculó un

15
Matriz de conectividad ponderada de ROI, que representa la fuerza de la conexión entre pares de regiones, para

producir una red cerebral final. En lugar de aprender directamente las características topológicas de las complejas redes

cerebrales, el método aprende lasvalores propios correspondientes de la matriz, dando una representación de características

compacta y completa. En [143], se utilizó un análisis morfométrico basado en vóxeles de las diferencias regionales de GM entre

dos grupos de pacientes (MCIc, MCInc) para obtener las 5 ROI más significativas relacionadas con el daño de GM. Ortiz y col. [60]

consideró 42 ROI que estaban estrechamente relacionados con la EA y luego calculó una estimación de la covarianza inversa

correspondiente entre regiones.

3.2.4 Basado en parche

Un parche se define como un cubo tridimensional. Los enfoques basados en parches pueden capturar patrones relacionados con

enfermedades en un cerebro extrayendo características de pequeños parches de imágenes. El principal desafío en los métodos basados

en parches es elegir los parches de imagen más informativos para capturar características tanto locales (nivel de parche) como globales

(nivel de imagen) [94]. Este enfoque se ha utilizado en varios estudios para la detección de EA [144]. Por ejemplo, Cheng et al. [82] extrajo

27 parches locales uniformes de vóxeles de tamaño fijo, con un 50% de superposición, de cada imagen de FDG-PET. Se propuso un

enfoque similar en un estudio multimodal [83]. De manera algo diferente, se han utilizado métodos basados en puntos de referencia

para extraer automáticamente puntos de referencia anatómicos discriminativos de la EA a partir de resonancias magnéticas mediante la

comparación de grupos de sujetos; primero, se identificaron las 50 principales ubicaciones de hitos discriminativos relacionados con la EA

(hipocampo bilateral, parahipocampal y fusiforme) utilizando un algoritmo de descubrimiento de hitos, y luego se extrajeron 27 parches

de imagen de tamaño fijo alrededor de estos hitos detectados [94, 95, 103, 145]. Se siguió un enfoque similar basado en parches en un

estudio multimodal [146]. En otro estudio [147], la resonancia magnética de todo el cerebro se dividió uniformemente en diferentes

regiones locales del mismo tamaño, y se extrajeron varios parches 3D de cada región. Luego, los parches de cada región se agruparon en

diferentes grupos con elk-Método de agrupamiento antes de la clasificación final.

Suk y colegas [73] propuso un método de representación de características latentes de alto nivel utilizando

parches discriminativos de clases (basados en una prueba de significación estadística entre clases) en un estudio

multimodal (GM de MRI + FDG-PET). Seleccionaron parches discriminativos de clase de dos modalidades antes del

clasificador final de tres niveles (nivel de parche, nivel de megaparche y nivel de imagen). Un enfoque similar [58,

59] se aplicó en un estudio longitudinal con una diferencia en la selección del parche después de la extracción del

parche. Los 100 parches de tamaño fijo más discriminativos de clase se seleccionaron de manera codiciosa

usando menos del 50% de superposición de volumen. Luego se calculó un campo escalar 3D de DM, basado en

las deformaciones de vóxeles estimadas que coinciden con la línea de base; Se realizaron resonancias magnéticas

de seguimiento para cada sujeto antes de la etapa de clasificación final. Además de estas características basadas

en parches, Shi [59]. Lu [49]. Primero, se extrajeron 85 ROI de FDG-PET, y luego los vóxeles dentro de cada ROI se

subdividieron en parches en tres escalas diferentes en preparación para la etapa de clasificación. Lu [93] para un

estudio multimodal en el que se utilizó la intensidad media de cada parche en las exploraciones de FDG-PET para

formar un vector de características que representa la actividad metabólica, y el volumen de cada parche de GM

de la resonancia magnética se utilizó para representar la estructura del cerebro. Lian [92], donde se utilizaron

puntos de referencia anatómicos como conocimiento previo para filtrar de manera eficiente las regiones poco

informativas y ayudar a definir parches relativamente informativos.

dieciséis
3.3 Resumen de biomarcadores y problemas de manipulación

Cuando se trata de biomarcadores y características, debe reconocerse que la resonancia magnética es el tipo de modalidad de

neuroimagen más prevalente. Aunque varios estudios han informado que la resonancia magnética es más discriminativa en comparación

con la PET [56, 67, 73, 148] o DTI [78], otros consideran que la resonancia magnética es tan discriminativa como la PET [69-71, 81, 87, 133,

146] o un poco menos discriminativo [83, 93]. Dado que otros estudios consideran DTI [139] o fMRI [115] como más útil, la comparación

de las modalidades de neuroimagen aún necesita más investigación.

La gestión de la entrada a modelos profundos también es un tema importante. El uso de cortes 2D como entrada en lugar de la

imagen 3D completa evita generar millones de parámetros de entrenamiento y da como resultado redes simplificadas (a costa, por

supuesto, de perder la dependencia espacial entre cortes adyacentes). Cuando se utilizan métodos basados en cortes, sagital [75, 76] y

coronal [52] se informa que las vistas son más discriminatorias, aunque las vistas axiales son las más utilizadas (algunos estudios [78, 86]

dicen que no hay una diferencia significativa entre planos). En términos de poder de clasificación, se ha demostrado que los estudios de

múltiples vistas superan a los estudios de una sola vista al capturar información complementaria [75, 76, 86]. Por el contrario, los

métodos basados en vóxeles pueden obtener toda la información 3D en un solo escaneo cerebral, pero normalmente tratan todas las

regiones del cerebro de manera uniforme sin ninguna adaptación a estructuras anatómicas especiales. Además, los métodos basados

en vóxeles ignoran la información local, ya que tratan a cada vóxel de forma independiente y tienen una alta dimensionalidad de

características y una alta carga computacional. Para superar la alta dimensionalidad de las características, pueden ser necesarios

métodos de preselección de vóxeles. Los beneficios adicionales de los métodos basados en vóxeles se presentan en [106,149], donde se

demuestra que los vóxeles son más valiosos que los cortes 2D.

Los escáneres cerebrales en bruto sufren inevitablemente de ruido, que surge de diferentes fuentes y en diferentes niveles según el tipo de escaneo. Las

fuentes de ruido generalmente se originan a partir de la actividad neuronal aleatoria del paciente, problemas del operador, equipos y el entorno. Un solo

escaneo cerebral contiene un patrón complejo de vóxeles y una gran cantidad de datos, lo que crea dificultades para clasificar e interpretar características. Por

lo tanto, para clasificar las imágenes, es necesario extraer un número limitado de regiones representativas predefinidas discretas en lugar de utilizar un análisis

de imágenes de cerebro completo. La fortaleza de los métodos basados en ROI es que se interpretan e implementan fácilmente en la práctica clínica. Aunque la

dimensionalidad de las características basadas en ROI depende del número de ROI definidas, siempre es más pequeña que con los enfoques basados en

segmentos / vóxeles, lo que significa que todo el cerebro está representado por menos características. Con los estudios basados en el ROI, se aprovecha el

conocimiento de que solo partes específicas del cerebro, en particular el hipocampo, están involucradas en la EA. El hipocampo es una estructura cerebral

compleja ubicada en el lóbulo temporal con un papel clave en el aprendizaje y la memoria, lo que lo convierte en una de las regiones más importantes para la

detección de EA. En las etapas iniciales de la EA, el volumen, la forma y la textura del hipocampo ya se ven afectados y se han utilizado como marcador de EA

temprana en varios estudios [ por lo que es una de las regiones más importantes para la detección de EA. En las etapas iniciales de la EA, el volumen, la forma y

la textura del hipocampo ya se ven afectados y se han utilizado como marcador de EA temprana en varios estudios [ por lo que es una de las regiones más

importantes para la detección de EA. En las etapas iniciales de la EA, el volumen, la forma y la textura del hipocampo ya se ven afectados y se han utilizado como

marcador de EA temprana en varios estudios [57, 75-80, 98,99, 141]. Ali y sus colegas informaron que, si bien la reducción promedio en el volumen del

hipocampo es de entre el 0,24% y el 1,73% por año, los pacientes con EA sufren una contracción de entre el 2,2% y el 5,9% [150]. En este contexto, se informó

que el análisis de forma es más sensible que la volumetría, en particular, en la etapa MCI [7]. Según Leandrou y colegas [20], el análisis de textura puede superar

al análisis volumétrico y de forma en cuanto a precisión de clasificación. Algunos estudios combinaron características de volumen, grosor, forma, intensidad y

textura en la evaluación de AD [35, 151], lo que puede resultar en un mejor rendimiento de clasificación. Tenga en cuenta que aunque las regiones afectadas

principalmente por la EA son bien conocidas, debe recordarse que otras regiones del cerebro también pueden desempeñar un papel en el diagnóstico de EA /

DCL; sin embargo, su contribución aún no está bien explorada [69, 71].

17
Si bien la extracción de características basada en el ROI puede disminuir considerablemente las dimensiones de las características, debido a la

naturaleza de escala de las ROI, es posible que se ignoren algunas pequeñas anomalías. Además, una región anormal puede ocupar solo

una pequeña parte de un ROI predefinido, puede tener una forma irregular y puede estar distribuida en muchas regiones del cerebro

que no se conocen por completo; si es así, podría conducir a la pérdida de información discriminativa y limitar el poder de representación

de las características extraídas [95]. En consecuencia, podría haber inestabilidad en el desempeño de la clasificación [152]. Por otro lado,

dado que los métodos basados en parches ocupan la escala intermedia entre las características basadas en vóxeles y las basadas en

ROI, pueden manejar de manera eficiente las dimensiones de características altas y son sensibles a pequeños cambios [73, 147]. Debido a

que la extracción de parches no requiere identificación de ROI, la necesidad de involucrar a un experto humano se reduce en

comparación con los enfoques basados en ROI. Al final, Cheng y sus colegas informaron que los métodos basados en parches son más

precisos en comparación con los métodos basados en vóxeles [145]. Sin embargo, aún quedan desafíos para seleccionar los parches de

imagen más informativos. Al usar solo parches discriminativos en lugar de todos los parches en un escáner cerebral, Suk y sus colegas

encontraron tanto un rendimiento de clasificación mejorado como un costo computacional reducido [73]. Se proporciona un resumen de

los métodos de manejo de datos enTabla 2.

Tabla 2. Un resumen de los métodos de manejo de datos para la detección de AD.

Métodos Fortalezas Limitaciones


Evita enfrentarse a millones de parámetros Pierde dependencias espaciales en sectores adyacentes
A base de rodajas durante el entrenamiento y da como
resultado redes simplificadas
Puede obtener información 3D de un escáner Contiene una gran dimensionalidad de funciones y una gran
cerebral. carga de cálculo
Basado en voxel
Ignora la información local de las modalidades de neuroimagen
ya que trata cada vóxel de forma independiente
Fácilmente interpretable Tiene un conocimiento limitado disponible sobre las regiones del
Tiene una dimensión de característica baja Menos cerebro involucradas en la EA
Basado en ROI
características pueden reflejar todo el cerebro Ignora anomalías detalladas

Sensible a pequeños cambios No Tiene desafíos para seleccionar los parches de imagen más
Basado en parche
requiere identificación de ROI informativos

4 Una revisión de modelos profundos para la detección de AD

El objetivo de esta sección es describir los conceptos y algoritmos fundamentales de las técnicas de aprendizaje

profundo y sus arquitecturas que se encuentran en la detección de AD. Los métodos se dividen en no supervisados y

supervisados, que se dividen en codificador automático (AE), máquina de Boltzmann restringida (RBM), red neuronal

profunda (DNN), red polinomial profunda (DPN), red neuronal recurrente (RNN) y Red neuronal convolucional 2D / 3D

(CNN).Figura 7 muestra la prevalencia de cada modelo profundo en la detección de EA, y se pueden encontrar más

detalles en [153]. También hay algunos métodos que no encajan en este esquema de categorización; por ejemplo,

Collazos-Huertas y sus colegas propusieron un método de extracción de características supervisado en profundidad

utilizando redes estocásticas generales a través del aprendizaje de mapeo no lineal supervisado y por capas [140].

18
43
45
40 37
35

Numero de trabajos
30
23
25
20
15
8
10 6 5
5 2 2
0

Modelo profundo

Figura 7. La prevalencia de cada tipo de modelo profundo utilizado en la detección de EA a partir de datos de neuroimagen.

4.1 Aprendizaje profundo no supervisado

Las redes de aprendizaje profundo no supervisadas intentan obtener una representación específica de la tarea a partir de datos de

neuroimagen. El paso del aprendizaje automático al aprendizaje profundo se dio primero mediante el uso de una red neuronal profunda

no supervisada para extraer funciones de alto nivel [50, 69]. Suk y sus colegas desarrollaron un enfoque en el que descartaban

iterativamente características no informativas de una manera jerárquica para seleccionar características de biomarcadores de MRI, PET y

LCR [70]. Al final, todos estos estudios utilizaron SVM para la clasificación. En las siguientes subsecciones se proporcionan más detalles

sobre los métodos de aprendizaje de funciones no supervisados.

4.1.1 Codificador automático

El AE es un tipo particular de red neuronal que consta de dos módulos: un codificador y un decodificador. Un AE puede obtener

representaciones comprimidas a partir de datos de entrada minimizando el error de reconstrucción entre los valores de entrada y salida

de la red. La codificación asigna los datos del espacio de entrada a un espacio de representación para mantener las características más

definitivas, mientras que la decodificación los asigna nuevamente al espacio de entrada, reconstruyendo así los datos. Para fines de

clasificación, las características aprendidas en la capa intermedia de un EA se pueden extraer y utilizar como la fase de preentrenamiento

para la extracción de características y la reducción de dimensiones de una manera no supervisada, seguida de un clasificador. Debido a

su estructura simple y superficial, el poder de representación de los EA es muy limitado. Sin embargo, se pueden apilar varios AE en una

configuración conocida como AE apilados, lo que puede mejorar considerablemente el poder de representación utilizando los valores de

las unidades ocultas de un EA como entrada para el siguiente. La característica clave de los EA apilados es su capacidad para aprender o

descubrir patrones altamente no lineales y complejos. A medida que aumenta la profundidad del modelo, se aprenden representaciones

de nivel superior.

Hay diferentes variaciones de EA: EA dispersa, EA sin ruido, EA convolucional y EA variacional. Las estructuras

generales de aprendizaje profundo en esta sección generalmente consisten en un AE y una capa softmax. AA

dispersos apilados con dos [43-47, 136] o tres [48, 49, 93] capas ocultas y una capa softmax se han entrenado y

ajustado en varias modalidades únicas [45-49] y multimodalidad [43, 44, 93, 136] estudios. Ortiz y colegas

19
siguió un enfoque similar con tres capas ocultas en un AE sin ruido apilado [60]. Shakeri y colegas
introdujo un EA variacional para encontrar la representación de características latentes de variaciones morfológicas del

hipocampo [57]. Moussavi-Khalkhali y col. utilizó una arquitectura parcialmente en cascada que utiliza EA dispersos /

eliminadores de ruido con tres capas ocultas para extraer representaciones de alto nivel, integrando características de bajo nivel

con una capa softmax [124]. Kim y col. utilizó un AE disperso apilado con tres capas ocultas de imágenes de MRI, PET y CSF [134];

Luego se usó otro AE para fusionar la representación de alto nivel de todos los datos clasificados con una máquina de

aprendizaje extrema basada en kernel.

Choi y sus colegas utilizaron un EA de eliminación de ruido apilado con dos capas ocultas para extraer anomalías regionales

[72]. De manera relacionada, se ha propuesto un EA disperso con eliminación de ruido apilado, que es una combinación de EA

dispersos y con eliminación de ruido, un enfoque que utiliza tres capas ocultas junto con una SVM para la clasificación [58,59]. Al

concatenar la representación de características aprendidas de AE apiladas de imágenes de MRI, PET y CSF con las

características originales de bajo nivel, Suk y sus colaboradores pudieron construir un vector de características aumentadas que

luego se introdujo en una SVM de múltiples núcleos [69, 71]. Se utilizaron tres capas ocultas para MRI, PET y su concatenación, y

dos capas ocultas se utilizaron para LCR. Otros trabajadores han utilizado un AE escaso para extraer características, seguido de

una CNN 2D [144] o DNN [100] para su clasificación. Motivados por EA de eliminación de ruido apilados, Majumdar y sus colegas

propusieron una plataforma de aprendizaje de diccionario profundo usando muestras limpias y ruidosas, finalmente usando

una red neuronal para la clasificación [138]. Li y sus colaboradores utilizaron una combinación de características de 3D CNN y EA

convolucionales 3D multiescala con tres capas ocultas, y finalmente utilizaron una capa softmax para la clasificación [84].

Uno de los usos de los EA es encontrar una buena inicialización para redes neuronales profundas. Por ejemplo, se entrenó a

un AE para encontrar un filtro adecuado para la convolución, y luego se logró la clasificación utilizando una CNN [143, 146,149,

154, 155], una disposición en la que los pesos de la capa oculta forman una matriz correspondiente a los filtros convolucionales.

Vu y sus colaboradores utilizaron una concatenación de capa de alto nivel AE, que es una variante de la red convolucional AE,

para pre-entrenar una CNN en la que las características de alta resolución de la capa de codificación se concatenan con la capa

de decodificación correspondiente. [106].

4.1.2 Máquina de Boltzmann restringida


El RBM es un modelo gráfico no dirigido de una sola capa con una capa visible y una capa oculta. Adopta vínculos simétricos

entre capas visibles y ocultas, pero no tiene conexiones entre unidades dentro de la misma capa. Al igual que un AE, puede

generar datos de entrada a partir de representaciones ocultas y se ha utilizado en algunos estudios. Por ejemplo, Li et al. utilizó

un modelo profundo que consta de una pila de GBR para extraer características de manera no supervisada [137], terminando

con una SVM lineal para la clasificación. Suk y col. apiladas juntas múltiples RBM para transformar las características de entrada

de una fMRI en un espacio incrustado de baja dimensión mediante la detección de relaciones no lineales entre ROIs [74]. El

equipo de Suk detectó primero relaciones funcionales jerárquicas no lineales, y luego se utilizó un modelo de Markov oculto

(HMM) para aproximar la probabilidad de las características de entrada de la fMRI; para la clasificación, el ajuste al estado de

enfermedad correspondiente se realizó con una SVM lineal.

Al igual que los EA, los RBM se pueden apilar para construir una arquitectura profunda conocida
como Deep Belief Network (DBN). El DBN tiene conexiones no dirigidas en las dos capas superiores y
conexiones dirigidas en las capas inferiores. En [53]. Ortiz y sus colegas utilizaron un conjunto de
DBN para todas las ROI como extractores de características, con una SVM lineal en el

20
etapa final para la clasificación de todos los DBN [109]. Como señaló Guo, a pesar de los beneficios, es computacionalmente

Es caro crear un modelo DBN debido al complicado proceso de inicialización [153]. Una máquina de Boltzmann profunda (DBM) también

se construye apilando múltiples RBM como bloques de construcción para encontrar una representación de características jerárquicas

latentes. Sin embargo, a diferencia de los DBN, todas las capas de los DBM forman un modelo generativo no dirigido siguiendo el

apilamiento de RBM. Aunque la optimización conjunta lleva mucho tiempo en DBM, y tal vez sea imposible para grandes conjuntos de

datos, los DBM pueden lidiar con entradas ambiguas de manera más sólida al incorporar comentarios de arriba hacia abajo [39, 153]. En

lugar de tener valores de vóxel ruidosos, Suk et al. descubrió que una representación 3D de alto nivel obtenida a través de DBM era más

resistente al ruido (y por lo tanto ayudó a mejorar el rendimiento del diagnóstico), mientras que una DBM multimodal de un escaneo PET

derivó sus características de parches emparejados de valores transformados de densidades de tejido GM y vóxeles intensidades (se utilizó

una SVM lineal como clasificador final) [73].

4.2 Aprendizaje profundo supervisado

Hemos visto hasta ahora que un método no supervisado típico comprende un extractor de características, que suele ser EA, y un

clasificador, como una SVM. Los métodos supervisados tienen una mayor popularidad en nuestra revisión de la literatura, donde la

extracción de características y la clasificación se fusionan en un modelo. En esta sección, se revisan los métodos supervisados para la

detección de EA. En la Tabla 2 del Apéndice 1 se presentan más detalles sobre los métodos utilizados en cada artículo, que resume una

amplia variedad de modelos profundos junto con sus biomarcadores.

4.2.1 Red neuronal profunda


El DNN tiene la misma configuración que una red tradicional de perceptrón multicapa (MLP), pero incorpora más

capas apiladas. Puede descubrir relaciones complicadas de patrones de entrada y proporciona una mejor comprensión

de la naturaleza de los datos [50]. Los DNN son puramente supervisados y ampliamente utilizados en diferentes áreas

de investigación para descubrir patrones y correlaciones extremadamente abstractos desconocidos previamente. Sin

embargo, el proceso de formación de las DNN no es óptimo, al menos en comparación con las SVM, y su proceso de

aprendizaje también es muy lento [39]. Bhatkoti y col. propuso un DNN con una capa oculta después de un paso de

extracción de características con un AE disperso modificado [100]. Amoroso y sus colegas utilizaron un DNN con 11

capas que incluían una configuración de activación óptima mixta con un número decreciente de neuronas en cada capa,

seguido de un softmax al final [142]. Cui y sus compañeros de trabajo utilizaron un DNN con dos capas ocultas para

extraer entidades y entrenar a un RNN [88]. En [67, 68], siendo la primera etapa el aprendizaje de las representaciones

latentes de cada modalidad y la última etapa el aprendizaje de las características latentes conjuntas. En cada etapa, se

utilizó un DNN, y cada DNN constaba de varias capas ocultas completamente conectadas y una capa softmax de salida.

Thung y colaboradores utilizaron un enfoque similar que combinaron estas modalidades junto con la edad, el género y

el nivel educativo [135]. Aunque los DNN se utilizan principalmente de forma supervisada, Li y sus colegas sugirieron un

enfoque no supervisado con tres capas ocultas para extraer la representación de características de alto nivel con una

SVM de núcleo lineal como clasificador [50].

4.2.2 Red polinomial profunda


El DPN es otro algoritmo de aprendizaje profundo supervisado, que puede tener un rendimiento similar, o incluso

mejor, en comparación con los DBN y los EA apilados [156]. Motivados por aplicaciones exitosas de DBN y EA apilados,

los DPN también se pueden apilar para construir una configuración mucho más profunda para mejorar aún más el

rendimiento de la representación. Un DPN multimodal apilado (SDPN) que consta de SDPN de dos etapas se ha

21
propuesto para la extracción de características de datos de neuroimagen multimodales [87, 133]. Primero se utilizan dos SDPN para

aprenda características de alto nivel de resonancia magnética y PET, desde donde las características luego se alimentan a otro DPN

apilado para fusionar información de neuroimagen multimodal. Las características finales aprendidas de alto nivel contienen tanto las

propiedades intrínsecas de cada modalidad como las correlaciones entre las modalidades. Todo el modelo se entrenó de manera no

supervisada con una SVM lineal para la clasificación.

4.2.3 Red neuronal convolucional


Las CNN son un tipo de red neuronal profunda inspirada en la corteza visual del cerebro. Son el modelo profundo más exitoso para el

análisis de imágenes y han sido diseñados para utilizar mejor la información espacial tomando imágenes 2D / 3D como entrada y

extrayendo características apilando varias capas convolucionales; el resultado es una jerarquía de características gradualmente más

abstractas [39, 42]. La idea principal detrás de las CNN, y su principal ventaja, es fusionar la extracción de características y la clasificación.

La lógica detrás de ellos es que entrenar un clasificador independientemente de la etapa de extracción de características puede conducir

a un rendimiento de aprendizaje deficiente, posiblemente debido a la naturaleza heterogénea de las características extraídas y el

clasificador. La información estructural entre píxeles o vóxeles vecinos también es muy importante para las imágenes. En los modelos

profundos que estamos considerando, las entradas están principalmente en forma de vector, sin embargo, la vectorización

inevitablemente destruye la información estructural en las imágenes. Además, a diferencia de los DNN, debido a la combinación de capas

y pesos compartidos en los CNN, el número de parámetros se reduce drásticamente [42]. En los últimos años, las CNN se han vuelto muy

populares y en aplicaciones basadas en imágenes. Sin embargo, la necesidad de un gran conjunto de datos puede considerarse una

debilidad de estos modelos.

Las CNN fueron introducidas por primera vez en 1989 por LeCun y sus colegas [157]. A pesar del éxito inicial, no se han

utilizado ampliamente hasta hace poco tiempo, cuando han surgido varios métodos nuevos para entrenar redes profundas de

manera eficiente y los sistemas informáticos han mejorado [42]. Las CNN atrajeron un gran interés después de que las CNN

profundas lograran resultados notables en las competencias del ImageNet Large Scale Visual Recognition Challenge (ILSVRC),

donde se han aplicado con éxito a un conjunto de datos de aproximadamente un millón de imágenes que incluían 1000 clases

diferentes [158]. Aunque muchos estudios prefieren diseñar su propia estructura basada en CNN, es común utilizar estructuras

conocidas y probadas como LeNet [159], AlexNet [160], CaffeNet [161], VGGNet [162], GoogLeNet [163], ResNet [164], DenseNet

[165] y Inception [166]. El éxito de estos modelos ya ha sido reportado en la literatura y especialmente demostrado en los

concursos de ImageNet; se pueden encontrar más detalles en [153, 167-169]. En la siguiente subsección, se revisa la

arquitectura de las CNN y luego se analizan los estudios relacionados que utilizan CNN 2D / 3D para la detección de EA.

4.2.3.1 Arquitectura CNN


Las CNN se componen de varias capas convolucionales, capas de activación, capas de agrupación, capas completamente conectadas

y una capa softmax. El entrenamiento de una CNN incluye una etapa de avance y retroceso para calcular el costo de pérdida entre la

salida prevista y las etiquetas de verdad del terreno, con penalizaciones calculadas con reglas de cadena. La primera y fundamental capa

es la capa convolucional, que convoluciona la imagen de entrada con los filtros aprendidos y produce mapas de características

apropiados. Mientras que las primeras capas de las CNN extraen características discriminativas de cambio / escala invariantes de parches

de imágenes locales, las últimas capas permiten la clasificación de tareas específicas utilizando estas características [153]. Una capa

convolucional típica suele ir seguida de la aplicación de una función de activación no lineal como sigmoide, tangente hiperbólica (Tanh) o

Unidad lineal rectificada (ReLU) para construir un mapa de características para cada filtro. Esta no linealidad permite a los modelos

aprender representaciones más complejas. ReLU se ha empleado en la mayoría de los estudios,

22
mientras que sigmoide o Tanh sigue siendo popular. El segundo tipo de capa que viene después de la capa convolucional es el

capa de agrupación, que muestra el mapa de características de entrada reemplazando cada bloque que no se superpone con su máximo

o promedio. La agrupación ayuda a reducir el número de parámetros, las dimensiones de las características y los cálculos en la red, al

tiempo que mantiene las características más influyentes más compactas en las capas inferiores a superiores. Por lo tanto, logra cierto

grado de robustez ante determinadas distorsiones y variaciones geométricas como el desplazamiento, la escala y la rotación. El cuarto

tipo de capa son las capas completamente conectadas que funcionan como las redes neuronales tradicionales y contienen típicamente

alrededor del 90% de los parámetros en una CNN [153]. Después de una serie de capas convolucionales y agrupadas, los mapas de

características 2D / 3D se aplanan en un vector de características 1D que ya no tiene coordenadas espaciales; luego se implementa una

capa completamente conectada. Las capas completamente conectadas conectan todos los elementos de entidades de la capa anterior a

la capa de salida, lo que resulta útil para aprender las relaciones no lineales entre las entidades locales. Finalmente, la capa softmax

clasifica a los sujetos seleccionando las probabilidades predichas más altas para cada etiqueta. La función softmax resalta los valores más

grandes en un vector mientras suprime aquellos que están significativamente por debajo del máximo.

4.2.3.2 CNN 2D
Las CNN están diseñadas específicamente para reconocer patrones en imágenes bidimensionales. Muchos estudios han

utilizado CNN en 2D para la obtención de neuroimágenes en 3D. Además, según [85, 86], la construcción de una CNN 3D

requiere una mayor cantidad de parámetros que las CNN 2D. La Sección 3.2.2 explicó cómo diferentes estudios han extraído

información 2D de imágenes 3D dividiendo los datos volumétricos en cortes de imágenes. Aquí, se discuten diferentes

arquitecturas profundas que utilizan CNN 2D. El modelo profundo habitual aquí es un par de capas convolucionales

emparejadas con capas agrupadas y seguidas de capas completamente conectadas y una capa softmax. Por ejemplo, CNN 2D

con dos [170], Tres [107, 108,130], o cinco [171] capas convolucionales en un enfoque de modalidad única, o con cuatro capas

convolucionales en un estudio multimodal [139], han sido empleados. Otros ejemplos son varias CNN 2D con dos capas

convolucionales en un par de cortes de imágenes de resonancia magnética de la vista coronal [52]; seis capas convolucionales

en un corte de resonancia magnética sagital, incluido el hipocampo [127]; y una capa convolucional junto con un Polinomio

Kernel SVM donde los filtros de la CNN fueron proporcionados por un AE [143]. Luo y sus colaboradores utilizaron siete CNN 2D

en siete grupos de cortes que constan de tres capas convolucionales [119]; esto significaba que si uno o más de los

clasificadores clasificaban un tema como EA, entonces el tema definitivamente se clasificaba como EA. Aderghal y col. usó otra

arquitectura de CNN 2D que consta de dos capas convolucionales en unos pocos cortes del hipocampo [77]. Esta arquitectura se

modificó aún más para fusionar todos los diferentes puntos de vista con un voto mayoritario [75, 76]. Para lograr mejores

resultados, se ha desarrollado aún más como el núcleo de un enfoque multimodal para combinar todas las opiniones [78]. Se ha

utilizado una CNN 2D con dos capas convolucionales tomando, como estudiantes débiles, los valores de respuesta predichos de

múltiples modelos de regresión dispersa [54, 55]. Li y sus colaboradores propusieron la arquitectura de una CNN espectral

basada en una CNN común compuesta por capas convolucionales, capas de submuestreo y capas completamente conectadas [

51]. La capa de entrada de esta CNN era la representación del dominio espectral de una red cerebral, donde un conjunto de

valores propios representaba las conexiones entre pares regionales y las ubicaciones de los nodos.

Sin embargo, debido a la ausencia de uso compartido del kernel en la tercera dimensión, un esquema de uso de CNN 2D es

ineficaz para codificar la información espacial de imágenes 3D [83]. Por eso Islam et al. diseñó tres CNN 2D para obtener tres

vistas diferentes de una resonancia magnética [129]. Cada CNN constaba de cuatro capas convolucionales y cuatro bloques

densos (cada uno con 12 capas convolucionales), y la decisión final se tomó con votación por mayoría. Para capturar

directamente la información espacial en una imagen 3D, se ha propuesto una estructura novedosa que combina una CNN y una

RNN [85, 86]. En estos estudios, se crearon CNN 2D para capturar las características intra-corte (similar

23
estructuras en un solo corte), mientras que RNN se utilizó para extraer las características entre cortes (estructuras similares en adyacentes

rodajas) para la clasificación final. Primero, se descompuso una exploración FDG-PET en varios cortes de imagen 2D en las

direcciones coronal, sagital y axial; los cortes de la imagen descompuesta se dividieron aún más en varios grupos, y para cada

grupo de cortes, se construyó y entrenó una CNN 2D profunda con cinco capas convolucionales. Después de probar el

rendimiento de clasificación de cada CNN, se seleccionó la mejor CNN con la mayor precisión de clasificación de tres planos

diferentes. Finalmente, CNN y RNN se combinaron en cada dirección para obtener tres puntajes de predicción. La clasificación

final se realizó mediante el promedio ponderado de las tres puntuaciones de predicción obtenidas de las tres vistas diferentes [

85, 86].

Centrándose en arquitecturas 2D conocidas y en la formación desde cero, se han utilizado LeNet y GoogLeNet ajustados para

clasificar los cortes 2D de GM [114] o cortes de fMRI [116, 117] o ambos [115]. Farooq y sus colegas utilizaron una CNN 2D basada en

GoogLeNet y ResNet en imágenes de resonancia magnética 2D [110]. Kazemi y col. demostró que tanto AlexNet como GoogLeNet

funcionaron bien en imágenes de resonancia magnética funcional 2D para clasificar las diferentes etapas de la EA [32]. Sin embargo, se

informó que GoogLeNet consumía más tiempo, por lo que se eligió a AlexNet como clasificador. Es una práctica común utilizar CNN

previamente entrenados comprobados en la etapa de inicialización para una tarea específica de dominio y luego volver a entrenarlos

para nuevas tareas ajustando las CNN. Esto es posible porque las capas inferiores de las CNN tienen características más generales que se

pueden aplicar a muchas tareas y, por lo tanto, se pueden transferir de un dominio de aplicación a otro, un proceso conocido como

"aprendizaje por transferencia". Usando el aprendizaje de transferencia del conjunto de datos de ImageNet, Wu y sus colaboradores

ajustaron CaffeNet y GoogLeNet para predecir el riesgo de conversión de MCI a AD en imágenes de resonancia magnética 2D [122]. De

manera similar, varias CNN 2D, que han utilizado cortes de imagen como entrada, se han construido sobre la base de VGGNet-16

previamente entrenado [121, 123], ResNet-18 [111], Inception-V4 [172], DenseNet-121 [125], VGGNet-16 y Inception-V4 [120] y GoogLeNet

y ResNet-152 [112]. Gao y sus colaboradores ajustaron ResNet-18 y lo usaron junto con RNN [128]. Zheng y col. AlexNet ajustado para

imágenes 2D en el centro de cada ROI de las exploraciones PET [99], seleccionando un conjunto del 30% de las AlexNets con buen

desempeño como clasificador utilizando una estrategia de votación. Islam y sus colegas aplicaron el aprendizaje por transferencia a un

conjunto de tres modelos de estilo DenseNet con diferentes profundidades (121-161-169), donde la decisión final se tomó por mayoría de

votos [173]. En otro estudio, Qiu et al. entrenó de forma independiente dos modelos MLP en los resultados de las pruebas MMSE y LM, y

la arquitectura VGGNet-11 se ajustó para tres cortes de resonancia magnética seleccionados [118]. Las predicciones de estos tres

modelos se combinaron aún más mediante el uso de la votación por mayoría para tomar la decisión final. En un concepto diferente de

aprendizaje por transferencia, Wegmayr y sus colegas utilizaron un modelo profundo 2D basado en Inception-V3 como extractor de

características estáticas [113]. En el estudio, solo se entrenó una capa lineal adicional sobre las entidades concatenadas. El modelo logró

la misma precisión que el modelo 3D-CNN entrenado desde cero; sin embargo, se entrenó mucho más rápido porque la capa ajustada en

la parte superior tenía muchos menos parámetros.

4.2.3.3 CNN 3D
Debido a que la neuroimagen proporciona imágenes en 3D y existe una relación espacial entre las
imágenes, las CNN en 3D son populares. A pesar de su complejidad, la detección de AD debe tomar la
imagen completa o algunas ROI como entrada. Sin embargo, esto puede requerir entrenar una gran
cantidad de parámetros en un pequeño conjunto de datos, lo que puede resultar en un sobreajuste [
83]. En métodos directos, CNN 3D con doce [174], cinco [175], y cuatro [101, 176] se han utilizado
capas convolucionales. En [177]. Li y col. usó una combinación de características de una CNN 3D con
seis capas convolucionales y 3D multiescala

24
EA convolucionales, con tres capas ocultas y una capa softmax para la clasificación [84]. En un enfoque relacionado,

Las CNN 3D se entrenaron previamente con un EA utilizando una [149] o tres [154, 155] capas convolucionales. Vu y sus colegas utilizaron

dos CNN 3D, cada uno con una capa convolucional preentrenada con un AE disperso, en dos modalidades, combinándolas con una capa

completamente conectada [146]. Punjabi y col. utilizó una CNN 3D con tres capas convolucionales y dos capas completamente conectadas

para cada modalidad, combinando todas las capas con otra capa completamente conectada [148]. Otras propuestas han sido para CNN

en 3D con cinco [178] o siete [179] capas convolucionales fusionadas con un DNN en la capa final completamente conectada. Los datos de

entrada utilizados fueron datos clínicos y genéticos para el DNN y MRI para el 3D CNN. Feng y col. utilizó dos CNN 3D independientes,

cada una con seis capas convolucionales para las imágenes de resonancia magnética y PET [56], y utilizó un RNN bidireccional apilado en

lugar de las capas tradicionales completamente conectadas para obtener más información semántica avanzada.

Karwath y sus colegas emplearon un clasificador CNN 3D con siete capas convolucionales para extraer los ROI de los datos

de vóxeles de PET [102]. En este enfoque, la contribución de cada vóxel se calculó en relación con la precisión de la CNN 3D

utilizada, de modo que un vóxel inexacto podría excluirse de la entrada a la CNN 3D. A diferencia de muchos métodos de

aprendizaje profundo que apuntan a la clasificación, este método apunta a los ROI. Chen y col. utilizó una CNN 3D con siete

capas convolucionales para cada ROI, y la decisión final se tomó por mayoría de votos [98]. Khvostikov y col. usó la CNN 3D para

los lóbulos izquierdo y derecho del hipocampo en cada modalidad, y luego combinó todas las CNN con capas completamente

conectadas [79]. En este trabajo, se evaluaron configuraciones ligeramente diferentes para AD vs. NC, y se seleccionó una

configuración con seis capas convolucionales. Se diseñaron dos CNN 3D con cinco capas convolucionales para los lóbulos

izquierdo y derecho del hipocampo, y la clasificación final se realizó combinando las puntuaciones de predicción de ambas CNN

3D [141]. Liu y sus colegas utilizaron modelos 3D de CNN con cinco [95] y seis capas convolucionales usando una concatenación

de características [94]; el enfoque fue aprender las características morfológicas basadas en parches de cada hito y hacer una

clasificación final utilizando una estrategia de votación por mayoría en todas las CNN para todos los hitos. Posteriormente se

propuso una configuración similar con seis capas convolucionales [103], en el que los investigadores concatenaron

características de todos los puntos de referencia con capas completamente conectadas e incorporaron información personal

(por ejemplo, edad, género y nivel educativo) en otro conjunto de capas completamente conectadas. Este marco de aprendizaje

profundo incorporó así información personal y aprendió automáticamente las representaciones de resonancia magnética sin

requerir ningún conocimiento experto de características predefinidas (similar a [94, 95]). En otro artículo relacionado, Cheng y

sus colegas utilizaron múltiples CNN 3D con cuatro capas convolucionales en varios parches de imágenes locales [145]. Las CNN

para el conjunto se seleccionaron de acuerdo con la precisión de clasificación de los datos de validación y se ajustaron

conjuntamente en las últimas capas para adaptarse mejor a la tarea de clasificación global. Esmaeilzadeh y col. entrenó una CNN

3D con tres capas convolucionales en dos clases (AD vs. NC) [180] luego ajustó los pesos para clasificar a los sujetos en tres

categorías. Choi y colegas, en un estudio multimodal [181], utilizó una CNN 3D con tres capas convolucionales para predecir la

conversión de MCI. Para la discriminación entre MCIc y MCInc, la red se entrenó primero con datos AD / NC y luego se transfirió

directamente para clasificar MCIc de MCInc.

Centrándose en arquitecturas 3D conocidas y entrenando desde cero, Karasawa et al. utilizó una CNN 3D basada en ResNet [

182]. Se han propuesto otros similares basados en VGGNet y ResNet [183, 184]. Cheng y col. usó una estructura 3D CNN

inspirada en LeNet con cuatro capas convolucionales para cada parche de imagen [82]. En este trabajo, cada red se optimizó

individualmente en cada parche y las características extraídas de todas las CNN se apilaron para formar mapas de características

3D de la estructura. Además, para conocer las características globales, se construyó una CNN 3D profunda

25
en el nivel más alto, seguido de una capa completamente conectada y una capa softmax para la clasificación de conjuntos. Espiga

y compañeros de trabajo utilizaron una CNN 3D basada en VGGNet, con un acceso directo adicional para fusionar información

de características de bajo y alto nivel y aliviar la desaparición de gradientes [126]. Vu y sus colegas utilizaron una CNN 3D basada

en VGGNet previamente entrenada mediante una concatenación de capas de alto nivel de AE [106]. Para abordar el problema

de los datos de entrenamiento limitados, Wang et al. introdujo conexiones densas a 3D-CNN [185], con conexiones densas que

mejoran el contenido de la información y la propagación de gradientes a lo largo de la red. Senanayake y sus colegas utilizaron

una tubería de fusión en la que la información de múltiples modalidades se fusionó sin problemas a través de un modelo

profundo 3D basado en DenseNet [186]. En un trabajo similar, Li et al. construyó múltiples DenseNets 3D con la misma

estructura y luego seleccionó las DenseNets más discriminativas que tienen una alta precisión de clasificación de los conjuntos

de validación [147]. Khvostikov y col. aplicó un modelo profundo 3D que consta de cuatro combinaciones secuenciales de bloque

de inicio en cada ROI [80], finalmente, concatenando todos los modelos para producir el resultado de clasificación. Tenga en

cuenta que la extensión de 2D a 3D en estos modelos crea desafíos considerables, incluido un mayor número de parámetros y

considerables requisitos de memoria y computacionales.

4.2.3.4 CNN 2D / 3D en cascada


Las CNN en cascada se han creado para aprender las características de las resonancias magnéticas y las exploraciones cerebrales PET [81, 83].

Primero, se construyen múltiples CNN 3D profundas con cuatro capas convolucionales en diferentes parches de imagen local para transformar la

imagen del cerebro local en características de alto nivel más compactas. Luego, una CNN 2D de alto nivel con dos capas convolucionales se conecta

en cascada para combinar las características de alto nivel y generar las características de correlación multimodal latente de los parches de imagen

correspondientes. Finalmente, estas características extraídas se combinan mediante una capa completamente conectada seguida de una capa

softmax para la clasificación AD.

4.2.4 Red neuronal recurrente


En los problemas de series de tiempo, como en las aplicaciones de video, las RNN incluyen una "memoria para modelar" la

dependencia temporal. En este esquema, la información pasada se almacena implícitamente en unidades ocultas llamadas vectores de

estado, y utilizando estos vectores de estado, la salida de la entrada secuencial actual se calcula considerando los datos de entrada

actuales así como todos los datos de entrada anteriores. Los RNN no son tan profundos como los DNN o CNN en términos del número de

capas, y pueden tener problemas para memorizar datos de entrada a largo plazo [39]. Todavía requieren grandes conjuntos de datos.

Afortunadamente, la sustitución de las unidades ocultas del perceptrón simple por unidades más complejas como LSTM (Long Short-

Term Memory) o GRU (Gated Recurrent Unit), que funcionan como células de memoria, ayuda considerablemente a superar el problema

de la memoria. El LSTM contiene tres unidades de puerta y una unidad de celda de memoria, una disposición más complicada en

comparación con un RNN tradicional, pero que puede capturar información valiosa en una secuencia [88]. GRU es un tipo de LSTM más

simple con un rendimiento ligeramente mejor [85, 88]. Aunque las imágenes en 2D implican información espacial en lugar de

información secuencial, una imagen en 3D se puede tratar como una secuencia de imágenes en 2D. Hoy en día, las RNN se están

aplicando cada vez más a las imágenes [42].

Se ha construido y entrenado un CNN 2D junto con un RNN, en el que los CNN 2D jerárquicos capturaron las características

intra-corte (estructuras similares en un solo corte), mientras que el GRU se utilizó para extraer las características entre cortes

(estructuras similares en rodajas adyacentes) para la clasificación final [85, 86]. Los modelos de combinación de CNN y GRU

individuales para planos axiales, sagitales y coronales se han entrenado para producir tres puntuaciones de predicción. La

clasificación final se realizó mediante el promedio ponderado de las tres puntuaciones de predicción de tres planos diferentes.

Feng y col. diseñó una CNN 3D independiente para cada modalidad, y para obtener más detalles

26
información que utilizaron un RNN bidireccional apilado al final en lugar de las capas tradicionales completamente conectadas [56].

Cui y sus colaboradores construyeron y entrenaron un modelo con dos capas GRU para capturar cambios longitudinales a partir de datos

de series de tiempo [88]. Para extraer características temporales, se apilaron dos GRU con una secuencia de vectores de características de

entrada, que se generaron a partir de la primera capa de un MLP. En el estudio, las GRU utilizaron características intraimagen y extrajeron

características longitudinales. Para facilitar el diagnóstico de la enfermedad, Gao et al. diseñó una arquitectura basada en LSTM [128]

para extraer características longitudinales y capturar cambios patológicos. Lee y sus colegas realizaron otro estudio longitudinal basado

en RNN [89].

4.3 Análisis comparativo de diferentes modelos profundos

Desafortunadamente, la mayoría de los estudios en nuestra revisión de literatura no enviaron su código fuente a ninguna

plataforma de alojamiento de desarrollo de software ni a una competencia en línea. Por lo tanto, no es fácil comparar de manera

imparcial los estudios entre sí. Además, se notó que la mayoría de los estudios que compararon sus resultados con los de otros

no implementaron los algoritmos de la competencia, sino que solo informaron sus precisiones finales. Incluso si se

implementara el algoritmo de la competencia, no hay garantía de que sea idéntico al original. Sin embargo, en esta sección se

proporciona información comparativa, recopilada de todos los estudios en nuestra revisión de la literatura, junto con nuestra

perspectiva sobre los estudios individuales.

Antes de comparar diferentes modelos profundos, primero es necesario discutir el aprendizaje por transferencia. En la

mayoría de los estudios se entrenó un modelo profundo desde cero; sin embargo, a menudo es ineficiente hacerlo, ya que el

proceso de capacitación lleva mucho tiempo y se requiere un conjunto de datos de tamaño satisfactorio (millones de imágenes) [

83, 123, 128, 167]. Los conjuntos de datos de neuroimagen suelen tener solo cientos de imágenes, una circunstancia que da

lugar a un ajuste excesivo. El aprendizaje por transferencia es más rápido y logra mejores resultados en comparación con el

entrenamiento desde cero [111, 113, 120]. Parece haber una competencia estrecha entre CNN 2D conocidas como GoogLeNet y

ResNet-152 [110, 112]; sin embargo, parece que Inception-V4, ResNet y CaffeNet han superado a GoogLeNet, VGGNet-16 y

AlexNet [80, 120, 122, 172, 184]. Un documento informa que DenseNet supera a ResNet y LeNet [147]. Está disponible un estudio

reciente que implementa varias CNN 2D conocidas que utilizan el aprendizaje por transferencia [187].

Al comparar modelos profundos, en un estudio de una sola modalidad [59] una combinación de métodos basados

en parches y basados en ROI dio mayor precisión que un método basado en ROI en otro estudio multimodal [44] que

ha utilizado EA apilados. Una combinación de EA apilados basados en parches y ROI [93] superó a una combinación de

DBM basado en parches y voxel [73]. AE 3D apilados CNN + 3D basados en vóxeles [154] se informó que era más

precisa en comparación con los EA apilados basados en el ROI [44, 69] y GBR [137]. DPN apilados basados en ROI [87,

133] superó a los DPN individuales basados en ROI, EA apilados [69] y RBM [137]. Un conjunto de CNN 3D basado en

ROI [98] y AlexNets [99] en dos estudios de modalidad única superó a varios estudios de modalidad múltiple (EA apilados

basados en ROI [43, 44, 69], GBR [137] y DBN [109]). VGGNet-16 basado en cortes [123] superó el rendimiento basado

en parches [144] y basado en vóxeles [149] combinación de EA y CNN. Inception-V4 basado en cortes [120], CNN 3D

basadas en vóxeles [106, 155, 175, 177, 182], CNN 3D basado en vóxeles + RNN apilado [56], y un conjunto basado en

parches de CNN en 3D y 2D [83] se informó que eran más precisos que los EA que utilizan otros métodos de gestión de

datos [43, 44, 48, 69, 71, 144, 149, 154]. Una combinación de CNN en 3D y 2D [81] superó los EA 3D apilados de CNN + 3D

[154]. 3D CNN superó a 2D CNN [126] y 3D CNN + RNN apilado basado en vóxeles [56] superó al conjunto basado en

parches de CNN en 3D + CNN en 2D [83]. No obstante, las CNN 2D multivista basadas en cortes + RNN [86] se informó

que tiene un mejor rendimiento en comparación con 2D CNN y 3D CNN.

27
Con respecto a los métodos de gestión de datos de entrada, los métodos basados en ROI y basados en parches son más eficientes que

otros, pero los estudios de múltiples vistas en métodos basados en cortes también han mostrado un buen rendimiento. Las

comparaciones de estos métodos se resumen en la Sección 3.3. Según nuestra revisión, los modelos profundos no supervisados se

utilizan mejor para extraer características y enviarlas a un clasificador. Entre estos modelos, un EA apilado puede mejorar

significativamente el poder de representación de patrones complejos y altamente no lineales. Otro beneficio de los AE es que pueden

encontrar buenos parámetros de inicialización para CNN. Sin embargo, con métodos de inicialización adecuados como Xavier [188] y el

aprendizaje por transferencia, esta ventaja de los EA ya no es válida. Los métodos supervisados tuvieron más popularidad en nuestra

revisión de la literatura, lo que permitió fusionar la extracción y clasificación de características en un solo modelo. Fueron reportados [133

] para tener un mejor rendimiento en comparación con los EA cuando se utiliza un DPN o un DPN apilado. En comparación con las SVM,

las DNN se adaptan bien a los problemas basados en vectores en los que el proceso de formación no es óptimo y el proceso de

aprendizaje es demasiado lento [39].

Entre los métodos supervisados, la principal competencia es entre CNN 3D y CNN 2D (con o sin RNN), que están optimizados

para problemas basados en imágenes. El primero puede capturar información 3D del volumen 3D de un escáner cerebral y ha

mostrado un mejor rendimiento en comparación con las CNN 2D [126]. Sin embargo, la complejidad del entrenamiento es un

problema aquí, aunque se puede resolver utilizando métodos basados en parches o ROI en lugar de basados en voxel. Por

otro lado, las CNN 2D son más fáciles de entrenar. Sin embargo, un esquema que emplea CNN 2D no es eficiente para codificar

la información espacial de las imágenes 3D debido a la ausencia de intercambio de kernel en la tercera dimensión [83]. Esa es la

razón por la que algunos estudios consideran las tres vistas de un escáner cerebral o usan RNN después de CNN 2D para

capturar información 3D en cortes de imágenes adyacentes en una secuencia de imágenes. Wang [185], y los resultados

reportados muestran que las redes superficiales y muy profundas no necesariamente dan buenos resultados. Las fortalezas y

limitaciones de cada modelo profundo se dan enTabla 3, con más detalles en [39, 153, 189-191]. La superioridad de las CNN en

términos de precisión, sensibilidad y especificidad para estudios muy citados y para estudios primarios completos se informa en

la Sección 7 y las Tablas 4 a 9 del Apéndice 1.

28
Tabla 3. Un resumen de cada modelo profundo utilizado en la detección de AD.

Modelos Fortalezas Limitaciones


Puede representar patrones complejos y Aprende a capturar tanta información como
altamente no lineales sea posible en lugar de tanta información
AE Buena inicialización para CNN Buena relevante.
para reducción de dimensiones Fácil
de implementar
Puede aprender muy buen modelo Computacionalmente costoso en el proceso de formación
generativo.
RBM
Capaz de crear patrones si
faltan datos
Bueno para problemas basados en vectores Tiene un proceso de entrenamiento lento y no es óptimo para
Puede manejar conjuntos de datos con una imágenes.
DNN gran cantidad de muestras Tiene problemas de generalización
Puede detectar complejo
relaciones no lineales
Puede aprender eficazmente la representación de Tiene un rendimiento limitado debido a la simple
DPN características a partir de muestras pequeñas. concatenación de las características jerárquicas aprendidas
de diferentes capas.
Bueno para imágenes secuenciales 2D Tiene problemas relacionados con el proceso de capacitación debido
RNN
Bueno para estudios longitudinales a gradientes que desaparecen / explotan
Buen rendimiento en la extracción de No se puede codificar la información espacial de las
2D
características locales en imágenes Fácil imágenes 3D en la tercera dimensión.
CNN
de entrenar
CNN Buen rendimiento en la extracción de Computacionalmente costoso en el proceso de formación
3D características locales en imágenes Puede
CNN capturar información 3D del volumen 3D de un
escaneo cerebral

5 Conjuntos de datos y plataformas de software

Aunque la detección de EA es una tarea compleja, los investigadores no tienen que trabajar solos. Hay diferentes conjuntos

de datos y paquetes de software en línea disponibles para ayudar. Paquetes de análisis de imágenes cerebrales como FreeSurfer

9, FSL10, MIPAV11y SPM12 proporcionan herramientas poderosas para diferentes técnicas de preprocesamiento automatizado [20,

192], que se explicaron en la Sección 3.1. Además, los paquetes de software como MATLAB13, Keras14, Tensorflow15, Theanodieciséis

, Caffe17y antorcha18 se emplean para implementar modelos profundos [42, 96, 191, 193]. La popularidad de cada software en

nuestra revisión de literatura se muestra enFigura 8. Además, conjuntos de datos en línea como ADNI19 [194], AIBL20 [195],

OASIS21 [196] y MIRIAD22 [197] son muy útiles también [20]. Estos conjuntos de datos hacen públicamente

9 Ver surfer.nmr.mgh.harvard.edu/
10 Imágenes de resonancia magnética funcional de la biblioteca de software del cerebro, consulte fsl.fmrib.ox.ac.uk/
11 Procesamiento, análisis y visualización de imágenes médicas, consulte mipav.cit.nih.gov
12 Asignación de parámetros estadísticos, consulte www.fil.ion.ucl.ac.uk/spm
13 Ver mathworks.com
14 Ver keras.io
15 Ver tensorflow.org

dieciséis Ver deeplearning.net/software/theano


17 Ver caffe.berkeleyvision.org
18 Ver antorcha
19 Iniciativa de neuroimagen de la enfermedad de Alzheimer, ver adni.loni.usc.edu
20 Imágenes, biomarcadores y estilo de vida australianos, consulte aibl.csiro.au
21 Serie de estudios de imágenes de acceso abierto, consulte oasis-brains.org
22 Imágenes de resonancia de intervalo mínimo en la enfermedad de Alzheimer, consulte ucl.ac.uk/drc/research/methods/
minimalinterval-resonance-imaging-alzheimers-disease-miriad

29
biomarcadores disponibles, como modalidades de neuroimagen, información genética y sanguínea, y clínica y cognitiva

evaluaciones. Entre todos ellos, ADNI destaca por ser un estudio longitudinal y multicéntrico. Es el conjunto de datos más común en

nuestra revisión de la literatura, y se utiliza en aproximadamente el 90% de los estudios por sí solo o en combinación con otros. ADNI fue

lanzado en 2003 por NIA, NIBIB23, FDA24, compañías farmacéuticas privadas y organizaciones sin fines de lucro como una asociación

público / privada de $ 60 millones por 5 años. Fue un estudio con base en América del Norte que tuvo como objetivo reclutar a 800

adultos (alrededor de 200 personas mayores cognitivamente normales, 400 personas con deterioro cognitivo leve y 200 personas con EA

temprana) para participar en la investigación y ser seguidos durante 2 a 3 años. La adquisición de estos datos se realiza de acuerdo con el

protocolo ADNI [194]. Se han reclutado sujetos ADNI de entre 55 y 90 años de más de 50 sitios en los EE. UU. Y Canadá. El objetivo

principal de ADNI es probar si las evaluaciones seriadas de resonancia magnética, PET, genética, bioespecimen y evaluaciones clínicas y

neuropsicológicas se pueden combinar para medir la progresión del deterioro cognitivo leve y la EA temprana.

OASIS es un proyecto destinado a distribuir libremente datos de resonancia magnética cerebral, incluidos dos conjuntos de datos completos. El

conjunto de datos transversales incluye datos de resonancia magnética de 416 sujetos (adultos mayores jóvenes, de mediana edad, no dementes y

dementes) de entre 18 y 96 años. El conjunto de datos longitudinal incluye datos de resonancia magnética de 150 sujetos (adultos mayores no

dementes y dementes) de 60 a 96 años.

Otro conjunto de datos es AIBL, financiado por CSIRO25, que incluye evaluaciones clínicas y cognitivas, resonancia magnética, PET,

bioespecímenes y evaluaciones de la dieta y el estilo de vida. El conjunto de datos MIRIAD es una base de datos de resonancias magnéticas

cerebrales recopiladas de los participantes a intervalos de 2 semanas a 2 años; el estudio está diseñado para investigar la viabilidad de utilizar la

resonancia magnética para ensayos clínicos de tratamientos para la EA. Finalmente, algunos estudios prefieren emplear sus propios conjuntos de

datos locales. En la Tabla 3 del Apéndice 1 se muestran más detalles sobre conjuntos de datos adicionales y el número total de sujetos en cada

artículo. Se pueden encontrar detalles adicionales sobre conjuntos de datos y paquetes de software en [20].

(a) Antorcha

(B) 6%
MATLAB
Theano
Freesurfer 15% 15%
FSL
25%
40%
Keras
Tensorflow
27%
SPM 23%
MIPAV 23% Caffe
12% 14%

Figura 8. La frecuencia con la que el software de preprocesamiento (a) y el software de aprendizaje profundo (b) aparecen en el
revisión de literatura.

6 Consideraciones de formación

Después de la introducción anterior a los biomarcadores, los modelos profundos y los conjuntos de datos, es necesario abordar algunas inquietudes sobre

los problemas y los parámetros de entrenamiento. Debido a la complejidad de los modelos profundos y las modalidades de neuroimagen, muchos

23 Instituto Nacional de Bioingeniería e Imágenes Biomédicas


24 Administración de Alimentos y Medicamentos

25 Organización de Investigaciones Científicas e Industriales de la Commonwealth

30
intervienen diferentes parámetros. En esta sección, se revisan las consideraciones para entrenar los parámetros.

Todos los valores de los parámetros en esta sección provienen de los estudios revisados aquí y se resumen en Cuadro 4.

El primer asunto importante es mejoramiento algoritmos utilizados con fines de formación, como el descenso de

gradiente estocástico (SGD), Adam, Adadelta, RMSProp y Adagrad. Aunque algunos estudios han realizado

comparaciones [107,185], el más utilizado es el SGD (con o sin impulso), que se ha empleado en aproximadamente el

60% de los estudios.

El segundo problema implica el empleo de parámetros bien diseñados inicialización para modelos profundos. Inicialización aleatoria

(especialmente cerca de cero con o sin una distribución específica) y Xavier [188] La inicialización de ponderaciones son los dos métodos

más comunes, y el último se utiliza con frecuencia para acelerar el entrenamiento de redes más profundas. Sin embargo, un método de

inicialización introducido por primera vez por [198] Ha sido reportado [170] para ser mejor que Xavier. Además, en los métodos de

aprendizaje por transferencia, las ponderaciones provenientes de redes previamente capacitadas (especialmente en ImageNet) han

atraído recientemente mucha atención. Cada uno de estos métodos de inicialización se utilizó más o menos por igual en los estudios

primarios de esta revisión.

Otro tema en el proceso de formación es la tasa de aprendizaje. Eltasa de aprendizaje base suele estar dentro del rango de 0,000001

a 0,5, con un valor típico de 0,001. Elimpulso especifica la cantidad del cambio de peso anterior, que se suma al cambio actual, con un

valor típico de 0,9. Los parámetros de entrenamiento interactúan y no existe un conjunto de valores adoptado generalmente. Sin

embargo, el rango y los valores típicos utilizados en los estudios primarios se muestran en la Tabla 4, y pueden usarse como punto de

partida para futuras investigaciones sobre la detección de EA utilizando modalidades de neuroimagen. Eltamaño de mini lote se refiere a

la cantidad de ejemplos de entrenamiento empleados en una sola iteración, generalmente dentro del rango de 4 a 256 con un valor típico

de 64. El tamaño del mini-lote generalmente se puede elegir casi arbitrariamente, pero los valores pequeños agregan ruido al gradiente y

pueden dificultan la convergencia, mientras que los tamaños de mini lotes excesivamente grandes están limitados por la memoria y

pueden provocar una convergencia a un mínimo local subóptimo. Sin embargo, se ha demostrado que la precisión del rendimiento de la

clasificación mejora en un 4% a medida que el tamaño del lote aumenta de 4 a 48 [113].

Existen algunas técnicas especiales para mejorar la generalización y la solidez, aumentar la velocidad de aprendizaje y

reducir el sobreajuste durante el entrenamiento de modelos de aprendizaje profundo. Normalización por lotes realiza la

normalización para cada mini-lote y luego retropropaga los gradientes a través de los parámetros de normalización [113]. En

aproximadamente el 50% de los estudios que utilizan CNN 2D / 3D, el uso de la normalización por lotes mejoró la velocidad, el

rendimiento y la estabilidad de los modelos profundos.Abandonar es una técnica de regularización conocida en la que algunos

de los nodos se eliminan aleatoriamente (se fuerzan a cero) para mejorar la capacidad de generalización de un modelo. Las

neuronas que se retiran no contribuyen al paso hacia adelante ni a los pasos de propagación hacia atrás. Esto evita que los

nodos coadapten pesos, lo que los obliga a actuar de forma independiente y reduce el sobreajuste, al tiempo que alivia los

problemas de memoria y computacionales [123, 149]. También es más probable que descubra patrones y estructuras locales en

la imagen y puede superar el problema de muestras insuficientes [50, 137, 149]. La fracción de ganglios desactivados varió del

20% al 80% de un estudio a otro, con un valor típico del 50%. Esta técnica se ha empleado en la mayoría de los estudios de

nuestra revisión, aumentando constantemente el rendimiento [50, 137, 170, 180, 185]. Sin embargo, se ha informado [54, 55]

que la deserción es inútil en una red normalizada por lotes. Otro método de regularización,Regularización L1 / L2, básicamente

agrega un término de penalización a medida que aumenta la complejidad del modelo. Esto disminuye la importancia que se da a

los términos superiores y orienta el modelo hacia una ecuación menos compleja, mejorando el rendimiento. La clave

31
La diferencia entre la regularización L1 y L2 está en el término de penalización, donde la primera agrega ―valor absoluto‖ como

la penalización a la función de pérdida y esta última suma la “magnitud al cuadrado” de los coeficientes. L1 y L2 se utilizan solos o juntos

en aproximadamente el 25% de los estudios [170, 180].

Con cualquier conjunto de datos, es vital saber cuántos sujetos se necesitan para la formación. Según la literatura, alrededor del

60-80% de las exploraciones se seleccionan para el conjunto de entrenamiento y todas las demás para validación y prueba. Aparte de eso,

los datos de entrenamiento deben elegirse al azar para garantizar que tengan una distribución similar al conjunto de datos original.

Después del entrenamiento y para evaluar el éxito del procedimiento de entrenamiento, es necesaria una técnica de validación como la

validación cruzada.Validación cruzada es un método estadístico para evaluar clasificadores. La idea detrás de la validación cruzada es usar

una fracción del conjunto de datos para entrenar al clasificador y luego usar el resto como un conjunto nuevo e invisible para probar el

rendimiento del clasificador. El método más conocido para la validación cruzada esk-pliegue. Enk-pliegue, las muestras se dividen en k

pliegues. Después,k Se realizan iteraciones de entrenamiento y validación, de modo que cada pliegue se usa una vez y solo una vez para

la validación. En nuestra revisión de la literatura,k estuvo dentro del rango de 5 a 20, con un valor típico de 10 utilizado en

aproximadamente el 65% de los estudios. Sin embargo, hay dos inconvenientes enk-validación cruzada doble. La primera es que el

entrenamiento y las pruebas del clasificador deben repetirse.k veces, lo que aumenta el tiempo y el costo de cálculo, especialmente en

modelos profundos. Otro inconveniente se relaciona con el número de sujetos en el conjunto de datos: grandes valores dek dan como

resultado un número limitado de sujetos en el conjunto de datos de validación y, finalmente, provocan resultados poco fiables. Por esta

razón, algunos estudios prefieren usar el método de retención (como se informa en aproximadamente el 10% de los estudios) o usar

valores más pequeños dek.

Cuadro 4. Un resumen de los parámetros y técnicas descritos en la Sección 6.

Método / parámetro Valores / métodos Valor / método típico


Mejoramiento SGD, Adam, Adadelta, RMSProp, Adagrad SGD (con o sin impulso)
Inicialización aleatorio, Xavier, aprendizaje de transferencia
Tasa de aprendizaje base 0,000001 - 0,5 0,001
Impulso 0,9 0,9
Tamaño de mini lote 4 hasta 256 64
Factor de deserción 20% a 80% 50%
Validación validación cruzada de retención, k-fold con k: 5–20 Validación cruzada de k veces con k = 10

7 Destacados

Este artículo revisa sistemáticamente las estrategias para mejorar la detección de EA basadas en modalidades de

aprendizaje profundo y neuroimagen (con o sin otros biomarcadores). En esta sección, se enumeran los aspectos más

destacados que han surgido de esta revisión sistemática.

En primer lugar, con respecto a la tarea de clasificación, clasificar a los pacientes con DCL tempranos de los NC y predecir la

conversión de DCL a EA es más valioso en comparación con otros. Algunos hallazgos relacionados, como el éxito de los modelos

profundos en comparación con los métodos tradicionales de aprendizaje automático, no se informaron porque muchos investigadores ya

los han discutido. De manera similar, se sabe que los estudios longitudinales son más sensibles a los cambios tempranos relacionados

con la enfermedad en el cerebro, lo que brinda un diagnóstico más preciso [88].

Un hallazgo clave es el papel crucial del preprocesamiento de los escáneres cerebrales. El rendimiento de un sistema de detección de

EA depende en gran medida de la calidad de la neuroimagen. Como mínimo, es necesario realizar la normalización y el registro de la

intensidad. A continuación se exponen otros factores clave.

32
- Los métodos basados en ROI y basados en parches son más eficientes.

Las características basadas en ROI tienen dimensiones reducidas y se pueden interpretar fácilmente, mientras que los métodos basados en

parches son sensibles a pequeños cambios anormales en el cerebro. Ambas técnicas son más eficientes en comparación con las basadas en rodajas

y las basadas en vóxeles. Sin embargo, los estudios de múltiples vistas en métodos basados en cortes y las técnicas de preselección de voxel en

métodos basados en voxel ofrecen un rendimiento comparable.

- Los estudios de modalidades múltiples superan a los de modalidad única.

Las modalidades de neuroimagen como la resonancia magnética, la PET, la resonancia magnética funcional y la DTI son

fundamentales para la detección de la EA. También son útiles otros factores como la edad, el sexo, el nivel educativo, la puntuación de la

prueba de memoria y la información genética. Aunque la modalidad de neuroimagen más discriminativa sigue siendo controvertida, es

probable que combinarlas sea más eficaz, ya que reflejará diferentes aspectos de la EA y esto es especialmente útil para la detección

temprana de la EA y la predicción de la conversión desde las etapas prodrómicas de la enfermedad. Teniendo en cuenta los resultados de

los estudios de modalidad única y multimodal, existe una compensación entre una mayor precisión y el costo financiero de adquirir

biomarcadores adicionales. En términos generales, los estudios multimodal logran mejores resultados en comparación con los estudios

de modalidad única [56, 67, 69-71, 73, 78, 81, 87, 93, 133, 135, 139, 146, 148], que se espera debido a la complejidad y heterogeneidad de

la EA.

- Aumento de datos.

Se sabe que el tamaño del conjunto de datos de entrenamiento tiene un efecto significativo en el rendimiento de un clasificador en

un conjunto de prueba invisible [185]. El número de sujetos con EA y DCL puede ser muy limitado en cada conjunto de datos, lo cual es

inadecuado para probar modelos profundos. La situación es peor para los estudios multimodales. Por lo tanto, algunos estudios han

combinado conjuntos de datos. Aunque la combinación de diferentes conjuntos de datos dará como resultado una mayor

heterogeneidad, conduce a la creación de un modelo grande y robusto para la clasificación y la predicción. Otra forma de resolver el

número limitado de sujetos en un conjunto de datos es utilizar el aumento de datos. El aumento de datos es una estrategia que aumenta

la diversidad de datos disponibles para los modelos de entrenamiento, sin recopilar datos nuevos. Las técnicas de aumento de datos

como la reflexión, la traducción aleatoria, la rotación, la inyección de ruido, la corrección gamma, el desenfoque, el recorte y la escala se

han utilizado, cuando es necesario, en aproximadamente el 20% de los estudios para mejorar el rendimiento de la clasificación [111, 180].

Además, los conjuntos de datos longitudinales proporcionan varios escáneres cerebrales por sujeto en diferentes puntos de tiempo, y

aunque su propósito original era investigar la progresión de la enfermedad, también se pueden usar de forma independiente del tiempo

para el aumento de datos [60, 93, 110, 112, 172]. Sin embargo, agregar imágenes adicionales de los mismos sujetos no necesariamente

aumenta el rendimiento en comparación con el aumento del número de sujetos [113]. Los escaneos del mismo sujeto no deben usarse

tanto en el entrenamiento como en los conjuntos de prueba. Ignorar este factor conduce a una

"Fuga de información" y sobreajuste al paciente individual en lugar de aprender el patrón general de la enfermedad, y esto provoca

resultados de prueba demasiado optimistas [107, 113, 148, 175]. Si bien algunos estudios evitan explícitamente el problema al usar solo

una imagen por sujeto, o usar una división correcta de tren / prueba [107, 148, 177], otros no. Concluimos que los conjuntos de

entrenamiento y prueba deben aumentarse de forma independiente [129], aunque algunos estudios prefieren no utilizar ningún

aumento en absoluto [77, 78, 83].

- Se recomienda un conjunto de datos equilibrado.

Otro problema es el desequilibrio de clases (muy pocas materias en una clase en comparación con otras), que puede manejarse

mediante un método de aumento de datos o una reducción en la cantidad de escaneos originales de la clase sobremuestreada.

33
[77, 127]. Los resultados de un conjunto de datos equilibrado y no equilibrado sugieren que la precisión cambia ligeramente con la

distribución de datos en cada clase. Equilibrar el conjunto de datos puede mejorar el rendimiento incluso si hace que el conjunto de datos sea más

pequeño [112, 170].

- El éxito de las CNN.

Cuadro 5 muestra la diversidad de métodos utilizados en aquellos artículos con mayor promedio de citas por año

(desde el año de publicación hasta 2019). Aquí, los resultados son para la clasificación AD vs. NC. Todos los modelos

profundos mencionados todavía están en uso para la detección de AD. Sin embargo, la principal competencia parece ser

entre CNN 3D y CNN 2D (con o sin RNN). Para codificar la información espacial de imágenes 3D, las CNN 3D basadas en

parches o ROI compiten con las CNN 2D basadas en cortes de múltiples vistas combinadas con las RNN [86, 126].

34
Cuadro 5. Una lista de artículos con el mayor número promedio de citas por año.

Resultados **
Árbitro. Datos* Modelo profundo Conjunto de datos
ACC SEN SPE
Shi y col. [87] Resonancia magnética (GM), PET / R DPN multimodal apilado y un kernel lineal SVM ADNI, 202 sujetos 97,13 95,93 98,53
Suk y col. [73] Resonancia magnética (GM), PET / V + P DBM multimodal con SVM ADNI, 398 sujetos 95,35 94,65 95,22
Suk y col. [69, 71] Resonancia magnética (GM), PET, LCR / R AE apilados con una SVM de varios núcleos ADNI, 202 sujetos 98,8 - -
Payan y Montana [149] Resonancia magnética / v EA escasos y CNN 3D ADNI, 2265 exploraciones 95,39 - -
Liu et al [43, 44] Resonancia magnética (GM), PET / R AE dispersos apilados y una capa softmax ADNI, 311 sujetos 91,40 92,32 90,42
Modelos de CNN en 3D para cada hito con concatenación en las etapas finales ADNI + MIRIAD,
Liu y col. [94] Resonancia magnética / p 91,09 88.05 93,5
1526 escaneos

Ortiz y col. [109] Resonancia magnética (GM), PET / R Un conjunto de DBN para todas las ROI y una SVM ADNI, 275 sujetos 90 86 94
OASIS + datos locales,
Wang y col. [127] Resonancia magnética Una CNN 2D 97,65 97,96 97,35
196 sujetos
Suk y col. [55] Resonancia magnética (GM) / R Una combinación de modelos de regresión dispersos y una CNN 2D ADNI, 805 sujetos 91.02 92,72 89,94
Li y col. [137] Resonancia magnética, PET, LCR / R Funciones de PCA, RBM apilados y SVM de kernel lineal ADNI, 202 sujetos 91,4 - -
Hosseini-Asl y col. [154, CAD Demencia +
Resonancia magnética / v Una CNN en 3D entrenada previamente con EA convolucionales en 3D apilados 99,3 100 98,6
155] ADNI, 240 sujetos
Los DNN multimodales y multiescala constan de 7 DNN (cada DNN: un
Lu y col. [93] Resonancia magnética (GM), PET / P + R ADNI, 1242 sujetos 84,6 80,2 91,8
AE apilado y una capa softmax)
Korolev y col. [183] Resonancia magnética / v CNN 3D basado en ResNet y VGGNet ADNI, 231 sujetos 88 - -
Choi y Jin [181] FDG-PET, AV-45 PET / V Una CNN 3D multimodal ADNI, 492 sujetos 96 93,5 97,8
Sarraf y Tofighi [115,
fMRI / S GoogLeNet y LeNet-5 ADNI, 144 sujetos 100 - -
116]
Gupta y col. [144] Resonancia magnética / p AE disperso seguido de una CNN y una red neuronal ADNI, 755 exploraciones 94,74 95,24 94,26
* S: basado en rebanadas; R: basado en ROI; V: basado en vóxeles; P: basado en parche

* * ACC: Precisión; SEN: Sensibilidad; SPE: especificidad

35
- El aprendizaje por transferencia da excelentes resultados.

Aunque el entrenamiento de una red neuronal profunda desde cero se realiza en muchos estudios, a menudo no es factible

hacerlo: el proceso de entrenamiento puede llevar demasiado tiempo o el conjunto de datos es demasiado pequeño [83, 123,

128, 167]. Si bien los conjuntos de datos para la detección y clasificación general de objetos tienen millones de imágenes, los

conjuntos de datos de neuroimagen suelen tener solo cientos de imágenes, lo que conduce a un ajuste excesivo durante el

entrenamiento. En general, es útil utilizar CNN probadas y previamente capacitadas en un conjunto de datos para la

inicialización y luego volver a entrenarlas en otro conjunto de datos utilizando solo el ajuste fino de las CNN (aprendizaje de

transferencia). Esto es posible porque las capas inferiores de CNN incluyen características más generales que pueden beneficiar

muchas tareas de clasificación y pueden transferirse de un dominio de aplicación a otro. El aprendizaje por transferencia es más

rápido y logra un mejor rendimiento en comparación con el entrenamiento desde cero, incluso con tareas distantes [111, 113,

120]. El primer enfoque de aprendizaje por transferencia para la detección de EA mediante el aprendizaje profundo se estableció

en [144], que involucró, después de la extracción de características con un AE disperso, una CNN 2D con una capa convolucional

y una capa maxpooling, y finalmente, una red neuronal con una sola capa oculta. Se demostró que el uso de imágenes naturales

para entrenar el AE mejoró el rendimiento de clasificación en las siguientes capas. En [154,155], donde se mejoró la generalidad

de las características con el EA preentrenado en el conjunto de datos CADDementia. Se utilizó una CNN 3D con tres capas

convolucionales para las imágenes de resonancia magnética [180]. Primero, el modelo se entrenó en dos clases (AD vs. NC), y

luego se agregó una tercera clase (MCI) y los pesos se ajustaron para clasificar la entrada en tres categorías. Esta estrategia de

ajuste en realidad implicó transferir el aprendizaje del dominio del modelo aprendido de dos clases a un caso de tres clases, que

se decía que mejoraba el rendimiento. El aprendizaje por transferencia también se realizó en [78], donde se entrenaron tres

CNN 2D con dos capas convolucionales (una para cada vista) en imágenes de resonancia magnética. Con una cantidad limitada

de imágenes DTI y en lugar de entrenar desde cero, este trabajo utilizó el aprendizaje de transferencia de modelos que habían

sido entrenados en el conjunto de datos de MRI al conjunto de datos DTI de destino. Finalmente, la combinación de todas las

redes permitió tomar la decisión final utilizando una estrategia de votación por mayoría. En otro ejemplo, se utilizó un modelo

CNN entrenado en AD vs. NC para inicializar los parámetros de un modelo CNN 3D de clasificación MCIc vs. NC, disminuyendo el

tiempo de entrenamiento y mejorando el rendimiento de clasificación [83]. De manera similar, también se utilizó un modelo

CNN entrenado en MCIc vs. NC para inicializar los parámetros de un modelo CNN 3D para la clasificación MCInc vs. NC. Se utilizó

un enfoque más simple en [92, 130], donde una CNN se entrenó inicialmente para la clasificación de EA frente a NC y luego se

usó para la predicción de conversión de MCI. En resumen, aunque la utilidad y el éxito del aprendizaje por transferencia

dependen de la similitud entre los conjuntos de datos, el uso de modelos previamente entrenados en ImageNet para el

aprendizaje por transferencia aumenta significativamente la precisión en comparación con el entrenamiento desde cero [111,

113, 120]. Aun así, todavía hay puntos de acuerdo y desacuerdo para la detección de EA en modelos conocidos de CNN que

previamente habían demostrado tener un buen rendimiento en ImageNet (consulte el último párrafo de la Sección 4.2.3.2 y [32,

80, 110,112, 120, 122, 127, 129, 147, 172, 183, 184, 187]).

8 Desafíos futuros
Aunque los métodos de aprendizaje profundo han mostrado resultados notables, todavía quedan problemas sin resolver antes de

que se pueda desarrollar la detección de EA en entornos clínicos. Estos problemas se refieren principalmente al manejo de datos, la

fusión de información de diferentes biomarcadores y conjuntos de datos. Los desafíos clave se destacan a continuación.

- Se necesitan más investigaciones en estudios basados en parches y basados en ROI.

36
Reconocer el ROI requiere un conocimiento experto, que aún está incompleto. Encontrar parches discriminativos también es

un problema.

- Encontrar la combinación óptima de diferentes biomarcadores es fundamental.

Uno de los problemas más críticos en los estudios multimodales es una forma de fusionar información de todas las modalidades. La

forma más sencilla es la concatenación de características, donde las características extraídas de todas las entradas se concatenan y

clasifican. Sin embargo, la concatenación directa de datos no considera patrones de enfermedad similares en la misma región del cerebro

de todas las modalidades y puede resultar en un modelo de detección inexacto. Además, incluir otros factores como la información

genética también es un desafío.

- Deben resolverse los conjuntos de datos incompletos en los estudios multimodales.

Otro desafío en los estudios multimodales es que los datos suelen estar incompletos y es posible que falten algunas modalidades

para algunos sujetos. Esto significa que si se entrena un solo modelo profundo para todas las modalidades, solo se pueden usar aquellos

sujetos con datos completos de múltiples modalidades (quizás alrededor del 70% de todos los estudios de múltiples modalidades), lo que

limita el alcance de un modelo. Para superar este problema, se ha propuesto un marco de fusión y extracción de características

profundas en tres etapas para MRI, PET y datos genéticos [67, 68]. Comienza con la extracción de características de cada modalidad,

luego une las características extraídas y finalmente hace la clasificación. De esta manera, todas las asignaturas se pueden utilizar para

entrenar tres modelos individuales de aprendizaje profundo para tres modalidades. Además, es posible tener diferentes números de

capas ocultas así como diferentes números de neuronas ocultas en cada capa, lo que permite conocer las representaciones latentes en

cada modalidad y combinación de modalidades. Se informó de un enfoque similar [135], en el que los datos completos se agruparon en

subconjuntos utilizando diferentes combinaciones de modalidades. Como otra posible solución, se puede formular una tarea de

generación de imágenes con un codificador / decodificador de red neuronal profunda [101, 199]. Este trabajo modela la relación general

entre la resonancia magnética y la PET para predecir las exploraciones PET que faltan en las exploraciones de resonancia magnética

disponibles; luego, la modalidad de PET predicha se concatena con la modalidad de IRM y se usa como un par de entrada para la red

discriminadora. En resumen, aunque los estudios sobre la combinación de diferentes biomarcadores pueden mostrar resultados

prometedores, actualmente no se dispone de un conjunto de datos completo que incluya todos estos factores. En pocas palabras, los

estudios multimodales adolecen de una falta de generalización. Siempre que sea posible, la capacidad de considerar todas las

características y modalidades es beneficiosa. En [200, 201].

- La generación de datos necesita más investigaciones.

A pesar de todos los esfuerzos para evitar el sobreajuste, como el empleo del aprendizaje por transferencia y el aumento de datos, la falta de

suficientes muestras de datos provoca importantes problemas de generalización. Para abordar estos problemas, se pueden emplear modelos

generativos, donde la generación de datos significa generar nuevas imágenes a partir de imágenes ya existentes para expandir el conjunto de

datos. Ya se ha mencionado, por ejemplo, que la relación entre la resonancia magnética y la PET se puede modelar para predecir las exploraciones

de PET que faltan a partir de las exploraciones de resonancia magnética disponibles [101, 199]. Sin embargo, esta área de investigación necesita

más trabajo y aún se desconoce la efectividad de la generación de datos en imágenes médicas.

- Se exigen explicaciones claras de modelos profundos.

La Tabla 3 compara las fortalezas y limitaciones de cada modelo profundo para las tareas de clasificación. Como se muestra en la

Figura 7, las CNN son las estructuras profundas más utilizadas. El éxito de las CNN se muestra claramente en la Tabla 5, pero no hay una

forma clara de seleccionar y diseñar un modelo de CNN para la detección de EA. Esto significa que el número de

37
capas convolucionales y completamente conectadas, y la combinación de todas las capas, debe hacerse de forma arbitraria o basada en

experiencia previa. Por el momento, se están utilizando muchos modelos de CNN, pero los investigadores no han explicado su

metodología de selección.

- Debe proporcionarse una plataforma de evaluación comparativa.

La elección del conjunto de datos es importante y puede afectar los resultados del clasificador. Dado que existen diferentes

conjuntos de datos, diferentes números de sujetos e incluso códigos de números de sujetos diferentes, a menudo no es posible

comparar varios métodos. Incluso para estudios sobre el mismo conjunto de datos y con el mismo número de sujetos y código

de número de sujeto, es posible que los resultados aún no sean comparables porque se puede usar una fracción diferente de

sujetos como el conjunto de entrenamiento y el conjunto de prueba. Se pueden ver más detalles sobre los resultados de cada

artículo en las Tablas 4 a 9 en el Apéndice 1. En estas tablas, se informan los resultados informados de cada artículo para

diferentes objetivos de clasificación. La precisión promedio es de aproximadamente 92%, 83%, 80%, 79% y 76% para NC frente a

AD, MCI frente a AD, NC frente a MCI, Multi-clase (NC, MCI, AD) y MCIc frente a . MCInc, respectivamente,185].

9 Conclusión
La EA es una de las principales causas de muerte, especialmente en los países desarrollados. Dado que la detección temprana de la EA es una

tarea desafiante en las clínicas, el uso de sistemas basados en computadora, junto con expertos médicos, tiene mucho que recomendar en la

detección de la EA. Para esta tarea, el aprendizaje profundo ha atraído una gran atención en los últimos años. En este documento, hemos expuesto

cómo el aprendizaje profundo ha permitido el desarrollo de sistemas de detección de EA. Comenzamos este artículo con la definición de la EA y sus

síntomas, seguida de una explicación de los criterios actuales para el diagnóstico y de los biomarcadores relacionados como la resonancia

magnética, la PET y la resonancia magnética funcional. Está claro que la combinación de estas modalidades de neuroimagen puede ayudar a la

detección de la EA y se puede utilizar con otros factores como las puntuaciones de las pruebas de memoria y la información genética para ofrecer

un diagnóstico más preciso.

En términos de preprocesamiento, se recomienda la normalización de la intensidad y el registro en un espacio anatómico estándar.

Para el manejo de imágenes, se ha informado que los métodos basados en ROI y basados en parches son más eficientes en

comparación con los basados en cortes y voxel debido a su capacidad para incluir solo características relacionadas con la EA en un

escáner cerebral. En este documento se han analizado muchos modelos profundos. En términos de método de clasificación, las CNN se

han utilizado con mayor frecuencia, con precisiones mejor informadas en esta área en comparación con otros modelos profundos. Como

objetivo final de un sistema de detección de DA, se prefiere un enfoque longitudinal multimodal automático. Sin embargo,

independientemente del sistema de detección de AD final, aún deben resolverse los problemas de sobreajuste relacionados con el

conjunto de datos.

Declaración de intereses

Los autores declaran que no tienen intereses económicos en competencia o relaciones personales conocidas que

puedan haber influido en el trabajo informado en este documento.

38
Referencias

[1] S. Klöppel et al., "Precisión del diagnóstico de demencia: una comparación directa entre radiólogos y un
método computarizado", Cerebro, vol. 131, no. 11, págs.2969-2974, 2008.
[2] Alzheimer's Association, "Datos y cifras de la enfermedad de Alzheimer: incluye un informe especial sobre los
beneficios económicos y personales del diagnóstico temprano", 2018.
[3] F. Falahati, E. Westman y A. Simmons, "Análisis de datos multivariados y aprendizaje automático en la
enfermedad de Alzheimer con un enfoque en la resonancia magnética estructural", Revista de la enfermedad
de Alzheimer, vol. 41, no. 3, págs. 685-708, 2014.
[4] RC Petersen, GE Smith, SC Waring, RJ Ivnik, EG Tangalos y E. Kokmen, "Deterioro cognitivo
leve: caracterización clínica y resultado", Archivos de Neurología, vol. 56, no. 3, págs. 303-308,
1999.
[5] B. Dubois y ML Albert, "¿DCL amnésico o enfermedad de Alzheimer prodrómica?" The Lancet Neurology,
vol. 3, no. 4, págs. 246-248, 2004.
[6] JP Lerch et al., "Las mediciones automáticas del grosor cortical de la resonancia magnética pueden separar con precisión a los pacientes
con Alzheimer de los controles normales de edad avanzada", Neurobiología del Envejecimiento, vol. 29, no. 1, págs. 23-30, 2008.

[7] E. Gerardin et al., "La clasificación multidimensional de las características de la forma del hipocampo discrimina la
enfermedad de Alzheimer y el deterioro cognitivo leve del envejecimiento normal". Neuroimagen vol. 47, no. 4, págs.
1476-1486, 2009.
[8] S. Klöppel et al., "Clasificación automática de resonancias magnéticas en la enfermedad de Alzheimer", Cerebro, vol. 131, no. 3, págs.
681-689, 2008.
[9] G. McKhann, D. Drachman, M. Folstein, R. Katzman, D. Price y EM Stadlan, "Informe de diagnóstico clínico de la
enfermedad de Alzheimer del grupo de trabajo NINCDS-ADRDA bajo los auspicios del grupo de trabajo del
departamento de salud y servicios humanos sobre la enfermedad de Alzheimer " Neurología, vol. 34, no. 7, págs.
939-939, 1984.
[10] B. Dubois et al., "Criterios de investigación para el diagnóstico de la enfermedad de Alzheimer: revisión de los criterios
NINCDS-ADRDA", The Lancet Neurology, vol. 6, no. 8, págs. 734-746, 2007.
[11] RC Petersen, "El deterioro cognitivo leve como entidad de diagnóstico", Revista de Medicina Interna, vol.
256, no. 3, págs. 183-194, 2004.
[12] CR Jack Jr et al., "Introducción a las recomendaciones de los grupos de trabajo de la Asociación de Alzheimer del Instituto
Nacional sobre el Envejecimiento sobre pautas de diagnóstico para la enfermedad de Alzheimer", Alzheimer y
demencia, vol. 7, no. 3, págs. 257-262, 2011.
[13] GM McKhann et al., "El diagnóstico de demencia por enfermedad de Alzheimer: recomendaciones
de los grupos de trabajo del National Institute on Aging-Alzheimer's Association sobre pautas de diagnóstico para la
enfermedad de Alzheimer ", Alzheimer y demencia, vol. 7, no. 3, págs. 263-269, 2011.
[14] MS Albert et al., "El diagnóstico de deterioro cognitivo leve debido a la enfermedad de Alzheimer: recomendaciones
de los grupos de trabajo del Instituto Nacional sobre el Envejecimiento-Asociación de Alzheimer sobre las
pautas de diagnóstico para la enfermedad de Alzheimer", Alzheimer y demencia, vol. 7, no. 3, págs. 270-279,
2011.
[15] NOSOTROS Klunk et al., "Imágenes de amiloide cerebral en la enfermedad de Alzheimer con el compuesto B de
Pittsburgh",Annals of Neurology: Revista oficial de la Asociación Americana de Neurología y la Sociedad de
Neurología Infantil, vol. 55, no. 3, págs. 306-319, 2004.
[16] CR Jack Jr et al., "Las medidas de beta-amiloide cerebral y la atrofia de la resonancia magnética predicen el tiempo
de progresión desde un deterioro cognitivo leve hasta la enfermedad de Alzheimer", Cerebro, vol. 133, no. 11,
págs. 3336-3348, 2010.
[17] MC Carrillo et al., "Revisando el marco de los criterios de diagnóstico de la Asociación de Alzheimer del Instituto
Nacional sobre el Envejecimiento", Alzheimer y demencia, vol. 9, no. 5, págs. 594-601, 2013.
[18] MF Folstein, SE Folstein y PR McHugh, "―Mini-mental state‖: Un método práctico para calificar
el estado cognitivo de los pacientes para el médico ", Revista de investigación psiquiátrica, vol. 12, no. 3, págs.
189-198, 1975.
[19] JC Morris, "The Clinical Dementia Rating (CDR): versión actual y reglas de puntuación", Neurología,
vol. 43, no. 11, págs. 2412-2414, 1993.
[20] S. Leandrou, S. Petroudi, PA Kyriacou, CC Reyes-Aldasoro y CS Pattichis, "Quantitative MRI
estudios cerebrales en deterioro cognitivo leve y enfermedad de Alzheimer: una revisión metodológica, "
Revisiones IEEE en Ingeniería Biomédica, vol. 11, págs.97-111, 2018.
[21] J. Mattila et al., "Optimización del diagnóstico de la enfermedad de Alzheimer temprana en casos de deterioro cognitivo leve
asignaturas," Revista de la enfermedad de Alzheimer, vol. 32, no. 4, págs. 969-979, 2012.

39
[22] A. Lim et al., "Correlación clínico-neuropatológica de la enfermedad de Alzheimer en una comunidad
series de casos," Revista de la Sociedad Estadounidense de Geriatría, vol. 47, no. 5, págs. 564-569, 1999.
[23] H. Petrovitch et al., "Precisión de los criterios clínicos para la EA en el Estudio de envejecimiento de Honolulu-Asia, un
estudio basado en la población", Neurología, vol. 57, no. 2, págs. 226-234, 2001.
[24] A. Kazee, T. Eskin, L. Lapham, K. Gabriel, K. McDaniel y R. Hamill, "correlatos clínico-patológicos
en la enfermedad de Alzheimer: evaluación de los criterios diagnósticos clínicos y patológicos ", Enfermedad de Alzheimer y
trastornos asociados, 1993.
[25] EE Bron et al., "Evaluación estandarizada de algoritmos para el diagnóstico asistido por computadora de la demencia
basada en resonancia magnética estructural: el desafío CADDementia", NeuroImage, vol. 111, págs. 562-579, 2015.
[26] M. Prince, R. Bryce, E. Albanese, A. Wimo, W. Ribeiro y CP Ferri, "The global prevalence of
demencia: una revisión sistemática y un metaanálisis ", Alzheimer y demencia, vol. 9, no. 1, págs. 63-75. , 2013.

[27] Oficina de Estadísticas de Australia, "Causas de muerte, Australia, 2015", 2016.


[28] MD Hurd, P. Martorell, A. Delavande, KJ Mullen y KM Langa, "Costes monetarios de la demencia
en los Estados Unidos," Revista de Medicina de Nueva Inglaterra, vol. 368, no. 14, págs. 1326-1334, 2013.
[29] F. Mangialasche, A. Solomon, B. Winblad, P. Mecocci y M. Kivipelto, "Enfermedad de Alzheimer: ensayos
clínicos y desarrollo de fármacos", The Lancet Neurology, vol. 9, no. 7, págs. 702-716, 2010.
[30] M. Prince, R. Bryce y C. Ferri, "Informe mundial sobre el Alzheimer 2011: Los beneficios del diagnóstico temprano y
intervención, "Alzheimer's Disease International2011.
[31] S. Paquerault, "Batalla contra la enfermedad de Alzheimer: el alcance y el valor potencial de las
biomarcadores de imágenes de resonancia, " Radiología académica, vol. 19, no. 5, págs. 509-511, 2012.
[32] Y. Kazemi y SK Houghten, "Un proceso de aprendizaje profundo para clasificar las diferentes etapas de la enfermedad de Alzheimer a
partir de datos de resonancia magnética funcional", en Actas de la Conferencia IEEE sobre Inteligencia Computacional en
Bioinformática y Biología Computacional (CIBCB), 2018 págs. 1-8.
[33] A. Khan y M. Usman, "Diagnóstico temprano de la enfermedad de Alzheimer mediante técnicas de aprendizaje automático:
un artículo de revisión", en Actas de la 7ª Conferencia conjunta internacional sobre descubrimiento del conocimiento,
ingeniería del conocimiento y gestión del conocimiento (IC3K), 2015, vol. 1, págs. 380-387.
[34] C. Zheng, Y. Xia, Y. Pan y J. Chen, "Identificación automatizada de la demencia mediante imágenes médicas: una encuesta
desde una perspectiva de clasificación de patrones", Informática del cerebro, vol. 3, no. 1, págs. 17-27, 2016.
[35] R. Cuingnet et al., "Clasificación automática de pacientes con enfermedad de Alzheimer a partir de resonancia magnética estructural:
una comparación de diez métodos utilizando la base de datos ADNI", Neuroimagen vol. 56, no. 2, págs. 766-781, 2011.

[36] RV Marinescu et al., "Desafío TADPOLE: predicción de la evolución longitudinal en la enfermedad de Alzheimer",
preimpresión de arXiv arXiv: 1805.03909, 2018.
[37] GI Allen et al., "Estimación colaborativa del deterioro cognitivo y la resiliencia en la enfermedad de Alzheimer",
Alzheimer y demencia, vol. 12, no. 6, págs.645-653, 2016.
[38] A. Sarica, A. Cerasa, A. Quattrone y V. Calhoun, "Un desafío de neuroimagen de aprendizaje automático para
diagnóstico automático de deterioro cognitivo leve " Métodos de neurociencia, vol. 302, págs. 10-13, 2016.
[39] MI Razzak, S. Naz y A. Zaib, "Aprendizaje profundo para el procesamiento de imágenes médicas: descripción
general, desafíos y futuro", en Clasificación en BioApps: Springer, 2018, págs. 323-350.
[40] J. Ker, L. Wang, J. Rao y T. Lim, "Aplicaciones de aprendizaje profundo en el análisis de imágenes médicas", Acceso
IEEE, vol. 6, págs.9375-9389, 2018.
[41] D. Shen, G. Wu y H.-I. Suk, "Aprendizaje profundo en el análisis de imágenes médicas",Revisión anual de
ingeniería biomédica, vol. 19, págs. 221-248, 2017.
[42] G. Litjens et al., "Una encuesta sobre el aprendizaje profundo en el análisis de imágenes médicas", Análisis de imágenes médicas, vol.
42, págs. 60-88, 2017.
[43] S. Liu, S. Liu, W. Cai, S. Pujol, R. Kikinis y D. Feng, "Diagnóstico temprano de la enfermedad de Alzheimer con
aprendizaje profundo", en Actas del XI Simposio Internacional de Imágenes Biomédicas (ISBI) del IEEE,
2014, págs. 1015-1018.
[44] S. Liu et al., "Aprendizaje de funciones de neuroimagen multimodal para el diagnóstico multiclase de la enfermedad de
Alzheimer", Transacciones IEEE sobre ingeniería biomédica, vol. 62, no. 4, págs. 1132-1140, 2015.
[45] D. Jha y G. Kwon, "Detección de la enfermedad de Alzheimer mediante un autocodificador escaso, gradiente conjugado de
escala y capa de salida softmax con ajuste fino", Revista Internacional de Computación y Aprendizaje Automático, vol.
7, no. 1, págs.13-17, 2017.
[46] C. Hu, R. Ju, Y. Shen, P. Zhou y Q. Li, "Apoyo a las decisiones clínicas para la enfermedad de Alzheimer basado
en el aprendizaje profundo y la red cerebral", en Actas de la Conferencia Internacional de
Comunicaciones de IEEE (ICC), 2016, págs. 1-6.
[47] R. Ju, C. Hu y Q. Li, "Diagnóstico temprano de la enfermedad de Alzheimer basado en redes cerebrales en estado de reposo
y aprendizaje profundo " Transacciones IEEE / ACM sobre biología computacional y bioinformática (TCBB),vol.
16, no. 1, págs. 244-257, 2019.

40
[48] CV Dolph, M. Alam, Z. Shboul, MD Samad y KM Iftekharuddin, "Aprendizaje profundo de la textura
y características estructurales para la clasificación multiclase de la enfermedad de Alzheimer ", en Actas de la
Conferencia conjunta internacional sobre redes neuronales (IJCNN), 2017, págs. 2259-2266.
[49] D. Lu, K. Popuri, GW Ding, R. Balachandar, MF Beg y la neuroimagen de la enfermedad de Alzheimer
Iniciativa, "Análisis basado en redes neuronales profundas multiescala de imágenes FDG-PET para el diagnóstico precoz de la
enfermedad de Alzheimer", Análisis de imágenes médicas, vol. 46, págs.26-34, 2018.
[50] F. Li, L. Tran, K.-H. Thung, S. Ji, D. Shen y J. Li, "Aprendizaje profundo robusto para una clasificación mejorada de
pacientes con EA / DCL", enActas del Taller internacional sobre aprendizaje automático en imágenes médicas,
2014, págs. 240-247.
[51] X. Li, Y. Li y X. Li, "Predicción de los resultados clínicos de la enfermedad de Alzheimer a partir de redes
cerebrales complejas", en Actas de la Conferencia Internacional sobre Minería de Datos y Aplicaciones
Avanzadas, 2017, págs. 519-525.
[52] K. Gunawardena, R. Rajapakse y N. Kodikara, "Aplicación de redes neuronales convolucionales para pre
detección de la enfermedad de Alzheimer a partir de datos de resonancia magnética estructural, "en Actas de la 24a
Conferencia Internacional sobre Mecatrónica y Visión Artificial en la Práctica (M2VIP), 2017, págs. 1-7.
[53] M. Faturrahman, I. Wasito, N. Hanifah y R. Mufidah, "Clasificación de resonancia magnética estructural para la detección de la
enfermedad de Alzheimer utilizando una red de creencias profundas", en Actas de la 11a Conferencia Internacional sobre
Tecnología y Sistemas de Información y Comunicación (ICTS), 2017, págs. 37-42.
[54] H.-I. Suk y D. Shen, "Red de regresión dispersa de conjunto profundo para el diagnóstico de la enfermedad de Alzheimer",
en Actas del Taller internacional sobre aprendizaje automático en imágenes médicas, 2016, págs.
113-121.
[55] H.-I. Suk, S.-W. Lee, D. Shen y la Iniciativa de neuroimagen de la enfermedad de Alzheimer, "Deep ensemble
aprendizaje de modelos de regresión dispersos para el diagnóstico de enfermedades cerebrales ", Análisis de imágenes médicas, vol. 37,
págs.101-113, 2017.
[56] C. Feng, A. Elazab, P. Yang, T. Wang, B. Lei y X. Xiao, "Red neuronal convolucional 3D y red neuronal
recurrente bidireccional apilada para el diagnóstico de la enfermedad de Alzheimer", en Actas del Taller
internacional sobre inteligencia predictiva en medicina, 2018, págs. 138-146.
[57] M. Shakeri, H. Lombaert, S. Tripathi, S. Kadoury y la neuroimagen de la enfermedad de Alzheimer
Iniciativa, "Características de formas basadas en espectros profundos para la clasificación de la enfermedad de Alzheimer", en
Actas del Taller internacional sobre análisis espectral y de formas en imágenes médicas, 2016, págs.15-24.
[58] Y. Chen, B. Shi, CD Smith y J. Liu, "Transformación de características no lineales y fusión profunda para el análisis de
estadificación de la enfermedad de Alzheimer", en Actas del Taller internacional sobre aprendizaje automático
en imágenes médicas, 2015, págs. 304-312.
[59] B. Shi, Y. Chen, P. Zhang, CD Smith, J. Liu y la Iniciativa de neuroimagen de la enfermedad de Alzheimer,
"Transformación de características no lineales y fusión profunda para el análisis de estadificación de la enfermedad de Alzheimer", Reconocimiento
de patrones, vol. 63, págs. 487-498, 2017.
[60] A. Ortiz, J. Munilla, FJ Martínez-Murcia, JM Górriz, J. Ramírez, y la Iniciativa de neuroimagen de la enfermedad de Alzheimer,
"Aprendizaje de patrones longitudinales de resonancia magnética por SICE y aprendizaje profundo: evaluación de la
progresión de la enfermedad de Alzheimer", en Actas de la Conferencia Anual sobre Comprensión y Análisis de
Imágenes Médicas, 2017, págs. 413-424: Springer.
[61] P. Brereton, BA Kitchenham, D. Budgen, M. Turner y M. Khalil, "Lecciones de la aplicación de
proceso de revisión sistemática de la literatura dentro del dominio de la ingeniería de software, " Revista de sistemas y
software, vol. 80, no. 4, págs. 571-583, 2007.
[62] B. Kitchenham y S. Charters, "Directrices para realizar revisiones sistemáticas de la literatura en ingeniería de
software", Universidad de Keele y Universidad de Durham, 2007.
[63] B. Kitchenham, "Procedimientos para realizar revisiones sistemáticas", Keele University & Empirical
Ingeniería de software National ICT Australia Ltd, 2004.
[64] M. Hosni, I. Abnane, A. Idri, JMC de Gea y JLF Alemán, "Revisión de métodos de clasificación por conjuntos en
cáncer de mama", Métodos y programas informáticos en biomedicina, vol. 177, págs.89-112, 2019.

[65] HM Aljaroodi, MT Adam, R. Chiong y T. Teubner, "Avatares y agentes encarnados en la investigación de


sistemas de información experimentales: una revisión sistemática y un marco conceptual",Revista
Australasia de Sistemas de Información, vol. 23, 2019.
[66] C. Jack et al., "Comparación de diferentes medidas de tasa de atrofia cerebral por resonancia magnética con la progresión de la
enfermedad clínica en la EA", Neurología, vol. 62, no. 4, págs. 591-600, 2004.
[67] T. Zhou, K.-H. Thung, X. Zhu y D. Shen, "Aprendizaje de características y fusión de neuroimagen multimodal y
datos genéticos para el diagnóstico de demencia en múltiples estados", enActas del Taller internacional
sobre aprendizaje automático en imágenes médicas, 2017, págs. 132-140: Springer.

41
[68] T. Zhou, KH Thung, X. Zhu y D. Shen, "Aprendizaje efectivo de características y fusión de multimodalidad
datos que utilizan una red neuronal profunda por etapas para el diagnóstico de demencia ", Cartografía del cerebro humano, vol. 40, no.
3, págs. 1001-1016, 2019.
[69] H.-I. Suk y D. Shen, "Representación de características basada en el aprendizaje profundo para la clasificación AD / MCI", en
Actas de la Conferencia Internacional sobre Computación de Imágenes Médicas e Intervención Asistida por
Computadora, 2013, págs. 583-590.
[70] H.-I. Suk, S.-W. Lee, D. Shen y la Iniciativa de neuroimagen de la enfermedad de Alzheimer, "Aprendizaje profundo y disperso de
múltiples tareas para la selección de funciones en el diagnóstico de la enfermedad de Alzheimer",Estructura y función del
cerebro, vol. 221, no. 5, págs. 2569-2587, 2016.
[71] H.-I. Suk, S.-W. Lee, D. Shen y la Iniciativa de neuroimagen de la enfermedad de Alzheimer, "Característica latente
representación con codificador automático apilado para diagnóstico AD / MCI, " Estructura y función del cerebro, vol.
220, no. 2, págs. 841-859, 2015.
[72] J.-S. Choi, E. Lee y H.-I. Suk, "Aprendizaje de representación de anomalías regionales en la resonancia magnética estructural
para el diagnóstico de EA / DCL", enActas del Taller internacional sobre aprendizaje automático en imágenes médicas,
2018, págs.64-72.
[73] H.-I. Suk, S.-W. Lee, D. Shen y la Iniciativa de neuroimagen de la enfermedad de Alzheimer, "Hierarchical
representación de funciones y fusión multimodal con aprendizaje profundo para el diagnóstico de EA / DCL " NeuroImage,vol.
101, págs. 569-582, 2014.
[74] H.-I. Suk, C.-Y. Wee, S.-W. Lee y D. Shen, "Modelo de espacio de estado con aprendizaje profundo para
estimación de la dinámica en la resonancia magnética funcional en estado de reposo ", NeuroImage, vol. 129, págs. 292-307, 2016.

[75] K. Aderghal, J. Benois-Pineau y K. Afdel, "Clasificación de sMRI para el diagnóstico de la enfermedad de Alzheimer
con CNN: redes siameses simples con enfoque 2D + ϵ y fusión en ADNI", en Actas de la Conferencia
Internacional ACM sobre Recuperación Multimedia, 2017, págs. 494-498.
[76] K. Aderghal, J. Benois-Pineau, K. Afdel y C. Gwenaëlle, "FuseMe: Clasificación de imágenes sMRI por fusión de
CNN profundas en proyecciones 2D + ϵ", en Actas del XV Taller internacional sobre indexación
multimedia basada en contenido, 2017, pág. 34.
[77] K. Aderghal, M. Boissenin, J. Benois-Pineau, G. Catheline y K. Afdel, "Clasificación de sMRI para el diagnóstico de EA
con redes neuronales convolucionales: un estudio piloto 2D + ϵ sobre ADNI", en Actas de la Conferencia
Internacional sobre Modelado Multimedia, 2017, págs. 690-701.
[78] K. Aderghal, A. Khvostikov, A. Krylov, J. Benois-Pineau, K. Afdel y G. Catheline, "Clasificación de la enfermedad de Alzheimer
en modalidades de imagen con CNN profundas utilizando aprendizaje de transferencia intermodal", enActas del 31 °
Simposio internacional de IEEE sobre sistemas médicos basados en computadora (CBMS), 2018, págs. 345-350.

[79] A. Khvostikov, K. Aderghal, J. Benois-Pineau, A. Krylov y G. Catheline, "Clasificación 3D basada en CNN que
utiliza imágenes sMRI y MD-DTI para estudios de la enfermedad de Alzheimer". preimpresión de arXiv
arXiv: 1801.05968, 2018.
[80] A. Khvostikov, K. Aderghal, A. Krylov, G. Catheline y J. Benois-Pineau, "CNN basado en 3D Inception con fusión de
datos de sMRI y MD-DTI para el diagnóstico de la enfermedad de Alzheimer", preimpresión de arXiv arXiv:
1809.03972, 2018.
[81] D. Cheng y M. Liu, "Clasificación multimodal basada en CNN para el diagnóstico de EA", en Proceedings of
el X Congreso Internacional de Procesamiento de Imágenes y Señales, Ingeniería Biomédica e
Informática (CISP-BMEI), 2017, pp. 1-5.
[82] D. Cheng y M. Liu, "Clasificación de la enfermedad de Alzheimer por neural convolucional en cascada
redes que utilizan imágenes PET, "en Actas del Taller internacional sobre aprendizaje automático en imágenes
médicas, 2017, págs. 106-113.
[83] M. Liu, D. Cheng, K. Wang, Y. Wang, y la Iniciativa de neuroimagen de la enfermedad de Alzheimer, "Redes
neuronales convolucionales en cascada multimodal para el diagnóstico de la enfermedad de Alzheimer",
Neuroinformática, vol. 16, págs. 295-308, 2018.
[84] F. Li, D. Cheng y M. Liu, "Clasificación de la enfermedad de Alzheimer basada en la combinación de varios modelos
redes convolucionales, "en Actas de la Conferencia Internacional IEEE sobre Sistemas y Técnicas de
Imágenes (IST), 2017, págs. 1-5.
[85] D. Cheng y M. Liu, "Combinación de redes neuronales convolucionales y recurrentes para el diagnóstico de la
enfermedad de Alzheimer mediante imágenes PET", en Actas de la Conferencia Internacional IEEE sobre
Sistemas y Técnicas de Imágenes (IST), 2017, págs. 1-5.
[86] M. Liu, D. Cheng y W. Yan, "Clasificación de la enfermedad de Alzheimer por combinación de convolución
y redes neuronales recurrentes que utilizan imágenes FDG-PET ", Fronteras en neuroinformática, vol. 12 de 2018, art.
No. 35.
[87] J. Shi, X. Zheng, Y. Li, Q. Zhang y S. Ying, "Aprendizaje de características de neuroimagen multimodal con redes polinomiales
profundas apiladas multimodales para el diagnóstico de la enfermedad de Alzheimer", IEEE Journal of Biomedical and
Health Informatics, vol. 22, no. 1, págs.173-183, 2018.

42
[88] R. Cui, M. Liu y G. Li, "Análisis longitudinal para el diagnóstico de la enfermedad de Alzheimer utilizando RNN", en
Actas del 15 ° Simposio Internacional de Imágenes Biomédicas de IEEE (ISBI) 2018,
págs.1398-1401.
[89] G. Lee, K. Nho, B. Kang, K.-A. Sohn y D. Kim, "Predicción de la progresión de la enfermedad de Alzheimer mediante un
enfoque de aprendizaje profundo multimodal",Informes científicos, vol. 9, no. 1, 2019, art. No. 1952.
[90] B. Kitchenham, OP Brereton, D. Budgen, M. Turner, J. Bailey y S. Linkman, "Systematic
revisiones de la literatura en ingeniería de software: una revisión sistemática de la literatura " Tecnología de la información y el
software, vol. 51, no. 1, págs. 7 a 15, 2009.
[91] JV Hacker, M. Johnson, C. Saunders y AL Thayer, "Confianza en equipos virtuales: un enfoque multidisciplinario
revisión e integración " Revista Australasia de Sistemas de Información, vol. 23, 2019.
[92] C. Lian, M. Liu, J. Zhang y D. Shen, "Red jerárquica totalmente convolucional para la atrofia articular
localización y diagnóstico de la enfermedad de Alzheimer mediante resonancia magnética estructural ", Transacciones IEEE sobre
análisis de patrones e inteligencia de máquinas, 2018.
[93] D. Lu, K. Popuri, GW Ding, R. Balachandar y MF Beg, "Neural profundo multimodal y multiescala
redes para el diagnóstico precoz de la enfermedad de Alzheimer mediante imágenes de resonancia magnética estructural y FDG-PET ",
Informes científicos, vol. 8, no. 1, 2018, art. No. 5697.
[94] M. Liu, J. Zhang, E. Adeli y D. Shen, "Aprendizaje profundo en múltiples instancias basado en puntos de referencia para el diagnóstico de
enfermedades cerebrales", Análisis de imágenes médicas, vol. 43, págs.157-168, 2018.
[95] M. Liu, J. Zhang, D. Nie, P.-T. Yap y D. Shen, "Característica profunda basada en hitos anatómicos
representación de imágenes de resonancia magnética en el diagnóstico de enfermedades cerebrales ", IEEE Journal of Biomedical and
Health Informatics, vol. 22, no. 5, págs.1476-1485, 2018.
[96] J. Liu et al., "Aplicaciones del aprendizaje profundo a las imágenes de resonancia magnética: una encuesta", Minería y análisis de Big Data,
vol. 1, no. 1, págs.1 a 18, 2018.
[97] Z. Akkus, A. Galimzianova, A. Hoogi, DL Rubin y BJ Erickson, "Aprendizaje profundo para resonancia magnética cerebral
segmentación: estado del arte y direcciones futuras " Revista de imágenes digitales, vol. 30, no. 4, págs.
449-459, 2017.
[98] Y. Chen, H. Jia, Z. Huang y Y. Xia, "Identificación temprana de la enfermedad de Alzheimer mediante un conjunto de
redes neuronales convolucionales 3D e imágenes de resonancia magnética", en Actas de la Conferencia
internacional sobre sistemas cognitivos inspirados en el cerebro, 2018, págs.303-311.
[99] C. Zheng, Y. Xia, Y. Chen, X. Yin y Y. Zhang, "Diagnóstico precoz de la enfermedad de Alzheimer mediante
aprendizaje profundo conjunto con FDG-PET", en Actas de la Conferencia Internacional sobre Ciencia
Inteligente e Ingeniería de Big Data, 2018, págs.614-622.
[100] P. Bhatkoti y M. Paul, "Diagnóstico temprano de la enfermedad de Alzheimer: un aprendizaje profundo de varias clases
marco con clasificación k-sparse autoencoder modificada, "en Actas de la Conferencia Internacional
sobre Computación de Imagen y Visión de Nueva Zelanda (IVCNZ), 2016, págs. 1-5.
[101] L. Cai, Z. Wang, H. Gao, D. Shen y S. Ji, "Aprendizaje adversario profundo para completar datos faltantes en múltiples
modalidades", en Actas de la 24a Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y
Minería de Datos, 2018, págs. 1158-1166.
[102] A. Karwath, M. Hubrich, S. Kramer y la Iniciativa de neuroimagen de la enfermedad de Alzheimer,
"Redes neuronales convolucionales para la identificación de regiones de interés en las exploraciones PET: un estudio del
aprendizaje de la representación para el diagnóstico de la enfermedad de Alzheimer", en Actas de la conferencia sobre
inteligencia artificial en medicina en Europa, 2017, págs. 316-321.
[103] M. Liu, J. Zhang, E. Adeli y D. Shen, "Aprendizaje profundo multicanal multitarea para
clasificación y regresión del estado cerebral, "en Actas de la Conferencia Internacional sobre Computación de
Imágenes Médicas e Intervención Asistida por Computadora, 2017, págs. 3-11.
[104] JG Sled, AP Zijdenbos y AC Evans, "Un método no paramétrico para la corrección automática de
no uniformidad de intensidad en los datos de resonancia magnética, " Transacciones IEEE sobre imágenes médicas, vol. 17, no. 1, págs. 87-97, 1998.

[105] CR Jack Jr et al., "Seguimiento de los procesos fisiopatológicos en la enfermedad de Alzheimer: un modelo
hipotético actualizado de biomarcadores dinámicos", The Lancet Neurology, vol. 12, no. 2, págs.207-216, 2013.
[106] T.-D. Vu, N.-H. Ho, H.-J. Yang, J. Kim y H.-C. Song, "Extracción de tejido de materia no blanca y red neuronal convolucional
profunda para la detección de la enfermedad de Alzheimer",Computación blanda, vol. 22, no. 20, págs.6825-6833,
2018.
[107] AM Taqi, A. Awad, F. Al-Azzo y M. Milanova, "El impacto de los optimizadores múltiples y el aumento de
datos en el rendimiento de la red neuronal convolucional TensorFlow", en Actas de la Conferencia IEEE
sobre procesamiento y recuperación de información multimedia (MIPR), 2018, págs.140-145.
[108] J. Qiao, Y. Lv, C. Cao, Z. Wang y A. Li, "Clasificación multivariante de aprendizaje profundo de la enfermedad de Alzheimer basada en
el análisis de componentes independientes de coincidencia de socios jerárquicos", Fronteras en el envejecimiento de la
neurociencia, vol. 10, 2018, art. No. 417.

43
[109] A. Ortiz, J. Munilla, JM Gorriz y J. Ramirez, "Conjuntos de arquitecturas de aprendizaje profundo para
diagnóstico precoz de la enfermedad de Alzheimer " Revista internacional de sistemas neuronales, vol. 26, no. 07,
2016.
[110] A. Farooq, S. Anwar, M. Awais y S. Rehman, "Una clasificación profunda de múltiples clases basada en CNN de la
enfermedad de Alzheimer mediante resonancia magnética", en Actas de la Conferencia Internacional IEEE sobre
Sistemas y Técnicas de Imágenes (IST), 2017, págs. 1-6.
[111] A. Valliani y A. Soni, "Redes residuales profundas para mejorar el diagnóstico de Alzheimer", en Proceedings of
la 8a Conferencia Internacional ACM sobre Bioinformática, Biología Computacional e Informática de la
Salud, 2017, págs. 615-615.
[112] A. Farooq, S. Anwar, M. Awais y M. Alnowami, "Diagnóstico inteligente basado en inteligencia artificial de la
enfermedad de Alzheimer y deterioro cognitivo leve", en Actas de la Conferencia de Ciudades Internacionales
Inteligentes (ISC2), 2017, págs. 1-4.
[113] V. Wegmayr y D. Haziza, "Clasificación de Alzheimer con imágenes de RM: exploración de los factores de
rendimiento de CNN", en Actas de la primera conferencia sobre imágenes médicas con aprendizaje profundo
(MIDL), 2018, págs.1 a 7.
[114] S. Sarraf y G. Tofighi, "Clasificación de los datos de resonancia magnética estructural de la enfermedad de Alzheimer mediante redes
neuronales convolucionales de aprendizaje profundo", preimpresión de arXiv arXiv: 1607.06583, 2016.
[115] S. Sarraf y G. Tofighi, "DeepAD: clasificación de la enfermedad de Alzheimer a través de neuronas convolucionales profundas
redes que utilizan resonancia magnética y resonancia magnética funcional, " bioRxiv 070441, pags. 070441, 2016.

[116] S. Sarraf y G. Tofighi, "Clasificación de la enfermedad de Alzheimer utilizando datos de resonancia magnética funcional y redes neuronales
convolucionales de aprendizaje profundo", preimpresión arXiv arXiv: 1603.08631, 2016.
[117] S. Sarraf y G. Tofighi, "Canalización basada en el aprendizaje profundo para reconocer la enfermedad de Alzheimer mediante fMRI
datos, "en Actas de la Conferencia de Tecnologías Futuras (FTC), 2016, págs. 816-820.
[118] S. Qiu, GH Chang, M. Panagia, DM Gopal, R. Au y VB Kolachalama, "Fusion of deep
los modelos de aprendizaje de resonancias magnéticas, el miniexamen del estado mental y la prueba de memoria lógica
mejoran el diagnóstico de deterioro cognitivo leve ", Alzheimer y demencia: diagnóstico, evaluación y seguimiento de
enfermedades, vol. 10, págs.737-749, 2018.
[119] S. Luo, X. Li y J. Li, "Reconocimiento automático de la enfermedad de Alzheimer a partir de datos de resonancia magnética
método de aprendizaje " Revista de Física y Matemáticas Aplicadas, vol. 5, no. 09 de 2017, art. No. 1892.
[120] M. Hon y N. Khan, "Hacia la clasificación de la enfermedad de Alzheimer a través del aprendizaje por
transferencia", enActas de la Conferencia Internacional IEEE sobre Bioinformática y Biomedicina (BIBM), 2017,
págs. 1166-1169.
[121] R. Jain, N. Jain, A. Aggarwal y DJ Hemanth, "Clasificación de la enfermedad de Alzheimer basada en redes neuronales
convolucionales a partir de imágenes cerebrales por resonancia magnética", Investigación de sistemas cognitivos, vol. 57,
págs.147-159, 2019.
[122] C. Wu et al., "Predicción de discriminación y conversión de deterioro cognitivo leve mediante redes
neuronales convolucionales", Imagen cuantitativa en medicina y cirugía, vol. 8, no. 10, págs. 992–
1003, 2018.
[123] CD Billones, OJLD Demetria, DED Hostallero y PC Naval, "DemNet: A convolutional
red neuronal para la detección de la enfermedad de Alzheimer y el deterioro cognitivo leve, "en
Actas de la Conferencia IEEE Región 10 (TENCON), 2016, págs. 3724-3727.
[124] A. Moussavi-Khalkhali, M. Jamshidi y S. Wijemanne, "Fusión de funciones para autoencoders denoising y
dispersos: aplicación a datos de neuroimagen", en Actas de la 15a Conferencia Internacional IEEE sobre
Aplicaciones y Aprendizaje Automático (ICMLA), 2016, págs. 605-610.
[125] J. Islam e Y. Zhang, "Redes neuronales convolucionales profundas para el diagnóstico automático de la enfermedad de
Alzheimer y deterioro cognitivo leve mediante resonancia magnética cerebral en 3D", en Actas de la Conferencia
Internacional sobre Informática Cerebral, 2018, págs. 359-369.
[126] H. Tang, E. Yao, G. Tan y X. Guo, "Un sistema neuronal convolucional de ajuste fino 3D rápido y preciso
red para el diagnóstico de la enfermedad de Alzheimer ", en Actas de la Conferencia Internacional CCF sobre
Inteligencia Artificial, 2018, págs.115-126.
[127] S.-H. Wang, P. Phillips, Y. Sui, B. Liu, M. Yang y H. Cheng, "Clasificación de la enfermedad de Alzheimer basada en una red
neuronal convolucional de ocho capas con unidad lineal rectificada con fugas y agrupación máxima",
Revista de sistemas médicos, vol. 42, no. 5, pág. 85, 2018.
[128] L. Gao et al., "Diagnóstico de enfermedades cerebrales utilizando características de aprendizaje profundo a partir de imágenes de
RM longitudinales", en Actas de la Conferencia internacional conjunta sobre Web y Big Data Asia-Pacific Web (APWeb)
y Web-Age Information Management (WAIM) 2018, págs. 327-339.
[129] J. Islam y Y. Zhang, "Análisis de resonancia magnética cerebral para el diagnóstico de la enfermedad de Alzheimer utilizando un conjunto
sistema de redes neuronales convolucionales profundas ", Informática del cerebro, vol. 5, no. 2, págs.1 a 14, 2018.
[130] W. Lin et al., "Análisis de imágenes de resonancia magnética basado en redes neuronales convolucionales para la predicción de la enfermedad
de Alzheimer a partir de un deterioro cognitivo leve", Fronteras en neurociencia, vol. 12 de 2018, art. No. 777.

44
[131] N. Tzourio-Mazoyer et al., "Etiquetado anatómico automatizado de activaciones en SPM utilizando un macroscópico
parcelación anatómica del cerebro de un solo sujeto MNI MRI, " Neuroimagen vol. 15, no. 1, págs. 273-289,
2002.
[132] NJ Kabani, DJ MacDonald, CJ Holmes y AC Evans, "Atlas anatómico 3D del cerebro humano",
NeuroImage, vol. 7, no. 4, pág. S717, 1998.
[133] X. Zheng, J. Shi, Y. Li, X. Liu y Q. Zhang, "Red polinomial profunda apilada multimodal basada
aprendizaje de funciones para el diagnóstico de la enfermedad de Alzheimer, "en Actas del 13 ° Simposio
Internacional de Imágenes Biomédicas de IEEE (ISBI), 2016, págs. 851-854: IEEE.
[134] J. Kim y B. Lee, "Identificación de la enfermedad de Alzheimer y deterioro cognitivo leve utilizando una máquina de
aprendizaje extrema jerárquica dispersa multimodal", Cartografía del cerebro humano, vol. 39, no. 9,
págs.3728-3741, 2018.
[135] K.-H. Thung, P.-T. Yap y D. Shen, "Diagnóstico multietapa de la enfermedad de Alzheimer con datos multimodales incompletos a
través del aprendizaje profundo multitarea", enAprendizaje profundo en análisis de imágenes médicas y aprendizaje
multimodal para el apoyo a la toma de decisiones clínicas: Springer, 2017, págs. 160-168.
[136] S. Liu, S. Liu, W. Cai, S. Pujol, R. Kikinis y DD Feng, "Representación de características multifase
aprendizaje para el diagnóstico de enfermedades neurodegenerativas, "en Actas de la Conferencia de Australasia
sobre Vida Artificial e Inteligencia Computacional, 2015, págs. 350-359.
[137] F. Li, L. Tran, K.-H. Thung, S. Ji, D. Shen y J. Li, "Un modelo profundo robusto para una clasificación mejorada de
pacientes con EA / DCL",IEEE Journal of Biomedical and Health Informatics, vol. 19, no. 5, págs.1610-1616, 2015.

[138] A. Majumdar y V. Singhal, "Aprendizaje de diccionario profundo ruidoso: aplicación a la clasificación de la


enfermedad de Alzheimer", en Actas de la Conferencia conjunta internacional sobre redes neuronales (IJCNN),
2017, págs. 2679-2683.
[139] Y. Wang et al., "Un novedoso análisis de resonancia magnética multimodal para la enfermedad de Alzheimer basado en
red neuronal, "en Actas de la 40a Conferencia Internacional Anual de la Sociedad de Ingeniería en
Medicina y Biología del IEEE (EMBC), 2018, págs. 754-757.
[140] D. Collazos-Huertas, A. Tobar-Rodríguez, D. Cárdenas-Peña y G. Castellanos-Dominguez, "MRI-
extracción de características basada en el uso de redes estocásticas generales supervisadas en el diagnóstico de
demencia, "enActas de la conferencia de trabajo internacional sobre la interacción entre la computación natural y la
artificial, 2017, págs. 363-373: Springer.
[141] R. Cui y M. Liu, "Análisis del hipocampo basado en 3D CNN para el diagnóstico de la enfermedad de Alzheimer", enActas de
la Décima Conferencia Internacional sobre Procesamiento de Imágenes Digitales (ICDIP), 2018, vol. 10806, pág.
108065O.
[142] N. Amoroso et al., "El aprendizaje profundo revela la aparición de la enfermedad de Alzheimer en sujetos con deterioro cognitivo leve: resultados de un
desafío internacional " Revista de métodos de neurociencia, vol. 302, págs. 3-9, 2018.
[143] F. Çitak-ER, D. Goularas y B. Ormeci, "Un nuevo modelo de red neuronal convolucional basado en la morfometría
de datos de imágenes basada en vóxeles para predecir el pronóstico de pacientes con deterioro cognitivo
leve", Revista de Ciencias Neurológicas, vol. 34, no. 1, págs. 52-69, 2017.
[144] A. Gupta, M. Ayhan y A. Maida, "Bases de imágenes naturales para representar datos de neuroimagen", enActas de
la Conferencia Internacional sobre Aprendizaje Automático, 2013, págs. 987-994.
[145] D. Cheng, M. Liu, J. Fu y Y. Wang, "Clasificación de imágenes cerebrales por RM mediante la combinación de múltiples CNN
para el diagnóstico de EA", en Actas de la Novena Conferencia Internacional sobre Procesamiento de Imágenes
Digitales (ICDIP), 2017, vol. 10420, pág. 1042042.
[146] TD Vu, H.-J. Yang, VQ Nguyen, A.-R. Oh, y M.-S. Kim, "Aprendizaje multimodal mediante red neuronal de
convolución y codificador automático disperso", enActas de la Conferencia Internacional IEEE sobre Big
Data y Computación Inteligente (BigComp), 2017, págs. 309-312.
[147] F. Li, M. Liu y la Iniciativa de neuroimagen de la enfermedad de Alzheimer, "Diagnóstico de la enfermedad de
Alzheimer basado en redes convolucionales densas de múltiples grupos", Imágenes y gráficos médicos
computarizados, vol. 70, págs.101-110, 2018.
[148] A. Punjabi, A. Martersteck, Y. Wang, TB Parrish y AK Katsaggelos, "Modalidad de neuroimagen
fusión en la clasificación de la enfermedad de Alzheimer utilizando redes neuronales convolucionales ", preimpresión de arXiv
arXiv: 1811.05105, 2018.
[149] A. Payan y G. Montana, "Predicción de la enfermedad de Alzheimer: un estudio de neuroimagen con redes
neuronales convolucionales 3D", preimpresión arXiv arXiv: 1502.02506, 2015.
[150] EM Ali, AF Seddik y MH Haggag, "Detección y clasificación automáticas de la enfermedad de Alzheimer por
resonancia magnética usando TANNN", Revista internacional de aplicaciones informáticas, vol. 148, no. 9,
págs.30-34, 2016.
[151] R. Wolz et al., "Análisis de múltiples métodos de imágenes de resonancia magnética en el diagnóstico temprano de la enfermedad de
Alzheimer",Más uno, vol. 6, no. 10, pág. e25446, 2011.

45
[152] Y. Fan, D. Shen, RC Gur, RE Gur y C. Davatzikos, "COMPARAR: Clasificación de
patrones morfológicos que utilizan elementos regionales adaptativos, " Transacciones IEEE sobre imágenes médicas,
vol. 26, no. 1, págs. 93-105, 2007.
[153] Y. Guo, Y. Liu, A. Oerlemans, S. Lao, S. Wu y MS Lew, "Aprendizaje profundo para la comprensión visual: una
revisión", Neurocomputación, vol. 187, págs.27 a 48, 2016.
[154] E. Hosseini-Asl, R. Keynto y A. El-Baz, "Diagnóstico de la enfermedad de Alzheimer por adaptación de la red
convolucional 3D", en Actas de la Conferencia Internacional IEEE sobre Procesamiento de Imágenes (ICIP),
2016, págs. 126-130.
[155] E. Hosseini-Asl, G. Gimel'farb y A. El-Baz, "Diagnóstico de la enfermedad de Alzheimer mediante una red convolucional 3D
adaptable profundamente supervisada", preimpresión arXiv arXiv: 1607.00556, 2016.
[156] R. Livni, S. Shalev-Shwartz y O. Shamir, "Un algoritmo para entrenar redes polinomiales", preimpresión arXiv
arXiv: 1304.7045, 2013.
[157] Y. LeCun et al., "Retropropagación aplicada al reconocimiento de códigos postales escritos a mano", Computación Neural,
vol. 1, no. 4, págs. 541-551, 1989.
[158] O. Russakovsky et al., "Desafío de reconocimiento visual a gran escala de Imagenet", Revista Internacional de Visión por
Computador, vol. 115, no. 3, págs. 211-252, 2015.
[159] Y. LeCun, L. Bottou, Y. Bengio y P. Haffner, "Aprendizaje basado en gradientes aplicado a documentos
reconocimiento," Actas del IEEE, vol. 86, no. 11, págs. 2278-2324, 1998.
[160] A. Krizhevsky, I. Sutskever y GE Hinton, "Clasificación de Imagenet con neuronal convolucional profunda
redes, " Avances en sistemas de procesamiento de información neuronal, págs. 1097-1105, 2012.
[161] Y. Jia et al., "Caffe: arquitectura convolucional para la incorporación rápida de funciones", en Actas de la 22a
Conferencia Internacional ACM sobre Multimedia, 2014, págs. 675-678.
[162] K. Simonyan y A. Zisserman, "Redes convolucionales muy profundas para el reconocimiento de imágenes a gran escala",
preimpresión de arXiv arXiv: 1409.1556, 2014.
[163] C. Szegedy et al., "Profundizando con las convoluciones", en Actas de la Conferencia IEEE sobre Visión por
Computador y Reconocimiento de Patrones, 2015, págs. 1-9.
[164] K. He, X. Zhang, S. Ren y J. Sun, "Aprendizaje residual profundo para el reconocimiento de imágenes", en Procedimientos de
la Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones, 2016, págs. 770-778.
[165] G. Huang, Z. Liu, L. Van Der Maaten y KQ Weinberger, "Densely connected convolutional
redes, "en Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones, 2017, vol. 1,
no. 2, págs. 4700-4708.
[166] C. Szegedy, S. Ioffe, V. Vanhoucke y AA Alemi, "Inception-v4, inception-resnet and the impact
de conexiones residuales en el aprendizaje, "en Actas de la 31.a Conferencia de la Asociación para el Avance de
la Inteligencia Artificial sobre Inteligencia Artificial (AAAI) 2017, vol. 4, pág. 12.
[167] A. García-García, S. Orts-Escolano, S. Oprea, V. Villena-Martínez y J. García-Rodríguez, "Una revisión sobre
técnicas de aprendizaje profundo aplicadas a la segmentación semántica", preimpresión de arXiv arXiv:
1704.06857, 2017.
[168] D. Su, H. Zhang, H. Chen, J. Yi, P.-Y. Chen y Y. Gao, "¿Es la solidez el costo de la precisión? Un estudio
completo sobre la solidez de 18 modelos de clasificación de imágenes profundas", enActas de la
Conferencia Europea de Visión por Computador (ECCV), 2018, págs.631-648.
[169] J. Fu y Y. Rui, "Avances en enfoques de aprendizaje profundo para etiquetado de imágenes", Transacciones de APSIPA sobre procesamiento de
señales e información, vol. 6 de diciembre de 2017.
[170] JM Ortiz-Suárez, R. Ramos-Pollán y E. Romero, "Exploring Alzheimer's anatomical patterns
a través de redes convolucionales, "en Actas del 12 ° Simposio internacional sobre procesamiento y
análisis de información médica, 2017, vol. 10160, pág. 10160Z.
[171] G. Awate, S. Bangare, G. Pradeepini y S. Patil, "Detección de la enfermedad de Alzheimer por resonancia magnética utilizando una
red neuronal convolucional con Tensorflow", preimpresión de arXiv arXiv: 1806.10170, 2018.
[172] J. Islam y Y. Zhang, "Un nuevo método de clasificación de clases múltiples basado en el aprendizaje profundo para la detección de la
enfermedad de Alzheimer utilizando datos de resonancia magnética del cerebro", en Actas de la Conferencia Internacional sobre
Informática Cerebral, 2017, págs. 213-222.
[173] J. Islam e Y. Zhang, "Un conjunto de redes neuronales convolucionales profundas para la detección y clasificación
de la enfermedad de Alzheimer", Póster aceptado en el taller NIPS 2017 sobre aprendizaje automático para la
salud, arXiv preprint arXiv: 1712.01675, 2017.
[174] S. Basaia et al., "Clasificación automatizada de la enfermedad de Alzheimer y el deterioro cognitivo leve utilizando una sola
resonancia magnética y redes neuronales profundas", NeuroImage: Clínica, vol. 21 de 2019, art. No. 101645.
[175] K. Bäckström, M. Nazari, IY-H. Gu y AS Jakola, "Una red convolucional profunda 3D eficiente
para el diagnóstico de la enfermedad de Alzheimer mediante imágenes de resonancia magnética, "en Actas del 15 ° Simposio
Internacional de Imágenes Biomédicas de IEEE (ISBI), 2018, págs. 149-153.
[176] E. Jabason, MO Ahmad y MS Swamy, "Red convolucional apilada basada en Shearlet para el diagnóstico multiclase
de la enfermedad de Alzheimer utilizando los datos de imágenes de amiloide PET Florbetapir", en

46
Actas de la 16a Conferencia Internacional de Nuevos Circuitos y Sistemas de IEEE (NEWCAS), 2018,
págs. 344-347.
[177] V. Wegmayr, S. Aitharaju y J. Buhmann, "Clasificación de resonancia magnética cerebral con big data y redes
neuronales convolucionales 3D profundas", en Actas de SPIE Medical Imaging 2018: diagnóstico asistido por
computadora, 2018, vol. 10575, pág. 10575S.
[178] SE Spasov, L. Passamonti, A. Duggento, P. Liò y N. Toschi, "A multimodal convolutional neural
marco de red para la predicción de la enfermedad de Alzheimer ", en Actas de la 40a Conferencia
Internacional Anual de la Sociedad de Ingeniería en Medicina y Biología del IEEE (EMBC), 2018, págs.
1271-1274.
[179] S. Spasov, L. Passamonti, A. Duggento, P. Lio, N. Toschi y la neuroimagen de la enfermedad de Alzheimer
Initiative, "Un enfoque de aprendizaje profundo con parámetros eficaces para predecir la conversión de un deterioro cognitivo
leve a la enfermedad de Alzheimer". Neuroimagen vol. 189, págs.276-287, 2019.
[180] S. Esmaeilzadeh, DI Belivanis, KM Pohl y E. Adeli, "Diagnóstico de la enfermedad de Alzheimer de extremo a extremo
e identificación de biomarcadores, "en Actas del Taller internacional sobre aprendizaje automático en
imágenes médicas, 2018, págs. 337-345.
[181] H. Choi, KH Jin y la Iniciativa de neuroimagen de la enfermedad de Alzheimer, "Predicción del deterioro cognitivo con aprendizaje
profundo del metabolismo cerebral e imágenes de amiloide". Investigación del cerebro conductual, vol. 344, págs.103-109,
2018.
[182] H. Karasawa, C.-L. Liu y H. Ohwada, "Arquitecturas de redes neuronales convolucionales 3D profundas para el diagnóstico
de la enfermedad de Alzheimer", enActas de la Conferencia Asiática sobre Sistemas Inteligentes de Bases de Datos e
Información, 2018, págs. 287-296.
[183] S. Korolev, A. Safiullin, M. Belyaev e Y. Dodonova, "Residual and plain convolutional neural
redes para la clasificación de resonancia magnética cerebral 3D, "en Actas del 14 ° Simposio Internacional de
Imágenes Biomédicas de IEEE (ISBI), 2017, págs. 835-838.
[184] C. Yang, A. Rangarajan y S. Ranka, "Explicaciones visuales de la convolución neuronal 3D profunda
redes para la clasificación de la enfermedad de Alzheimer ", en Actas del Simposio Anual de AMIA, 2018,
págs. 1571-1580.
[185] H. Wang et al., "Conjunto de red convolucional 3D densamente conectada para el diagnóstico de deterioro
cognitivo leve y enfermedad de Alzheimer", Neurocomputación, vol. 333, págs.145-156, 2019.
[186] U. Senanayake, A. Sowmya y L. Dawes, "tubería de fusión profunda para el deterioro cognitivo leve
diagnóstico, "en Actas del 15 ° Simposio Internacional de Imágenes Biomédicas de IEEE (ISBI), 2018,
págs. 1394-1997.
[187] A. Ebrahimi-Ghahnavieh, S. Luo y R. Chiong, "Transferir el aprendizaje para la detección de la enfermedad de Alzheimer en
imágenes de resonancia magnética", en Conferencia Internacional IEEE sobre Industria 4.0, Inteligencia Artificial y
Tecnología de las Comunicaciones (IAICT), 2019, págs. 133-138.
[188] X. Glorot e Y. Bengio, "Comprender la dificultad de entrenar redes neuronales de alimentación profunda",
en Actas de la 13a Conferencia Internacional sobre Inteligencia Artificial y Estadísticas, 2010, págs.
249-256.
[189] S. Khan y T. Yairi, "Una revisión sobre la aplicación del aprendizaje profundo en la gestión de la salud del sistema",Sistemas
mecánicos y procesamiento de señales, vol. 107, págs.241-265, 2018.
[190] R. Miotto, F. Wang, S. Wang, X. Jiang y JT Dudley, "Aprendizaje profundo para el cuidado de la salud: revisión,
oportunidades y desafíos " Sesiones informativas en bioinformática, vol. 19, no. 6, págs. 1236-1246, 2017.
[191] D. Ravì et al., "Aprendizaje profundo para la informática de la salud", Revista IEEE de Biomedicina y Salud
Informática, vol. 21, no. 1, págs. 4-21, 2016.
[192] N. Vinutha, PD Shenoy y K. Venugopal, "Técnicas morfométricas eficientes en la detección de la enfermedad de
Alzheimer: encuesta y herramientas", Neurociencia Internacional, vol. 7, no. 2, págs.19-44, 2016.
[193] PV Rouast, M. Adam y R. Chiong, "Aprendizaje profundo para el reconocimiento del afecto humano: conocimientos y
nuevos desarrollos", Transacciones IEEE sobre computación afectiva, 2019.
[194] CR Jack Jr et al., "La iniciativa de neuroimagen de la enfermedad de Alzheimer (ADNI): métodos de resonancia magnética", Journal
of Magnetic Resonance Imaging: Una revista oficial de la Sociedad Internacional de Resonancia
Magnética en Medicina, vol. 27, no. 4, págs. 685-691, 2008.
[195] KA Ellis et al., "El estudio australiano de imágenes, biomarcadores y estilo de vida (AIBL) sobre el envejecimiento:
metodología y características iniciales de 1112 personas reclutadas para un estudio longitudinal de la
enfermedad de Alzheimer", Psicogeriatría internacional, vol. 21, no. 4, págs. 672-687, 2009.
[196] DS Marcus, TH Wang, J. Parker, JG Csernansky, JC Morris y RL Buckner, "Serie de acceso abierto de estudios de
imágenes (OASIS): datos de resonancia magnética transversal en jóvenes, de mediana edad, no dementes,
y adultos mayores dementes " Revista de neurociencia cognitiva, vol. 19, no. 9, págs. 1498-1507, 2007.
[197] IB Malone et al., "MIRIAD: lanzamiento público de un conjunto de datos de imágenes por resonancia magnética de Alzheimer de múltiples
puntos en el tiempo", NeuroImage, vol. 70, págs. 33-36, 2013.

47
[198] K. He, X. Zhang, S. Ren y J. Sun, "Profundizando en los rectificadores: superando el nivel humano
rendimiento en la clasificación de imagenet, "en Actas de la Conferencia Internacional IEEE sobre Visión por
Computador, 2015, págs. 1026-1034.
[199] R. Li et al., "Finalización de datos de imágenes basados en aprendizaje profundo para un mejor diagnóstico de enfermedades
cerebrales", enActas de la Conferencia Internacional sobre Computación de Imágenes Médicas e Intervención Asistida por
Computadora, 2014, págs. 305-312.
[200] D. Ramachandram y GW Taylor, "Aprendizaje multimodal profundo: una encuesta sobre avances recientes y
tendencias " Revista de procesamiento de señales IEEE, vol. 34, no. 6, págs. 96-108, 2017.
[201] JG Mannheim et al., "Sistemas híbridos PET / MRI", en Actas de los seminarios de medicina nuclear,
2018, vol. 48, no. 4, págs. 332-347.

48

También podría gustarte