Está en la página 1de 19

Traducido del inglés al español - www.onlinedoctranslator.

com

Revisar

La aplicación del aprendizaje profundo en la predicción


del pronóstico del cáncer

Wan Zhu1,2,*,†, Longxiang Xie1,†, Jianye Han3y Xiangqian Guo1,*


1 Departamento de Medicina Preventiva, Instituto de Informática Biomédica, Laboratorio de Transducción de Señales
Celulares, Centro de Bioinformática, Facultad de Ciencias Médicas Básicas, Universidad de Henan,
Kaifeng 475004, Henán, China; xielongxiang123@126.com
2 Departamento de Anestesia, Universidad de Stanford, 300 Pasteur Drive, Stanford, CA 94305, EE. UU.
3 Departamento de Ciencias de la Computación, Universidad de Illinois, Urbana Champions, IL 61820, EE. UU.;
mr.neohan@gmail.com
* Correspondencia: wanzhu@stanford.edu (WZ); xqguo@henu.edu.cn (XG) † Estos
autores contribuyeron igualmente a este trabajo.

Recibido: 4 febrero 2020; Aceptado: 2 de marzo de 2020; Publicado: 5 de marzo de 2020

Abstracto:El aprendizaje profundo se ha aplicado a muchas áreas de la atención de la salud, incluido el diagnóstico
por imágenes, la patología digital, la predicción de ingresos hospitalarios, el diseño de fármacos, la clasificación de
células cancerosas y del estroma, la asistencia médica, etc. El pronóstico del cáncer consiste en estimar el destino del
cáncer, las probabilidades de la recurrencia y progresión del cáncer, y para proporcionar una estimación de
supervivencia a los pacientes. La precisión de la predicción del pronóstico del cáncer beneficiará en gran medida el
manejo clínico de los pacientes con cáncer. La mejora de la investigación biomédica traslacional y la aplicación de
análisis estadísticos avanzados y métodos de aprendizaje automático son las fuerzas impulsoras para mejorar la
predicción del pronóstico del cáncer. En los últimos años, hay un aumento significativo del poder computacional y un
rápido avance en la tecnología de la inteligencia artificial, particularmente en el aprendizaje profundo. Además, la
reducción de costos en la secuenciación de próxima generación a gran escala y la disponibilidad de dichos datos a
través de bases de datos de código abierto (p. ej., bases de datos TCGA y GEO) nos ofrecen oportunidades para
posiblemente construir modelos más potentes y precisos para predecir el pronóstico del cáncer con mayor precisión.
En esta revisión, revisamos los trabajos publicados más recientes que utilizaron el aprendizaje profundo para
construir modelos para la predicción del pronóstico del cáncer. Se ha sugerido que el aprendizaje profundo es un
modelo más genérico, requiere menos ingeniería de datos y logra una predicción más precisa cuando se trabaja con
grandes cantidades de datos. Se ha demostrado que la aplicación del aprendizaje profundo en el pronóstico del
cáncer es equivalente o mejor que los enfoques actuales, como Cox-PH. Con el estallido de datos multiómicos,
incluidos datos genómicos, datos transcriptómicos e información clínica en estudios sobre el cáncer,

Palabras clave:pronóstico del cáncer; aprendizaje profundo; aprendizaje automático; multiómicas; predicción de pronóstico

1. Desarrollo actual en la predicción del pronóstico del cáncer

En los Estados Unidos, aproximadamente 1 de cada 10 adultos ha sido diagnosticado con cáncer [1]. El cáncer causa 1 de
cada 6 muertes en todo el mundo [1]. Si bien las nuevas terapias pueden mejorar el tratamiento del cáncer y aumentar la tasa
de supervivencia, el pronóstico del cáncer consiste en estimar el desarrollo del cáncer, proporcionar una estimación de la
supervivencia y mejorar el manejo clínico. Una tarea importante en el pronóstico del cáncer es proporcionar una mejor
estimación de la supervivencia en función de las características clínicas y el perfil molecular de los pacientes.
Los métodos analíticos de vanguardia actuales en el pronóstico del cáncer para el análisis de supervivencia son enfoques
estadísticos, que incluyen la regresión de riesgos proporcionales de Cox [2,3], el estimador de Kaplan Meier [4] y la prueba de rangos
logarítmicos [5–7]. Las principales fuentes de datos para estos enfoques en el pronóstico del cáncer para la supervivencia

Cánceres2020,12, 603; doi:10.3390/cánceres12030603 www.mdpi.com/journal/cancers


Cánceres2020,12, 603 2 de 19

Las predicciones son principalmente datos clínicos, incluidos el diagnóstico de cáncer, los tipos de cáncer, los grados
tumorales, el perfil molecular, etc. En los últimos años, hay más tipos de datos disponibles para comprender mejor el estado
de la enfermedad. Estos datos son datos multiómicos de alto rendimiento y de alta dimensión de muestras de pacientes [8].
Los datos multiómicos incluyen datos genómicos (es decir, datos del genoma completo, datos de polimorfismo de un solo
nucleótido (SNP), datos de alternancia del número de copias (CNA), etc.), datos de expresión (es decir, datos de ARNm y
miARN), datos proteómicos y datos epigenéticos ( es decir, metilación y otras modificaciones cromosómicas). El volumen de
datos multiómicos plantea desafíos para utilizar métodos puramente estadísticos para realizar predicciones. Se han aplicado o
establecido otros métodos, incluidos los enfoques de aprendizaje automático, para resolver estos problemas. Hasta ahora,
algunos métodos de aprendizaje automático, incluido el análisis de componentes principales (PCA), el agrupamiento y el
autocodificador, se han probado para clasificar los tipos de cáncer [9,10]. Además, los métodos de aprendizaje automático,
incluida la máquina de vectores de soporte (SVM), la red bayesiana, el aprendizaje semisupervisado y el árbol de decisiones, se
han aplicado a la predicción del pronóstico del cáncer y han mostrado cierto éxito [11–16].

De hecho, el establecimiento de bases de datos de cáncer a gran escala accesibles al público proporciona una
plataforma de código abierto para que investigadores y médicos compartan y analicen los datos multiómicos de los
pacientes. Las bases de datos Cancer Genome Atlas (TCGA), Gene Expression Omnibus (GEO) y Genotype-Tissue
Expression (GTEx) son las principales. La base de datos Cancer Genome Atlas (TCGA) tiene datos clínicos y moleculares
de más de 11 000 pacientes con tumores en 33 tipos de tumores diferentes [17,18], incluidos los genómicos
(secuenciación del genoma completo o del exoma, WGS/WES), transcriptómicos (RNAseq, RNAseq), datos
epigenómicos (HumanMethylation450 BeadChip) y perfiles proteómicos (matrices de proteínas de fase inversa, RPPA).
Hay varios portales públicos de TCGA, como el portal de datos TCGA [19], cBioPortal [20], el navegador del genoma del
cáncer de la Universidad de California, Santa Cruz (UCSC Xena)
[21] y MANGUERA DE INCENDIOS [22]. La base de datos Gene Expression Omnibus (GEO) es un repositorio de datos
públicos que almacena datos de micromatrices y secuenciación de próxima generación (NGS), así como otros
conjuntos de datos genómicos funcionales de alto rendimiento, como la metilación del genoma, la estructura de la
cromatina, la mutación genómica/variación del número de copias , perfiles de proteínas e interacciones genoma-
proteína [23,24]. La base de datos Genotype-Tissue Expression (GTEx) contiene perfiles de secuenciación del genoma
completo y secuenciación de ARN de ~960 donantes adultos post mortem de muchas muestras de tejido que tienen
imágenes de tejido almacenadas en una biblioteca de imágenes para acceso público [25,26]. Estos datos públicos no
solo brindan oportunidades sin precedentes para ilustrar mejor el mecanismo molecular de los cánceres y los tejidos
normales, sino que también se convierten en los principales recursos para aplicar métodos novedosos,

2. Descripción general del aprendizaje profundo

El aprendizaje profundo, también conocido como red neuronal profunda (DNN), es una rama del aprendizaje automático que ha logrado un gran avance en los últimos años debido al

aumento del poder de cómputo, la mejora en la arquitectura del modelo [27] y el crecimiento exponencial de los datos. capturados por celulares y otros dispositivos. Hay tres paradigmas básicos de

aprendizaje automático, aprendizaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo. Los algoritmos de aprendizaje supervisado son aquellos que deben alimentarse en un

conjunto de datos de entrenamiento que contienen características (entradas) y etiquetas (salidas). Algunos algoritmos populares de aprendizaje supervisado incluyen regresión lineal y logística [28],

SVM [29], naive bayes [30], aumento de gradiente [31,32], árboles de clasificación y bosque aleatorio [33,34]. Estos métodos se utilizan comúnmente en estudios de clasificación y regresión.

Aprendizaje sin supervisión, por otro lado, no requiere salidas/etiquetas preexistentes y su objetivo es encontrar patrones basados en las distribuciones de datos de entrada. El agrupamiento (p.

ej., agrupamiento jerárquico [35,36], K-means [37,38]) es el método de aprendizaje no supervisado más común. La asignación de Dirichlet latente (LDA) [39], PCA [40] y word2vec [41], se encuentran

entre los enfoques de aprendizaje no supervisado populares más recientes. La red neuronal (NN) puede ser de aprendizaje supervisado, no supervisado o semisupervisado, lo que sugiere su

flexibilidad. El aprendizaje por refuerzo [42] se puede resumir como un sistema de recompensas para que el programa informático maximice las recompensas con el fin de buscar la mejor solución

[27]. 38]) es el método de aprendizaje no supervisado más común. La asignación de Dirichlet latente (LDA) [39], PCA [40] y word2vec [41], se encuentran entre los enfoques de aprendizaje no

supervisado populares más recientes. La red neuronal (NN) puede ser de aprendizaje supervisado, no supervisado o semisupervisado, lo que sugiere su flexibilidad. El aprendizaje por refuerzo [42]

se puede resumir como un sistema de recompensas para que el programa informático maximice las recompensas con el fin de buscar la mejor solución [27]. 38]) es el método de aprendizaje no

supervisado más común. La asignación de Dirichlet latente (LDA) [39], PCA [40] y word2vec [41], se encuentran entre los enfoques de aprendizaje no supervisado populares más recientes. La red

neuronal (NN) puede ser de aprendizaje supervisado, no supervisado o semisupervisado, lo que sugiere su flexibilidad. El aprendizaje por refuerzo [42] se puede resumir como un sistema de

recompensas para que el programa informático maximice las recompensas con el fin de buscar la mejor solución [27].

El aprendizaje profundo (o DNN) consta de múltiples capas de neuronas artificiales que imitan las neuronas del
cerebro humano. Similar a la regresión lineal, cada neurona tiene un valor de peso que se actualiza por gradiente
Cánceres2020,12, 603 3 de 19

algoritmo de descenso durante la retropropagación para minimizar la función de pérdida global [43]. Al
aplicar la no linealidad mediante la función de activación, como sigmoid, tanh o relu, a las múltiples
capas de cada neurona, se extrajo una relación matemática más abstracta de los datos de entrada para
mapear la salida [44]. Por lo tanto, se puede usar un modelo bien entrenado para predecir nuevos datos
no etiquetados. El aprendizaje profundo es una rama del aprendizaje automático y, por lo tanto, hereda
una base de conocimiento común en el aprendizaje automático, que incluye probabilidad y estadísticas
básicas, función de pérdida/costo, etc., pero mientras tanto tiene más flexibilidad y puede construirse
hacia capas más complejas y múltiples neuronas en cada capa para tener un mejor poder predictivo
[45-50]. El NN más utilizado en la investigación médica incluye NN completamente conectado (o
simplificado como NN) para datos estructurados,
En los últimos años, el aprendizaje profundo se ha aplicado a la investigación biomédica para anotar la patogenicidad de
las variantes genéticas [51,52], mostrar un rendimiento de vanguardia en la tarea de llamada de variantes genómicas [53] y
mejorar la predicción del plegamiento de proteínas [54]. ,55]. En comparación con otros métodos, el aprendizaje profundo es
más flexible y genérico para aplicarse a datos discretos o continuos [56], requiere menos ingeniería de funciones con
conocimientos especializados en comparación con el aprendizaje automático en general [27] y funciona mejor que muchos
métodos de última generación. -Métodos artísticos [53].

2. Aplicación actual del aprendizaje profundo en el pronóstico del cáncer

Para revisar la aplicación del aprendizaje profundo en el campo del pronóstico del cáncer, utilizamos
palabras clave, incluido el "aprendizaje profundo". “redes neuronales” y “pronóstico del cáncer”, y buscó
bibliografía en PubMed. Para comprender mejor el desarrollo del campo y para una mejor comparación,
hemos incluido estudios que construyeron modelos NN simples que constan de 3 o 4 capas y estudios que
construyeron DNN que constan de más de 4 capas. Revisamos y resumimos estos estudios y modelos. Según
los tipos de NN y si se ha utilizado la extracción de características, las publicaciones que revisamos se pueden
agrupar en tres clases: (1) modelos NN sin extracción de características, (2) extracción de características de
datos multiómicos para construir modelos completamente conectados NN y (3) modelos basados en CNN.
Aquí, revisamos y resumimos estos estudios y modelos.

3.1. Modelos NN sin extracción de características

Como se mencionó, el modelo de riesgos proporcionales de Cox (Cox-PH) es un modelo de regresión


semiparamétrico multivariado que se ha utilizado ampliamente en estudios de cáncer para comparar las
características de supervivencia entre dos o más grupos de tratamiento [2,57]. Algunos intentos tempranos en el
pronóstico del cáncer han utilizado datos clínicos de tumores y pacientes [58], características celulares de portaobjetos
de tejido [14] o algunos datos de expresión de genes [13] para construir los modelos. Para mostrar el rendimiento,
estos estudios compararon el rendimiento de NN con los métodos Cox-PH y/o Kaplan Meier, y mostraron que los
modelos NN simples han logrado un rendimiento similar en comparación con estos métodos (Tabla 1). Además, en
estos estudios, debido a que la cantidad de funciones era relativamente pequeña sin datos ómicos, la selección de
funciones no fue necesaria.
Cánceres2020,12, 603 4 de 19

Tabla 1.Resumen de modelos de redes neuronales sin extracción de características.

Muestra Modelo NN
Publicacióna Tipo de cáncer Tipo de datos Métodos Arquitectura Salidas Hiperparámetros Validación
Tamaño Rendimiento
similares logrados
1946 (1160
Joshi et al., 2006 Datos clínicos de Supervivencia actuación como Cox
Melanoma hembras y 3 capas NN Entrada normalizada Activación sigmoidea No reportado
[58] tumores hora y Kaplan Meier
786 hombres)
métodos de estadística
Conjunto de datos 1:
Imágenes de celdas para
Chi et al., 2007 198 casos; 30 nodos de entrada, 20 ocultos Supervivencia época = 1000, cruz de 10 pliegues Tan bueno como
Cáncer de mama medida 30 3 capas NN
[14] Conjunto de datos 2: asiente hora Activación sigmoidea validación métodos convencionales
caracteristicas nucleares
462 casos
Una sola capa Los conjuntos de sondas 44, 9 y

Una lista de genes perceptrón y Número de entradas es igual a Deja-uno- 7 han alcanzado el 93,3 %,
Petalidis et al., Cerebro astrocítico Tumor Lr1= 0,05,
expresión de sesenta y cinco una salida el número de genes clasificadores cruzar 84,6% y 95,6%
2008 [13] tumor Los grados Época = 100
datos de microarreglos (múltiple en diferentes modelos validación tasas de éxito de validación,
modelos binarios) respectivamente.

L1, L2 o MCP2
gen TCGA Normalización de entrada y regularización, tanh Similar o en algunos casos
Ching et al., datos de expresión, transformación logarítmica, 0–2 Supervivencia activación para oculto cruz de 5 pliegues mejor interpretación
10 tipos de cáncer 5031 NN
2018 [59] datos clínicos y capas ocultas (143 nodos) hora capa(s), abandono, validación que Cox-PH, Cox-
datos de supervivencia Regresión de Cox como refuerzo o RF
capa de salida
20% de
METABRICA3,
METABRICA: METABRICA: 1 capa densa, METABRICA
4 datos de genes y SELU5activación, Índice C: 0,654 para
1980, GBSG: 41 nodos pacientes utilizados
Katzmann et al. clínico optimizador adam, METABRICA y 0.676
Cáncer de mama 1546 NN GBSG: información clínica Supervivencia como equipo de prueba
2018 [60] información, deserción, caída de LR, para GBSG, ambos son
formación, 686 del paciente, 1 capa densa, GBSG tiene
GBSG4: clínico impulso mejores que CoxPH
pruebas 8 nodos prueba dividida
datos
conjunto de datos

METABRICA: 4 ocultos Índice C: 0,661 para


capas, 45 nodos de cada una; ELU6, abandono, L1 METABRICA y 0.688
Después
GBSG: 3 capas ocultas, 84, y L2, impulso, para GBSG, ambos son
METABRICA, remoto
Cáncer de mama, METABRICA: 84 y 70 nodos, Decaimiento LR, tamaño del lote. mejores que CoxPH y
Jin et al. 2019 GBSG, pacientes con
nasofaríngeo 1980 DNN respectivamente Supervivencia La función de pérdida es igual DeepSurv. índice c
[61] PNJ7: 8–9 datos perdidos,
carcinoma PNJ: 4630 NPC, 3 capas, 120 nodos de cada al error cuadrático medio rangos 0.681–0.704
características clínicas 20% utilizado como
capa en el modelo 1, 108, y por parejas depende de los datos de entrada
equipo de prueba
108 y 90 nodos pérdida de clasificación para NPC, mejor que
respectivamente en el modelo 2. CoxPH.

Abreviatura:1lr; tasa de aprendizaje;2MCP: penalización cóncava minimax.3METABRIC: Taxonomía Molecular del Consorcio Internacional de Cáncer de Mama;4GBSG: Grupo Alemán de
Estudio del Cáncer de Mama;5SELU: unidad lineal exponencial escalada;6SELU: unidad lineal exponencial;7NPC: carcinoma nasofaríngeo.aEnlaces a códigos fuente si están disponibles en
publicaciones: Petalidis et al. [13]: http://www.imbb.forth.gr/people/poirazi/software.html. Ching et al. [59]: https://github.com/lanagarmire/cox-nnet. Katzmann et al. [60]: https://
github.com/jaredleekatzman/DeepSurv. Jin et al. 2019 [61]: http:/github.com/sysucc-ailab/RankDeepSurv.
Cánceres2020,12, 603 5 de 19

Desde la amplia aceptación del modelo de regresión de Cox en la predicción de supervivencia, la regresión de
Cox se utilizó como capa de salida para construir NN para predecir la supervivencia del cáncer. Cox-nnet [59] es una
red NN que utilizó datos genómicos de TCGA como entrada y regresión de Cox como capa de salida. Para evitar el
sobreajuste, probaron la regularización de crestas, el abandono, la reducción de la complejidad de NN mediante el
uso de 0 a 2 capas ocultas y una combinación de cresta y abandono en el entrenamiento de NN (Tabla 1). Informaron
que el abandono y la reducción de la complejidad de NN mediante el uso de 1 capa oculta funcionaron mejor para
evitar el sobreajuste en su entorno experimental. Para medir el rendimiento, demostraron que Cox-net funcionó
mejor que Cox-PH, Cox-boost (basado en la potenciación de gradiente) o random forest en los conjuntos de datos
TCGA que probaron (Tabla 1).
Katzmann et al. ha construido un modelo de red neuronal, llamado DeepSurv, para realizar análisis de supervivencia.
DeepSurv es una NN de avance que utiliza los datos clínicos del paciente como entrada y aplica abandono, disminución de la
tasa de aprendizaje, regularización y otros hiperparámetros de uso común para optimizar para diferentes conjuntos de datos
[60]. Sus resultados mostraron que este modelo funcionó mejor que los modelos CoxPH (Tabla 1). Otro modelo de red
neuronal, llamado RankDeepSurvival, adaptó la arquitectura básica de DeepSurv y aumentó la profundidad de la red para
construir 3 o 4 DNN de capas ocultas para realizar análisis de supervivencia en múltiples conjuntos de datos, incluidos los
conjuntos de datos de cáncer [61]. Más importante aún, han actualizado la función de pérdida mediante el uso de la suma de
la pérdida de error cuadrático medio y una pérdida de clasificación por pares basada en la clasificación de información sobre
los datos de supervivencia [61]. Informaron que el modelo RankDeepSurivival superó a los modelos CoxPH y al modelo
DeepSurv en conjuntos de datos de cáncer de mama del Consorcio Internacional de Taxonomía Molecular del Cáncer de Mama
(METABRIC) y el Grupo Alemán de Estudio del Cáncer de Mama (GBSG) (Tabla 1). Ambos estudios han validado aún más que
sus modelos se desempeñaron mejor que los modelos CoxPH en otros conjuntos de datos de enfermedades, como
enfermedades cardíacas y diabetes, lo que sugirió que los modelos de aprendizaje profundo se pueden generalizar para
diferentes tareas.

3.2. Extracción de características a partir de datos de expresión génica para crear NN totalmente conectadas

Los datos de salud tienen las características de gran tamaño, tamaño de muestra pequeño y efectos no lineales
complejos entre los componentes biológicos [62,63]. La reducción de dimensiones ayuda al análisis integrador de datos
multiómicos [64]. Estos estudios siguientes han probado diferentes algoritmos para reducir la dimensión de los datos de
secuenciación, extraer un número menor de características y entrenar una NN completamente conectada.
En un estudio para predecir el pronóstico del cáncer de mama, Sun et al. usó un método denominado mínima
redundancia máxima relevancia (mRMR) [65] para reducir la dimensionalidad de los datos de expresión génica y los datos de
alternancia del número de copias (CNA) mediante la extracción de 400 y 200 genes, respectivamente, de estos conjuntos de
datos [66]. A continuación, se construyeron 3 modelos NN utilizando características seleccionadas a partir de datos de
expresión génica, datos de CNA o datos clínicos, respectivamente. Finalmente, los resultados de predicción de estos tres
modelos NN se sumaron en función de una agregación lineal ponderada para calcular una puntuación de predicción final.
Llamaron a este modelo Red neuronal profunda multimodal mediante la integración de datos multidimensionales (MDNNMD).
Cuando seleccionaron un umbral de 0,443 a 0,591, se informó una alta especificidad (0,95 a 0,99), pero una baja sensibilidad
(0,2 a 0,45) (Tabla 2). Para mostrar el rendimiento del modelo, informaron que ROC (0.845), exactitud y precisión, y el
coeficiente de correlación de Matthew (MCC) de MDNNMD superó a otros métodos, incluidos SVM, bosque aleatorio y
regresión logística (Tabla 2). Una de las razones por las que el modelo tiene una gran diferencia de rendimiento entre la
especificidad y la sensibilidad probablemente se deba a los datos desequilibrados en el entrenamiento del NN (491 casos de
supervivencia a corto plazo frente a 1489 casos de supervivencia a largo plazo).
Cánceres2020,12, 603 6 de 19

Tabla 2.Resumen de los modelos de redes neuronales que utilizaron la extracción de características.

Tipo de Métodos utilizados en Modelo NN


Publicacióna Tipo de datos Tamaño de la muestra Arquitectura Salidas Hiperparámetros Validación
Cáncer Extracción de características Rendimiento
República de China4:
Gene
mRMR (extraído 400 0,845 (mejor que SVM,
expresión 4 capas ocultas (1000, Lr3= 10–3,
Sol et al., 1980 (1489 LTS) caracteristicas del gen Supervivencia cruz de 10 pliegues RF5, y LR6), es7: 0.794–
Cáncer de mama perfil, PUEDE1 500, 500 y 100 Activación de Tanh, época 10– 100,
2018 [66] 2, 491 no LTS) expresión y 200 hora validación 0.826, Pre8: 0,749–
perfil y nodos, respectivamente) tamaño de lote = 64
características de CNA) 0,875, Sn9: 0,2–0,25,
Datos clinicos
Mcc10: 0,356–0,486
red híbrida,
583 (80% para lmQCM13, ARNm y miARN Adam optimizador, LASSO14
ARNm, formación, 20% matriz epigengénica a reducción de dimensión regularización, Datos multiómicos
Huang et al., miARN, CNB para probar en extraer 57 dimensiones las entradas tienen 1 Supervivencia Época = 100, activación cruz de 5 pliegues red alcanzó un
Cáncer de mama
2019 [67] 11, TMB12, cada pliegue de de datos de mRNA y capa oculta (8 y 4 nodos, hora sigmoidea, validación índice c medio15de
Datos clinicos cruz 12 dimensiones de respectivamente), CNB, Regresión de Cox como salida, 0.7285
validación) datos de miARN TMB y los datos clínicos tamaño de lote = 64
no tienen capa oculta
Gene basado en la ruta
4 capas NN: capa Lr = 1e−4, ABC17= 0. 66±
expresión análisis (12.024 genes
Hao et al., Glioblastoma 475 (376 no de genes—vía Supervivencia L2 = 3e−4, 5 veces 0.013,
(TCGA), de datos de ARNm a
2018 [62] multiforme LTS, 99 LTS) capa—capa oculta— hora abandonar, validación Puntuación F1 = 0,3978±
ruta 574 vías y
producción salida softmax 0.016
(Msig DBdieciséis) 4359 genes)
360 muestras
ARNm,
formación, (5 Codificador automático
miARN, 3 capas ocultas NN (500,
Chaudhary adicional NN sin supervisión a Las salidas NN fueron
metilación 100, 500 nodos, Rasgo Época = 10, No
et al., 2018 Cáncer de hígado cohortes, 230, extraer 100 características utilizado para K significa
datos, y respectivamente) y una reducción Abandono = 0,5, SGD18 reportado
[68] 221, 166, 40 y 27 de ARNm, miARN agrupamiento.
Datos clinicos capa de cuello de botella
muestras para y datos de metilación
(TCGA)
validación)
Lr = 0,001,
época = 1000,
1903
Shimizu y Entropía cruzada para la función 951 muestras Pesos de nodos NN
(METABRICA, Seleccionar 23 genes por Supervivencia
nakayama, Cáncer de mama METABRICA19 3 capas NN de pérdida desde estaban acostumbrados a
952 muestras para métodos estadísticos hora
2019, [69] Activación Relu para nodos METABRICA calcular un mPS20
capacitación)
ocultos, función softmax para
capa de salida

Abreviatura:1CNA: alternancia de número de copias,2LTS: supervivencias a largo plazo;3Lr: tasa de aprendizaje;4ROC: característica de funcionamiento del receptor;5RF: bosque aleatorio,6LR: regresión logística,7Esp: especificidad;

8Pre: precisión;9Sn: sensibilidad;10Mcc: Coeficiente de correlación de Mathew. La ecuación es (TP*TN-FP*FN)/√ [(TP + FN)*(TP + FP)*(TN + FN)*(TN + FP)];11CNB: carga de número de copia;12TNB: carga de mutaciones

tumorales;13lmQCM: máximo local Quasi Clique Merger [67];14LASSO: también conocido como regularización L1;15índice c (índice de concordancia): Steck et al. [70] sugirió que el índice c es equivalente a AUC.

Específicamente, el índice c cierra a 0.5 predicción aleatoria sugerida. Cuanto más se acerca el índice c a 1, mejor es el modelo.dieciséisMsigDB: base de datos de firmas moleculares;17AUC: área bajo la curva de ROC;18

SGD: descenso del gradiente estocástico;19METABRIC: Taxonomía Molecular del Consorcio Internacional de Cáncer de Mama;20mPS: puntuación pronóstica molecular.aEnlaces a códigos fuente si están disponibles en

publicaciones: Sun et al., 2018 [66]: https://github.com/USTC-HIlab/MDNNMD. Huang et al., 2019 [67]: https://github.com/huangzhii/SALMON/. Hao et al., 2018 [62]: https://github.com/DataX-JieHao/PASNet.Shimizu y

Nakayama, 2019, [69]: https://hideyukishimizu.github.io/mPS_breast.


Cánceres2020,12, 603 7 de 19

Hay muchas formas de reducir la dimensionalidad de los datos. Huang et al..han obtenido cinco datos ómicos, incluidos
datos de expresión génica (ARNm), datos de miARN, datos de carga de número de copias, datos de carga de mutación tumoral
y datos clínicos, realizaron la extracción de características a partir de estos datos y construyeron un modelo de aprendizaje
profundo para predecir la supervivencia de pacientes con cáncer de mama [67 ]. También aplicaron un modelo de riesgos
proporcionales de Cox para desarrollar un aprendizaje de análisis de supervivencia con un modelo multiómico NN (o SALMON)
[67]. En este modelo, las capas de entrada estaban compuestas por características extraídas de los datos de ARNm y miARN
utilizando un algoritmo local máximo Quasi-Clique Merger (lmQCM) inspirado en el agrupamiento espectral [70]. Se generó
una matriz, denominada eigengene, a partir del algoritmo lmQCM y se usó para representar 57 y 12 dimensiones de datos de
mRNA y miRNA, respectivamente (Tabla 2). En la capa oculta, los datos de mRNA y miRNA comprenden 8 y 4 neuronas,
respectivamente. El optimizador de Adam y la regularización de lazo se utilizaron como hiperparámetros en el entrenamiento
(Tabla 2). La función sigmoidea se usó como función de activación después de cada propagación directa para introducir la no
linealidad y la regresión de riesgos proporcionales de Cox y se usó como salida para predecir el tiempo de supervivencia. Este
modelo logró un índice de concordancia medio (índice c) [71] de 0,728, que se ha sugerido para superar a otros modelos que
no incluían características de alta dimensión extraídas de los datos de ARNm y miARN (Tabla 2), lo que sugiere que la
extracción de características mejora el rendimiento del modelo .

Además de reducir la dimensión de los datos mediante el algoritmo, también se ha probado la extracción de
características mediante la aplicación del conocimiento del dominio como criterio de selección. Hao et al. usó datos de
expresión génica de 475 pacientes con glioblastoma multiforme con ~12 k genes que contenían información de
supervivencia para construir un modelo de pronóstico [62] (Tabla 2). Agruparon las muestras en dos grupos,
supervivencia a largo plazo (LTS, tiempo de supervivencia >= 24 meses) y supervivencia a no largo plazo (no-LTS,
tiempo de supervivencia <24 meses). A continuación, utilizaron datos de vías de la base de datos de firmas
moleculares (MSigDB) y asignaron 4359 genes a 574 vías. Construyeron una NN utilizando los 4.359 genes como
entrada y 574 vías como la primera capa oculta y aplicaron abandono y regularización L2 para evitar el sobreajuste.
Dado que el 20% de las muestras son LTS, los datos de entrenamiento sufrieron de datos desequilibrados. Es un
problema común en el manejo de datos de pacientes. Sugirieron que PASNet logró un AUC de 0,66 que es mejor que
el rendimiento del modelo LASSO logístico, LASSO aleatorio o SVM. La ventaja de PASNet es que tuvo en cuenta las
vías biológicas al construir un modelo NN.
NN en sí se puede utilizar para extraer características de datos multiómicos. El carcinoma hepatocelular (HCC) es el tipo más común de cáncer de hígado. La alta heterogeneidad de la

enfermedad dificulta la predicción del pronóstico. Chaudhary et al. construyó un modelo NN utilizando datos multiómicos de 360 muestras de HCC de la base de datos TCGA [68]. Los datos

multiómicos incluyen expresión de ARNm, expresión de miARN, metilación de CpG y datos clínicos. Utilizaron un codificador automático NN no supervisado para transformar características y

realizar una reducción de dimensiones [68] y extraer 100 nodos de características de los datos de miARN, ARNm y metilación (Tabla 2). Luego, usaron un modelo Cox-PH para identificar 37

características significativas, aplicaron el agrupamiento de K-means para identificar el riesgo de supervivencia y usaron ANOVA para obtener la clasificación de características. Finalmente, la

predicción del pronóstico se construyó utilizando un modelo SVM. En otro estudio, Shimizu et al. recogió 23 genes de 184 genes relacionados con el pronóstico en función de la importancia

estadística de estos genes individuales en la supervivencia general de los pacientes con cáncer de mama [69]. Utilizaron los niveles de expresión génica de estos 23 genes para construir un NN para

obtener los pesos de los genes de los nodos de NN y generar una puntuación de pronóstico molecular (mPS) (Tabla 2). Luego se aplicó el mPS para evaluar el pronóstico. Aunque ninguno de los dos

estudios informó el rendimiento de los NN en su estudio, estos estudios sugirieron que NN también puede ser una herramienta útil para la reducción de dimensiones de datos multiómicos para la

predicción de pronósticos. Utilizaron los niveles de expresión génica de estos 23 genes para construir un NN para obtener los pesos de los genes de los nodos de NN y generar una puntuación de

pronóstico molecular (mPS) (Tabla 2). Luego se aplicó el mPS para evaluar el pronóstico. Aunque ninguno de los dos estudios informó el rendimiento de los NN en su estudio, estos estudios

sugirieron que NN también puede ser una herramienta útil para la reducción de dimensiones de datos multiómicos para la predicción de pronósticos. Utilizaron los niveles de expresión génica de

estos 23 genes para construir un NN para obtener los pesos de los genes de los nodos de NN y generar una puntuación de pronóstico molecular (mPS) (Tabla 2). Luego se aplicó el mPS para evaluar

el pronóstico. Aunque ninguno de los dos estudios informó el rendimiento de los NN en su estudio, estos estudios sugirieron que NN también puede ser una herramienta útil para la reducción de

dimensiones de datos multiómicos para la predicción de pronósticos.

3.3. Modelos basados en CNN

En los últimos años, el enfoque de aprendizaje profundo ha tenido el progreso más significativo porque se han
construido redes de última generación utilizando NN convolucional (CNN) [45–48] y NN recurrente (RNN) [49,50]. CNN
ha mostrado muchos éxitos en las áreas de reconocimiento/clasificación de imágenes y visión por computadora, y
procesamiento de lenguaje natural (NLP) e investigación de datos de secuenciación por parte de RNN.
Específicamente, también se ha observado un gran desempeño en muchas áreas médicas, incluida la clasificación de
tipos de cáncer de piel [72,73], identificación de diapositivas histológicas patológicas [74], identificación de la región de
la plaga Aβ en pacientes con Alzheimer, clasificación de células cancerosas de células normales
Cánceres2020,12, 603 8 de 19

células utilizando medidas morfométricas nucleares [75] y extracción de información de registros de salud
electrónicos (EHR) para predecir el reingreso hospitalario [76,77], la mortalidad [78] y el resultado clínico [79]. En los
estudios de pronóstico del cáncer, la CNN se ha aplicado a la clasificación de tejido canceroso para la predicción de la
supervivencia o la extracción de características para el pronóstico posterior. Algunos de estos estudios también
agregaron capas RNN para extraer información secuencial de los datos.
El glioblastoma multiforme (GBM) es un tipo de tumor cerebral. Se ha encontrado que la metilación del
promotor del gen O6-metilguanina metiltransferasa (MGMT) se asocia con una supervivencia más prolongada y una
mejor respuesta a un fármaco, la temozolomida. Por lo tanto, la metilación del gen MGMT se ha considerado como un
biomarcador. Sin embargo, la verificación del promotor del gen MGMT en el cerebro es difícil e invasiva. Usando
imágenes de resonancia magnética de alta calidad de pacientes que tienen información etiquetada del estado de
metilación del promotor MGMT, un modelo CNN preentrenado de 50 capas, ResNet50 [80] se usó para el aprendizaje
de transferencia y logró la precisión más alta de ~ 95% en comparación con ResNet18 y ResNet34 [81] (Tabla 3).
Similarmente, otro grupo de investigación utilizó imágenes de resonancia magnética cerebral de una cohorte
diferente de pacientes con GBM para construir un modelo NN recurrente convolucional bidireccional (CRNN) para
predecir el estado de metilación del promotor del gen MGMT y sugirió la sensibilidad del paciente a la temozolomida
en función de la predicción del estado de metilación [82]. Se agregaron capas RNN a este modelo para capturar
información secuencial de imágenes de resonancia magnética [82], pero el efecto no se estudió bien ya que el
rendimiento del modelo no se comparó con o sin la capa RNN. En este estudio, los autores aplicaron muchas técnicas
para reducir el sobreajuste, como la regularización de L2, los abandonos y el aumento de datos (Tabla 3). Aunque la
precisión del entrenamiento es alta (0,97), las precisiones de la validación y la prueba fueron solo de 0,67 y 0,62,
respectivamente, lo que sugiere que el modelo todavía estaba sobreajustado a los datos de entrenamiento. En lugar
de predecir el estado de metilación del promotor del gen MGMT en el cáncer de glioblastoma, Mobadersany et al.
entrenó un NN convolucional de supervivencia (SCNN) utilizando imágenes histológicas, datos clínicos con o sin
marcadores genómicos en glioma y glioblastoma y demostró que el poder de predicción de este NN ha superado la
precisión pronóstica de la clasificación genómica y la clasificación histológica de la OMS en 2018 [83]. Mediante el uso
de secciones de tejido teñidas con H&E de 1061 muestras de 769 pacientes, se identificaron regiones de interés (ROI)
que contienen células tumorales viables mediante una plataforma basada en la web en imágenes de tejido para
entrenar una CNN con regresión de riesgo proporcional de Cox como capa de salida para predecir resultados de los
pacientes (Tabla 3). También compararon el rendimiento de la NN con o sin inclusión de algunos datos genómicos (es
decir, mutación del gen IDH y codeleción 1p/19q).
Cánceres2020,12, 603 9 de 19

Tabla 3.Resumen de los modelos basados en CNN.

Tipo de Tipo de
Publicacióna Tamaño de la muestra Arquitectura Salidas Hiperparámetros Validación Rendimiento del modelo NN
Cáncer Datos
Modelo basado en ResNet50
155 (66 metilados y 89
conjunto de datos de validación
tumores no metilados)
Lr1= 0,01, mini lote = rendimiento: Precisión =
Formación: 7856 imágenes (934
32, impulso = 0,5, 94,9 %, precisión = 96 %,
metilado, 1621 Modelo base: 3 clases,
caída de peso = 0,1, recuperación = 95 %
Korfiatis y Glioblastoma no metilado, 5301 no ResNet18 metilado, Cruz estratificada
imágenes de resonancia magnética Activación Relu, ResNet34 Precisión =
otros, 2017 [81] multiforme tumor) ResNet34 no metilado, validación
Época = 50, SGD2como 80,72 %, precisión = 93 %,
Pruebas: 2612 imágenes (250 ResNet50 o sin tumor
optimizador, lote recuperación = 81 %, ResNet18
metilado, 335
normalización Precisión = 76,75%,
no metilado, 2027 no
Precisión: 80 %, recuperación =
tumor)
77%
aumento de datos,
(rotación y volteo, 90
3 capas convolucionales, 2 capas aumento de veces del conjunto
2 clases Conjunto de datos de entrenamiento obtenido
completamente conectadas, 1 de datos), Lr = 5e−6 – Conjunto de validación
458,951 marcos de imagen de 5235 (positivo y 0,97 de precisión. Precisión de
Han et al., Glioblastoma GRU bidireccional4 5e−1, alcanzó un
imágenes de resonancia magnética resonancias magnéticas de 262 negativo 0,67 y 0,62 en el conjunto de
2018 [81] multiforme capa (RNN), 1 completamente abandono (0–0,5), Adán precisión de 0,67,
pacientes (TCIA3) metilación validación y prueba,
capa conectada, optimizador, un ABC de 0,56.
estado) respectivamente
salida softmax Época = 10,
Regularización L2, lote
norma, activación relu
VGG19 es la base El índice c medio de SCNN es
ÉL 769 gliomas de TCGA, que
modelo y cox Aumento de datos, Lr = 0.754, GSCNN (agregando
Mobadersany Grado bajo imágenes, contienen datos genómicos
regresión utilizada como 0,001, época = 100, Monte Carlo mutación IDH y codeleción 1
et al., 2018 glioma y genómica (mutación IDH y 1 p/19 q Supervivencia
salida, Construido 2 modelos aprendizaje exponencial validación cruzada p/19 q como características)
[83] glioblastoma datos, clínico codeleción), datos clínicos
con o sin decadencia mejoraron la mediana c-
datos y 1061 diapositivas.
datos genómicos índice a 0.801
Conjunto de entrenamiento (tejido): 86

portaobjetos H&E para crear 100 000

parches de imagen

Conjunto de prueba (tejido): 25 diapositivas Modelos básicos: VGG19,


Lr = 3e −4,
H&E de 7180 parches de imagen Conjunto de AlexNet, GoogleLeNet, Un independiente VGG19 obtiene los mejores
Kather et al., Colorrectal tejido H&E 9 tipo de tejido Iteración = 8,
entrenamiento (OS5): 862 HE SqueezeNet y cohorte de 409 resultados, 94–99 % de precisión en
2019 [74] cáncer diapositivas clasificación Tamaño del lote = 360, softmax
diapositivas de 500 TCGA Resnet50, agregue una salida muestras la predicción de clase de tejido
función
pacientes capa softmax
Conjunto de validación (SO): 409

Diapositivas H&E de 409


pacientes con DACHS
Cánceres2020,12, 603 10 de 19

Tabla 3.Resumen de los modelos basados en CNN. (continuación).

Modelo NN
Publicacióna Tipo de cáncer Tipo de datos Tamaño de la muestra Arquitectura Salidas Hiperparámetros Validación
Rendimiento
Defecto
VGG16 para generar un 16 ×
hiperparámetros en 60 muestras El modelo CNN + LSTM
Imágenes de H&E 16 características a partir de
420 pacientes (igual número de VGG16, LSTM utilizado por alcanzó un AUC7de
Bychkov et al., Colorrectal de tumor datos de entrada, seguidas
sobrevivientes o fallecidos en cinco años) Supervivencia tangente hiperbólica como validación, 0,69, mejor que CNN
2018 [84] cáncer tejido de LSTM de 3 capas6(264, 128
después del diagnóstico) activación, función de pérdida 140 muestras + SVM, CNN + LR8, o
micromatriz y 64 celdas LSTM,
de entropía cruzada binaria, para las pruebas CNN + NB9
respectivamente)
optimizador Adadelta
Dividido cada diapositiva para arriba MesoNet
a 10.000 mosaicos como entrada superado
2981 portaobjetos de pacientes
datos Perceptrón multicapa basado en histología
Courtiol et al., (MESOPATH/MESOBANCO, 2300 56 paciente
mesotelioma Toboganes H&E 3 clases de cada mosaico: Supervivencia con activación sigmoidea, clasificacion pero no
2019 [85] entrenamiento, 681 pruebas) diapositivas
epitelioide, sarcomatoide o Codificador automático mejor que un lineal
Validación: 56 pacientes (TCGA)
bifásico. ResNet50 para basado en regresión
extracción de características modelo (Meanpool)
dieciséis
normalización de lotes,
Alto grado tomografía computarizada Cohorte de aprendizaje de características: 8917 CT Cinco capas convolucionales dimensional Las salidas de CNN fueron
Wang et al., agrupación promedio
ovario seroso fase venosa imágenes de 102 pacientes (24, 16, 16, 16, 16 filtros, minable No reportado utilizado para construir Cox-PH
2019 [86] entre adyacentes
cáncer imágenes respectivamente) rasgo modelo
capas convolucionales
vector

Abreviatura:1Lr: tasa de aprendizaje;2USD; descenso de gradiente estocástico;3TCIA: El Archivo de Imágenes del Cáncer;4GRU: unidad recurrente cerrada, que es similar a LSTM y se utiliza en la construcción de modelos RNN;
5SG: supervivencia global;6LSTM: célula de memoria a largo plazo;7AUC: área bajo la curva de ROC;8LR: regresión logística;9NB: bayes ingenuo;10c-index: también conocido como índice de concordancia de Harell.a
Enlaces a códigos fuente si están disponibles en publicaciones: Han et al., 2018 [81]: http://onto-apps.stanford.edu/m3crnn/. Kather et al., 2019 [74]: http://dx.doi.org/10.5281/zenodo.1214456, http://dx.doi.org/
10.5281/zenodo.1420524, http://dx.doi. org/10.5281/zenodo.1471616, Wang et al., 2019 [86]: http://www.radiomics.net.cn/post/111.
Cánceres2020,12, 603 11 de 19

El cáncer colorrectal (CCR) es un tipo de tumores sólidos. Las imágenes de H&E son la principal herramienta para
diagnosticar CRC y determinar la etapa de CRC. En el portaobjetos H&E de pacientes con CCR, es importante diferenciar los
tejidos normales de las regiones cancerosas. Kather et al. [74] etiquetó a mano 100 000 parches de imagen utilizando 86
portaobjetos CRC H&E en 9 clases de tejido, incluidos tejido adiposo, fondo, desechos, linfocitos, moco, músculo liso, mucosa
normal, estroma y epitelio canceroso [74]. Usaron estas imágenes como datos de entrenamiento con 7180 imágenes
adicionales de 25 pacientes como datos de prueba para construir un modelo de CNN usando redes de CNN de última
generación, como VGG19 y Resnet50, para realizar transferencias de aprendizaje y han alcanzado 94–99 % de precisión en la
clasificación de los tipos de tejido (Tabla 3). Al calcular los cocientes de riesgos instantáneos (HR) para una supervivencia
general (SG) más corta y seleccionar los puntos de corte óptimos en función de la curva ROC, los autores definieron una
puntuación de estroma profundo y sugirieron que, aunque no tiene una correlación significativa, la puntuación de estroma
profundo muestra una tendencia de correlación con una SG más corta . En otro estudio de CRC, Bychkov et al. [84] utilizaron
modelos CNN como herramienta para la extracción de características y crearon un modelo RNN (LSTM) para predecir la
supervivencia de los pacientes con CCR. Utilizaron VGG16 como modelo base para realizar el aprendizaje de transferencia y
extrajeron un vector de características de 256 mosaicos de cada imagen H&E de microarray de tejido tumoral de entrada
(Tabla 3). Luego ingresan estos vectores de características de 220 pacientes (igual número de pacientes en el grupo de
supervivencia a corto o largo plazo) para entrenar un modelo RNN de células LSTM. También entrenaron SVM, naive bayes y
modelos de regresión logística para comparar el rendimiento. Mostraron que el modelo LSTM alcanzó un AUC de 0,69,
mientras que SVM, bayes ingenuo y regresión logística alcanzaron AUC de 0,64, 0,61 y 0,65, respectivamente. También
informaron que los expertos humanos solo pueden alcanzar un AUC de 0,57 a 0,58, lo que sugiere que el rendimiento de este
modelo es mejor que el humano.
El mesotelioma maligno es un tipo de cáncer raro y altamente letal del revestimiento pleural. De acuerdo
con la clasificación de la OMS, la biopsia de tejido de los pacientes se puede clasificar en tipos epitelioide,
sarcomatoide y bifásico. El pronóstico del mesotelioma está estrechamente relacionado con los tipos de tejido,
ya que el tipo epitelioide tiene la supervivencia global más larga, el tipo sarcomatoide tiene la supervivencia
global más corta y el tipo bifásico se encuentra en el medio [85]. Con base en el conocimiento clínico, Courtiol
et al. construyó un modelo MesoNet utilizando de 100 a 10 000 mosaicos de tejido histológico de 2300
portaobjetos H&E de la base de datos MESOPATH/MESOBANK. Al transferir el aprendizaje de ResNet50 y
realizar la extracción de características, se extrajo una matriz de características (2048) de cada mosaico para
entrenar MesoNet. El índice C mostró que MesoNet funcionó mejor que los métodos de clasificación basados
en histología,
De manera similar, los modelos CNN se pueden usar para extraer características de las imágenes para construir
otro modelo de aprendizaje automático para predecir el pronóstico del cáncer. El cáncer de ovario seroso de alto
grado (HGSOC, por sus siglas en inglés) es el tipo histológico de cáncer de ovario más común y más letal. Wang et al.
[86] utilizó imágenes basadas en TC y entrenó un modelo CNN para extraer características de imagen para construir
un modelo de predicción de supervivencia Cox-PH. En este estudio, 102 pacientes con HGSOC, que se sometieron a
cirugía citorreductora y permanecieron en un estudio de seguimiento de 2 años, se utilizaron como cohorte de
extracción de características (Tabla 3). Se utilizó un total de 8917 imágenes de tumores para entrenar un modelo CNN
no supervisado para la extracción de características de un vector de características de 16 dimensiones. A continuación,
el vector de características se introdujo en un modelo de regresión Cox-PH multivariable para identificar la asociación
del vector de características y la recurrencia de HGSOC.

4. Desafíos en la aplicación del aprendizaje profundo en el pronóstico del cáncer

Al revisar la literatura, notamos que muchas técnicas de aprendizaje profundo de última generación se han
aplicado a la predicción del pronóstico del cáncer, lo que indica el gran potencial y la necesidad urgente de utilizar
datos multiómicos de pacientes con cáncer para probar nuevos algoritmos y mejorar. rendimiento del modelo (Figura
1). Mientras tanto, descubrimos que existen siete desafíos principales en la aplicación del enfoque de aprendizaje
profundo en la predicción del pronóstico del cáncer para lograr un alto rendimiento. También sugerimos algunas
posibles soluciones para estos desafíos.
Cánceres2020,12, 603 12 de 19

Figura 1.Flujo de trabajo de creación de modelos de aprendizaje profundo para la predicción del pronóstico del cáncer. Las fuentes de datos de entrada incluyen

datos clínicos que podrían ser datos de texto y/o datos estructurados (datos numéricos y/o categóricos), imágenes clínicas que podrían ser portaobjetos de

tejido en tinción H&E o tinción inmunohistológica. MRI, CT, etc., y datos genómicos que podrían ser datos de expresión (es decir, datos de expresión de ARNm,

datos de expresión de miARN), datos de secuencia genómica (es decir, secuencia del genoma completo, datos de SNP, datos de CNA, etc.), datos epigenéticos

(es decir, datos de metilación), etc. En el siguiente paso, los investigadores examinarán los datos para manejar los datos faltantes y los datos desequilibrados. La

reducción de datos genómicos de alta dimensión es un paso opcional aquí. Luego, las características se utilizan para construir un modelo de aprendizaje

profundo (red neuronal). El tipo de modelos a utilizar depende de los datos de entrada. Por ejemplo, NN completamente conectado se usa comúnmente para

conjuntos de datos estructurados. Los datos de imagen se utilizan para construir modelos de CNN. Los datos de secuencia se utilizan a menudo para construir

modelos RNN. Si existen múltiples tipos de datos, se pueden construir modelos híbridos para aceptar diferentes tipos de datos. Una vez construido el modelo,

se probará en los conjuntos de datos reservados (o de validación). También será importante probar y comparar los modelos utilizando conjuntos de datos de

referencia. Finalmente, el modelo se puede utilizar en aplicaciones. Abreviaturas: FPR: tasa de falsos positivos; TPR: tasa de verdaderos positivos. También será

importante probar y comparar los modelos utilizando conjuntos de datos de referencia. Finalmente, el modelo se puede utilizar en aplicaciones. Abreviaturas:

FPR: tasa de falsos positivos; TPR: tasa de verdaderos positivos. También será importante probar y comparar los modelos utilizando conjuntos de datos de

referencia. Finalmente, el modelo se puede utilizar en aplicaciones. Abreviaturas: FPR: tasa de falsos positivos; TPR: tasa de verdaderos positivos.

En primer lugar, la cantidad de datos de pacientes sigue siendo relativamente pequeña. La mayoría de los modelos se
construyeron sobre cientos de muestras de pacientes (Tablas 1–3). Es común ver un rendimiento subóptimo y problemas de
sobreajuste en estos estudios. El rendimiento de los modelos de aprendizaje profundo se ve potenciado por la cantidad de
datos [27]. Para combatir el sobreajuste, los investigadores aplicaron métodos de regularización (cresta y lazo o L1 y L2),
abandono, aumento de datos, reducción de la complejidad de NN para mejorar el rendimiento del modelo, pero el efecto aún
está limitado por la cantidad de datos. Para mejorar el rendimiento del modelo con pequeños conjuntos de datos, la
transferencia de aprendizaje con modelos de entrenamiento previo en grandes cantidades de conjuntos de datos ha
demostrado tener éxito en la resolución de algunos de los problemas [87–89]. Además, también se han propuesto y probado
métodos y algoritmos más nuevos para combatir el problema del tamaño de muestra pequeño, como el aprendizaje de pocos
disparos o de un solo disparo en CNN [90,91]. Otra dirección es realizar simulación de datos. Será interesante probar estos
métodos en el campo del pronóstico del cáncer.
En segundo lugar, comúnmente se encuentran datos de pacientes desequilibrados. Para algunos cánceres de alta
mortalidad, es muy común encontrar menos sobrevivientes en los grupos de estudio. Los datos desequilibrados en el
entrenamiento reducirán el rendimiento del modelo. Si bien el submuestreo en el grupo mayoritario es subóptimo, la
generación de datos sintéticos podría ser una de las soluciones. En el problema de clasificación de imágenes, el aumento de
datos también es una forma de aumentar el tamaño de la muestra para ajustar los grupos que tienen menos tamaños de
muestra. Además, el rendimiento del modelo de informes debe usar algoritmos adicionales, como precisión, recuperación,
puntaje F1 y matriz de confusión, en lugar de solo informar la precisión para reflejar mejor el rendimiento del modelo.
En tercer lugar, el manejo de datos escasos o faltantes de perfiles clínicos de pacientes ruidosos también es un desafío.
Los datos que faltan en la construcción de un modelo reducen el poder del modelo en la predicción. Las formas comunes de
manejar los datos faltantes incluyen la exclusión de la observación de datos faltantes, pero esto es muy costoso cuando
Cánceres2020,12, 603 13 de 19

las muestras de pacientes ya son muy limitadas. Una mejor manera de superar este problema es realizar una
imputación de datos basada en datos conocidos. Rendleman et al. propuso realizar la imputación utilizando la
imputación multivariada por ecuaciones encadenadas (MICE) [92] para superar el problema de la falta o la escasez de
datos en el resultado del paciente con cáncer [93]. MICE es una técnica de imputación múltiple [94] que funciona bajo
el supuesto de que los datos faltantes se pierden al azar. En este estudio, demostraron que la predicción usando naive
bayes o random forest funciona un poco mejor después de la imputación, lo que sugiere que la imputación podría ser
una forma útil de mejorar la predicción.
En cuarto lugar, los datos de atención médica, en particular los datos de secuenciación, son de gran dimensión, la extracción de
características podría ser la solución para mejorar el rendimiento del modelo. Como mostramos en la Tabla 2, los estudios han realizado
la extracción de características mediante el uso de algoritmos o la aplicación de conocimiento del dominio para mejorar el rendimiento
del modelo. NN también se puede utilizar para la extracción de características y la reducción de dimensiones [86,95]. Será interesante
probar y aplicar una nueva forma de incrustación de datos para datos de alta dimensión.
En quinto lugar, se necesitan modelos de aprendizaje profundo más genéricos y la validación del modelo en conjuntos de datos de referencia es fundamental para validar el rendimiento

del modelo. La precisión en el rendimiento del modelo es difícil de comparar entre diferentes estudios y diferentes modelos [96]. Los modelos de aprendizaje profundo con algoritmos mejorados

deben construirse y probarse para tareas más genéricas. Por ejemplo, se ha propuesto un análisis de supervivencia recurrente profundo que utilizó células LSTM como componentes básicos para el

análisis de supervivencia [97]. Será interesante probar este modelo en el pronóstico del cáncer. Además, la creación de conjuntos de datos de referencia para la comparación de modelos permitirá a

los investigadores comparar y analizar el rendimiento del modelo de manera más fácil y eficiente. Por ejemplo, en los últimos años, ImageNet, una base de datos que contiene millones de imágenes

de la vida cotidiana, se ha utilizado con frecuencia para evaluar los modelos CNN [98–100], que es un factor crítico que contribuye al desarrollo en el campo. Los modelos que se construyeron

utilizando objetos cotidianos de ImageNet han sido ampliamente utilizados para otras tareas y alcanzan un gran éxito. Además, estos modelos se usan comúnmente en muchos campos y tareas

para realizar transferencias de aprendizaje. En el campo de la medicina, también se ha demostrado que un solo modelo de aprendizaje profundo es efectivo en el diagnóstico en todas las

modalidades médicas [101]. Por lo tanto, se necesita con urgencia la construcción de bases de datos de referencia para la validación de modelos. Una solución es comenzar a construir bases de

datos de pacientes con cáncer para el análisis de pronóstico [102–111]. estos modelos se usan comúnmente en muchos campos y tareas para realizar transferencias de aprendizaje. En el campo de

la medicina, también se ha demostrado que un solo modelo de aprendizaje profundo es efectivo en el diagnóstico en todas las modalidades médicas [101]. Por lo tanto, se necesita con urgencia la

construcción de bases de datos de referencia para la validación de modelos. Una solución es comenzar a construir bases de datos de pacientes con cáncer para el análisis de pronóstico [102–111].

estos modelos se usan comúnmente en muchos campos y tareas para realizar transferencias de aprendizaje. En el campo de la medicina, también se ha demostrado que un solo modelo de

aprendizaje profundo es efectivo en el diagnóstico en todas las modalidades médicas [101]. Por lo tanto, se necesita con urgencia la construcción de bases de datos de referencia para la validación

de modelos. Una solución es comenzar a construir bases de datos de pacientes con cáncer para el análisis de pronóstico [102–111].

En sexto lugar, además de los desafíos técnicos, construir la infraestructura para el almacenamiento de datos y establecer la
canalización para construir el modelo de aprendizaje automático puede ser muy útil para facilitar el desarrollo [8]. Debido a que los
datos de atención médica son confidenciales, la seguridad de los datos se convierte en una preocupación. Cómo construir un sistema
para almacenar y usar de manera segura los datos de atención médica de los pacientes para construir modelos y también proteger la
privacidad de los pacientes requiere el esfuerzo de la administración, la comunidad de investigación y la conciencia personal. Se pueden
establecer servicios seguros en la nube e infraestructura relevante para respaldar el almacenamiento de una gran cantidad de datos de
atención médica. El aprendizaje federado que solo entrena y predice los datos de los usuarios en sus propios dispositivos es una forma
innovadora de resolver los problemas de privacidad [112].
Por último, existe la necesidad urgente de investigadores que tengan experiencia en investigación biomédica y
aprendizaje automático. En comparación con las anotaciones de datos colaborativos, como las anotaciones para objetos de
ImageNet [113], los datos médicos requieren anotadores que tengan experiencia para etiquetar los datos. El conocimiento del
dominio facilita la construcción de modelos de aprendizaje automático. Por lo tanto, los ingenieros de investigación que tienen
conocimiento del dominio son muy necesarios para mejorar la investigación en esta área. Para resolver esta necesidad, las
universidades pueden ofrecer cursos y títulos más relevantes.

5. Conclusiones y Resumen

El aprendizaje profundo ha mejorado significativamente la investigación y ha comenzado a generar cambios en nuestra


vida diaria. En el campo de la medicina, muchos estudios han aplicado el aprendizaje profundo y han mostrado grandes éxitos
[78,114–122]. Una de las ventajas de usar el aprendizaje profundo para entrenar un modelo es su capacidad para continuar
entrenando cuando hay más datos disponibles [27]. Además, dado que los datos de atención médica tienen diferentes
formatos, por ejemplo, datos genómicos, datos de expresión, datos clínicos (estructurados), datos de texto e imagen (no
estructurados), el uso de diferentes arquitecturas NN para resolver diferentes tipos de problemas de datos se vuelve cada vez
más popular y útil [27]. En esta revisión, resumimos estudios recientes que aplicaron el aprendizaje profundo para estudiar el
pronóstico del cáncer (Tablas 1–3). Entre estos estudios, muchos han demostrado que los modelos de aprendizaje profundo
funcionan igual o mejor que otros modelos de aprendizaje automático [58,59,123]. Futuro
Cánceres2020,12, 603 14 de 19

el trabajo debe continuar centrándose en probar y mejorar el algoritmo y construir modelos de última generación
para mejorar la predicción del pronóstico del cáncer.

6. Puntos clave

● Los modelos de aprendizaje profundo (red neuronal) aceptan una gran cantidad de datos en diferentes formatos. Es una gran herramienta

para ser utilizada en la predicción del pronóstico del cáncer, ya que los datos de salud del paciente contienen datos de múltiples

fuentes.

● El uso de la extracción de características podría ser una forma de extraer datos de manera eficiente de datos multiómicos para
entrenar redes neuronales y posiblemente mejorar la predicción del pronóstico del cáncer.
● Los modelos NN y CNN totalmente conectados se probaron en varios estudios para predecir el
pronóstico del cáncer y mostraron un buen rendimiento.
● Los modelos actuales de aprendizaje profundo en los estudios de pronóstico del cáncer aún requieren más pruebas y validación
en conjuntos de datos más grandes.

Fondos:Este estudio cuenta con el apoyo de los siguientes fondos: Proyecto Principal de Ciencia y Tecnología de Kaifeng
(18ZD008), Fundación Nacional de Ciencias Naturales de China (No.81602362, No. 81801569), Programa para el Desarrollo de
la Ciencia y la Tecnología en la provincia de Henan (No.162102310391, No. .172102210187, No.192102310302), Programa para
jóvenes maestros clave de la provincia de Henan (2016GGJS-214), Subvenciones de apoyo de la Universidad de Henan
(No.2015YBZR048, No.B2015151), Programa académico Yellow River (No.H2016012).

Conflictos de interés:Los autores declaran no tener conflicto de intereses.

Referencias

1. Siegel, RL; Miller, KD; Jemal, A. Estadísticas de cáncer, 2019.CA Cáncer J. Clin.2019,69, 7–34.
2. Ahmed, FE; Vos, PW; Holbert, D. Modelado de supervivencia en cáncer de colon: una revisión metodológica.mol.
Cáncer2007,6, 15, doi:10.1186/1476-4598-6-15.
3. Michael, KY; Ma, J.; Fischer, J.; Kreisberg, JF; Rafael, BJ; Ideker, T. Aprendizaje automático visible para
biomedicina.Celda2018,173, 1562–1565.
4. Kaplan, EL; Meier, P. Estimación no paramétrica a partir de observaciones incompletas.publ. Soy. Estadística Asoc.
1958,53, 457–481.
5. NW, M. Evaluación de datos de supervivencia y dos nuevas estadísticas de orden de rango que surgen en su consideración.
Quimioterapia contra el cáncer. Reps.1966,50, 163–170.
6. Peto, R.; Peto, J. Procedimientos de prueba invariantes de rango asintóticamente eficientes.Estado JR. Soc. Ser. A1972,135, 185–198.
7. Harrington, D. Pruebas de rango lineal en análisis de supervivencia. EnEnciclopedia de Bioestadística, 2ª ed.; Armitage, P.,
Colton, T., editores; Wiley: Nueva York, NY, EE. UU., 2005.
8. Goossens, N.; Nakagawa, S.; Sol, X.; Hoshida, Y. Descubrimiento y validación de biomarcadores de cáncer.Traducir Cáncer
Res.2015,4, 256–269.
9. Bronceado, M.; Peng, C.; Anderson, KA; Chhoy, P.; Xie, Z.; Dai, L.; Parque, J.; Chen, Y.; Huang, H.; Zhang, Y., et al. La
glutarilación de lisina es una modificación postraduccional de proteínas regulada por SIRT5.Metab. celular2014,19, 605–
617, doi:10.1016/j.cmet.2014.03.014.
10. Alexe, G.; Dalgin, G.; Ganesan, S.; Delisi, C.; Bhanot, G. Análisis de la progresión del cáncer de mama mediante
análisis de componentes principales y agrupación.J. Biosci.2007,32, 1027–1039.
11. Hemsley, PA Una perspectiva sobre la acilación de la proteína S en las plantas: ¿Cuáles son los próximos pasos?Exp. J. Bot.2017,
10.1093/jxb/erw497.
12. Kretowska, M. Inteligencia Computacional en Análisis de Supervivencia. EnEnciclopedia de Business Analytics y
Optimización; IGI Global: Polonia.2014; págs. 491–501.
13. Petalidis, LP; Oulas, A.; Backlund, M.; Wayland, MT; Liu, L.; Planta, K.; Happyfield, L.; Freeman, TC; Poirazi, P.; Collins, vicepresidente
Clasificación mejorada y predicción de supervivencia de los tumores cerebrales astrocíticos humanos mediante el análisis de
redes neuronales artificiales de datos de microarrays de expresión génica.mol. Cáncer Ther.2008,7, 1013–1024.
14. Chi, CL; Calle, WN; Wolberg, WH Aplicación del análisis de supervivencia basado en redes neuronales artificiales en dos
conjuntos de datos de cáncer de mama.Amia. año Síntoma proc.2007,11, 130–134.
15. van IJzendoorn, DG; Szuhai, K.; Briaire-de Bruijn, IH; Kostine, M.; Kuijjer, ML; Bovée, JV El análisis de aprendizaje automático
de los datos de expresión génica revela nuevos biomarcadores de diagnóstico y pronóstico e identifica dianas
terapéuticas para los sarcomas de tejidos blandos.Cómputo PLoS. Biol.2019,15, doi:10.1371/journal.pcbi.1006826.
Cánceres2020,12, 603 15 de 19

16. Kourou, K.; Exarchos, TP; Exarchos, KP; Karamouzis, MV; Fotiadis, DI Aplicaciones de aprendizaje automático en el
pronóstico y la predicción del cáncer.computar Estructura. Biotecnología. j2015,13, 8–17.
17. Chang, K.; Creighton, CJ; Davis, C.; Donehower, L.; Drummond, J.; Wheeler, D.; Aliado, A.; balasundaram,
METRO.; Birol, I.; Butterfield, YSN Proyecto de análisis Pan-Cancer del Atlas del Genoma del Cáncer.Barbilla. J. Cáncer de pulmón
2013,45, 1113–1120.
18. Tomczak, K.; Czerwinska, P.; Wiznerowicz, M. Revisión del Atlas del genoma del cáncer (TCGA): una fuente
inconmensurable de conocimiento.Contemp. oncol.2015,19, A68–A77.
19. Chandran, UR; P., Medvedeva, O.; Michael, BM; Sangre, EP; Anish, C.; Soumya, L.; Antonio, F.; Wong,
KF; Lee, AV; Zhihui, Z. Expedición TCGA: un sistema de gestión y adquisición de datos para datos TCGA.
Más uno2016,11, doi:10.1371/journal.pone.0165395.
20. Gao, J.; Aksoy, BA; Dogrusoz, U.; Dresdner, G.; Bruto, B.; Sumeria, SO; Sol, Y.; Jacobsen, A.; Sinha, R.; Larsson,
E. Análisis integrador de perfiles clínicos y genómicos complejos del cáncer utilizando el cBioPortal.
ciencia Señal.2013,6, doi:10.1126/scisignal.2004088.
21. Haeussler, M.; Zweig, AS; Tyner, C.; Speir, ML; Rosenbloom, KR; Raney, BJ; Lee, CM; Lee, BT; Hinrichs, AS; Gonzalez,
JN La base de datos del navegador del genoma de la UCSC: actualización de 2019.Ácidos Nucleicos Res.2018, 47,
D853–D858.
22. Deng, M.; Brägelmann, J.; Kriukov, I.; Saraiva-Agostinho, N.; Perner, S. FirebrowseR: un cliente R para el oleoducto Firehose
de Broad Institute.Base de datos J. Biol. Curación de bases de datos2017, doi:10.1093/base de datos/baw160.
23. Clough, E.; Barrett, T. La base de datos ómnibus de expresión génica.Métodos Mol. Biol.2016,1418, 93–110.
24. Édgar; R. Gene Expression Omnibus: repositorio de datos de matrices de hibridación y expresión génica del NCBI. Ácidos
Nucleicos Res.2002,30, 207–210.
25. Lonsdale, J.; Tomás, J.; Salvatore, M.; Philips, R.; Lo, E.; Sábalo, S.; Hasz, R.; Walters, G.; García, F.; Joven,
N. El proyecto Genotype-Tissue Expression (GTEx).Nat. Gineta.2013,13, 307–308.
26. Consorcio, TG El análisis piloto de expresión de tejido de genotipo (GTEx): regulación de genes de tejidos múltiples en
humanos.Ciencias2015,348, 648–660.
27. Esteva, A.; Robicquet, A.; Ramsundar, B.; Kuleshov, V.; DePristo, M.; Chou, K.; Cui, C.; Corrado, G.; Thrun,
S.; Dean, J. Una guía para el aprendizaje profundo en el cuidado de la salud.Nat. Medicina.2019,25, 24–29.

28. Cramer, JS Los orígenes de la regresión logística.Soc. ciencia Electrón. publ.2003, doi:10.2139/ssrn.360300.
29. Boser, BE; Guyón, IM; Vapnik, VN Un algoritmo de entrenamiento para clasificadores de margen óptimo.proc. Quinto Año.
Cómputo del taller. Aprender. Teoría2008,5, 144–152.
30. Maron, ME Indexación automática: una investigación experimental.J. ACM1961,8, 404–417.
31. Breiman, L.; Friedman, JH; Olshen, RAÁrboles de clasificación y regresión; Routledge: Nueva York, NY, EE.
UU., 2017.
32. Friedman, JH Aumento de gradiente estocástico.computar Estadística Análisis de datos.2002,38, 367–378.
33. Breiman, L.Arqueando el borde; Reporte técnico; Departamento de Estadística, Universidad de California: Berkeley, CA, EE.
UU.,1997.
34. Quinlan, JR Inducción de árboles de decisión.Mach. Aprender.1986,1, 81–106.
35. Sibson, R. SLINK: Un algoritmo óptimamente eficiente para el método de clúster de enlace único.computar j1973,dieciséis, 30–34.
36. Defays, D. Un algoritmo eficiente para un método de enlace completo.computar j1977,20, 364–366.
37. Lloyd, S. Cuantificación por mínimos cuadrados en PCM.Trans. IEEE. información Teoríamil novecientos ochenta y dos,28, 129–137.

38. MacQueen, J. Algunos métodos para la clasificación y análisis de observaciones multivariadas. En Actas del Quinto
Simposio de Berkeley sobre Estadística Matemática y Probabilidad; Los Ángeles, CA, EE. UU., 1967, págs. 281–
297.
39. Blei, DM; Ng, AY; Jordan, MI Asignación de dirichlet latente.J. Mach. Aprender. Res.2003,3, 993–1022.
40. Pearson, K. Análisis de componentes principales.largo Edinb. Filosofía de Dublín. revista J. Ciencia.1901,6, 559.
41. Mikolov, T.; Sutskever, I.; Chen, K.; Corrado, GS; Dean, J. Representaciones distribuidas de palabras y frases y su
composicionalidad.Adv. Información neuronal Proceso. sist.2013,26, 3111–3119.
42. Sutton, RS; Barto, AGAprendizaje por refuerzo: una introducción; Prensa del MIT: Cambridge, MA, EE. UU., 2018.
43. Hinton, GE Aprendizaje de representaciones distribuidas de conceptos. En Actas de la Octava Conferencia Anual de la
Sociedad de Ciencias Cognitivas; Hillsdale, Nueva Jersey, EE. UU., 1991. pág. 12
44. Bengio, Y. Aprendizaje de arquitecturas profundas para IA.Encontrado. Tendencias®Mach. Aprender.2009,2, 1–127.

45. Szegedy, C.; Liu, W.; Jia, Y.; Sermanet, P.; Caña, S.; Anguelov, D.; Erhan, D.; Vanhoucke, V.; Rabinovich, A. Profundizando con
circunvoluciones. En Actas de la Conferencia IEEE de 2015 sobre visión por computadora y reconocimiento de patrones
(CVPR), Boston, MA, EE. UU., 7 al 12 de junio2015.
Cánceres2020,12, 603 16 de 19

46. Simonian, K.; Zisserman, A. Redes convolucionales muy profundas para el reconocimiento de imágenes a gran escala.arXiv: 2014,
arXiv:1409.1556.
47. Él, K.; Zhang, X.; Ren, S.; Sun, J. Aprendizaje residual profundo para el reconocimiento de imágenes. En Actas de la Conferencia IEEE
sobre visión por computadora y reconocimiento de patrones, Hilton Head Island, SC, EE. UU., 15 de junio2000; págs. 770–778.

48. Chollet, F. Xception: aprendizaje profundo con circunvoluciones separables en profundidad. En Actas de la Conferencia IEEE de 2017
sobre visión por computadora y reconocimiento de patrones (CVPR), Honolulu, HI, EE. UU., 21 al 26 de julio de 2017; págs. 1251–
1258.
49. Jordán, M.Orden en serie: un enfoque de procesamiento distribuido en paralelo; Reporte técnico; Universidad de California: San
Diego, CA, EE. UU., 1986.
50. Hochreiter, S.; Schmidhuber, J. Memoria larga a corto plazo.Cómputo neuronal.1997,9, 1735–1780.
51. Quang, D.; Chen, Y.; Xie, X. DANN: Un enfoque de aprendizaje profundo para anotar la patogenicidad de las variantes
genéticas.Bioinformática2015,31, 761–763.
52. Farahbakhsh-Farsi, P.; Djalali, M.; Koohdani, F.; Saboor-Yaraghi, AA; Eshraghian, MR; Javanbakht, MH; Chamari, M.;
Djazayery, A. Efecto de la suplementación con omega-3 versus placebo en la expresión del gen del receptor de proteína
estimulante de la acilación en diabéticos tipo 2.J.Diabetes. metab. Desorden.2014,13, 1, doi:10.1186/2251-6581-13-1.
53. Popelín, R.; Varadarajan, AV; Blumer, K.; Liu, Y.; McConnell, MV; Corrado, GS; Peng, L.; Webster, DR Predicción de factores de
riesgo cardiovascular a partir de fotografías de fondo de retina mediante aprendizaje profundo.Nat. biomedicina Ing.
2018,2, 158, doi:10.1038/s41551-018-0195-0.
54. Wang, Y.; Yao, H.; Zhao, S. Reducción de dimensionalidad basada en codificador automático.neurocomputación2016,184, 232–242.
55. AlQuraishi, M. AlphaFold en CASP13.Bioinformática2019,35, 4862–4865.
56. Biganzoli, E.; Boracchi, P.; Mariani, L.; Marubini, E. Redes neuronales de avance para el análisis de datos de supervivencia
censurados: un enfoque de regresión logística parcial.Estadística Medicina.1998,17, 1169–1186.
57. Cox, DR Modelos de regresión y tablas de vida.Estado JR. Soc. Ser. B1972,34, 187–202.
58. Joshi, R.; Reeves, C. Más allá del modelo de Cox: redes neuronales artificiales para el análisis de supervivencia, parte II. En
Actas de la Decimoctava Conferencia Internacional sobre Ingeniería de Sistemas; Coventry, Reino Unido, 2003, págs.
179–184.
59. Ching, T.; Zhu, X.; Garmire, LX Cox-nnet: Un método de red neuronal artificial para la predicción de pronóstico de datos
ómicos de alto rendimiento.Cómputo PLoS. Biol.2018,14, doi:10.1371/journal.pcbi.1006076.
60. Katzman, JL; Shaham, U.; Cloninger, A.; Bates, J.; Jiang, T.; Kluger, Y. DeepSurv: Sistema de recomendación de tratamiento
personalizado que utiliza una red neuronal profunda de riesgos proporcionales de Cox.BMC Med. Res. Método. 2018,18,
24, doi:10.1186/s12874-018-0482-1.
61. Jing, B.; Zhang, T.; Wang, Z.; Jin, Y.; Liu, K.; Qiu, W.; Ke, L.; Sol, Y.; El, C.; Hou, D. Un método de análisis de supervivencia profundo
basado en la clasificación.Artefacto Intel. Medicina.2019,98, 1–9.
62. Hao, J.; Kim, Y.; Kim, T.-K.; Kang, M. PASNet: Red neuronal profunda escasa asociada a la ruta para la predicción del
pronóstico a partir de datos de alto rendimiento.BMC Bioinforme.2018,19, 510, doi:10.1186/s12859-018-2500-z.
63. Ma, T.; Zhang, A. Codificador automático de factorización multivista con restricciones de red para análisis
integrador multiómico. En Actas de la Conferencia Internacional IEEE sobre Bioinformática y Biomedicina (BIBM)
de 2018, Madrid, España, 3–6 de diciembre de 2018.
64. Meng, C.; Zeleznik, OA; Thallinger, GG; Kuster, B.; Gholami, AM; Culhane, AC Técnicas de reducción de dimensiones
para el análisis integrador de datos multiómicos.Breve. Bioinformar.2016,17, 628–641.
65. Peng, H.; Largo, F.; Ding, C. Selección de funciones basada en información mutua: criterios de dependencia máxima,
relevancia máxima y redundancia mínima.Trans. IEEE. Patrón Anal. Mach. Intel.2005,27, 1226–1238.
66. Sol, D.; Wang, M.; Li, A. Una red neuronal profunda multimodal para la predicción del pronóstico del cáncer de mama humano
mediante la integración de datos multidimensionales.Trans. IEEE/ACM. computar Biol. Bioinformar.2019,dieciséis, 841–850.
67. Huang, Z.; Zhan, X.; Xiang, S.; Johnson, TS; Timón, B.; Yu, CY; Zhang, J.; Salamá, P.; Rizkalla, M.; Han, Z. SALMON:
Aprendizaje de análisis de supervivencia con redes neuronales multiómicas en cáncer de mama.Frente. Gineta.
2019,10, 166, doi:10.3389/fgene.2019.00166.
68. Chaudhary, K.; Poirión, OB; Lu, L.; Garmire, LX La integración multiómica basada en el aprendizaje profundo predice
contundentemente la supervivencia en el cáncer de hígado.clin. Cáncer Res.2017,24, doi:10.4137/CIN. S14021.
69. Shimizu, H.; Nakayama, KI Una puntuación de pronóstico molecular basada en el gen 23 predice con precisión la supervivencia
general de los pacientes con cáncer de mama.EBioMedicina2019,46, 150–159.
70. Zhang, J.; Huang, K. Imqcm normalizado: un algoritmo para detectar cuasi camarillas débiles en gráficos ponderados con
aplicaciones en el descubrimiento de módulos de coexpresión génica en cánceres.Informe sobre el cáncer.2014,13, NIC. S14021.
Cánceres2020,12, 603 17 de 19

71. Steck, H.; Krishnapuram, B.; Dehing-oberije, C.; Lambín, P.; Raykar, VC Sobre la clasificación en el análisis de supervivencia:
Límites en el índice de concordancia. En Actas de Avances en Sistemas de Procesamiento de Información Neural;
Malvern, Pensilvania, EE. UU.,2008, págs. 1209–1216.
72. Esteva, A.; Kuprel, B.; Novoa, RA; Ko, J.; más dulce, SM; Blau, HM; Thrun, S. Clasificación a nivel dermatólogo del
cáncer de piel con redes neuronales profundas.Naturaleza2017,542, 115–118.
73. Levine, AB; Schlosser, C.; Grewal, J.; Cobre.; Jones, SJM; Yip, S. Rise of the Machines: avances en el aprendizaje profundo para
el diagnóstico del cáncer.Tendencias Cáncer2019,5, 157–169.
74. Kather, JN; Krisam, J.; Charoentong, P.; Luedde, T.; Herpel, E.; Weis, C.-A.; Gaiser, T.; Marx, A.; Valioso,
N / A; Ferber, D. Predicción de la supervivencia a partir de diapositivas de histología del cáncer colorrectal mediante el aprendizaje profundo:

un estudio multicéntrico retrospectivo.PLoS Med.2019,dieciséis, doi:10.1371/journal.pmed.1002730.

75. Radhakrishnan, A.; Damodaran, K.; Soylemezoglu, AC; Uhler, C.; Shivashankar, GV Aprendizaje automático para
biomarcadores mecanomorfométricos nucleares en el diagnóstico del cáncer.ciencia Reps.2017,7, doi:10.1038/
s41598-017-17858-1.
76. Rajkomar, A.; Orén, E.; Chen, K.; Dai, AM; Hayaj, N.; Hardt, M.; Liu, PJ; Liu, X.; Marco, J.; Sun, M. Aprendizaje
profundo escalable y preciso con registros de salud electrónicos.Dígito NPJ. Medicina.2018,1, 18,
doi:10.1038/s41746-018-0029-1.
77. Shameer, K.; Johnson, KW; Yahí, A.; Miotto, R.; Pequeño.; Ricks, D.; Jebakaran, J.; Kovatch, P.; Sengupta, PP; GELIJNS, S. Modelado predictivo de las

tasas de reingreso hospitalario utilizando el aprendizaje automático de todo el registro médico electrónico: un estudio de caso utilizando la

cohorte de insuficiencia cardíaca de Mount Sinai.Pac. Síntoma Biocomputación.2017,22, 276–287.

78. Elfiky, AA; Pany, MJ; Parikh, RB; Obermeyer, Z. Desarrollo y aplicación de un enfoque de aprendizaje automático para
evaluar el riesgo de mortalidad a corto plazo entre pacientes con cáncer que comienzan quimioterapia.Red JAMA Abierto
2018,1, doi:10.1001/jamannetworkopen.2018.0926.
79. Mathotaarachchi, S.; Pascoal, TA; espinilla, M.; Benedet, AL; Rosa-Neto, P. Identificación de personas con demencia
incipiente mediante aprendizaje automático e imágenes de amiloide.Neurobiol. Envejecimiento2017,59, 80,
doi:10.1016/j.neurobiolaging.2017.06.027.
80. Él, K.; Zhang, X.; Ren, S.; Sun, J. Profundizando en los rectificadores: superando el rendimiento a nivel humano en la
clasificación de imagenet. En Actas de la Conferencia Internacional IEEE sobre Visión por Computador (ICCV) de 2015,
Santiago, Chile, 7 al 13 de diciembre de 2015; págs. 1026–1034.
81. Korfiatis, P.; Kline, TL; Lachance, DH; Parney, SI; Buckner, JC; Erickson, BJ La red neuronal convolucional
profunda residual predice el estado de metilación de MGMT.J. Dígito. Imágenes2017,30, 622–628.
82. Han, L.; Kamdar, M. MRI para MGMT: predicción de la eficacia de los medicamentos para pacientes con glioblastoma.Pac. Síntoma

Biocomputación. Pac. Síntoma Biocomputación.2018,23, 331–338.


83. Mobadersany, P.; Yousefi, S.; Amgad, M.; Gutman, DA; Barnholtz-Sloan, JS; Velázquez Vega, JE; Palo de golf,
DJ; Cooper, LAD Predicción de los resultados del cáncer a partir de la histología y la genómica utilizando redes convolucionales.
proc. nacional Academia ciencia EE.UU2018, doi:10.1073/pnas.1717139115.
84. Bychkov, D.; Linder, N.; Turkki, R.; Nordling, S.; Kovanen, PE; Verril, C.; Wallander, M.; Lundin, M.; Haglund, C.; Lundin, J. El
análisis de tejido basado en el aprendizaje profundo predice el resultado en el cáncer colorrectal.ciencia Reps. 2018,8,
doi:10.1038/s41598-018-21758-3.
85. Courtiol, P.; Maussion, C.; Moarii, M.; Pronier, E.; Pilcer, S.; Sefta, M.; Mancerón, P.; Toldó, S.; Zaslavskiy,
METRO.; Le Stang, N. La clasificación del mesotelioma basada en el aprendizaje profundo mejora la predicción del resultado del
paciente.Nat. Medicina.2019,25, 1519–1525.
86. Wang, S.; Liu, Z.; Rong, Y.; Zhou, B.; Bai, Y.; Wei, W.; Wang, M.; Guo, Y.; Tian, J. El aprendizaje profundo proporciona un nuevo
biomarcador de pronóstico basado en tomografía computarizada para la predicción de recurrencia en el cáncer de ovario seroso
de alto grado.Radioter. oncol.2019,132, 171–177.
87. Cristóbal, M.; Belgith, A.; Bowd, C.; Proudfoot, JA; Goldbaum, MH; Weinreb, RN; Girkin, CA; Liebmann, JM; Zangwill,
LM Rendimiento de arquitecturas de aprendizaje profundo y aprendizaje de transferencia para detectar
neuropatía óptica glaucomatosa en fotografías de fondo de ojo.ciencia Reps.2018,8, doi:10.1038/
s41598-018-35044-9.
88. Ding, Y.; Sohn, JH; Kawczynski, MG; Trivedi, H.; Harnish, R.; Jenkins, noroeste; Lituiev, D.; Copeland, TP; Aboián, MS; Mari Aparici, C. Un
modelo de aprendizaje profundo para predecir un diagnóstico de la enfermedad de alzheimer mediante el uso de 18F-FDG PET
del cerebro.Radiología2018,290, 456–464.
89. Raghu, M.; Zhang, C.; Kleinberg, J.; Bengio, S. Transfusion: comprensión del aprendizaje de transferencia para imágenes médicas.
Adv. Información neuronal Proceso. sist.2019, 3342–3352.
Cánceres2020,12, 603 18 de 19

90. Vinyals, O.; Blundell, C.; Lillicrap, T.; Wierstra, D. Coincidencia de redes para el aprendizaje de una sola vez.Adv. Información neuronal
Proceso. sist.2016, 3630–3638.
91. Triantafillou, E.; Zemel, R.; Urtasun, R. Aprendizaje de pocos disparos a través de una lente de recuperación de información.Adv. Información

neuronal Proceso. sistema.2017, 2255–2265.


92. Buuren, SV; Groothuis-Oudshoorn, K. ratones: imputación multivariante mediante ecuaciones encadenadas en R.Estado J.
suave2010, 1–68, doi: 10.18637/jss.v045.i03.
93. Rendleman, MC; Buatti, JM; Braun, TA; Smith, BJ; Nwakama, C.; Beichel, RR; Marrón, B.; casavant,
Aprendizaje automático de TL con el conjunto de datos TCGA-HNSC: mejora de la usabilidad al abordar la inconsistencia,
la escasez y la alta dimensionalidad.BMC Bioinforme.2019,20, 339, doi:10.1186/s12859-019-2929-8.
94. Raghunathan, TE; Lepkowski, JM; Van Hoewyk, J.; Solenberger, P. Una técnica multivariante para la imputación múltiple de
valores faltantes utilizando una secuencia de modelos de regresión.sobrev. Método.2001,27, 85–96.
95. Chaudhary, K.; Poirión, OB; Lu, L.; Garmire, LX La integración multiómica basada en el aprendizaje profundo predice sólidamente la
supervivencia en el cáncer de hígado.clin. Cáncer Res.2018,24, 1248–1259.
96. Topol, EJ Medicina de alto rendimiento: La convergencia de la inteligencia humana y artificial.Nat. Medicina. 2019,
25, 44–56.
97. Ren, K.; Qin, J.; Zheng, L.; Yang, Z.; Zhang, W.; Qiu, L.; Yu, Y. Análisis profundo de supervivencia recurrente. En Actas
de la Conferencia AAAI sobre Inteligencia Artificial; págs. 4798-4805.
98. Deng, J.; Russakovsky, O.; Krause, J.; Bernstein, MS; Berg, A.; Fei-Fei, L. Anotación multietiqueta escalable. En Actas
de la Conferencia SIGCHI sobre Factores Humanos en Sistemas Computacionales; Toronto, ON, Canadá, 2014,
págs. 3099–3102.
99. Deng, J.; Dong, W.; Socher, R.; Li, L.-J.; Li, K.; Fei-Fei, L. Imagenet: Una base de datos de imágenes jerárquicas a gran escala. En Actas de
la Conferencia IEEE de 2009 sobre visión por computadora y reconocimiento de patrones, Miami, FL, EE. UU., 20–25 de junio2009;
págs. 248–255.
100. Russakovsky, O.; Deng, J.; Su, H.; Krause, J.; Satheesh, S.; Ma, S.; Huang, Z.; Karpatía, A.; Khosla, A.; Bernstein, M.
Imagenet Desafío de reconocimiento visual a gran escala.En t. J. Cómputo. Vis.2015,115, 211–252.
101. Kermany, DS; Goldbaum, M.; Cai, W.; Valentín, CC; Liang, H.; Baxter, SL; McKeown, A.; Yang, G.; Wu,
X.; Yan, F. Identificación de diagnósticos médicos y enfermedades tratables mediante aprendizaje profundo basado en imágenes.Celda2018,

172, 1122–1131.
102. Goswami, CP; Nakshatri, H. PROGgene: aplicación web de análisis de supervivencia basada en expresión génica para
cánceres múltiples.J. Clin. Bioinformar.2013,3, 22–22.
103. Anaya, J. OncoLnc: vinculación de los datos de supervivencia de TCGA con mRNA, miRNA y lncRNA.Cómputo entre pares. ciencia
2016,2, doi:10.7717/peerj-cs.67.
104. Elfilali, A.; Guarida, S.; Verbeke, C.; La, RP; Radvanyi, F.; Barillot, E. ITTACA: Una nueva base de datos para la matriz integrada de
transcriptomas tumorales y el análisis de datos clínicos.Ácidos Nucleicos Res.2006,34, D613–D616.
105. Wang, Q.; Xie, L.; Dang, Y.; Sol, X.; Xie, T.; Guo, J.; Han, Y.; Yan, Z.; Zhu, W.; Wang, Y. OSlms: un servidor web
para evaluar el valor pronóstico de los genes en el leiomiosarcoma.Frente. oncol.2019,9, doi:10.3389/
fonc.2019.00190.
106. Wang, Q.; Wang, F.; Lv, J.; Xin, J.; Xie, L.; Zhu, W.; Tang, Y.; Li, Y.; Zhao, X.; Wang, Y. Herramienta interactiva de supervivencia de consenso en línea

para el análisis de pronóstico del carcinoma de células escamosas de esófago.oncol. Letón.2019,18, 1199–1206.

107. Zhang, G.; Wang, Q.; Yang, M.; Yuan, Q.; Dang, Y.; Sol, X.; Ninguna.; Dong, H.; Xie, L.; Zhu, W. OSblca: Un servidor
web para investigar biomarcadores pronósticos de pacientes con cáncer de vejiga.Frente. oncol.2019,9, 466,
doi:10.3389/fonc.2019.00466.
108. Yan, Z.; Wang, Q.; Sol, X.; Ban, B.; Lu, Z.; Dang, Y.; Xie, L.; Zhang, L.; Li, Y.; Guo, X. OSbrca: un servidor web para la
investigación de biomarcadores pronósticos de cáncer de mama con datos masivos de decenas de cohortes.Frente.
oncol. 2019,9, 1349, doi:10.3389/fonc.2019.01349.
109. Xie, L.; Wang, Q.; Dang, Y.; Ge, L.; Sol, X.; Li, N.; Han, Y.; Yan, Z.; Zhang, L.; Li, Y. OSkirc: Una herramienta web para
identificar biomarcadores pronósticos en el carcinoma renal de células claras renales.Futuro oncol.2019,15, 3103–3110.
110. Xie, L.; Wang, Q.; Nan, F.; Ge, L.; Dang, Y.; Sol, X.; Li, N.; Dong, H.; Han, Y.; Zhang, G. OSacc: Herramienta web de análisis de
supervivencia basada en la expresión génica para el carcinoma adrenocortical.Manejo del Cáncer Res.2019,11, 9145–
9152.
111. Wang, F.; Wang, Q.; Li, N.; Ge, L.; Yang, M.; Ninguna.; Zhang, G.; Dong, H.; Ji, S.; Zhu, W. OSuvm: Una herramienta interactiva de
supervivencia de consenso en línea para el análisis del pronóstico del melanoma uveal.mol. Carcinog.2020,59, 56–61.
112. McMahan, HB; Moore, E.; Ramage, D.; Hampson, S. Aprendizaje eficiente en comunicación de redes profundas a partir de
datos descentralizados.arXiv2016, arXiv:1602.05629.
Cánceres2020,12, 603 19 de 19

113. Su, H.; Deng, J.; Fei-Fei, L. Anotaciones de crowdsourcing para la detección de objetos visuales. En Actas de los
talleres en la Vigésima Sexta Conferencia AAAI sobre Inteligencia Artificial, Toronto, ON, Canadá, 2012.
114. Avati, A.; Jung, K.; Harman, S.; Downing, L.; Ng, A.; Shah, NH Mejora de los cuidados paliativos con aprendizaje
profundo.BMC Med. Informar. Decir Mak.2018,18, 122, doi:10.1109/BIBM.2017.8217669.
115. Elfiky, AA; Elshemey, WM La simulación de dinámica molecular reveló la unión de inhibidores de nucleótidos a la
polimerasa ZIKV durante 444 nanosegundos.J.Med. Virol.2018,90, 13–18.
116. Horng, S.; Sontag, DA; Halpern, Y.; Jernita, Y.; Shapiro, NI; Nathanson, LA Creación de un activador automatizado para el
apoyo a la decisión clínica de sepsis en el triaje del departamento de emergencias mediante el aprendizaje automático.
Más uno2017,12, doi:10.1371/journal.pone.0174708.
117. Henry, KE; Hager, DN; Pronovost, PJ; Saria, S. Una puntuación de alerta temprana en tiempo real específica (TREWScore) para el
shock séptico.ciencia Traducir Medicina.2015,7, ra122–ra299.
118. Culliton, P.; Levinson, M.; Ehresman, A.; Wherry, J.; Stingrub, JS; Gallant, SI Predicción de sepsis grave utilizando
texto de la historia clínica electrónica.arXiv2017, arXiv:1711.11536.
119. Oh, J.; Makar, M.; Fusco, C.; McCaffrey, R.; Rao, K.; Ryan, EE; Arandela, L.; Oeste, LR; joven, VB; tripa,
J. Un enfoque generalizable basado en datos para predecir el riesgo diario de infección por Clostridium difficile en dos grandes
centros académicos de salud.Infectar. Hospital de Control. Epidemiol.2018,39, 425–433.
120. Miotto, R.; Pequeño.; Kidd, BA; Dudley, JT Paciente profundo: una representación no supervisada para predecir el futuro de los
pacientes a partir de los registros de salud electrónicos.ciencia Reps.2016,6, doi:10.1038/srep26094.
121. Yang, Z.; Huang, Y.; Jiang, Y.; Sol, Y.; Zhang, Y.-J.; Luo, P. Diagnóstico de asistente clínico para registro médico electrónico
basado en red neuronal convolucional.ciencia Reps.2018,8, doi:10.1038/s41598-018-24389-w.
122. de Langavant, LC; Bayen, E.; Yaffe, K. Aprendizaje automático no supervisado para identificar una alta probabilidad de
demencia en encuestas poblacionales: estudio de desarrollo y validación.J.Med. Resolución de Internet2018,20,
doi:10.2196/10493.
123. Chi, C.-L.; Calle, WN; Wolberg, WH Aplicación de análisis de supervivencia basado en redes neuronales artificiales en dos conjuntos
de datos de cáncer de mama.AMIA Anual. Síntoma proc.2007,2007, 130–134.

© 2020 por los autores. Licenciatario MDPI, Basilea, Suiza. Este artículo es un artículo de
acceso abierto distribuido bajo los términos y condiciones de la licencia Creative Commons
Attribution (CC BY) (http://creativecommons.org/licenses/by/4.0/).

También podría gustarte