Está en la página 1de 6

Clasificación de tumores en el cáncer de mama utilizando redes

convolucionales pre-entrenadas

Ariel Coto Santiesteban a.santiesteban@estudiantes.matcom.uh.cu


Alexander A González Fertel a.fertel@estudiantes.matcom.uh.cu
Sandor Martı́n Leyva s.martin@estudiantes.matcom.uh.cu
Grupo C412

Tutor(es):
Msc. Damián Valdés Santiago, Dpto. Matemática Aplicada, UH

Resumen

El cáncer de mama es de los que mayor ı́ndice de muertes tiene en el mundo, sobre todo en mujeres. Los
avances en las técnicas de clasificación de imágenes, reconocimiento de patrones y en algoritmos de Inteligencia
Artificial se han aprovechado en la tarea de la detección y clasificaón de anomalı́as en mamas, cuyo objetivo
es brindarle a los médicos una segunda opinión y reducir el tiempo de diagnóstico del paciente. Las redes
neuronales convolucionales lideran el estado del arte sobre la clasificación de tumores. En el caso de tener
pocos casos a entrenar, se utilizan redes pre-entrenadas.En el siguiente trabajo se implementa un modelo para
la clasificación de tumores de mamas en benigno o maligno, sobre la red pre-entrenada VGG16. El dataset
escogido para entrenar y validar es CBIS-DDSM. Se muestran posteriormente los resultados alcanzados en los
distintos experimentos.

Palabras Clave: Clasificación, convolucional, maligno, VGG16, CBIS-DDSM, cáncer, imagen.

1. Introducción normalización por lotes[3] para escalarlas y eliminar in-


formación innecesaria, además, se usan capas de conex-
Se estima que 42,260 personas morirán de cáncer de iones densas para hacer la red neuronal computable. Se
mama este año. El principal causante de esas muertes propone en este artı́culo, un modelo entrenado a partir
es el cáncer de mama metastásico. La tasa de super- de la red pre-entrenada VGG16, utilizando la base de
vivencia a 5 años dice qué porciento de personas sobre datos CBIS-DDSM, para la clasificación en benigno y
vive más de 5 años luego de ser diagnosticadas y di- maligno de los tumores.
cho porciento dice cuántas personas de 100. La tasa
de supervivencia a 5 años para mujeres con cáncer 1.1 Estado del Arte
de mama metastásico es del 27% [1]. El cáncer de
Para las imágenes de mamas, varias organizaciones han
mama es la segunda principal causa de muerte por
introducido conjuntos de bases de datos las cuales están
cáncer mundialmente, aunque es uno de los más trat-
disponibles para las investigaciones. En la Tabla 1 se
ables si es detectado tempranamente. Sin embargo,
muestran algunas bases de datos disponibles. Entre
detectar dicha condición en mamografı́as es un desafı́o
las más utilizadas están MIAS y DDSM para investi-
que depende del trabajo de radiólogos expertos. La
gaciones sobre clasificación de mamografı́as.
detección del cáncer de mama puede llegar hacer com-
plicada dado que su apariencia en mamografı́as es muy
vaga, la forma en que se presenta(nódulos), es muy
fácil de confundir con problemas de calidad de ima-
gen, la densidad de los cúmulos es importante y saber
cuándo es correcto considerar un cúmulo como cáncer
no está bien definido, lo que hace diferir criterios de
diferentes radiólogos. En este trabajo ha sido presen-
tado un estudio de modelos para mejorar el estado
del arte respecto a la detección de cáncer en mamo-
grafı́as. Los resultados en la actualidad no son muy
alentadores, puesto que entrenan con alrededor de 100 Figure 1: Bases de datos disponibles.
imagénes [2], se presenta un modelo entrenado sobre
el conjunto de datos CBIS-DDSM , con imágenes de Las técnicas de clasificación de imágenes y seg-
resolución 3000x2000. Como es una resolución muy mentación basadas en aprendizaje de máquina han sido
alta, se hace un preprocesamiento de las imágenes[4] y muy usadas en la biomedicina, por lo que las técnicas

2019
c .
de diagnóstico de enfermedades a través de computa- kernels pequeños, la efectividad del campo receptivo de
doras convergen a ellas ya que son las que permiten la red aumenta, mientras que se reduce el número de
obtener mayor cantidad de información de las imágenes parámetros comparado con tener menos capas convolu-
y dar una decisión basada en la información extraı́da, cionales con kernels más grandes. Se prueban múltiples
como la identificación de cáncer. Las CNN han sido configuraciones de profundidad variada. En una de las
recientemente implementadas como técnica de clasifi- configuraciones, filtros de 1x1 fueron utilizados, lo que
cación a partir de la extracción de caracterı́sticas glob- puede ser visto como una transformación lineal de los
ales de la imagen. Esto permite al modelo extraer más canales de entrada. Los mejores resultados se alcan-
estructuras ocultas de las imágenes dejando resultados zaron con redes de entre 16 y 19 capas.
excepcionales en la clasificación de imágenes de cáncer
de mama. En la mayorı́a de las investigaciones no se
prueba el rendimiento de las CNN pre-entrenadas y
usan arquitecturas simples. Carneiro et al.[5] propone
una CNN pre-entrenada afinada usando mamografı́as
sin registrar y microcalcificasiones segmentadas. Al
concluir la investigación llegaron a la conclusión que
los modelos pre-entrenados son superiores a los inicial-
izados aleatoriamente. AlexNet [6] fue la primera red
neuronal convolucional que tuvo un rendimiento más
allá de lo que habı́a hasta el momento en lo relacionado
con detección y clasificación de objetos, la red con-
tiene 8 capas. Las primeras 5 son convolucionales y las
restantes 3 son capas densas. La primera capa de la red
filtra la imagen de entrada (con tamaño 224x224) con Figure 3: Arquitectura de VGG16.
96 kernels the tamaño 11x11 con un paso de 4 pı́xeles.
La profundidad de estos kernels es igual al número de Las redes residuales (ResNets)[8] consisten en capas
canales de la imagen de entrada. La segunda capa toma neuronales reformuladas que aprenden funciones resid-
como entrada la salida de la primera capa, después de uales referentes a las entradas. Se argumenta que este
normalizar y aplicar max-pooling han sido aplicados, tipo de redes son más fáciles de optimizar y pueden
se filtra con 256 kernels de tamaño 5x5x96. La ter- ser de profundidad significativamente mayor. La im-
cera, cuarta y quinta capas estan conectadas las unas plementación de un bloque residual , es trivial: para
a las otras sin ningún pooling ni normalización apli- cada conjunto de tamaño fijo predefinido se añade una
cados. Además de las capas convolucionales, 2 capas ”conexión atajo” que corre en paralelo a estas capas e
densas son conectadas con 4096 neuronas cada una. El implementa el mapeo identidad. La salida de las ca-
número de neuronas de la tercera capa densa es igual pas convolucionales es añadida a la salida de la rama
a la cantidad de clases. atajo y el resultado es propagado al siguiente bloque.
Además del uso de conexiones atajo, la arquitectura
de la red está mayormente inspirada por la filosofı́a de
las redes VGG. Todas las capas convolucionales tienen
kernels pequeños de tamaño 3x3 y siguen dos simples
reglas de diseño: (i) para el mismo tamaño del mapa
de rasgos de salida, las capas tienen el mismo número
de filtros, (ii) cuando el mapa de rasgos de salida es
reducido a la mitad (con capas convolucionales con
tamaño de paso 2), el número de filtros es doblado para
preservar la complejidad temporal por capa. Se prue-
ban arquitecturas de profundidad variada en el rango
entre 34 y 152 capas.
En la Tabla 5 se pueden observar los resultados y los
parámetros de las redes en caso de escenarios de entre-
namiento de afinación (FT) y desde el comienzo (SC).
Estas arquitecturas se han probado sobre múltiples
Figure 2: Arquitectura de AlexNet. bases de datos entre ellos DDSM-400, el cual fue par-
ticionado aleatoriamente en 10 conjuntos sin intersec-
En VGG[7] se experimentó el efecto de cambiar la ciones de 40 muestras cada uno. Tomando los primeros
profundidad de la red, manteniendo los filtros de con- 9 conjuntos para entrenar y el último para la vali-
volución muy pequeños. Mostraron que una mejora dación. Los resultados con esta base de datos son cal-
significativa puede ser alcanzada al tener entre 16 y 19 culados a partir del promedio de 10 corridas. Para el
capas. Similar a AlexNet, se mantiene un stack de tres dataset CBIS-DDSM se usó el mismo particionado que
capas densas para la clasificación. La ventaja de VGG en DDSM-400.
es que al matener muchas capas convolucionales con En las tablas 6 y 7 se resume el rendimiento de

2019
c .
Figure 4: Bloque de una ResNet.
Figure 6: Resultados 1.

Figure 5: Comparación de redes.


Figure 7: Resultados 2.

las redes explicadas anteriormente, para escenarios de


afinación y desde el comienzo respectivamente. Las
métricas de evaluación usadas son el área bajo la curva la cantidad de cómputos y desechar todo ruido que se
ROC (AUC) y la exactitud de la aproximación (ACC). encuentre lejos del tumor. La salida t es un valor en-
El desarrollo de este artı́culo contiene las siguientes sec-tre 1 y 0, lo cual indica la presencia o no, de cáncer.
ciones: Por cada imagen del conjunto de entrenamiento se va
a optimizar la función de pérdida binary cross entropy
1. Formulación del problema: se describirá las vari- L(X, t) = −t log(p(T = 1|X))−(1−t) log(p(T = 0|X))
ables del problema en cuestión. donde p(T = i|X) es la probabilidad de que la red le
2. Arquitectura del modelo y entrenamiento: se asigne a X la clase i, y como optimizador −5
RM SP rop
−7
definirá la arquitectura del modelo usado. con un tasa de aprendizaje entre 10 y 10 . Se en-
trenó el modelo con minibatches de tamaño 20.
3. Base de conocimiento: desarrolla las carac-
terı́sticas de la base de datos utilizada.
2.2 Arquitectura del modelo y entrenamiento
4. Resultados y Discusión: se muestran los resulta-
dos obtenidos y algunas estadı́sticas. La extracción de rasgos en la red se realizó utilizando
las primeras capas de VGG16, pre-entrenadas con la
5. Experimentación: se describen cuáles fueron las base de datos de Imagenet. Llamemos a esta parte
variaciones que se le realizaron al modelo para lle- de la red conv base. En la sección conv base fueron
gar al modelo final. congeladas todas las capas excepto la última, con el
6. Implementación: se explica cuáles fueron los ma- objetivo de que su salida se asemeje más al problema
teriales utilizados que hicieron posible la experi- que se está resolviendo en particular. La sección de
mentación. clasificación de nuestro modelo la componen una capa
Flatten justo después de conv base para convertir la
salida del extractor de rasgos en un vector de una sola
2. Desarrollo dimensión. Le siguen tres capas Dense con función de
activación RELU las dos primeras y sigmoid la última.
2.1 Formulación del problema
Como tamaño de salida tienen 512, 128 y 1 cada una.
La detección del cáncer de mama se tomó como un Se utilizó, además, capas DropOut con parámetros de
problema de clasificación binaria. La entrada del algo- 0.5 y 0.2 respectivamente. El modelo queda según la
ritmo es una imagen X recortada de la mamografı́a y imagen 8. Durante 60 epochs se escogió el modelo con
centrada en la región de interés, lo cual permite reducir menor validation loss.

2019
c .
Figure 8: Representación del modelo resultante.

2.3 Base de comocimiento


Figure 9: Modelo final 1.
La base de datos q se utilizó fue CBIS-DDSM. Se
tomaron las cropped images que se encuentran dividi-
das en conjuntos de entrenamiento y validación, entre
calcificaciones y masas. Se entrenó con 2278 imágenes,
1394 benignas y 884 malignas, para un 61% y 39% del
total de datos. Se validó con un conjunto de tamaño
702, 428 benignas y 274, igualmente para un 61% y
39% respectivamente. Inicialmente el formato de las
imágenes se encuentra en DICOM, y fueron convertidas
a png, para una fácil visualización y extracción de ras-
gos. Para poder trabajar computacionalmente con las
imágenes se redujeron a 256x256. Producto a que el
modelo que se presenta, posee muchos parámetros de
entrenamiento, se empleó la técnica de data augmen-
tation para el entrenamiento, con fliping horizontal,
vertical, y rotaciones en un rango de 10 grados.

2.4 Resultados y Discusión


De todos los experimentos que se realizaron se selec- Figure 10: Modelo final 2.
cionaron dos modelos. El primero es .16-0.61-0.70.h5
cuya arquitectura se muestra en la figura 8, con una
precisión de 68.7% y un validation loss de 0.61%(ver de tumores benignos es un 20% mayor que la cantidad
figura 10). El otro es .10-0.60-0.67.h5, con una pre- de malignos, el modelo pudiera clasificar mejor a los
cisión de 67.8% y un validation loss de 0.60% (ver benignos que a los malignos. Esto se puede comprobar
figura 9). La diferencia de este segundo respecto al en la figura 12 donde el acierto de casos malignos es de
primero es que elimina la segunda capa DropOut y la un 38%, mientras que de benignos se obtuvo un 87%
segunda capa densa se le reduce su tamaño de salida a de acierto. Para poder cargar los modelos presentados
64. se debe hacer a traves de from tensorflow.keras.models
Sobre el conjunto de validación se calcularon las ma- import load model.
trices de confusión de ambos modelos (ver figuras 11
y 12 ), las cuales describen en cada caso los resulta-
2.5 Experimentación
dos de los modelos a la hora de predecir cada imagen
de tumor contra la clasificación real. En el eje X se A causa de que se posee una cantidad muy pequeña,
muestra la clasifición real y el eje Y las predicciones. respecto a la dimensión del problema, de mamografı́as,
Como el problema a resolver es de clasificación binaria, un primer objetivo fue evadir el overfitting, sin caer
tenemos en cada eje dos valores, 1 y 0. El valor 0 se en el underfitting, para luego centrarse en una mejor
interpreta como benigno y 1 como maligno. precisión en los resultados. Las capas DropOut con
Con respecto al estado del arte los resultados no son distintos rates, el data augmentation y la reducción
muy alentadores, pero se logró concebir par de modelos de la capacidad de memorización del modelo fueron
con una precisión mejor que un modelo aleatorio, y que las técnicas que permitieron evadir el overfitting. Se
se puede mejorar si se continúa la experimentación. Se variaron las tasas de aprendizaje, las funciones de op-
hace notar que como en la base de datos la cantidad timización que se probaron fueron Adamy RMSProps,

2019
c .
Figure 11: Matriz de confusión del modelo con
presición 68%.

Figure 13: Ejemplo de resultados de los primeros ex-


perimentos con overfitting.

3. Conclusiones
Los modelos obtenidos con precisión entre 67% y 69%,
en la práctica, no deben tener mucha utilidad en estos
momentos. Deben seguir siendo modificados para al-
canzar al menos un 80%, que es el mı́nimo de presición
de un doctor. Se pretende continuar con la investi-
gación e incorporar otras imágenes de tumores de otras
bases de datos, e incluso, validar con una base de datos
Figure 12: Matriz de confusión del modelo con que se encuentra en proceso de producción por el De-
presición 67%. partamento de Matemáticas Aplicadas de la Univer-
sidad de La Habana en colaboración con el Hospital
Manuel Fajardo.

los parámetros de los DropOuts, las salidas de las ca-


4. Recomendaciones
pas densas, el tamaño de las imágenes se testeó con Tratar de incorporar al entrenamiento más tumores
256x256 y con 128x128, el tamaño de los minibatches malignos, y ası́ nivelar el dataset. Se propone partici-
que se probaron fueron entre 20 y 32, entre 20, 60 y par en concursos de clasificación como Digital Mam-
100 epochs como muestran las figuras 13 y 10. En- mography DREAM Challenge, u otros. Continuar
tre todos los modelos entrenados, se escogió aquel que con la experimentación y probar con otras redes pre-
minimizara el validation loss. entrenadas como ResNet.

2.6 Implementación References


[1] Estadı́sticas sobre cáncer de mama. URL:
Para llevar a cabo el proyecto se utilizó el lenguaje https://www.cancer.net/cancer-types/breast-
python versión 3.6, debido a la cantidad de herramien- cancer-metastatic/statistics Consultado en May
tas implementadas en ese lenguaje que facilitan grande- 2, 2019.
mente la ejecución de estos experimentos. Para poder
llevarlos a cabo sobre la red neuronal, se utilizó una [2] Shallow CNN, mamography classification. URL:
GPU NVIDIA GTX GFORCE 1060 3G. Para realizar https://www.ncbi.nlm.nih.gov/pubmed/30292910
los cómputos en la GPU en Linux, con el fin de min- Consultado en May 2, 2019.
imizar la cantidad de instalaciones y configuraciones
de distintos softwares como CUDA y tensorflow-gpu, [3] Ioffe, Sergey and Szegedy, Christian. Batch nor-
se utilizó la imagen de docker matcom/ml. De esta malization: Accelerating deep network training by
imagen, se usó tensorflow.keras para realizar todos los reducing internal covariate shift. In International
experimentos sobre la red, y matplotlib para mostrar Conference on Machine Learning, pp. 448–456,
los resultados alcanzados. 2015.

2019
c .
[4] Huang, Peng, Park, Seyoun, Yan, Rongkai, Lee,
Junghoon, Chu, Linda C, Lin, Cheng T, Hussien,
Amira, Rathmell, Joshua, Thomas, Brett, Chen,
Chen, et al. Added value of computer-aided ct im-
age features for early lung cancer diagnosis with
small pulmonary nodules: A matched case-control
study. Radiology, pp. 162725, 2017.
[5] Carneiro, G.; Nascimento, J.; Bradley, A.P. Un-
registered multiview mammogram analysis with
pre-trained deep learning models. In Proceedings
of the International Conference on Medical Image
Computing and Computer-Assisted Intervention,
Munich, Germany, 5–9 October 2015; Springer:
Berlin/Heidelberg, Germany, 2015; pp. 652–660.
[6] Krizhevsky, A.; Sutskever, I.; Hinton, G.E. Ima-
genet classication with deep convolutional neural
networks.In Proceedings of the Advances in Neu-
ral Information Processing Systems, Lake Tahoe,
NV, USA, 3–6 December 2012; pp. 1097–1105.
[7] Simonyan, K.; Zisserman, A. Very deep convolu-
tional networks for large-scale image recognition.
arXiv 2014, arXiv:1409.1556.
[8] He, K.; Zhang, X.; Ren, S.; Sun, J. Deep resid-
ual learning for image recognition. In Proceed-
ings of the IEEE Conference on Computer Vision
and Pattern Recognition., LasVegas, NV, USA,
27–30June2016; pp. 770–778.

2019
c .

También podría gustarte