Documentos de Académico
Documentos de Profesional
Documentos de Cultura
convolucionales pre-entrenadas
Tutor(es):
Msc. Damián Valdés Santiago, Dpto. Matemática Aplicada, UH
Resumen
El cáncer de mama es de los que mayor ı́ndice de muertes tiene en el mundo, sobre todo en mujeres. Los
avances en las técnicas de clasificación de imágenes, reconocimiento de patrones y en algoritmos de Inteligencia
Artificial se han aprovechado en la tarea de la detección y clasificaón de anomalı́as en mamas, cuyo objetivo
es brindarle a los médicos una segunda opinión y reducir el tiempo de diagnóstico del paciente. Las redes
neuronales convolucionales lideran el estado del arte sobre la clasificación de tumores. En el caso de tener
pocos casos a entrenar, se utilizan redes pre-entrenadas.En el siguiente trabajo se implementa un modelo para
la clasificación de tumores de mamas en benigno o maligno, sobre la red pre-entrenada VGG16. El dataset
escogido para entrenar y validar es CBIS-DDSM. Se muestran posteriormente los resultados alcanzados en los
distintos experimentos.
2019
c .
de diagnóstico de enfermedades a través de computa- kernels pequeños, la efectividad del campo receptivo de
doras convergen a ellas ya que son las que permiten la red aumenta, mientras que se reduce el número de
obtener mayor cantidad de información de las imágenes parámetros comparado con tener menos capas convolu-
y dar una decisión basada en la información extraı́da, cionales con kernels más grandes. Se prueban múltiples
como la identificación de cáncer. Las CNN han sido configuraciones de profundidad variada. En una de las
recientemente implementadas como técnica de clasifi- configuraciones, filtros de 1x1 fueron utilizados, lo que
cación a partir de la extracción de caracterı́sticas glob- puede ser visto como una transformación lineal de los
ales de la imagen. Esto permite al modelo extraer más canales de entrada. Los mejores resultados se alcan-
estructuras ocultas de las imágenes dejando resultados zaron con redes de entre 16 y 19 capas.
excepcionales en la clasificación de imágenes de cáncer
de mama. En la mayorı́a de las investigaciones no se
prueba el rendimiento de las CNN pre-entrenadas y
usan arquitecturas simples. Carneiro et al.[5] propone
una CNN pre-entrenada afinada usando mamografı́as
sin registrar y microcalcificasiones segmentadas. Al
concluir la investigación llegaron a la conclusión que
los modelos pre-entrenados son superiores a los inicial-
izados aleatoriamente. AlexNet [6] fue la primera red
neuronal convolucional que tuvo un rendimiento más
allá de lo que habı́a hasta el momento en lo relacionado
con detección y clasificación de objetos, la red con-
tiene 8 capas. Las primeras 5 son convolucionales y las
restantes 3 son capas densas. La primera capa de la red
filtra la imagen de entrada (con tamaño 224x224) con Figure 3: Arquitectura de VGG16.
96 kernels the tamaño 11x11 con un paso de 4 pı́xeles.
La profundidad de estos kernels es igual al número de Las redes residuales (ResNets)[8] consisten en capas
canales de la imagen de entrada. La segunda capa toma neuronales reformuladas que aprenden funciones resid-
como entrada la salida de la primera capa, después de uales referentes a las entradas. Se argumenta que este
normalizar y aplicar max-pooling han sido aplicados, tipo de redes son más fáciles de optimizar y pueden
se filtra con 256 kernels de tamaño 5x5x96. La ter- ser de profundidad significativamente mayor. La im-
cera, cuarta y quinta capas estan conectadas las unas plementación de un bloque residual , es trivial: para
a las otras sin ningún pooling ni normalización apli- cada conjunto de tamaño fijo predefinido se añade una
cados. Además de las capas convolucionales, 2 capas ”conexión atajo” que corre en paralelo a estas capas e
densas son conectadas con 4096 neuronas cada una. El implementa el mapeo identidad. La salida de las ca-
número de neuronas de la tercera capa densa es igual pas convolucionales es añadida a la salida de la rama
a la cantidad de clases. atajo y el resultado es propagado al siguiente bloque.
Además del uso de conexiones atajo, la arquitectura
de la red está mayormente inspirada por la filosofı́a de
las redes VGG. Todas las capas convolucionales tienen
kernels pequeños de tamaño 3x3 y siguen dos simples
reglas de diseño: (i) para el mismo tamaño del mapa
de rasgos de salida, las capas tienen el mismo número
de filtros, (ii) cuando el mapa de rasgos de salida es
reducido a la mitad (con capas convolucionales con
tamaño de paso 2), el número de filtros es doblado para
preservar la complejidad temporal por capa. Se prue-
ban arquitecturas de profundidad variada en el rango
entre 34 y 152 capas.
En la Tabla 5 se pueden observar los resultados y los
parámetros de las redes en caso de escenarios de entre-
namiento de afinación (FT) y desde el comienzo (SC).
Estas arquitecturas se han probado sobre múltiples
Figure 2: Arquitectura de AlexNet. bases de datos entre ellos DDSM-400, el cual fue par-
ticionado aleatoriamente en 10 conjuntos sin intersec-
En VGG[7] se experimentó el efecto de cambiar la ciones de 40 muestras cada uno. Tomando los primeros
profundidad de la red, manteniendo los filtros de con- 9 conjuntos para entrenar y el último para la vali-
volución muy pequeños. Mostraron que una mejora dación. Los resultados con esta base de datos son cal-
significativa puede ser alcanzada al tener entre 16 y 19 culados a partir del promedio de 10 corridas. Para el
capas. Similar a AlexNet, se mantiene un stack de tres dataset CBIS-DDSM se usó el mismo particionado que
capas densas para la clasificación. La ventaja de VGG en DDSM-400.
es que al matener muchas capas convolucionales con En las tablas 6 y 7 se resume el rendimiento de
2019
c .
Figure 4: Bloque de una ResNet.
Figure 6: Resultados 1.
2019
c .
Figure 8: Representación del modelo resultante.
2019
c .
Figure 11: Matriz de confusión del modelo con
presición 68%.
3. Conclusiones
Los modelos obtenidos con precisión entre 67% y 69%,
en la práctica, no deben tener mucha utilidad en estos
momentos. Deben seguir siendo modificados para al-
canzar al menos un 80%, que es el mı́nimo de presición
de un doctor. Se pretende continuar con la investi-
gación e incorporar otras imágenes de tumores de otras
bases de datos, e incluso, validar con una base de datos
Figure 12: Matriz de confusión del modelo con que se encuentra en proceso de producción por el De-
presición 67%. partamento de Matemáticas Aplicadas de la Univer-
sidad de La Habana en colaboración con el Hospital
Manuel Fajardo.
2019
c .
[4] Huang, Peng, Park, Seyoun, Yan, Rongkai, Lee,
Junghoon, Chu, Linda C, Lin, Cheng T, Hussien,
Amira, Rathmell, Joshua, Thomas, Brett, Chen,
Chen, et al. Added value of computer-aided ct im-
age features for early lung cancer diagnosis with
small pulmonary nodules: A matched case-control
study. Radiology, pp. 162725, 2017.
[5] Carneiro, G.; Nascimento, J.; Bradley, A.P. Un-
registered multiview mammogram analysis with
pre-trained deep learning models. In Proceedings
of the International Conference on Medical Image
Computing and Computer-Assisted Intervention,
Munich, Germany, 5–9 October 2015; Springer:
Berlin/Heidelberg, Germany, 2015; pp. 652–660.
[6] Krizhevsky, A.; Sutskever, I.; Hinton, G.E. Ima-
genet classication with deep convolutional neural
networks.In Proceedings of the Advances in Neu-
ral Information Processing Systems, Lake Tahoe,
NV, USA, 3–6 December 2012; pp. 1097–1105.
[7] Simonyan, K.; Zisserman, A. Very deep convolu-
tional networks for large-scale image recognition.
arXiv 2014, arXiv:1409.1556.
[8] He, K.; Zhang, X.; Ren, S.; Sun, J. Deep resid-
ual learning for image recognition. In Proceed-
ings of the IEEE Conference on Computer Vision
and Pattern Recognition., LasVegas, NV, USA,
27–30June2016; pp. 770–778.
2019
c .