Está en la página 1de 14

Inteligencia artificial en el diagnóstico de la lengua: uso de una red

neuronal convolucional profunda para reconocer la lengua no saludable


con marca de diente.
Xu Wanga,1, Jingwei Liu a,1, Chaoyong Wua, Junhong Liu b, Qianqian Li a, Yufeng Chen a, Xinrong
Wanga, Xinli Chen a, Xiaohan Pang a, Binglong Chang a, Jiaying Lin a, Shifeng Zhao c, Zhihong Li a,
Qingqiong Deng c, Yi Lu d, Dongbin Zhao d, Jianxin Chen a,⇑

El diagnóstico de la lengua juega un papel fundamental en la medicina tradicional


china (MTC) durante miles de años. Como una de las características más importantes
de la lengua, la lengua marcada con dientes está relacionada con la deficiencia del
bazo y puede contribuir en gran medida a la diferenciación de los síntomas y la
selección del tratamiento. Sin embargo, el reconocimiento de la lengua marcada con
dientes para los profesionales de la medicina tradicional china es subjetivo y
desafiante. La mayoría de los estudios anteriores se han concentrado en características
seleccionadas subjetivamente de la región marcada con dientes y han ganado una
precisión por debajo del 80%. En el presente estudio, propusimos un Framework de
inteligencia artificial utilizando una red neuronal convolucional profunda (CNN) para el
reconocimiento de la lengua marcada con dientes. Primero, construimos conjuntos de
datos relativamente grandes con 1548 imágenes de lengua capturadas por diferentes
equipos. Luego, usamos la arquitectura CNN de ResNet34 para extraer características y
realizar clasificaciones. La precisión general de los modelos fue superior al 90%.
Curiosamente, los modelos se pueden generalizar con éxito a imágenes capturadas por
otros dispositivos con diferentes iluminaciones. La buena efectividad y generalización
de nuestro Framework puede proporcionar un método de diagnóstico de la lengua
asistido por computadora, objetivo y conveniente, para rastrear la progresión de la
enfermedad y evaluar el efecto farmacológico desde una perspectiva informática.
1. Introducción
El diagnóstico de la lengua juega un papel fundamental en la medicina tradicional
china (MTC) durante miles de años. Las características de la lengua, como la forma y el
color de la lengua, pueden reflejar el estado de salud interna del cuerpo (p. Ej.,
Órganos, qi, sangre, frío, calor) y la gravedad o progresión de las enfermedades. Al
observar las características de la lengua, los profesionales de la medicina tradicional
china pueden diferenciar los síntomas clínicos y elegir los tratamientos adecuados. Sin
embargo, el diagnóstico tradicional de la lengua se basa en la observación ocular
subjetiva de los médicos, que a menudo está sesgada por la experiencia personal, las
variaciones de iluminación ambiental, etc. Por lo tanto, es necesario desarrollar un
método de diagnóstico de la lengua objetivo y cuantitativo que pueda ayudar al
diagnóstico de los médicos [ 1].
El reconocimiento de la lengua marcada con dientes puede proporcionar un ejemplo
ideal para lograr estos objetivos. Como una de las características más importantes de
la lengua, las marcas dentales a lo largo de los bordes laterales son el resultado de un
cuerpo lingual más gordo comprimido por el diente adyacente. La lengua marcada con
dientes a menudo se relaciona con la deficiencia del bazo, el vacío del yang con la
humedad fría, la flema y el líquido retenido y la estasis sanguínea según la teoría de la
medicina tradicional china. Además, los cambios en la microcirculación de la lengua
dentada incluyen trastornos del suministro de sangre, hipoxia local y edema tisular. Las
manifestaciones clínicas en personas con lengua marcada con dientes incluyen pérdida
de apetito, borborigmo, distensión gástrica y heces blandas. El diagnóstico de lengua
con marcas dentales puede contribuir en gran medida a la diferenciación de los
síntomas y la selección del tratamiento [2].
Sin embargo, las marcas dentales en la lengua tienen varios tipos (por ejemplo,
diferentes colores y formas), lo que hace que el reconocimiento de la lengua marcada
con los dientes sea un desafío para los practicantes de la medicina tradicional china
[3].
En realidad, los investigadores han intentado construir modelos computarizados de
reconocimiento de lengua marcada con dientes utilizando métodos de procesamiento
de imágenes, estadísticos y de aprendizaje automático en los últimos años [3-8]. La
mayoría de los estudios se han concentrado en el color local y las características de
concavidad-convexidad de la región marcada por los dientes. Por ejemplo, Hsu y sus
colegas han realizado una composición de color RGB de la imagen de la región de la
lengua y han descubierto que el espectro de color G de las marcas dentales es más
bajo que el cuerpo de la lengua y el pelaje de la lengua [4,5]. Li y col. han utilizado
información de concavidad para generar regiones sospechosas de marcas dentales,
luego extrajeron características de estas regiones y, por último, utilizaron un
clasificador de máquina de vectores de soporte de instancias múltiples (SVM) para la
clasificación final de la lengua marcada con dientes [3].
Recientemente, con el desarrollo continuo de la inteligencia artificial y la tecnología de
aprendizaje profundo, los modelos de redes neuronales convolucionales (CNN) se han
aplicado gradualmente a la clasificación de la lengua marcada con dientes. CNN puede
extraer características semánticas de alto nivel automáticamente y funcionar bien en
muchas tareas de clasificación de imágenes [9-11]. Por ejemplo, Sun et al. han
propuesto un modelo CNN de 7 capas con imágenes de toda la región de la lengua
como entrada para reconocer la lengua marcada con dientes y lograron una precisión
del 78,6% [7].
En general, aunque estos estudios previos han obtenido muchos logros en el campo
del reconocimiento automático de la lengua marcada con dientes, aún quedan algunos
aspectos importantes por explorar. Primero, la precisión de los modelos anteriores
suele ser inferior al 80%. Entonces, los conjuntos de datos solo provienen del equipo
idéntico, lo que indica que la generalización de los modelos para clasificar las imágenes
de la lengua capturadas por otros dispositivos sigue siendo desconocida. En tercer
lugar, el tamaño de la muestra de los conjuntos de datos es relativamente pequeño
(por ejemplo, 645 para [3; 7]), lo que también puede restringir la generalización de los
modelos entrenados. Finalmente, los investigadores solo usan imágenes de la región
de la lengua aisladas de imágenes de la lengua en bruto para entrenar y probar los
modelos, sin explorar la influencia específica de las porciones faciales y circundantes
irrelevantes. En el presente estudio, expandimos las técnicas actuales de clasificación
de lengua marcada con dientes de las siguientes maneras. Primero, construimos
conjuntos de datos de lengua marcados con dientes más grandes con más de 1500
imágenes de lengua sin procesar capturadas por diferentes equipos, y también la
región de la lengua etiquetada para cada imagen resultante de los conjuntos de datos
de imágenes de la región de la lengua. En segundo lugar, para incorporar plenamente
las ventajas del aprendizaje profundo, utilizamos modelos de CNN con capas más
profundas para extraer características y realizar clasificaciones.
2. Materiales y métodos
2.1. Construcción y preprocesamiento de conjuntos de datos
Para construir un conjunto de datos de imágenes de lengua relativamente consistente
y estable, adquirimos imágenes de lengua utilizando equipos estándar diseñados por
Shanghai Daosh Medical Technology Ltd (DS01-B) o Shanghai Xieyang Intelligent
Technology Ltd (XYSM01). Luego, las imágenes se transfirieron a una computadora
personal para su evaluación. Las imágenes de la lengua se diferenciaron en lengua
marcada o sin marcas de dientes por tres practicantes profesionales de medicina
tradicional china (con 20 años de experiencia clínica) de la Universidad de Medicina
China de Beijing. Todos los profesionales estaban bien entrenados y tenían una visión
normal o superior a la normal. Las imágenes de la lengua fueron evaluadas
secuencialmente por profesionales utilizando un monitor HP P223 (21,5 pulgadas,
1920 _ 1080) en la misma sala de ordenadores. El procedimiento de evaluación
detallado incluyó tres pasos en este estudio. Primero, los profesionales discutieron los
criterios de diagnóstico para la lengua marcada con dientes. En segundo lugar, un
profesional etiquetó las 1548 imágenes en la carpeta "" marca de diente "o" sin marca
de diente ". En tercer lugar, los otros dos profesionales revisaron los resultados del
etiquetado respectivamente. En caso de desacuerdo, tres profesionales deben discutir
y tomar las decisiones finales. Las imágenes con los consensos de tres profesionales se
incluyeron en el conjunto de datos para el desarrollo del modelo de inteligencia
artificial. El conjunto de datos resultante contenía 672 imágenes de lengua con marca
de diente y 876 imágenes de lengua sin marca de diente. Además, también
etiquetamos manualmente la región de la lengua para cada imagen de lengua cruda. El
propósito de aislar la región de la lengua es facilitar el desempeño del modelo
controlando la influencia de las porciones faciales irrelevantes y el fondo que rodea la
lengua. Como resultado, se construyeron dos conjuntos de datos, incluido el conjunto
de datos de imágenes de lengua sin procesar y el conjunto de datos de imágenes de la
región de la lengua. El ejemplo de la imagen de la lengua en bruto adquirida y la
imagen de la región de la lengua se muestran en la figura 1.
2.2. Red de arquitectura
CNN se desempeña bien en las tareas de clasificación de imágenes. Sin embargo, a
medida que aumenta la profundidad de la CNN, el entrenamiento se vuelve más difícil
y el error de entrenamiento aumenta. Como una de las arquitecturas típicas de CNN, el
modelo de red de aprendizaje residual profundo (ResNet) permite que la red sea
robusta al gradiente de desaparición y los problemas de degradación causados por la
profundidad de la red, y funciona mejor que el modelo de red tradicional [9]. Por lo
tanto, utilizamos una arquitectura típica de ResNet que consta de 34 capas (ResNet34)
para clasificar las imágenes de la lengua en el presente estudio. La visualización de la
estructura del modelo ResNet34 se muestra en la Fig. 2. La unidad lineal rectificada
(ReLU) [12] se utilizó como función de activación después de cada capa convolucional
(Ec. (1)).

2.3. Entrenamiento y prueba de modelos


Los modelos fueron desarrollados y entrenados usando PyTorch (https: // pytorch.
Org) Python framework en un sistema Windows10 con 1 GPU NVIDIA 1080 y CPU i7
8700 K. La red se inicializó utilizando pesos previamente entrenados en conjuntos de
datos de ImageNet (https: // pytorch. Org / docs / stable / torchvision / models.html)
[13] y se ajustó en nuestro conjunto de datos de imágenes de lengua. Dado que las
imágenes de la lengua del fondo de ojo de diferentes dispositivos pueden tener varias
resoluciones, todas las imágenes disponibles se redimensionaron aleatoriamente y se
recortaron a 416 x 416 píxeles, y también se voltearon horizontalmente antes del
entrenamiento del modelo. Luego, la red se ajustó durante 40 épocas utilizando un
tamaño de lote de 16. Se utilizó como optimizador el descenso de gradiente
estocástico (SGD) con una tasa de aprendizaje de 0,001 y un impulso de 0,9. En la
etapa de prueba, las imágenes de prueba de entrada de la red entrenada se
redimensionaron a 420 x 420 píxeles y se recortaron en el centro a 416 x 416 píxeles.
2.4. Estadísticas para la evaluación del modelo
La precisión (ecuación (2)), la sensibilidad (ecuación (3)) y la especificidad (ecuación
(4)) se utilizaron para evaluar el rendimiento del modelo [14-17]. True Positive (TP)
representa el número de lenguas correctamente clasificadas como dientes marcadas,
True Negative (TN) representa el número de lenguas correctamente clasificadas como
no marcadas con dientes, False Positive (FP) es el número de mal clasificadas como
dientes lengua marcada, y el False Negative (FN) es el número de lengua no marcada
de forma incorrecta.
La validación cruzada de k veces es un método robusto y menos sesgado para evaluar
el rendimiento de un modelo. El procedimiento general es el siguiente: 1) Divida
aleatoriamente los datos en k subconjuntos; 2) Reserve un subconjunto y entrene el
modelo en todos los demás subconjuntos; 3) Pruebe el modelo en el subconjunto
reservado y registre las métricas de evaluación; 4) Repita los procesos anteriores hasta
que cada uno de los k subconjuntos haya servido como conjunto de datos de prueba;
5) Resuma el rendimiento calculando el promedio y la varianza de las métricas de
evaluación de los modelos k. La elección de k suele ser 5 o 10 en estudios de
inteligencia artificial. En el estudio actual se realizó una validación cruzada de cinco
veces.
Las 1548 imágenes de lengua sin procesar (descritas en la Sección 2.1) se barajaron
aleatoriamente y luego se dividieron en 5 subconjuntos. Los primeros 3 subconjuntos
contenían 310 imágenes de lengua y los últimos 2 subconjuntos contenían 309
imágenes de lengua. Tenga en cuenta que las particiones de 1548 imágenes de la
región de la lengua estaban en línea con las imágenes de la lengua sin procesar. En
cada validación, usamos 4 subconjuntos para el entrenamiento y el otro 1 subconjunto
para las pruebas (Fig. 1).
Luego, se calcularon el promedio y la desviación estándar (DE) de la precisión,
sensibilidad y especificidad de los 5 modelos.
Todas las métricas estadísticas mencionadas anteriormente se calcularon utilizando el
software Python.
Fig. 1. Descripción general de la construcción de conjuntos de datos y los principales procedimientos de procesamiento.
(A) La ilustración de la captura de imágenes de la lengua con equipo estándar.
(B) Construcción del conjunto de datos de imágenes en bruto de la lengua y modelo de lengua marcada y no marcada con
dientes.
(C) Construcción del conjunto de datos de imágenes de la región de la lengua y ejemplar de lengua marcada y no marcada con
dientes.
(D) El entrenamiento, prueba y validación del modelo de red neuronal convolucional.
(E) La prueba de los modelos en un nuevo conjunto de datos de imágenes de la lengua capturadas por una cámara normal.

2.5. Validación de modelo


Se utilizaron cuatro tipos de experimentos para probar la efectividad del modelo en el
presente estudio.
Primero, para evaluar más a fondo nuestro modelo, también construimos un nuevo
conjunto de datos de prueba con 50 imágenes de lengua capturadas por una cámara
normal sin controlar estrictamente las circunstancias circundantes.
Es decir, las imágenes de este conjunto de datos tenían varias iluminaciones. Por lo
tanto, puede aumentar la dificultad de clasificación y puede validar el método
propuesto de manera más estricta. Las imágenes también se diferenciaron en 27
imágenes de lengua marcadas con dientes y 23 imágenes de lengua sin marcas de
dientes mediante los mismos procedimientos descritos en la Sección 2.1. Además,
también etiquetamos la región de la lengua para cada imagen de lengua cruda. Luego,
todas las imágenes de la lengua sin procesar aquí se clasificaron utilizando los 5
modelos antes mencionados entrenados por imágenes de la lengua sin procesar, y
todas las imágenes de la región de la lengua en este conjunto de datos se clasificaron
utilizando los 5 modelos entrenados por imágenes de la región de la lengua. Los
principales procedimientos se muestran en la figura 1.
En segundo lugar, VGG16, que fue propuesto por el Grupo de Geometría Visual de la
Universidad de Oxford [10], se utilizó para experimentos comparativos. El "16" significa
13 capas convolucionales y 3 capas completamente conectadas. Debido a que el
tamaño de la imagen de entrada aquí era 416 x 416 en lugar de 224 x 224, se usó una
capa de agrupación promedio adaptativa con un tamaño de salida de 7 x 7 antes de la
capa completamente conectada (FC). Los parámetros de entrenamiento aquí fueron
consistentes con ResNet34 antes mencionado. El VGG16 también se ha guardado en
conjuntos de datos de ImageNet que pueden reducir en gran medida el tiempo de
entrenamiento en nuestros conjuntos de datos. El tercero es la comparación entre
nuestros modelos propuestos con otros trabajos. Aquí, nos centramos en el método
propuesto por Sun et al. [7] que ha logrado un mejor desempeño en la clasificación de
la lengua marcada con dientes que otros estudios anteriores. Dado que Sun et al. no
hemos entregado su código a los lectores, replicamos conservadoramente su modelo
de CNN con 7 capas y usamos la mejor configuración indicada en su descripción.
Realizamos experimentos tanto en nuestro conjunto de datos de imágenes de lengua
sin procesar como en nuestro conjunto de datos de imágenes de la región de la lengua.
La configuración de validación cruzada de cinco veces fue la misma que en el párrafo
mencionado anteriormente.
Por último, utilizamos el método de mapeo de activación de clases ponderado por
gradiente (Grad-CAM) [18] para visualizar las regiones más indicativas de la lengua
marcada con dientes e interpretamos las predicciones del modelo. Aquí, Grad-CAM
utiliza los gradientes del concepto de destino (es decir, lengua marcada con dientes)
que fluye hacia la capa convolucional final de la CNN para producir un mapa de
localización aproximado que resalta las regiones importantes en la imagen para
predecir la lengua marcada con dientes.
Fig. 2. Visualización de la estructura del modelo ResNet34. Conv y pool significan convolucional y
Agrupacion, respectivamente. El tamaño de la zancada o la agrupación es 2 (indicado por "/ 2"). "7 x 7
conv, 64" significa que el tamaño del núcleo convolucional es 7 x 7 y el número de filtros es 64. Las líneas
continuas indican que la entrada y la salida tienen dimensiones idénticas, las líneas discontinuas indican
que la entrada y la salida tienen dimensiones diferentes.

3. Resultados
3.1. Validación cruzada de cinco veces en el conjunto de datos de imágenes de la
lengua sin procesar y el conjunto de datos de imágenes de la región de la lengua
En la Tabla 1 se muestran los resultados de la clasificación de lengua marcada con
dientes con validación cruzada de cinco veces utilizando la arquitectura ResNet34 en
1548 imágenes de lengua sin procesar. En primer lugar, encontramos que el
rendimiento del modelo de clasificación es relativamente bueno y estable. La precisión
global es del 90,50%, lo que demuestra la eficacia del método. En segundo lugar, la
sensibilidad general es del 87,25% y la especificidad del 93,00%, lo que indica que los
modelos tienen una sensibilidad y especificidad relativamente altas. Para controlar la
influencia de las porciones faciales y circundantes irrelevantes en las imágenes, se
llevaron a cabo experimentos utilizando un conjunto de datos de imágenes de la
región de la lengua. Como esperábamos, la precisión de clasificación general en el
conjunto de datos de imágenes de la región de la lengua es del 91,47% (Tabla 1), que
es un 0,97% más alta que la precisión promedio en el conjunto de datos de imágenes
de la lengua sin procesar.
3.2. Validación en un nuevo conjunto de datos de prueba
Para evaluar más nuestro modelo, también realizamos experimentos en nuevos
conjuntos de datos de prueba. El nuevo conjunto de datos de imágenes de la lengua
sin procesar constaba de 50 imágenes de la lengua, y el nuevo conjunto de datos de
imágenes de la región de la lengua contenía 50 imágenes de la región de la lengua
aisladas manualmente de imágenes sin procesar. La precisión promedio de los
modelos entrenados en la Sección 3.1 es 83.20% y 88.80% para los 2 conjuntos de
datos, respectivamente (Tabla 2). Dado que las imágenes de este conjunto de datos de
prueba fueron capturadas por la cámara en diversas condiciones de luz, la precisión
general superior al 85,00% indica que nuestros modelos se pueden generalizar a
imágenes de diferentes dispositivos con diferentes iluminaciones.
3.3. Comparación con la arquitectura VGG16
Para investigar si la arquitectura de CNN influye en los resultados experimentales, se
utilizó VGG16 como comparación. Los resultados se muestran en la Tabla 3. La
precisión promedio de la validación cruzada de cinco veces es de 89,40% y 90,96% en
el conjunto de datos de imágenes de lengua sin procesar y el conjunto de datos de
imágenes de región de la lengua, respectivamente. Por lo tanto, la arquitectura
ResNet34 puede aumentar la precisión de la clasificación de la lengua marcada con
dientes en un 1,10% en imágenes de lengua sin procesar y un 0,52% en imágenes de la
región de la lengua.
3.4. Comparación con otros trabajos
La mayoría de los métodos anteriores se basan en características cóncavas locales y
establecen un umbral subjetivamente para clasificar la lengua marcada con dientes. Un
trabajo reciente, utilizando CNN de 7 capas para extraer características
automáticamente, ha ganado una precisión mayor que otros trabajos anteriores [7].
Realizamos experimentos en nuestros conjuntos de datos utilizando el método de Sun.
Los resultados se muestran en la Tabla 4. Las precisiones promedio, 70,61% en el
conjunto de datos de imágenes de lengua sin procesar y 71,77% en el conjunto de
datos de imágenes de la región de la lengua, son casi un 20% más bajas que nuestros
métodos. Además, debido a las diferencias en las distribuciones de datos y las
arquitecturas de modelos, el método de Sun generalmente no reconoce la lengua
marcada con dientes.
Por lo tanto, la sensibilidad es mucho menor que la especificidad, lo que puede
resultar en una baja precisión general. En particular, las imágenes de entrada se
reducen a 256 _ 256 y se recortan aleatoriamente a 224 _ 224 en el método de Sun.
Para eliminar la influencia del tamaño de la imagen, también realizamos experimentos
con el tamaño de la imagen de entrada en nuestro método (416 _ 416). Como
podemos ver en las Tablas 4 y 5, el tamaño de la imagen de entrada puede no afectar
significativamente los resultados de clasificación del modelo.
En resumen, la precisión promedio de nuestros métodos ResNet34, VGG16 y Sun con
diferentes tamaños de imagen de entrada se muestra en la Fig. 3. Nuestros modelos
pueden aumentar la precisión de la clasificación de la lengua marcada con dientes en
aproximadamente un 20%.
Fig. 3.
Comparació
n con otros
métodos de
Fig. 4.
Ejemplos de
visualización
Grad-CAM
para la

3.5. Visualización de las regiones indicativas para la clasificación de lengua marcada


con dientes
Para asegurar si la región marcada con dientes contribuye más a la clasificación de la
lengua marcada con dientes, se realizó Grad-CAM con respecto a la capa convolucional
final de nuestro modelo. En la CNN, las capas más profundas pueden capturar niveles
más altos de información semántica. Por lo tanto, la capa convolucional final contiene
la mejor correspondencia entre la información semántica y espacial de las imágenes.
Como se muestra en la Fig. 4, el Grad-CAM resalta las regiones indicativas, que
generalmente son regiones marcadas con dientes a lo largo de los bordes laterales,
para la clasificación de la lengua marcada con dientes. La visualización mediante el uso
de Grad-CAM puede ayudarnos a evaluar el modelo y también proporcionar a los
profesionales de la medicina tradicional china más información intuitiva para ayudar al
diagnóstico.
4. Discusión
La característica de la marca dentaria de la lengua es un indicador crucial en la
evaluación de la MTC. Aquí, propusimos un marco para el reconocimiento de la lengua
marcada con dientes. Primero, capturamos 1548 imágenes de lengua sin procesar con
diferentes equipos estándar y diferenciamos estas imágenes en 672 imágenes de
lengua con marca de diente y 876 imágenes de lengua sin marca de diente. También
etiquetamos la región de la lengua para cada conjunto de datos de imágenes de la
región de la lengua resultante. Luego, usamos modelos de CNN ResNet34 para extraer
características y realizar clasificaciones. La precisión general de los modelos fue
superior al 90% tanto en el conjunto de datos de imágenes de la lengua sin procesar
como en el conjunto de datos de imágenes de la región de la lengua.
Curiosamente, los modelos se pueden generalizar muy bien a imágenes capturadas por
otros dispositivos con diferentes iluminaciones. Estos resultados muestran que el
método del presente estudio mejora en gran medida la precisión que los estudios
anteriores y demuestra la efectividad de los modelos incluso cuando las imágenes
provienen de diferentes fuentes.
Nuestro estudio puede arrojar nueva luz sobre el diagnóstico de síntomas o
enfermedades y las características de la lengua basadas en la evaluación
farmacológica. Varios estudios previos han informado resultados alentadores
utilizando las características de la imagen de la lengua para diferenciar la lengua sana
de la no saludable [19,20], diagnosticar diabetes mellitus tipo 2 [21], cáncer de mama
en estadio temprano [22] y gastritis [23], pero generalmente incluir más pasos de
preprocesamiento, extraer características empíricamente y utilizar métodos
tradicionales de aprendizaje automático y de estadística. Nuestras arquitecturas CNN
en general pueden extraer características automáticamente evitando la selección de
características y reducir los pasos manuales, que son elementos clave para permitir la
traducción de dichos sistemas a la práctica clínica. Además, la buena efectividad
(superior al 90%) y la generalización (no depender de un dispositivo específico) de
nuestro marco pueden proporcionar un método asistido por computadora objetivo y
conveniente para rastrear la progresión de la enfermedad y evaluar el efecto
farmacológico desde una perspectiva bioinformática.
Sin embargo, hay varios temas importantes para futuras investigaciones. Primero, la
especificidad es ligeramente más alta que la sensibilidad en la mayoría de nuestros
experimentos. Puede deberse a la desigualdad de muestras positivas y negativas. Se
necesitan más investigaciones para investigar la influencia del número de imágenes de
lengua marcada con dientes y lengua no marcada con dientes. En segundo lugar,
nuestros resultados demuestran que ResNet34 (la CNN más profunda de nuestro
estudio) superó a las arquitecturas menos profundas (VGG16, modelo de 7 capas de
Sun) en todas las métricas, incluida la precisión, la sensibilidad y la especificidad. Sin
embargo, la CNN con una capa más profunda suele ser más computacionalmente
intensiva. Por lo tanto, es necesario encontrar un mejor equilibrio entre el rendimiento
del modelo y el costo de cálculo. En tercer lugar, encontramos que la precisión general
de los modelos en el conjunto de datos de imágenes de la región de la lengua es
ligeramente superior a la del conjunto de datos de imágenes de la lengua sin procesar,
lo que sugiere la importancia de desarrollar algoritmos avanzados de segmentación de
la lengua en el futuro [24]. Y nuestro marco puede proporcionar una plataforma ideal
para evaluar estos algoritmos. En cuarto lugar, la validación del conjunto de datos
creado manualmente es esencial para desarrollar el algoritmo.
Los estudios futuros deben controlar cuidadosamente el proceso de clasificación
manual (p. Ej., El ángulo de visión y la distancia entre los ojos y la pantalla del monitor)
y evaluar la confiabilidad entre observadores y entre observadores. Finalmente,
existen diferentes grados de apariencia de marcas de dientes. Diferenciar las imágenes
de la lengua en más grupos y construir múltiples modelos de clasificación puede
aumentar la aplicabilidad clínica.

También podría gustarte