Documentos de Académico
Documentos de Profesional
Documentos de Cultura
3. Resultados
3.1. Validación cruzada de cinco veces en el conjunto de datos de imágenes de la
lengua sin procesar y el conjunto de datos de imágenes de la región de la lengua
En la Tabla 1 se muestran los resultados de la clasificación de lengua marcada con
dientes con validación cruzada de cinco veces utilizando la arquitectura ResNet34 en
1548 imágenes de lengua sin procesar. En primer lugar, encontramos que el
rendimiento del modelo de clasificación es relativamente bueno y estable. La precisión
global es del 90,50%, lo que demuestra la eficacia del método. En segundo lugar, la
sensibilidad general es del 87,25% y la especificidad del 93,00%, lo que indica que los
modelos tienen una sensibilidad y especificidad relativamente altas. Para controlar la
influencia de las porciones faciales y circundantes irrelevantes en las imágenes, se
llevaron a cabo experimentos utilizando un conjunto de datos de imágenes de la
región de la lengua. Como esperábamos, la precisión de clasificación general en el
conjunto de datos de imágenes de la región de la lengua es del 91,47% (Tabla 1), que
es un 0,97% más alta que la precisión promedio en el conjunto de datos de imágenes
de la lengua sin procesar.
3.2. Validación en un nuevo conjunto de datos de prueba
Para evaluar más nuestro modelo, también realizamos experimentos en nuevos
conjuntos de datos de prueba. El nuevo conjunto de datos de imágenes de la lengua
sin procesar constaba de 50 imágenes de la lengua, y el nuevo conjunto de datos de
imágenes de la región de la lengua contenía 50 imágenes de la región de la lengua
aisladas manualmente de imágenes sin procesar. La precisión promedio de los
modelos entrenados en la Sección 3.1 es 83.20% y 88.80% para los 2 conjuntos de
datos, respectivamente (Tabla 2). Dado que las imágenes de este conjunto de datos de
prueba fueron capturadas por la cámara en diversas condiciones de luz, la precisión
general superior al 85,00% indica que nuestros modelos se pueden generalizar a
imágenes de diferentes dispositivos con diferentes iluminaciones.
3.3. Comparación con la arquitectura VGG16
Para investigar si la arquitectura de CNN influye en los resultados experimentales, se
utilizó VGG16 como comparación. Los resultados se muestran en la Tabla 3. La
precisión promedio de la validación cruzada de cinco veces es de 89,40% y 90,96% en
el conjunto de datos de imágenes de lengua sin procesar y el conjunto de datos de
imágenes de región de la lengua, respectivamente. Por lo tanto, la arquitectura
ResNet34 puede aumentar la precisión de la clasificación de la lengua marcada con
dientes en un 1,10% en imágenes de lengua sin procesar y un 0,52% en imágenes de la
región de la lengua.
3.4. Comparación con otros trabajos
La mayoría de los métodos anteriores se basan en características cóncavas locales y
establecen un umbral subjetivamente para clasificar la lengua marcada con dientes. Un
trabajo reciente, utilizando CNN de 7 capas para extraer características
automáticamente, ha ganado una precisión mayor que otros trabajos anteriores [7].
Realizamos experimentos en nuestros conjuntos de datos utilizando el método de Sun.
Los resultados se muestran en la Tabla 4. Las precisiones promedio, 70,61% en el
conjunto de datos de imágenes de lengua sin procesar y 71,77% en el conjunto de
datos de imágenes de la región de la lengua, son casi un 20% más bajas que nuestros
métodos. Además, debido a las diferencias en las distribuciones de datos y las
arquitecturas de modelos, el método de Sun generalmente no reconoce la lengua
marcada con dientes.
Por lo tanto, la sensibilidad es mucho menor que la especificidad, lo que puede
resultar en una baja precisión general. En particular, las imágenes de entrada se
reducen a 256 _ 256 y se recortan aleatoriamente a 224 _ 224 en el método de Sun.
Para eliminar la influencia del tamaño de la imagen, también realizamos experimentos
con el tamaño de la imagen de entrada en nuestro método (416 _ 416). Como
podemos ver en las Tablas 4 y 5, el tamaño de la imagen de entrada puede no afectar
significativamente los resultados de clasificación del modelo.
En resumen, la precisión promedio de nuestros métodos ResNet34, VGG16 y Sun con
diferentes tamaños de imagen de entrada se muestra en la Fig. 3. Nuestros modelos
pueden aumentar la precisión de la clasificación de la lengua marcada con dientes en
aproximadamente un 20%.
Fig. 3.
Comparació
n con otros
métodos de
Fig. 4.
Ejemplos de
visualización
Grad-CAM
para la