Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cite este artículo como: Naaman Omar, Abdulkadir Sengur, Salim Ganim Saeed Al-Ali, Enfoque basado en el aprendizaje profundo en
cascada para la detección y el reconocimiento de matrículas, Sistemas Expertos con Aplicaciones ( 2020), doi: https://doi.org/10.1016/j.eswa.2020.113280
Este es un archivo PDF de un artículo que ha experimentado mejoras después de la aceptación, como la adición de una portada y metadatos,
y el formato para facilitar la lectura, pero aún no es la versión definitiva del registro. Esta versión se someterá a edición de textos adicionales,
tipografía y revisión antes de que se publique en su forma final, pero estamos proporcionando esta versión para dar visibilidad temprana del
artículo. Tenga en cuenta que, durante el proceso de producción, se pueden descubrir errores que podrían afectar el contenido, y todas las
renuncias legales que se aplican a la revista pertenecen.
• Se considera el etiquetado parcial para el número de placa, la ciudad y las regiones del país.
• Se presenta un nuevo conjunto de datos de matrícula desafiante para la región del norte de Iraq.
1
Enfoque eficiente en cascada basado en el aprendizaje profundo para matrículas
Detección y Reconocimiento
1 Universidad Politécnica de Duhok, Instituto Técnico Amedi, Departamento de Tecnología de la Información, Duhok, Iraq.
Resumen
La detección y el reconocimiento automáticos de matrículas (ALP) es una tarea importante tanto para el tráfico
sistemas de vigilancia y gestión de estacionamiento, además de ser cruciales para mantener el flujo de los modernos
vida cívica Se han propuesto varios métodos de detección y reconocimiento de ALP hasta la fecha. Estos métodos
generalmente usa varias técnicas de procesamiento de imágenes y aprendizaje automático. En este artículo, un profundo en cascada
Se propone un enfoque de aprendizaje para construir un sistema eficiente de detección y reconocimiento de ALP para
Los vehículos del norte de Iraq. Las placas en el norte de Iraq contienen tres regiones, a saber, una placa.
número, una región de la ciudad y una región del país. El método propuesto inicialmente emplea varios preprocesamientos
técnicas como el filtrado gaussiano y la mejora adaptativa del contraste de la imagen para crear las imágenes de entrada
más adecuado para su posterior procesamiento. Luego, se utiliza una red de segmentación semántica profunda para
determine las tres regiones de matrícula de la imagen de entrada. La segmentación se lleva a cabo a través de profundidad
Modelos de redes neuronales convolucionales (CNN) para el reconocimiento de números arábigos y la ciudad
determinación. Para el reconocimiento de números arábigos, se construyó y entrenó un modelo CNN de extremo a extremo,
mientras que para el reconocimiento de la ciudad, un modelo CNN previamente entrenado se ajustó aún más. Una nueva matrícula
El conjunto de datos también fue construido y utilizado en los trabajos experimentales del estudio. El desempeño de la
El método propuesto se evaluó tanto en términos de detección como de reconocimiento. Para detección, recuperación, precisión
Los resultados mostraron que el método propuesto es eficiente tanto en la detección como en el reconocimiento de matrículas. los
Las puntuaciones calculadas de recuerdo, precisión y medida F fueron 92.10%, 94.43% y 91.01%, respectivamente.
Además, las precisiones de clasificación para los números arábigos y las etiquetas de las ciudades fueron del 99,37% y
92,26%, respectivamente.
2
Palabras claves: Detección y reconocimiento de matrículas, segmentación profunda, CNN, número árabe
clasificación
1) Introducción
La detección y reconocimiento automáticos de matrículas (ALP) es una tarea importante para la actualidad
Redes inteligentes de transporte. El reconocimiento ALP se puede usar para identificar vehículos de su licencia
placas y, por lo tanto, el reconocimiento ALP tiene el potencial de aplicarse a una variedad de aplicaciones como
vigilancia del tráfico, con fines de seguridad y para la gestión del estacionamiento de vehículos (Al-Shemarry, 2019,
Yuan, 2016).
En las últimas dos décadas, ha habido varios estudios con respecto a la detección de ALP y
reconocimiento. Por ejemplo, Kakani et al. propuso un algoritmo que utiliza redes neuronales artificiales
(ANN) para mejorar la detección y el reconocimiento de ALP (Kakani, 2017). Los autores utilizaron 300 imágenes de vehículos para
92.2% para reconocimiento. Prabhakar y col. propuso un algoritmo para la detección automática de matrículas y
reconocimiento (Prabhakar, 2014). Los autores inicialmente convirtieron las imágenes de entrada de color en escala de grises, y luego
filtrado medio aplicado para mejorar la imagen. Después del preprocesamiento, se aplicó la transformación Hough a
detectar los bordes y los patrones locales en la región de la placa. Las operaciones morfológicas se utilizaron en
para mejorar la imagen binaria y detectar la ubicación exacta de la matrícula. Para evaluar el
rendimiento, se utilizaron 150 imágenes en color tomadas en diferentes condiciones, con un puntaje de precisión del 94.0%
obtenido para detección y 92.0% para reconocimiento. Singh y col. propuso un algoritmo para matrícula
localización y reconocimiento de personajes (Singh, 2016). El filtrado gaussiano y las operaciones morfológicas fueron
se usa para mejorar las imágenes de entrada, con el posicionamiento de caracteres para ubicar la placa de matrícula. Un vector de soporte
El clasificador de máquina (SVM) se utilizó para el reconocimiento de caracteres. Se utilizó un conjunto de 419 imágenes que tenían
ha sido capturado de varias condiciones para evaluar el desempeño. La tasa de éxito lograda para
el algoritmo propuesto fue 97.21% para la ubicación de la placa y 95.06% para el reconocimiento de caracteres. Li y col.
propuso un modelo CNN de extremo a extremo para la detección y reconocimiento de matrículas (Li, 2018). Ellos
3
construyó un modelo unificado de DNN que localizó las placas y las letras reconocidas simultáneamente en
Un solo pase hacia adelante. Los autores utilizaron tres conjuntos de datos para evaluar el rendimiento de sus
método propuesto. Las puntuaciones de detección y reconocimiento obtenidas fueron cada una por encima del 99,0%. Silva y col.
propuso un sistema de detección y reconocimiento ALP basado en aprendizaje profundo de extremo a extremo para la licencia brasileña
platos (Silva, 2017). El sistema desarrollado se basó en una arquitectura CNN profunda. Los autores optaron por usar
un conjunto de datos de matrícula brasileña disponible al público. Su sistema propuesto fue capaz de detectar y
reconocer los siete caracteres de la matrícula brasileña con puntajes de detección y reconocimiento de
99.0% y 93.0%, respectivamente. Cheang y col. propuso un modelo híbrido donde una CNN y una recurrente
La red neuronal (RNN) se utilizó para el reconocimiento de matrículas (Cheang, 2017). De hecho, los autores utilizaron
CNN para la extracción de características y las características extraídas fueron clasificadas por RNN. Un conjunto de datos que contiene
Se utilizaron 2.713 imágenes de matrículas etiquetadas en sus experimentos, y se obtuvo una puntuación de precisión del 76,53%
adquirido. Zang y col. propuso un enfoque de detección y reconocimiento de ALP que se basó en
aprendizaje y atención visual (Zhang, 2015) que se concentró en la detección de matrículas de automóviles chinos
y reconocimiento. Se optó por un modelo de atención visual modificado para su uso en la detección de las placas.
Después de la segmentación de caracteres, se adoptaron los clasificadores CNN y SVM para reconocer a los chinos
caracteres. Los autores declararon que el esquema propuesto produjo mejores resultados, incluso bajo las condiciones
de cambio de iluminación y contaminación acústica. Bulan y col. propuso una detección y reconocimiento de ALP
enfoque que estaba libre de segmentación y anotación (Bulan, 2017). Los autores inicialmente localizados
la región de la placa de matrícula utilizando un enfoque de dos etapas. La ubicación de la matrícula se determinó en un
conjunto de regiones de matrícula candidatas utilizando un clasificador CNN. Luego, un método de inferencia probabilística
basado en el modelo oculto de Markov (HMM) se utilizó para el reconocimiento de caracteres. Los experimentos fueron
realizado en varias imágenes capturadas en condiciones realistas y los resultados obtenidos fueron prometedores.
Shivakumara y col. desarrolló un enfoque basado en CNN y memoria bidireccional a corto y largo plazo
(BLSTM) para el reconocimiento ALP (Shivakumara, 2018). Los autores optaron por usar Deep
extracción de características utilizando el modelo CNN, con clasificación manejada por el método BLSTM. Un público
el conjunto de datos de matrícula disponible se empleó en sus trabajos experimentales, y un reconocimiento del 90.51%
44
Se registró el nivel de precisión. Yang y col. propuso un nuevo esquema profundo para la matrícula china
reconocimiento (Yang, 2017) que se basó en la extracción profunda de características y el aprendizaje extremo basado en el núcleo
Clasificador de máquina (ELM). La extracción profunda de características se realizó utilizando un modelo CNN preentrenado, y el
Los resultados experimentales fueron mejores que otros CNN que usan Softmax o SVM. Kim y col. propuso un dos
enfoque profundo para la detección de ALP en entornos complejos (Kim, 2017). Como primer paso, los autores
detectó la región del automóvil dentro de una imagen determinada y, como segundo paso, se determinó la región de la matrícula
dentro de la región del automóvil detectada previamente. En el primer paso, se utilizó la CNN regional más rápida junto con
un método de muestreo jerárquico para producir múltiples regiones de matrícula candidatas. La no placa
Las regiones se eliminaron utilizando una arquitectura CNN. Los experimentos en el conjunto de datos de Caltech mostraron una precisión
tasa de 98.39%. Selmi y col. desarrolló un sistema de detección y reconocimiento de ALP que se basó en
aprendizaje (Selmi, 2017). El sistema propuesto estaba compuesto por tres partes, a saber, detección de placa,
segmentación de caracteres y reconocimiento de caracteres. Los autores emplearon varios pasos de preprocesamiento como
como filtro de ruido y mejora de contraste para mejorar la calidad de la imagen. CNN se utilizó para la placa
detección y segmentación de imágenes para extracción de caracteres. Se consideró un modelo CNN adicional para
De toda la literatura revisada, se puede ver que la última tendencia en la detección de ALP y
El reconocimiento se centra en los enfoques de aprendizaje profundo. Para este fin, un enfoque de aprendizaje profundo en cascada es
propuesto en el estudio actual para construir un sistema eficiente de detección y reconocimiento de ALP, adaptado para
Los vehículos del norte de Iraq. El sistema ALP propuesto inicialmente emplea varios preprocesamientos
Técnicas como el filtrado y la mejora del contraste para que las imágenes de entrada sean más adecuadas
Procesando. Más específicamente, filtrado gaussiano y ecualización de histograma adaptativo con contraste limitado
(CLAHE) se aplicaron como los pasos de preprocesamiento. Como las matrículas de vehículos en el norte de Iraq
contiene tres regiones, a saber, un número de placa, una región de ciudad y una región de país, una semántica profunda
Se utilizó la red de segmentación para localizar las diversas regiones dentro de la imagen de entrada.
La segmentación se realizó a través de una arquitectura de red profunda de codificador-decodificador (Kendall, 2015) utilizando el
55
Modelo VGG16 en la red de segmentación (Simonyan, 2014). Para el reconocimiento de la región de la ciudad, un pre
modelo CNN entrenado fue afinado. El modelo VGG16 también se aplicó en el aprendizaje de transferencia. Una secuencia
de rutinas de procesamiento de imágenes tales como filtrado, extracción de fondo, umbralización y morfología
Las operaciones se utilizaron para la segmentación de caracteres árabes (Al-Shemarry, 2019), con un extremo a extremo
Modelo CNN construido y entrenado para el reconocimiento de números arábigos. Para el reconocimiento de la región del país, un
También se utilizó un nuevo conjunto de datos de matrículas en los trabajos experimentales. El desempeño de la
El método propuesto se evaluó para la detección y el reconocimiento. Para detección, recuperación, precisión
y se utilizaron las puntuaciones de la medida F, mientras que para el reconocimiento, se utilizó la precisión de la clasificación. El obtenido
Los resultados mostraron que el método propuesto es bastante eficiente tanto en la detección como en el reconocimiento de matrículas.
una) Se introdujo un nuevo enfoque de aprendizaje profundo en cascada para la detección de matrículas y
reconocimiento. A diferencia de los métodos existentes, en la detección de LP, el estilo de etiquetado de la placa
si) Se utilizaron tres modelos CNN de forma independiente, uno para detección y dos para ciudad y
C) Se introdujo una nueva metodología de etiquetado de matrículas específica para el norte de Iraq.
2) Materiales y métodos
mencionado, preprocesamiento, red de segmentación, segmentación de caracteres, aprendizaje de transferencia y de extremo a extremo
Se utilizaron bloques de aprendizaje para componer la detección y el reconocimiento de la licencia propuesta. Cada bloque
66
0
2
Índices de agrupación
3
Segmentación de
Gaussian 4
CLAHE personajes
Filtering 5
6
Imagen de entrada 7
extremo a extremo 8
Erbil
acepta la imagen de entrada y las imágenes etiquetadas correspondientes. La salida de la arquitectura SegNet
transmitido a una arquitectura CNN de extremo a extremo para el reconocimiento de matrículas. Las ciudades son reconocidas en base
La arquitectura SegNet fue adoptada para la detección de las regiones de matrícula (Kendall, 2015).
SegNet es un enfoque bien conocido para la segmentación de imágenes semánticas. SegNet contiene tanto un codificador como
una red decodificadora correspondiente. Se usa una capa de clasificación de píxeles después de la red del decodificador para predecir
la etiqueta categórica para cada píxel dentro de la imagen de entrada. La red del codificador usa convolución,
unidad lineal rectificada (ReLU) y capas de agrupación máxima del modelo VGG16 (Simonyan, 2014). Un total de
13 capas convolucionales con un tamaño de filtro de 3 × 3, y cinco capas de agrupación máxima de tamaño de ventana de 2 × 2 construyen el
codificador de red. La red del decodificador tiene una estructura que es simétrica al bloque del codificador. El decodificador
la red contiene procesos de convolución de muestreo ascendente y transposición. En el proceso de muestreo superior, el máximo
los índices de agrupación para la capa de codificador correspondiente se recuperan para el muestreo ascendente. La segmentación es
La entrada a la arquitectura SegNet es una muestra de conjunto de entrenamiento y su correspondiente conjunto de etiquetas. los
La función objetivo de SegNet es la entropía de pérdida cruzada (CLE), que se obtiene determinando
77
valor de peso de cada píxel en la muestra de entrenamiento. Los pesos se ajustan mediante la optimización del mínimo.
error al usar un algoritmo de propagación hacia atrás. En resumen, la salida de SegNet está determinada por
convolución de pesos y entradas, y los pesos se actualizan utilizando un algoritmo de propagación inversa.
La segmentación de caracteres tiene como objetivo detectar cada número en la región de matrícula determinada por el
Red de segmentación profunda. Este proceso es bastante desafiante debido a varias condiciones como el ruido,
iluminación y contraste (Al-Shemarry, 2019). La región de la placa de la licencia se convierte inicialmente a escala de grises
y el filtrado gaussiano se aplica para eliminar el ruido (Al-Shemarry, 2019). La escala de grises de un color de entrada
(1)
dónde, son los componentes rojo, verde y azul de la imagen de color de entrada. UNA
núcleo de alisado gaussiano bidimensional con desviación estándar de se utiliza en el filtrado gaussiano
como sigue;
( )
() (2)
√
dónde, y µ son la desviación estándar y el valor esperado de la función gaussiana, respectivamente. los
El filtrado gaussiano de la imagen de entrada con la función gaussiana se puede expresar como;
() (3)
dónde, La operación muestra el proceso de convolución. Después de eliminar el ruido, la imagen filtrada se resta
de la imagen en escala de grises para la eliminación del fondo y la mejora del primer plano como se muestra en
Ecuación 4;
(4)
8
Los objetos en primer plano (caracteres) se extraen mediante un umbral. El método de umbral de Otsu fue
adoptado debido a su simplicidad (Otsu, 1979). Después de la binarización de imágenes, operaciones morfológicas como
La erosión y la dilatación se aplican para eliminar cualquier objeto binario no deseado (Al-Shemarry, 2019).
Finalmente, los cuadros delimitadores se utilizan para detectar cada uno de los números de placa en la imagen binaria final. los
el cuadro delimitador es un cuadro rectangular único que indica la ubicación exacta de cada número de placa
(Choeychuen, 2006).
normalización y capas totalmente conectadas (Başaran, 2020). Estas capas se usan secuencialmente para construir
Diversas arquitecturas para diversas tareas. Las capas de convolución se emplean para extraer las características locales.
Dejar denotar las características de las capas anteriores y y mostrar los núcleos que se pueden aprender
y sesgo de entrenamiento, respectivamente. El sesgo de entrenamiento se utiliza para evitar el sobreajuste (Başaran, 2020). Entonces el
(∑ ) (5)
dónde, y ( ) denota la selección del mapa de entrada y la función de activación, respectivamente. La capa de agrupación es
Se utiliza para llevar a cabo la disminución de muestras de los mapas de características que se transmiten desde la capa de convolución. Varios
Los métodos de agrupación como la agrupación promedio y máxima se utilizan en la literatura. Las capas de agrupación ayudan a
reducir los nodos computacionales y evitar el problema de sobreajuste en la arquitectura CNN (Xu, 2017). los
( ) (6)
donde, la operación de disminución de resolución se lleva a cabo con el () función. Cabe resaltar que
downsampling proporciona un resumen de las características locales para la siguiente capa. Capas totalmente conectadas (FC)
99
tener conexiones completas a todas las activaciones en la capa anterior. La capa FC proporciona discriminación
características para la clasificación de la imagen de entrada en sus diversas clases. Las activaciones de la capa FC son
calculado con multiplicación matricial seguida de un desplazamiento de sesgo (Xu, 2017). La formación de la CNN es
llevado a cabo utilizando un algoritmo de optimización (ver Ecuación 7). Descenso de gradiente estocástico con impulso
(SGDM) y la estimación de momento adaptativo (ADAM) son dos métodos de entrenamiento bien conocidos para neuronal
En DTL, el conocimiento se transfiere desde un dominio fuente donde los datos de entrenamiento son de una importancia significativa.
tamaño (Pan, 2009). En el dominio de destino, el conocimiento transferido se utiliza para lograr una clasificación eficiente.
donde los datos de entrenamiento son considerablemente pocos en número. Para el aspecto CNN, DTL se define como el uso de algunos
de las capas como la convolución y la agrupación de un modelo CNN previamente entrenado en un gran conjunto de datos. En
en otras palabras, las capas completamente conectadas, la capa Softmax y la capa de salida de clasificación se descargan y
En esta subsección, se presenta un nuevo conjunto de datos de matrículas. El conjunto de datos se hará públicamente.
disponible. Las imágenes del vehículo en el conjunto de datos introducido se toman en tiempo real utilizando dos dispositivos portátiles.
Cámaras digitales desde una variedad de posiciones y ángulos. Las imágenes fueron capturadas usando una Canon 60D
cámara equipada con una lente EFS de 18-55 mm y una Nikon DX equipada con una lente AF-S NIKKOR de 18-105 mm.
Los ajustes de resolución de la cámara fueron 4288 × 2848 y 5184 × 3456, respectivamente. Un total de 600 vehículos.
Las imágenes se recopilaron en diferentes condiciones, como la iluminación diurna y nocturna, y en diferentes condiciones climáticas.
condiciones tales como sol, nubes, nieve, niebla y también nubes de polvo. El nuevo conjunto de datos incluye imágenes de
diferentes tipos de vehículos, con automóviles, camiones, autobuses y minibuses. La Figura 2 muestra varias imágenes de vehículos.
del conjunto de datos, incluidos varios tipos de vehículos, con imágenes recopiladas en diferentes condiciones climáticas.
10
Fig. 2. Imágenes del nuevo conjunto de datos (varios tipos de vehículos / condiciones climáticas)
Como se mencionó anteriormente, las matrículas de vehículos en el norte de Iraq usan diferentes colores y son
compuesto por tres regiones separadas, a saber, una región de número de placa, una región de ciudad y una región de país.
Las placas de muestra se muestran en la Figura 3b. Como se puede ver en la Figura 3a, la región superior de la licencia
placa indica el número de placa y está etiquetada como la "Región numérica". La parte inferior de la licencia
La placa tiene dos regiones separadas, con la “Región de la ciudad” a la izquierda y la “Región del país” a la derecha.
Región numérica
11
La región del país está fija para todas las placas, por lo que se descarta. El número de placa y la ciudad.
Los nombres están escritos en idioma árabe. La longitud del número de placa no es fija. La figura 4 proporciona un
00 1 2 3 44 55 66 77 8 99
Hay tres ciudades en la región norte de Iraq, a saber, Erbil, Duhok y Sulemania. Un
Se consideraron cuatro métricas de evaluación del desempeño para la evaluación del método propuesto.
Estas métricas de evaluación son precisión (Acc), valor de precisión (PV), valor de recuperación (RV) y medida F
valor (FMV),
(Cömert, 2018). Los lectores pueden consultar (Cömert, 2018) para obtener información detallada sobre el rendimiento
métrica. Mientras que el puntaje Acc se emplea para la clasificación del número árabe y el tipo de ciudad, el
Las puntuaciones de PV, RV y FMV se utilizan para evaluar la detección de la región de la placa de matrícula.
Todos los experimentos se realizaron en una estación de trabajo equipada con la GPU NVIDIA Quadro M4000 y
Intel (R) Xeon (R) CPU E5-1650 @ 3.60 GHz 64 GB de memoria utilizando el software MATLAB (R2018b). Como
mencionado anteriormente, las imágenes del vehículo se recopilaron en diversas condiciones ambientales, como
12
nubes, lluvia e iluminación nocturna, e incluye diferentes tipos de vehículos como automóviles, camiones, autobuses y
Minibuses. En aras de la conveniencia, las imágenes de entrada se redimensionaron a 380 × 540 píxeles.
Un 75% del conjunto de datos seleccionado al azar se utilizó para fines de capacitación, y el 25% restante se utilizó para
probando el método propuesto. Todas las imágenes fueron preprocesadas mediante filtrado gaussiano y CLAHE. El significado
el valor y la desviación estándar del núcleo gaussiano fueron 1.0 y 3.3, respectivamente, y se determinaron
heurísticamente durante la experimentación. Para la red de segmentación semántica, las imágenes de entrada fueron
Fig. 6. Etiquetado de imágenes de entrada para la red de segmentación semántica (Amarillo: región de fondo,
Azul: número de placa, Cian: región de la ciudad, Rojo: región del país)
Como se puede ver en la Figura 6, se utiliza el etiquetado de las regiones de placa para la segmentación semántica.
Colores diferentes. El fondo estaba etiquetado como amarillo. Sin embargo, como matrículas en el norte de Iraq
contienen diferentes elementos de información, cada parte fue etiquetada con un color diferente. El azul estaba acostumbrado a
determinar la región del número de placa, con cian y rojo para determinar las regiones de la ciudad y el país,
respectivamente. La arquitectura de SegNet se presenta en la Figura 7, en la que se puede ver que la profundidad
13
Fig. 7. Arquitectura de la red de segmentación (profundidad de los bloques codificador / decodificador = 5)
En los experimentos, el aumento de datos se utilizó mediante transformaciones afines aleatorias, por ejemplo, rotación,
se estableció en 0.9. La tasa de aprendizaje inicial se estableció en 0.001, la L 2- El parámetro de regularización fue elegido como
0.0005, y el tamaño del lote se seleccionó como 4. La capacitación continuó durante 100 épocas, y el promedio
Tabla 1. Evaluación del rendimiento de la red de segmentación utilizando el promedio de las métricas de evaluación
RV PV FMV
SegNet 0.9210 0.9443 0.9101
El promedio calculado de RV, PV y FMV fue 0.9210, 0.9443 y 0.9101, respectivamente. Algunos
Los resultados visuales también se presentan en la Figura 8, donde está claro que la red de segmentación produjo
Resultados de segmentación razonables. Las regiones de fondo se detectaron correctamente para todas las imágenes. los
14
El número de matrícula, la región de la ciudad y las regiones del país también se detectaron correctamente. Hubo, sin embargo,
También vale la pena señalar algunos de los resultados deficientes de las pruebas, cuyos ejemplos se muestran en
Figura 9. En estos resultados de ejemplo, la ubicación exacta de las regiones (número de placa, ciudad y país) en el
No se pudo detectar la región de la placa. Sin embargo, una segmentación gruesa de toda la región de la placa permanece
15
Fig. 9 Ejemplos de resultados deficientes de la red de segmentación.
(Amarillo: región de fondo, Azul: número de placa, Cian: región de la ciudad, Rojo: región del país)
Después de la detección de las regiones de matrícula, las regiones de la ciudad se transmitieron al aprendizaje de transferencia
etapa del método propuesto para el reconocimiento de la ciudad. En el aprendizaje por transferencia, se utilizó un modelo CNN preentrenado
más capacitado (afinado) para una nueva tarea de clasificación. Las capas transferibles del modelo VGG16
Se optó por ser utilizado en el aprendizaje de transferencia. Las regiones urbanas recortadas se redimensionaron a 224 × 224 para el
por conveniencia para la entrada del modelo VGG16. La arquitectura de la CNN afinada se ilustra en
Figura 10. El ajuste se llevó a cabo utilizando el optimizador "SGDM" con un tamaño de lote de 32 y un inicial
tasa de aprendizaje de 0.0001. La tasa de aprendizaje se redujo una vez cada 1000 iteraciones por un factor de 10,
y el optimizador ajustó la red para 20k iteraciones en total. La Figura 11 muestra las diferentes ciudades.
imágenes que se usaron en el proceso de ajuste. Las imágenes de la región de la ciudad que fueron producidas por
la red de segmentación produjo un conjunto de datos de imagen de ciudad desequilibrada porque las imágenes del vehículo eran
generalmente recolectada de la ciudad de Duhok. Al abordar este problema, también se consideró el aumento de datos
dieciséis
La precisión fue una medida utilizada para evaluar el desempeño de la clasificación de la región de la ciudad.
La Tabla 2 muestra los resultados que se obtuvieron con el aumento de datos. El puntaje de precisión calculado
el 92,26% alcanzado, mientras que los puntajes calculados de sensibilidad y especificidad fueron 100,00% y 91,03%,
respectivamente. Es notable que 13 de las etiquetas de la ciudad de Erbil se clasificaron incorrectamente como Sulemania, y 28
A medida que la red de segmentación produjo las regiones de número de placa, estas regiones se alimentaron a través de
La etapa de segmentación de imagen para la segmentación de números arábigos. La Figura 12 muestra ejemplos de
salida de la etapa de segmentación. El aumento de datos también se utilizó para las imágenes de números arábigos, y todos los
Las imágenes se redimensionaron a una dimensión de 28 × 28 (LeCun, 2010). La arquitectura de la propuesta de principio a fin
El modelo CNN se ilustra en la Figura 13. La profundidad del modelo CNN de extremo a extremo propuesto es tres, y cada
La profundidad contiene capas de convolución, normalización de lotes, ReLU y agrupación máxima. Una capa completamente conectada,
La capa Softmax y una capa de clasificación se ubican como las últimas tres capas de la CNN de extremo a extremo
arquitectura.
17
Fig. 12. Ejemplos de números arábigos para entrenar la arquitectura CNN de extremo a extremo
Fig. 13. Arquitectura del modelo CNN de extremo a extremo para el reconocimiento de números arábigos.
Detalles de la arquitectura de red CNN de extremo a extremo que cubre la descripción de capas,
3 'batchnorm_1' Normalización por lotes Normalización por lotes con ocho canales.
44 'relu_1' ReLU ReLU
55 'maxpool_1' Max Pooling Agrupación máxima de 2x2 con zancada [2 2] y relleno [0 0 0 0]
66 'conv_2' Circunvolución 16 convoluciones 3x3x8 con zancada [1 1] y relleno "igual"
77 'batchnorm_2' Normalización por lotes Normalización por lotes con 16 canales.
8 'relu_2' ReLU ReLU
99 'maxpool_2' Max Pooling Agrupación máxima de 2x2 con zancada [2 2] y relleno [0 0 0 0]
10 'conv_3' Circunvolución 32 convoluciones 3x3x16 con zancada [1 1] y relleno "igual"
La capacitación del modelo CNN de extremo a extremo se llevó a cabo con el optimizador "SGDM", utilizando un
tamaño de lote de 40 y una tasa de aprendizaje inicial de 0.001. La tasa de aprendizaje se redujo una vez cada 500
iteraciones por un factor de 30, y el ajuste fino de la red continuó durante 14K en total.
La Tabla 4 muestra la matriz de confusión de los resultados obtenidos con el aumento de datos. El calculado
18 años
el puntaje de precisión alcanzado fue del 99,37%, con puntajes calculados de sensibilidad y especificidad del 95,40% y
100.00%, respectivamente. Como se puede ver en la Tabla 4, cuatro de los números "0" se clasificaron incorrectamente como
"1", uno de los números "3" se clasificó incorrectamente como "2" y uno de cada uno de los "2", "6" y "7"
19
La Figura 14 muestra varios ejemplos de placas de matrícula detectados y reconocidos con éxito. los
los números latinos correspondientes a los números arábigos reconocidos se muestran arriba de los números en el
placa, y las etiquetas de ciudad reconocidas se muestran debajo de la región de la ciudad en las imágenes dadas. Como puede verse
en la Figura 14, cuatro etiquetas de ciudad de Duhok, dos etiquetas de ciudad de Erbil y una etiqueta de ciudad de Sulemania estaban correctamente
Reconocido.
Sin embargo, también vale la pena señalar los resultados fallidos producidos por el método propuesto.
Se muestran ejemplos de estos resultados en la Figura 15, donde se puede ver que aunque los números de placa
no se detectaron, las etiquetas de la ciudad se detectaron y reconocieron correctamente. La mala detección ocurrió debido
se observaron algunos números adicionales en la región de número de placa detectada que fueron causados por
El resultado del método propuesto también se comparó con algunos de los otros métodos existentes.
Las comparaciones con otros métodos de detección de matrículas se presentan en la Tabla 5, y se basaron en
20
Tabla 5. Comparación de rendimiento del método propuesto y los métodos existentes
(regiones de matrícula detectadas)
Método PV RV FMV
Asif y col. (Asif, 2016) 86,15% 91,24% 88,57%
He y col. (Él, 2014) 90.15% 91.70% 90.10%
Wang et Alabama.(Wang, 80,34% 86,28% 82,82%
2013)
Al-Shemarry y col. 91,6% 87,1% 89,33%
(AlShemarry, 2018)
Teniendo en cuenta los puntajes PV, se puede ver que el puntaje PV más alto fue 94.43%, y que esto
El resultado fue producido por el método propuesto. La segunda mejor puntuación de PV fue 91.6%, producida por Al-
El método de Shemarry et al. (Al-Shemarry, 2018), y el peor puntaje PV fue del 80,34%, producido por Wang et al.
método de al. (Wang, 2013). De acuerdo con la comparación de las puntuaciones de RV, el método propuesto también
superó a los otros métodos, con una puntuación de RV calculada del 92,10%. Los otros puntajes de RV fueron
91.70% y 91.24%, obtenidos por el método de He et al. (He, 2014) y el método de Asif et al. (Asif, 2016),
respectivamente. El método propuesto también produjo un puntaje de 91.01% FMV, que también fue el más alto de los
puntuaciones comparadas de FMV. El segundo mejor puntaje de FMV también fue producido por el método de He et al. (He, 2014).
Se realizó una comparación adicional sobre el reconocimiento del número de placa árabe como se muestra en la Tabla 6.
Método Exactitud
Palaiahnakote y col. (Shivakumara, 2018) 97,15%
Zhang y col. (Zhang, 2019) 98,15%
Método propuesto 99,37%
Como se puede ver en la Tabla 6, el método propuesto superó a los dos métodos comparados
según puntajes de precisión. Cabe destacar que tanto el método de Shivakumara et al. (Shivakumara, 2018) como Zhang
21
4) Conclusiones
En este documento, se propuso un enfoque novedoso para la detección y el reconocimiento de matrículas. los
El método propuesto estaba compuesto por varias arquitecturas profundas y etapas de segmentación de imágenes utilizadas en un
Moda en cascada para la detección y el reconocimiento eficientes de matrículas de vehículos. Una nueva matrícula
El conjunto de datos se introdujo en este estudio, con imágenes recopiladas en la región norte de Iraq. Inicialmente, imagen
Se utilizaron rutinas de procesamiento como filtrado y mejora de contraste en las imágenes de entrada para imagen
mejora, y las imágenes mejoradas luego se introducen en la segmentación semántica para el número de placa, la región de la ciudad,
y segmentación de la región del país. Hasta donde sabemos, esta es la primera vez que dicha licencia
el problema del etiquetado de placas se utilizó dentro de un procedimiento de segmentación. Así, los números de placa y la ciudad
Las marcas se procesaron de forma independiente. Los números de placa se adquirieron inicialmente a través del personaje.
segmentación, y luego un CNN de extremo a extremo fue entrenado en reconocimiento de número de placa. Por otra parte, la ciudad
Se utilizaron marcas en el aprendizaje de transferencia. Los resultados experimentales muestran que el método propuesto fue
eficiente en las tareas de detección y reconocimiento. El recuerdo calculado, la precisión y las puntuaciones de la medida F
fueron 92.10%, 94.43% y 91.01%, respectivamente. Además, las precisiones de clasificación para árabe
los números y las etiquetas de las ciudades fueron 99.37% y 92.26%, respectivamente. Además comparamos los resultados obtenidos
con salida de algunos de los métodos existentes, y estas comparaciones mostraron que el método propuesto
En cuanto a las limitaciones del método propuesto, ya que la segmentación semántica se ubicó en el
centro del método propuesto, sus resultados afectaron directamente el reconocimiento final. Segmentación del personaje
También fue un elemento importante del proceso de reconocimiento del número de placa. Donde los números arábigos podrían
Especialmente, se descubrió que las sombras parciales en la región de la placa de matrícula afectaron fuertemente la calidad del
segmentación de personajes. Además, para la capacitación y el ajuste de extremo a extremo, un mayor número de aportes
22
También vale la pena mencionar los tiempos de procesamiento de cada unidad (SegNet, End-to-end
entrenamiento y transferencia de aprendizaje). La unidad que más tiempo consumió fue la SegNet. La unidad SegNet fue
entrenado por casi después de 9 horas. Además, se llevó a cabo la capacitación integral de los caracteres árabes.
193.5 segundos. La unidad de transferencia de aprendizaje fue entrenada durante 97.7 minutos.
en el conjunto de datos. Como se demostró que la segmentación de caracteres es insuficiente en algunos casos, planeamos proponer un
No declarado
Naamán Omar, Abdulkadir Sengur, Salim Ganim Saeed Al-Ali concibieron y trabajaron juntos para lograr este trabajo.
Referencias
Al-Shemarry, MS, Li, Y. y Abdulla, S. (2019). Un descriptor de textura eficiente para la detección de matrículas de
imágenes de vehículos en condiciones difíciles. Transacciones IEEE en sistemas inteligentes de transporte.
Al-Shemarrya, M., S., Yan L., Shahab A., (2018). Conjunto de cascadas adaboost de clasificadores 3L-LBP para la detección
de matrículas con imágenes de baja calidad. Sistemas expertos con aplicaciones, 92 (2018) 216–235.
Asif, MR, Chun, Q., Hussain, S. y Fareed, MS (2016). Detección de matrículas múltiples para vehículos chinos en
escenarios de tráfico denso. IET Intelligent Transport Systems, 10 (8), 535–544.
Başaran, E., Cömert, Z., y Çelik, Y. (2020). Enfoque de red neuronal convolucional para la detección y clasificación
automática de la membrana timpánica. Procesamiento y control de señales biomédicas,
56, 101734.
Budak, Ü., Cömert, Z., Çıbuk, M., y Şengür, A. (2020). DCCMED-Net: CNNs de codificador-decodificador múltiple densamente
conectados y concatenados para la extracción de vasos retinianos de imágenes de fondo de ojo. Hipótesis médicas, 134, 109426.
23
Bulan, O., Kozitsky, V., Ramesh, P. y Shreve, M. (2017). Reconocimiento de placas sin segmentación ni anotaciones con
localización profunda e identificación de fallas. IEEE Transactions on Intelligent Transportation Systems, 18 (9), 2351-2363.
Cheang, TK, Chong, YS y Tay, YH (2017). Reconocimiento de placas de vehículos sin segmentación mediante
ConvNet-RNN. preimpresión arXiv arXiv: 1701.06439.
Choeychuen, K., Kumhom, P. y Chamnongthai, K. (2006). Una implementación eficiente del seguimiento de objetos visuales
basado en el vecino más cercano. En 2006 Simposio internacional sobre procesamiento inteligente de señales y comunicaciones (pp.
574-577). IEEE
Cömert, Z., Kocamaz, AF y Subha, V. (2018). Modelo de pronóstico basado en características de frecuencia de tiempo basadas en
imágenes y algoritmo genético para la evaluación de la hipoxia fetal. Computadoras en biología y medicina, 99, 85-97.
Deniz, E., Şengür, A., Kadiroğlu, Z., Guo, Y., Bajaj, V. y Budak, Ü. (2018) Transferencia de aprendizaje basado en la clasificación de
imágenes histopatológicas para la detección del cáncer de mama. Ciencias de la información y sistemas de salud, 6 (1), 18.
Él, T., Yao, J., Zhang, K., Hou, Y. y Han, S. (2014). Localización precisa de matrículas en varias escalas a través de la imagen
destacada. Documento presentado en los Sistemas Inteligentes de Transporte (ITSC), 17a Conferencia Internacional IEEE 2014 sobre.
Kakani, BV, Gandhi, D. y Jani, S. (2017). Reconocimiento automático de matrículas de vehículos basado en OCR mejorado
con funciones de red neuronal capacitada. En 2017, octava Conferencia Internacional sobre Tecnologías de Computación,
Comunicación y Redes (ICCCNT) (pp. 1-6). IEEE
Kendall, A., Badrinarayanan, V. y Cipolla, R. (2015). Segnet bayesiano: incertidumbre modelo en convolucional profundo
arquitecturas codificador-decodificador para comprensión de la escena preimpresión arXiv
arXiv: 1511.02680.
Kim, SG, Jeon, HG y Koo, HI (2017). Método de detección de matrículas basado en aprendizaje profundo mediante extracción de región
del vehículo. Electronics Letters, 53 (15), 1034-1036.
LeCun, Y., Cortes, C. y Burges, CJ (2010). Base de datos de dígitos manuscritos MNIST. AT&T Labs [en línea]. Disponible: http:
// yann. lecun com / exdb / mnist, 2, 18.
Li, H., Wang, P. y Shen, C. (2018). Hacia la detección de placas de automóviles de extremo a extremo y
reconocimiento con redes neuronales profundas. IEEE Transactions on Intelligent Transportation Systems, 20 (3), 1126-1136.
Otsu, N. (1979). Un método de selección de umbral de histogramas de nivel de gris. Transacciones de IEEE en sistemas, hombre y
cibernética, 9 (1), 62-66.
Pan, SJ y Yang, Q. (2009). Una encuesta sobre transferencia de aprendizaje. IEEE Transacciones sobre conocimiento e ingeniería de datos,
22 (10), 1345-1359.
Prabhakar, P., Anupama, P. y Resmi, SR (2014). Detección y reconocimiento automáticos de matrículas de vehículos. En
2014 Conferencia Internacional sobre Control, Instrumentación, Comunicación y Tecnologías Computacionales (ICCICCT) (pp.
185-190). IEEE
24
Selmi, Z., Halima, MB y Alimi, AM (2017). Sistema de aprendizaje profundo para la detección y reconocimiento automáticos de
matrículas. En 2017, 14a Conferencia Internacional de la IAPR sobre Análisis y Reconocimiento de Documentos (ICDAR) (Vol. 1, pp.
1132-1138). IEEE
Shivakumara, P., Tang, D., Asadzadehkaljahi, M., Lu, T., Pal, U., y Anisi, MH (2018). Método basado en CNNRNN para el
reconocimiento de matrículas. Transacciones de CAAI sobre tecnología de inteligencia, 3 (3), 169-175.
Shivakumara, P., Tang, D., Asadzadehkaljahi, M., Lu, T., Pal, U., y Anisi, MH (2018). Método basado en CNNRNN para el
reconocimiento de matrículas. Transacciones de CAAI sobre tecnología de inteligencia, 3 (3), 169-175.
Silva, SM y Jung, CR (2017). Detección y reconocimiento de matrículas brasileñas en tiempo real utilizando redes neuronales
convolucionales profundas. En 2017, 30a Conferencia SIBGRAPI sobre Gráficos, Patrones e Imágenes (SIBGRAPI) (pp. 55-62). IEEE
Simonyan, K. y Zisserman, A. (2014). Redes convolucionales muy profundas para el reconocimiento de imágenes a gran escala. preimpresión de
Singh, B., Kaur, M., Singh, D. y Singh, G. (2016). Sistema de reconocimiento automático de matrículas por método de posición de
caracteres. Int J Comput Vision Robot, 6 (1/2), 94-112.
Wang, R., Sang, N., Wang, R. y Kuang, X. (2013). Nuevo método de detección de matrículas para escenas complejas.
Documento presentado en la Imagen y Gráficos (ICIG), Séptima Conferencia Internacional 2013 sobre
Xu, C., Yang, J., Lai, H., Gao, J., Shen, L. y Yan, S. (2017). UP-CNN: Red neuronal convolucional aumentada sin agrupamiento.
Cartas de reconocimiento de patrones.
Yang, Y., Li, D. y Duan, Z. (2017). Reconocimiento de matrículas de vehículos chinos utilizando una máquina de aprendizaje extremo basada
en kernel con características convolucionales profundas. IET Intelligent Transport Systems, 12 (3), 213-219.
Yuan, Y., Zou, W., Zhao, Y., Wang, X., Hu, X. y Komodakis, N. (2016). Un enfoque robusto y eficiente para la detección de
matrículas. Transacciones IEEE sobre procesamiento de imágenes, 26 (3), 1102-1114.
Zang, D., Chai, Z., Zhang, J., Zhang, D. y Cheng, J. (2015). Reconocimiento de matrículas de vehículos mediante modelo de atención
visual y aprendizaje profundo. Journal of Electronic Imaging, 24 (3), 033001.
Zeiler, MD (2012). ADADELTA: un método de tasa de aprendizaje adaptativo. preimpresión arXiv arXiv: 1212.5701.
Zhang H., Sun F., Zhang X., Zheng L. (2019) Modelo de reconocimiento de matrículas basado en CNN + LSTM + CTC.
En: Mao R., Wang H., Xie X., Lu Z. (eds) Data Science. ICPCSEE 2019. Comunicaciones en informática y ciencias de la
información, vol. 1059. Springer, Singapur
25