Está en la página 1de 4

Traducido del inglés al español - www.onlinedoctranslator.

com

2019 Segunda Conferencia Internacional sobre Comunicación Inteligente y Técnicas Computacionales (ICCT) Universidad
Manipal Jaipur, 28 y 29 de septiembre de 2019

Detección de vehículos anónimos para


campus seguros: un marco para matrículas
Reconocimiento usando Deep Learning

dias de cristal Astha Jagetiya Sandeep Chaurasia


Departamento de Informática y Departamento de Informática y Departamento de Informática y
Ingenieria Ingenieria Ingenieria
Universidad Manipal Jaipur Universidad Manipal Jaipur Universidad Manipal Jaipur
Rajastán, India Rajastán, India Rajastán, India
crystaldias0504@gmail.com astha.jagetiya@gmail.com sandeep.chaurasia@jaipur.manipal.edu

Resumen—El reconocimiento automático de matrículas está siendo II. REXALTADOWORK


ampliamente utilizado para numerosas aplicaciones desde sus inicios. La
El principal proceso seguido para el reconocimiento automático de
capacidad de obtener números de placas de matrícula con precisión ha
matrículas incluye principalmente 3 procesos: localización de matrículas,
sido beneficiosa para mantener las normas de tráfico, la aplicación del
segmentación de caracteres y reconocimiento de caracteres. A lo largo de los
estacionamiento y la seguridad. En este artículo, hemos discutido los
resultados del uso de ALPR para el reconocimiento de vehículos años se han utilizado diferentes enfoques para dar seguimiento a este
anónimos que ingresan a nuestro campus universitario. Utilizamos proceso con resultados variables. Algunas de estas investigaciones son las
aprendizaje profundo para la localización de matrículas y Tesseract OCR siguientes:
para el reconocimiento de matrículas. Al hacerlo, podríamos leer las
Para la localización de placas, los autores de [2] han utilizado un
matrículas de los vehículos que ingresan a un campus en particular y
algoritmo basado en el reconocimiento de bordes verticales y la alteración
verificar si el vehículo está autorizado comparándolo con una lista
del color en la imagen en escala de grises. Además, utilizaron lógica difusa y
predefinida de vehículos autorizados. Para extraer de manera eficiente
un algoritmo de crecimiento de región para la segmentación de caracteres.
estas matrículas, hemos entrenado nuestro modelo usando Faster RCNN
y lo hemos ajustado para obtener el mejor resultado. cuyos resultados
Finalmente, se obtuvo un 85% de aciertos.
han sido discutidos en este trabajo. Más lejos, aquí se han mencionado En [3], los creadores han utilizado estrategias para fortalecer el
las técnicas de procesamiento de imágenes utilizadas para el
grado oscuro y tratar el tamizado para ayudar a diferenciar en una
preprocesamiento de la matrícula identificada. Para la segmentación y el
etiqueta y disminuir la conmoción. Luego, se usó el cálculo de OTSU
reconocimiento de caracteres, hemos utilizado tesseract. Mientras
para construir el valor de umbral global y los bordes concentrados y
entrenaba nuestro modelo para la extracción de matrículas, la pérdida
hacer una segunda ubicación en la etiqueta con técnica de proyección
mínima obtenida fue de 0,011 con el optimizador RMSprop a una tasa de
que generó una imagen de etiqueta emparejada que facilita la división y
aprendizaje inicial de 0,002.
el reconocimiento.

Los autores del artículo [4] han propuesto un método para identificar las
Palabras clave: reconocimiento de matrículas, OCR, Faster RCNN,
características espaciales y temporales de la trayectoria del vehículo y han
Tesseract, procesamiento de imágenes, segmentación de caracteres,
utilizado estas placas detectadas a través de ANPR para analizar los patrones
reconocimiento de caracteres.
de actividad del vehículo. Posteriormente para evaluar el rendimiento de
yo yoNTRODUCCIÓN
precisión de la clasificación se obtuvo una muestra de 20.000 placas y un
La capacidad de las computadoras para procesar imágenes y porcentaje de error medio de 4,76%.
otros datos visuales en algo significativo ha ayudado a muchos
dominios, incluidos los médicos, la seguridad, el monitoreo y la tercero miEXPERIMENTALSCONFIGURAR
ingeniería [1]. Con un número cada vez mayor de automóviles,
mantener las normas de seguridad y tráfico con la ayuda de mano Un marco
de obra es tedioso. Una cámara capta la imagen de la placa de
matrícula del vehículo. Esta imagen es entonces enviado para su
posterior procesamiento. El resultado de esta imagen es el carácter
de una placa de matrícula en forma de texto [1]. Pero ahora, con la
ayuda del aprendizaje profundo y OCR para el reconocimiento de
matrículas, esta tarea se ha vuelto mucho más fácil. Un proyecto
ANPR estándar consta de tres pasos: localización de matrículas,
segmentación de caracteres y reconocimiento de caracteres. El
modelo RCNN entrenado se aplica a una cámara web donde
localiza las matrículas de los vehículos. Una vez que se ha
detectado la placa, la imagen de esta placa de matrícula se procesa
utilizando filtros de procesamiento de imágenes adecuados para
prepararla para la segmentación de caracteres. A continuación,
cada carácter de esta imagen procesada se reconoce por separado
como un carácter alfanumérico.

Fig. 1. El marco de trabajo propuesto.

978-1-7281-1711-9/19/$31.00 ©2019 IEEE 79

Licencia de uso autorizada limitada a: UNIVERSIDAD POLITECNICA SALESIANA. Descargado el 28 de abril de 2022 a las 20:29:45 UTC de IEEE Xplore. Se aplican restricciones.
Para crear el conjunto de datos de entrenamiento, etiquetamos las sistema en los siguientes pasos principales:
matrículas de los automóviles en imágenes sin procesar y las a) Entrenamiento usando Faster R-CNN
guardamos en formato XML, por lo que fusionamos los datos de estos b) Procesamiento de imágenes

archivos XML en un archivo CSV. Después de eso, con la ayuda del C) Teseracto OCR [7]
aprendizaje por transferencia, usamos un modelo previamente
A. R-CNN más rápido [6]
entrenado para entrenar en nuestro conjunto de datos. Este modelo se
guarda y se usa para detectar matrículas de vehículos en secuencias de Las redes de detección de objetos de última generación dependen de los
algoritmos de propuesta de región para hipotetizar las ubicaciones de los objetos.
video. A continuación, la matrícula detectada se extrae y se somete a
[6] Mediante el uso de R-CNN pudimos trabajar en una propuesta de región casi
varias operaciones de procesamiento de imágenes. Finalmente,
gratuita que utiliza funciones de convolución de imagen completa, como
Tesseract OCR se utiliza para convertir el texto de la matrícula en un
propusieron los autores en [6]. Para este proyecto, hemos utilizado la API de
formato de cadena. Este marco se representa en la figura 1.
detección de objetos de Tensorflow para entrenar el modelo preentrenado Faster R-
CNN (modelo V2 de inicio de R-CNN más rápido entrenado en el conjunto de datos
B. Conjunto de datos
COCO).
Teniendo en cuenta las características únicas de las
Faster R-CNN consta de dos partes. En la primera parte, las redes de
matrículas indias, hemos creado el conjunto de datos con
convolución proponen las regiones y en la segunda parte, un detector utiliza
imágenes de vehículos indios. Consta de un total de 323
las regiones propuestas. Todo el sistema es una red completa para la
imágenes (incluidos vehículos de cuatro ruedas y de dos
detección de objetos. Se crea un mapa de características con las imágenes
ruedas), que se divide en conjuntos de datos de entrenamiento
proporcionadas como entrada a la red de convolución. Luego, se usa una red
(261 imágenes) y prueba (62 imágenes). Tabla I. Muestra la
separada en este mapa de características para predecir propuestas de región,
distribución de las imágenes en los dos conjuntos de datos:
en lugar de usar un algoritmo de búsqueda selectiva. Se utiliza una capa de
TABLA I. DISTRIBUCIÓN DE IMÁGENES RoI para remodelar estas propuestas de región. Luego, estas imágenes se
clasifican y se predice el valor de desplazamiento de los cuadros
Conjunto de datos de entrenamiento Conjunto de datos de prueba
delimitadores. [6]
Cuatro ruedas 153 34
De dos ruedas 108 28 La entrada a una Red de propuesta de región (RPN) puede ser una
Total 261 62
imagen sin procesar (de cualquier tamaño) y, por lo tanto, la salida puede ser
un conjunto de propuestas de objetos rectangulares. Este método se modela
La dimensión de las imágenes varía, con un mínimo de con una red totalmente convolucional. para obtener propuestas de región,
518×864 píxeles y un máximo de 570×960 píxeles. Cuanto más una pequeña red baja cae sobre la salida del mapa de características
grande es la imagen, más tiempo lleva entrenar el clasificador. convolucionales por la última capa convolucional compartida entre los 2
módulos del sistema. Esta pequeña red toma como entrada dentro de la
variedad de una ventana espacial AN n × n del mapa de características
Para cada imagen, etiquetamos el área de la matrícula como
convolucionales, luego estas ventanas resbaladizas se asignan a opciones
'Number_plate' usando la aplicación llamada LabelImg, que
dimensionales más bajas. Las características generadas se introducen en dos
almacena la información de la imagen etiquetada en archivo XML,
capas hermanas totalmente conectadas (capa de regresión de caja y capa de
en formato Pascal VOC. Luego, los datos de estos archivos XML se
clasificación de caja). La Fig. 3 muestra cómo funciona un Faster R-CNN para
almacenan en archivos .csv ('tren_etiqueta.csv'y 'test_label.csv'), de
la detección de objetos (detectando matrículas en nuestro caso).[6] La figura 4
modo que puedan usarse más para entrenar y probar los modelos.
muestra la detección de objetos realizada en una imagen en bruto.
La figura 2 muestra las imágenes recopiladas para el conjunto de
datos.

Fig. 2. Imágenes del conjunto de datos.

Fig. 3. Funcionamiento de Faster R-CNN [6]

IV. UNENFOQUE
B. Procesamiento de imágenes
Después de crear el conjunto de datos, anotamos estas
imágenes usando el software LabelImg. Con la aplicación pudimos La matrícula detectada en la nueva imagen se somete a un

etiquetar las matrículas de los vehículos y almacenar las procesamiento de imagen para que los caracteres se identifiquen

coordenadas de las anotaciones en formato XML para la formación. correctamente. En primer lugar, se utiliza la combinación de

Para el entrenamiento, usamos R-CNN más rápido. transformaciones morfológicas top-hat y black-hat para obtener la imagen de

Desarrollamos el reconocimiento automático de matrículas máximo contraste. El filtro de sombrero de copa se utiliza para resaltar
objetos brillantes de interés en un fondo oscuro, y el filtro de sombrero negro

80

Licencia de uso autorizada limitada a: UNIVERSIDAD POLITECNICA SALESIANA. Descargado el 28 de abril de 2022 a las 20:29:45 UTC de IEEE Xplore. Se aplican restricciones.
se utiliza para hacer lo contrario, es decir, realzar objetos oscuros de
interés en un fondo brillante. La imagen del sombrero de copa se agrega
a la imagen en escala de grises y luego la imagen del sombrero negro se
resta de ella. Como resultado, se obtiene la imagen con alto contraste.
En segundo lugar, el filtro de suavizado gaussiano y el filtro de
desenfoque medio se utilizan para desenfocar la imagen y eliminar el
ruido. Esto finalmente nos da la imagen que se puede utilizar para la
segmentación y el reconocimiento de caracteres. La figura 5 muestra los
resultados después de usar cada filtro.
Fig. 5. Resultados de los filtros utilizados para el procesamiento de imágenes. 1. Conversión de escala de
C. Teseracto OCR grises 2. Morfología de sombrero de copa y de sombrero negro 3. Suavizado gaussiano

Después de realizar el procesamiento de imágenes en la placa y el filtro medianaBlurr.


de matrícula extraída, hemos utilizado tesseract, un motor OCR,
para extraer el texto de la placa de matrícula. El procesamiento de
la imagen sigue una canalización sistemática. En primer lugar, se
lleva a cabo un análisis de componentes conectados en el que se
Fig. 6. Después de aplicar Tesseract OCR
almacenan los contornos de los componentes. Luego, los
contornos se reúnen en Blobs. Después de lo cual, los blobs se
organizan en líneas de texto, que se analizan para pruebas de paso
VRESULTADO
fijo o proporcionales. Según el tipo de espaciado entre caracteres, RMSprop (Root mean square prop): divide la tasa de aprendizaje por
las líneas de texto se dividen en palabras. El texto con paso fijo se un promedio exponencialmente decreciente de gradientes al cuadrado.
corta inmediatamente por celdas de caracteres. El texto El término de impulso se establece en 0,9.
proporcional se divide en palabras usando espacios definidos y Optimizador de momento: evita oscilaciones para que el descenso
espacios difusos. Tesseract fue el primero en manejar texto en del gradiente estocástico tienda a viajar en la misma dirección para
negro sobre blanco de manera eficiente. [7] La Fig. 6 muestra el llegar a los mínimos locales.
resultado después de usar Tesseract OCR en formato de cadena Adam: se utilizan promedios móviles tanto del gradiente como
de los segundos momentos del gradiente.
Mientras entrenábamos nuestro modelo, observamos las pérdidas para
diferentes optimizadores y diferentes tasas de aprendizaje para cada
optimizador. Tabla II. Muestra las pérdidas obtenidas cuando se aplicaron
diferentes tasas de aprendizaje al modelo al usar el optimizador de impulso
(que es una versión flexible del descenso de gradiente estocástico (SGD) [5]),
RMSprop y el optimizador de Adam. La figura 7 muestra el cambio en la
pérdida durante 12 000 pasos para diferentes tasas de aprendizaje.

TABLA II. LPEAS OBTENIDAS AL VARIAR LA TASA DE APRENDIZAJE


PARA VARIOS OPTIMIZADORES

Tasa de aprendizaje Impulso RMSprop adams


0.0002 0.041 0.016 0.043
0.0001 0.050 0.036 0.020
Fig. 4. Detección de objetos en una imagen sin procesar
0.00002 0.028 0.120 0.019
0.0003 0.015 0.012 0.066
0.0004 0.028 0.020 0.099
0.002 0.027 0.011 0.551

Fig. 7. Pérdida por pasos sobre diferentes tasas de aprendizaje

81

Licencia de uso autorizada limitada a: UNIVERSIDAD POLITECNICA SALESIANA. Descargado el 28 de abril de 2022 a las 20:29:45 UTC de IEEE Xplore. Se aplican restricciones.
[2] Carlos AB Mello, Diogo C. Costa, Un sistema completo para el reconocimiento
VI. CONCLUSIÓN de placas de vehículos, 2009.
[3] Chaofeng Lan, Fengchen Li, Yingjian Jin, Xuemei Sui, Shouqiang Kang, Liping Zhang,
RMSprop dio el mejor resultado cuando la tasa de
Investigación sobre el reconocimiento de matrículas basado en el procesamiento de
aprendizaje se estableció en 0,002. Aplicando este modelo, imágenes, 2015.
podríamos localizar la matrícula que ingresa a un campus [4] Yuyan Sun, Xinyun Zhou, Limin Sun, Shuixian Chen, Análisis de actividad de
determinado. Después de lo cual, con la ayuda de los filtros vehículos basado en el sistema ANPR, 2014.

mencionados anteriormente, obtuvimos una imagen de alto [5] James Sutton, Inmersión profunda en la detección de objetos con imágenes abiertas,
usando Tensorflow, blog de Algorithmia, octubre de 2017.
contraste y libre de ruido de la matrícula identificada y, por
último, con la ayuda de Tesseract OCR pudimos extraer los [6] Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun. R-CNN más rápido: hacia
la detección de objetos en tiempo real con redes de propuestas regionales.
caracteres alfanuméricos de la placa en formato de cadena. . 2016.
En este trabajo propuesto, el cambio en la intensidad de la luz [7] Ray Smith, Descripción general del motor Tesseract OCR, Google Inc.
del entorno en las placas de matrícula dificultaría el reconocimiento 2007.

de caracteres. En el futuro, se podrían realizar cambios en el OCR [8] Lisheng Jin, Huacai Xian, Jing Bie, Yuqin Sun, Haijing Hou y Qingning Niu.
Algoritmo de reconocimiento de matrículas para automóviles de pasajeros
para ayudar a acomodar la intensidad de la luz en la placa de en áreas residenciales chinas. 2012.
matrícula. [9] Satadal Saha, Subhadip Basu, Mita Nasipuri. Localización y Reconocimiento
Este marco se puede utilizar además para el tráfico inteligente: Automático de Caracteres de Matrículas para Vehículos Indios. 2011.

identificar las matrículas de los vehículos que incumplen las normas de [10] Sebastian Ruder, Una descripción general de los algoritmos de optimización de
descenso de gradiente, http://ruder.io/optimizing-gradient-descent/, 2016.
tráfico o para optimizar el estacionamiento: llevar una cuenta de los
[11] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, Zbigniew
vehículos estacionados.
Wojna, Replanteamiento de la arquitectura inicial para la visión artificial,
2015.
RFERENCIAS [12] Ross Girshick, Fast R-CNN, 27 de septiembre de 2015.
[13] Hogne Jorgensen, Reconocimiento automático de matrículas mediante técnicas de
[1] Nuzulha Khilwani Ibrahim, Emaliana Kasmuri, Norazira A Jalil, Mohd Adili aprendizaje profundo.
Norasikin, Sazilah Salam, Mohamad Riduwan Md Nawawi, [14] Zied Selmi, Mohamed Ben Halima, Adel M. Alimi, Sistema de aprendizaje profundo
Reconocimiento de matrículas (LPR): una revisión con experimentos para la detección y el reconocimiento automáticos de matrículas, 2017.
para el estudio de caso de Malasia. 2014.

82

Licencia de uso autorizada limitada a: UNIVERSIDAD POLITECNICA SALESIANA. Descargado el 28 de abril de 2022 a las 20:29:45 UTC de IEEE Xplore. Se aplican restricciones.

También podría gustarte