Wang2018 en Es

manuscrito aceptado
LPR-Net: Reconocimiento de matrículas chinas en entornos complejos
Di Wang, Yumin Tian, Wenhui Geng, Lin Zhao, Chen Gong
PII: S0167-8655 (18) 30699-8

DOI: https://doi.org/10.1016/j.patrec.2018.09.026
Referencia: PATREC 7325
Aparecer en: Letras de reconocimiento de patrones
Fecha de recepción: 2 de mayo de 2018
Fecha revisada: 28 agosto 2018

Fecha de aceptación: 27 de septiembre de 2018
Cite este artículo como: Di Wang, Yumin Tian, Wenhui Geng, Lin Zhao, Chen Gong, LPR-Net: Reconocimiento de matrículas chinas en
entornos complejos, Cartas de reconocimiento de patrones ( 2018), doi:
https://doi.org/10.1016/j.patrec.2018.09.026
Este es un archivo PDF de un manuscrito sin editar que ha sido aceptado para su publicación. Como servicio a nuestros clientes,
proporcionamos esta versión temprana del manuscrito. El manuscrito se someterá a edición, composición tipográfica y revisión de la prueba
resultante antes de ser publicado en su forma final. Tenga en cuenta que durante el proceso de producción se pueden descubrir errores que
podrían afectar el contenido, y todas las renuncias legales que se aplican a la revista pertenecen.
MANUSCRITO ACEPTADO
1
Destacar
• Se propone un método de reconocimiento de matrícula chino de extremo a extremo
denominado LPR-net.
• LPR-net evita el problema de acumular errores y mejora la precisión del

reconocimiento.
• Una e ff El esquema activo basado en la normalización por lotes se utiliza para acelerar el
procedimiento de aprendizaje de LPR-net.
• LPR-Net supera a los métodos más avanzados en términos de precisión

de reconocimiento y robustez en entornos complejos.
DO
TA
EP
AC
T O
C RI
US
AN
M
MANUSCRITO ACEPTADO
2
Letras de reconocimiento de patrones

página de inicio de la revista: www.elsevier.com
LPR-Net: Reconocimiento de matrículas chinas en entornos complejos
Di Wang a, b, Yumin Tian una, ∗∗, Wenhui Geng una, Lin Zhao c, b, Chen Gong c, b
una Escuela de Informática y Tecnología, Universidad de Xidian, Xi'an, 710071, China

si Laboratorio clave estatal de redes de servicios integrados, Universidad de Xidian, Xi'an, 710071, China
C Laboratorio clave de percepción inteligente y sistemas de información de alta dimensión del Ministerio de Educación, Escuela de Informática e Ingeniería, Universidad de Ciencia y Tecnología de Nanjing,
Nanjing, 210094, China
RESUMEN
La tecnología de reconocimiento de matrículas (LPR) ha estado atrayendo un interés creciente durante los últimos años por su papel exclusivo en el
DO
tráfico inteligente del mundo real ffi c sistemas de gestión. Debido a su importancia, se han desarrollado numerosos métodos LPR. Estos métodos
generalmente se componen de tres pasos de procesamiento, es decir, ubicación de la matrícula, segmentación de caracteres y reconocimiento de
caracteres. Sin embargo, el esquema de tres pasos siempre produce un rendimiento de reconocimiento insatisfactorio en entornos complejos
desafiantes como iluminación desigual, condiciones atmosféricas adversas, fondos complejos, placas de vehículos poco claras, cámaras de
TA
vigilancia de baja calidad, etc. En tales escenas, las placas obtenidas generalmente no son claro, lo que causará resultados imprecisos de
localización y segmentación. En consecuencia, la capacidad de reconocimiento es inadecuada ya que su rendimiento depende en gran medida de
la e ff efectos de localización y segmentación. Para abordar estos desafíos, proponemos un nuevo método de reconocimiento de matrículas de
EP
vehículos chinos para reconocer directamente las matrículas a través de una arquitectura de aprendizaje profundo de extremo a extremo llamada
red de reconocimiento de matrículas (LPR-Net). La LPR-Net es una arquitectura profunda híbrida que consiste en una red de error residual para
extraer características básicas, una red de múltiples escalas para extraer características de múltiples escalas, una red de regresión para localizar
AC
placas y caracteres, y una red de clasificación para el reconocimiento. Por otra parte, una e ff El esquema activo basado en la normalización por lotes
se utiliza para acelerar la velocidad de entrenamiento en el procedimiento de aprendizaje. Extensos experimentos demuestran que el método
propuesto logra una excelente precisión de reconocimiento y funciona de manera más robusta. ffi En comparación con los métodos más modernos
O
en entornos complejos.
T
RI
©C© 2018 Elsevier Ltd. Todos los derechos reservados.

C
US
1. Introducción etapa de LPR, que extrae la región de la matrícula de acuerdo con algunas condiciones o
propiedades definidas [4]. Los resultados de LPL influirán directamente en las siguientes
El reconocimiento de matrículas (LPR) es un tema de investigación importante en
etapas de segmentación y reconocimiento de caracteres. Los métodos típicos de LPL
AN
visión por computadora [1], reconocimiento de patrones [2] y análisis visual [3]. Es
incluyen métodos basados en la detección de bordes [5] y métodos basados en el color [6]
ampliamente empleado en la gestión de estacionamiento, cobro electrónico de peajes,
[7]. Los métodos LPL basados en detección de bordes extraen características de textura
seguimiento de vehículos y tra ffi c administración de control, etc. Debido a su importancia,
para ubicar las placas. Sin embargo, son susceptibles a un área no válida alrededor de las
M
se han propuesto varios algoritmos LPR para el reconocimiento automático de matrículas.

placas de matrícula cuando hay muchas características de textura. Los métodos LPL
Estos algoritmos LPR generalmente se componen de los siguientes tres pasos de
basados en colores aprovechan las colocaciones de color fijas de la placa para reducir el
procesamiento: ubicación de la matrícula, segmentación de caracteres y reconocimiento
rango de búsqueda. Sin embargo, los métodos basados en el color pueden volverse
de caracteres. Cada una de estas partes juega un papel importante en la precisión de
inválidos cuando hay regiones en la imagen de la matrícula, cuyo color es similar al de la
reconocimiento final.
carrocería del automóvil. Para evitar los inconvenientes mencionados anteriormente, muchos
métodos LPL extraen características de caracteres [8] y características de textura [9] para
La localización de matrículas (LPL) es la primera y más importante ubicar la matrícula. Sin embargo, estos métodos pueden ser fácilmente ff afectado por ruidos y
personajes inquietantes
∗∗ Autor correspondiente:
correo electrónico: ymtian@mail.xidian.edu.cn ( Yumin Tian)

MANUSCRITO ACEPTADO
3
fuera de la región de matrículas. Recientemente, se propone un método de conversión de aprendizaje profundo, a saber, la red neuronal de reconocimiento de matrículas (LPR-Net),
escala de grises con color deprimido [10] para ubicar las placas chinas. Alcanza una alta tasa para mejorar la precisión del reconocimiento en entornos complejos. La propuesta LPR-Net es
de ubicación en un 98.95%. Sin embargo, este método es fácilmente un ff afectado por el color una arquitectura profunda híbrida que consta de una red básica, una red multiescala, una red
de la carrocería del vehículo. de regresión y una red de clasificación. La figura 1 ilustra el diagrama de flujo de la red LPR
propuesta. Primero extrae características básicas profundas por la red básica. Luego, las
La segmentación de caracteres (CS) es el segundo paso de LPR, que ubica a características de múltiples escalas se extraen mediante una red de múltiples escalas para
cada personaje en el área de la matrícula. Existen muchos métodos de CS basados adaptarse a las placas con di ff Tamaños diferentes. En tercer lugar, la LPR-Net propuesta
en el análisis de componentes conectados (CCA) [11], proyección [12], cuantización localiza placas y caracteres por una red de regresión. Y finalmente, una red de clasificación
de nivel de grises [13], análisis de morfología [14] y coincidencia de plantillas [15] está diseñada para identificar personajes. El LPR-Net se entrena mediante el método de
[16]. Los métodos basados en CCA seleccionan el área conectada como candidatos propagación hacia atrás de forma integral y el algoritmo de normalización por lotes (BN) se
escaneando toda la placa. No requieren caracteres binarios rotos e intervalos utiliza para acelerar el entrenamiento. En comparación con las obras existentes, las
relativamente grandes entre cuadros y caracteres. Los métodos basados en principales contribuciones de la propuesta LPR-Net se resumen de la siguiente manera:
proyección proyectan la placa binaria extraída verticalmente para con fi rmar las
coordenadas iniciales y finales de los caracteres, y luego proyectan la región extraída
horizontalmente para extraer cada carácter por separado. Sin embargo, el carácter
chino como el chuan puede dividirse en varios caracteres por métodos basados en
• Al reconocer la matrícula de un extremo a otro, la red LPR propuesta evita
proyección. ff Diferentes niveles de gris, que son susceptibles al brillo. Los métodos
el problema de acumular errores, lo que degrada la precisión del
basados en la coincidencia de plantillas extraen las regiones candidatas de
reconocimiento de los métodos típicos de tres pasos, por lo que se mejora
caracteres que satisfacen el umbral de coincidencia deslizando la ventana dentro de
su precisión de reconocimiento.
la región de la matrícula. Sin embargo, una sola plantilla no puede acomodar
DO
caracteres sesgados y circunstancias complejas. Los métodos basados en regiones
extremas (ER) generan candidatos de caracteres mediante la búsqueda de regiones • Una e ff El esquema activo basado en la normalización por lotes se utiliza para acelerar el
extremas, luego los candidatos seleccionados se clasifican utilizando máquinas de procedimiento de aprendizaje de LPR-net.
vectores de soporte. Todos los métodos de segmentación de caracteres anteriores
TA • Los resultados experimentales exhaustivos demuestran que la LPR-Net
necesitan establecer adecuadamente algunos parámetros involucrados
propuesta supera a los métodos LPR de última generación en términos de
manualmente, por lo tanto, estos métodos no son lo suficientemente robustos para
precisión de reconocimiento y robustez en entornos complejos.
aplicaciones del mundo real.
EP
El resto de este documento está organizado de la siguiente manera. La Sección 2 presenta

AC
la propuesta LPR-Net y su estructura. La Sección 3 presenta el proceso de capacitación de
LPR-Net. Los resultados experimentales y las comparaciones con los métodos tradicionales se
El reconocimiento de caracteres (CR) es la tarea final de LPR. Se han utilizado muchas muestran en la Sección
técnicas de clasificación para CR, como las redes neuronales artificiales [17] [18], la máquina 4. Finalmente, se llega a conclusiones en la Sección 5.
O
de vectores de soporte (SVM) [19] [20], el clasificador vecino más cercano k [21] [22], el
clasificador AdaBoost [23] ] y clasificador bayesiano [24]. Recientemente, las redes
2. Red neuronal de reconocimiento de matrículas
T
neuronales convolucionales (CNN) es el método de reconocimiento de caracteres más

utilizado, que logra una alta tasa de reconocimiento [25] [26]. El reconocimiento de
RI
Para evitar grandes errores acumulados en los métodos LPR de tres pasos típicos y mejorar el
caracteres es el módulo más robusto y confiable del sistema LPR. Por lo general, los
rendimiento de reconocimiento en entornos complejos desafiantes, en este documento se propone
caracteres se pueden identificar correctamente siempre que los resultados de localización y
un método de reconocimiento de extremo a extremo basado en una red neuronal de convolución
C
segmentación sean lo suficientemente precisos.

profunda llamada LPR-Net. La entrada de LPR-Net es una imagen gris o en color con cualquier
US
tamaño y la salida es el número de placa de la imagen de entrada. Si no hay matrícula en las
imágenes de entrada, LPR-net generará "sin licencia". La propuesta LPR-Net es una arquitectura
La abrumadora mayoría de los métodos de reconocimiento de matrículas profunda híbrida que consta de una red básica, una red multiescala, una red de regresión y una red
existentes utilizan el esquema de procesamiento de tres pasos anterior para de clasificación. Su estructura se muestra en la Fig. 1. En primer lugar, LPR-Net cambia el tamaño
AN
reconocer las matrículas [27] [28]. Sin embargo, el esquema de tres pasos causará de la imagen de entrada a 500 × 500 píxeles Luego, la imagen redimensionada se ingresa a la red
un rendimiento de reconocimiento insatisfactorio en entornos complejos desafiantes básica para obtener características básicas. Después de eso, las características básicas se
como iluminación desigual, condiciones atmosféricas adversas, fondos complejos, ingresan a la red de múltiples escalas para obtener características de múltiples escalas.
M
placas de vehículos poco claras y cámaras de vigilancia de baja calidad [29]. En un Finalmente, las características de múltiples escalas se ingresan en la red de regresión y en la red
entorno complejo, es di ffi culto para obtener un resultado preciso de cada paso. Como de clasificación para ubicar la placa e identificar los caracteres. La Tabla 1 enumera las principales
el paso posterior depende en gran medida del paso anterior, la incompetencia del anotaciones y descripciones utilizadas en este documento.
paso anterior será seriamente un ff afecta el desempeño del paso posterior. Por lo
tanto, se acumularán errores de localización y segmentación que dificultarán el
rendimiento de reconocimiento final.
2.1. La red básica

Para superar las limitaciones mencionadas, propusimos un nuevo método La red residual (ResNet) puede extraer características detalladas y características
de reconocimiento de matrículas chino basado en esenciales de alto nivel de una imagen que es beneficiosa
MANUSCRITO ACEPTADO
44
Red de reconocimiento de matrículas
NMS y Sort Bbox

Características 11586
Clasificación
conf
ResNet
res3b3_relu
res5c_relu
10
conv1_2
conv2_2
19 55
Regresión
conv3_2
Bbox
10 3 3 piscina6
19 5
11
500 500
• 粤 B9A28S
Red básica Red multiescala Red de clasificación
neta de regresión
Fig. 1. La estructura de la propuesta LPR-Net.
X
Tabla 1. Anotaciones y descripciones.
Descripción del símbolo
α Peso de pérdida de ubicación
Entrada / grupo
norte Número de muestras positivas
norte Número de cajas candidatas
norte yo Número de cajas de verdad de tierra del yo- th categoría
DO
Conv. F (x)
cx Coordenada horizontal del punto central de cajas Identidad: X
H (x)
cy Coordenada vertical del punto central de cajas
Escala mínima del cuadro predeterminado en el mapa de características del
sk
k- capa de convolución Relu
TA
s min Escala mínima de la primera capa en red multiescala F (x)
s max Escala máxima de la primera capa en red multiescala

re j los j- caja predeterminada
EP
re j ∈ pos Muestra positiva

re j ∈ neg Muestra negativa H (x) = F (x) + x
w Alaska Ancho del cuadro predeterminado en el mapa de características del k- th capa

AC
h Alaska Altura del cuadro predeterminado en el mapa de características del k- th capa Fig. 2. La estructura de ResNet.
sol Pi los yo- la caja de verdad básica de la pags- th categoría
l mj Cuadro de predicción de la j- caja predeterminada
Indica si el j- El cuadro candidato coincide con el y ángulos Para adaptarse a di ff En diferentes situaciones, extraemos características de
X pij
O
yo- la caja de verdad básica de la pags- th categoría múltiples escalas mediante una red de múltiples escalas para hacer que LPR-Net sea más
Relación de superposición de la yo- la caja de verdad básica y la j- caja predeterminada robusto. La red multiescala involucra seis capas que son res3b3 relu capa, res5C relu capa, conv1
J pij
T
2 capa, conv2 2
Probabilidad de que el k- La muestra positiva pertenece al yo- th
RI
PAGS ik
capa, conv3 2 capa y piscina6 capa. los res3b3 relu capa y res5C relu capa son
categoría
capas originales en ResNet. Las descripciones detalladas sobre ellos pueden
referirse a [30]. Los parámetros de
C
conv1 2 capa, conv2 2 capa y conv3 2 capa se muestran en la Tabla 2. Piscina6 La capa es una capa de
Tabla 2. Parámetros de la red multiescala
US
Capas Relleno Tamaño de grano Paso Números de salida agrupación promedio global. Podemos obtener seis mapas de características de múltiples escalas por
conv2 1 00 1 1 256 estas capas. Las muestras de los mapas de características se muestran en la Fig. 3. Luego, calculamos
conv2 2 1 3 2 512
las escalas máximas y mínimas de cada capa para controlar los tamaños de los cuadros
conv3 2 1 3 2 512
predeterminados mediante una estrategia de transformación de múltiples escalas. Después de eso,
AN
seleccionamos cuadros predeterminados con varias escalas en seis mapas de características de
múltiples escalas. Finalmente, los valores de píxeles de los cuadros predeterminados se tratan como
para LPR [30]. Además, tiene ventajas de convergencia rápidamente estable, capas
características de escala múltiple.
M
profundas, un pequeño número de parámetros y evita la desaparición de gradientes que las

redes neuronales profundas tradicionales. Por lo tanto, se utiliza como la red básica de
LRP-Net. La estructura de ResNet se muestra en la Fig. 2. En LPR-Net, el redimensionado
2.2.1. Cuadro predeterminado
500 × La imagen de la placa de 500 píxeles se ingresa a ResNet para extraer características
básicas detalladas y esenciales. Después de obtener mapas de características de seis capas de múltiples escalas, cada uno de los
mapas de características se corta en pequeñas redes que se denominan celdas de mapas de
características como se muestra en la Fig. 4 (b) y (c). En cada mapa de características, seis cuadros
predeterminados con di ff Se generan diferentes relaciones de aspecto para cada celda del mapa de
2.2. La red multiescala
características, que se muestra en la Fig. 4 (b) con un cuadro rectangular formado por una línea de
En el sistema de reconocimiento de matrícula del vehículo, la región de la matrícula y los puntos. El punto central de cada cuadro predeterminado es el mismo que el de la celda del mapa de
caracteres en las imágenes siempre tienen varias escalas. entidades. Gener-

MANUSCRITO ACEPTADO
55
dónde sol pags

yo significa el yo- la caja de verdad básica de la pags- th categoría,
re j significa el j- caja predeterminada
2.3. La red de regresión

Después de obtener características de escala múltiple por red de escala múltiple, ingresamos
características e información de ubicación de cada cuadro predeterminado a la red de regresión
para obtener cuadros de predicción de placa y caracteres. Y luego, los errores entre los cuadros
conv1 res3b3_relu res5c_relu
de predicción y la verdad básica se vuelven a propagar para afinar la información de ubicación.
La red de regresión es una capa de convolución con 1 × 1 fi ltro. Su entrada es características de

Fig. 3. Muestras de mapas de características.
múltiples escalas, y la salida son los cuadros de predicción de placa y caracteres. La función de
pérdida de la regresión neta L loc ( X, l, sol)

(: ,CCyxloc , hw)
{
,
predeterminado Celda de mapa de características

(: ,
conf 1
, ... , CCC
70 2
)
se define como
Cuadro
∑norte ∑
L loc ( X, l, g) = ij · suave( l mj - ˆ sol mi j), (3)
j ∈ pos metro ∈ { cx, cy, w, h} X pags
(a) verdad fundamental (b) Mapa de características 8 x 8 (c) Mapa de características 4 x 4
Fig. 4. Mapa de funciones con cuadros predeterminados. (a) es la imagen original con cuadros de verdad de dos
sol cx i - re cx sol cy i - re cx
j ∈ pos j ∈ pos
caracteres; (b) muestra las celdas del mapa de características que se seleccionan de un 8 × 8 mapa de características y sus
ŝol cx ij =
sol ŝol cy ij =
sol
DO
6 cuadros predeterminados correspondientes; (c) muestra una celda de mapa de características y sus cuadros re wj ∈ pos re wj ∈ pos
predeterminados correspondientes en un 4 4 × 4 4 mapa de características y cuatro elementos de ubicación (loc) y una , (4)
confianza de categoría (conf) de un cuadro predeterminado.
ŝol wi j = log (g Wisconsin
sol ) ŝol hola j = Iniciar sesión(
sol ) sol Hola
re wj re hj
TA
{ 0,5 X,
El | x | < 1
Ally, la matrícula china tiene dos especificaciones: 220 × 440 y 140 × 440 mm, y la liso (x) = (5)
El | x | - 0.5, El | x | ≥ 1,
especificación de cada personaje es 45 × 90 mm. Teniendo en cuenta que las placas
EP
pueden inclinarse, el rango de valores de la relación de aspecto una r del cuadro dónde re mj ∈ pos representa el j- Muestra positiva, ˆ sol mi j es el po-
predeterminado en este documento es desviación de posición entre el yo- Muestra positiva re metro
yo ∈ pos y el
una r ∈ { 1, 2, 3, 1 j- caja de verdad básica sol mj cx y cy representa las coordenadas horizontales y verticales del
AC
2, 7 22}.
punto central de cualquier cuadro respectivamente, w y h representan el ancho y la altura de
cualquier cuadro respectivamente, l mj representa el cuadro de predicción de la j- caja
2.2.2. Estrategia de transformación a múltiples escalas
predeterminada, suave ( l mj - ˆ
La propuesta LPR-Net utiliza una estrategia de transformación de múltiples escalas para determinar sol mi j) representa la función de suavizado de errores de la
O
la altura y el ancho del cuadro predeterminado. La escala del cuadro predeterminado para cada mapa de
cuadro de predicción y el valor de desviación de posición, X pags
ij indica
T
características se calcula como

si el j- El cuadro candidato coincide con el yo- la caja de verdad básica de la pags-
th categoría y es igual a 1 si coinciden con éxito y de lo contrario 0, y norte es
RI
s k = s min + s max - s min (1) el número de cajas candidatas.

metro - 1 ( k - 1) k ∈ [ 1, metro],
C
dónde s k representa la escala mínima del cuadro predeterminado en el mapa de
características del k- th capa de convolución. También es la escala máxima de la ( k + 1) -th 2.4. La red de clasi fi cación
US
capa de convolución. metro es el número de capas de red multiescala y es igual a 6 en este Las características de múltiples escalas de las muestras positivas se ingresan
documento. s min y s max finalmente a la red de clasificación para el reconocimiento del carácter de la licencia. El
representan la escala mínima y la escala máxima de la primera capa en la red multiescala clasificador softmax se aplica como la red de clasificación para calcular la probabilidad de
AN
respectivamente. El ancho del cuadro predeterminado es w ak = s k la clase de caracteres de la muestra de entrada, para su clasificación alta e ffi ciency y e ff actividad
√ una r, y la altura es h ak = s k / √ una r en el mapa de características de la k- th capa Para
el caso en que la relación de aspecto es igual a 1, agregamos un cuadro predeterminado cuya

[31]. Se aplica una función lineal para modelar la relación entre la función multiescala X y su
distribución de probabilidad z yo( X)
escala es s ′
M
k= √ s k s k + 1) Por lo tanto, hay

son seis cuadros predeterminados para cada celda de entidad. Después de obtener estos cuadros
predeterminados, seleccionamos cuadros predeterminados elegibles como muestras positivas y z yo( x) = w Ti x + b yo (6)
negativas. Si la relación de superposición J pags
ij del yo- la verdad fundamental
dónde z yo( X) es la probabilidad de entrada X perteneciente a la categoría
caja y el j- El cuadro predeterminado es mayor que 0.7, elegimos el
i, w yo y si yo son los parámetros del modelo correspondiente del clasificador softmax. Como
j- El cuadro predeterminado para ser la muestra positiva re j ∈ pos, y menos de
la probabilidad tiene propiedades de no negatividad y unitaria, z yo( X) se normaliza como
0.3 como muestra negativa re j ∈ neg. La relación de superposición J pags
ij se define como
∣∣∣ sol pags ∣∣∣ ∣∣∣ sol pags ∣∣∣
yo ∩ re j yo ∩ re j
J pij = ∣∣∣ sol pags
∣∣∣ = ∣∣∣ sol∣∣∣pags
+ ∣∣∣ re ∣∣∣
j - ∣∣∣ sol pags ∣∣∣, (2) X) nj = 1 mi z yo( X) ,
pags yo( x) = entonces f tmax (z yo( x)) = e z yo(∑ i = 1, 2, ... m, ( 7)
yo ∪ re j yo yo ∩ re j
MANUSCRITO ACEPTADO
66
dónde pags yo es la probabilidad normalizada de X perteneciente a la categoría soy es el

número de categorías norte es el número de muestras positivas
El objetivo de la red de clasificación es maximizar pags yo( X), Lo que significa que - log
(p yo( X)) debe ser minimizado Definimos la clase 0 como fondo, por lo que el propósito de
la clasificación gira para maximizar la probabilidad de muestras negativas. re j ∈ neg que
pertenecen a la categoría 0, es decir, minimizar - Iniciar sesión( pags 0 ( x = d j ∈ neg)).
Por lo tanto, la función de error de confianza de clase L con f ( X, pags) de la red de clasificación
se define como
∑metro ∑norte yo
∑
sesión( pags j
L con f ( X, p) = ( - norte X ikj Iniciar Iniciar sesión( pags(8)
-∑

0 0 k)),
k)
Fig. 5. Tasas de reconocimiento promedio de LPR-Net con BN y LPR-Net sin BN.
i=1 j=1 k ∈ pos k ∈ neg
dónde X yo
kj indica si el k- La muestra positiva coincide con j- caja de verdad de la

Tabla 3. Hiperparámetros de LPR-Net

tierra yo- th categoría, pags ik representa la probabilidad de que el k- La muestra
parámetros base lr gama lr política Diversión activa
positiva pertenece a la categoría yo. metro representa el número de categorías. norte yo valor 0.001 0.1 multipaso ReLu
es el número de cajas de verdad básicas del yo- th categoría. norte es el número de parámetros tipo impulso de disminución de peso BN
muestras positivas valor sgd 0,0005 0.9 si
DO
Entonces la función de pérdida general L ( X, pags, l, sol) de la LPR-Net propuesta se puede
3.2. Selección de hiperparámetros
obtener combinando la función de pérdida de ubicación L loc ( X, l, sol) y la función de pérdida de
clasificación L con f ( X, pags) como En el proceso de entrenamiento de redes neuronales profundas, la selección de
hiperparámetros tiene una gran influencia en el rendimiento. Los hiperparámetros son
TA
configuraciones externas de la red neuronal, y sus valores no se pueden aprender de los
L ( X, pags, l, g) = 1 (9)
norte( L con f ( X, pags)) + α L loc ( X, l, sol), datos. Para un problema dado, no podemos conocer los valores óptimos de los
hiperparámetros. A pesar de esto, podemos encontrar empíricamente valores deseables
EP
dónde α es el peso de la pérdida de ubicación y su valor predeterminado es 1.

de acuerdo con las reglas o experimentos típicos de ajuste de parámetros. Los
hiperparámetros de este artículo se muestran en la Tabla 3.
AC
3. Detalles de implementación
base lr es la tasa básica de aprendizaje gama es un factor de actualización de la tasa de
aprendizaje, lr política Es la estrategia de actualización de la tasa de aprendizaje. En este documento,

LPR-Net se puede entrenar de extremo a extremo mediante propagación hacia atrás y se adopta la estrategia de actualización de varios pasos para actualizar la tasa de aprendizaje. Y la
descenso de gradiente estocástico (SGD) [32]. Para acelerar el proceso de capacitación, el
O
tasa de aprendizaje es igual a

documento agrega una capa de normalización por lotes (BN) después de cada capa multiescala base lr ∗ gama iter, iter ∈ { 30000, 60000, 90000}. Diversión activa
T
para normalizar la entrada de cada capa de convolución en la red multiescala [33]. es la función de activación, y la función ReLu se selecciona en este documento. tipo representa
la estrategia de optimización de la función de pérdida y se utiliza el método de descenso de
RI
gradiente estocástico (SGD).
3.1. Normalización por lotes decadencia de peso es el factor de atenuación de peso para evitar el sobreajuste. impulso
C
es un factor de impulso que permite que la red aprenda más rápido cuando la superficie
Para mantener el patrón de distribución original de los datos de entrada en la medida de lo posible, curva perdida es plana. BN
US
se agrega una capa BN después de cada capa multiescala para evitar que las operaciones de muestra si se utiliza la capa BN. LPR-Net fue entrenado por estos hiperparámetros
convolución destruyan las características de las capas anteriores. La normalización de lotes se define con 120,000 iteraciones en los siguientes experimentos. La curva de pérdida de
como entrenamiento de LPR-Net se muestra en la Fig. 6. Se puede ver que LPR-Net
AN
converge muy rápido sin una oscilación obvia.
y ( k) = γ ( k) X( k)√- Var
E (x(x
( k))( k)) + β ( k) (10)
M
4. Resultados experimentales
dónde k representa el k- th capa, X( k) es la entrada de la k- th capa, Ex( k)) es la
media de X( k) Var (x ( k)) es la varianza de Esta sección evalúa el rendimiento de la propuesta LPRNet. La
X( k) γ ( k) y β ( k) Son dos parámetros de normalización. Al agregar la capa BN, el tiempo de configuración de hardware en los siguientes experimentos es GPU GeForce
entrenamiento de LPR-Net con 70,000 iteraciones se acortó de 8.2 horas a 5.6 horas en GTX 1080 y Dell Precision Tower 7810 RAM32G.
el experimento. La figura 5 muestra la precisión de reconocimiento promedio de la placa

de matrícula. Se puede ver que la precisión promedio de reconocimiento de placa es
4.1. Conjunto de datos
mayor usando capas BN. Por lo tanto, la capa BN mejora la velocidad de entrenamiento y
la tasa de reconocimiento de LPR-Net. Recopilamos 2.000 imágenes de matrículas chinas (incluidas
2.200 placas) en el entorno complejo como conjunto de datos. Y el
MANUSCRITO ACEPTADO
77
MSER + COLOR LPR-Net
placa amarilla de pérdida placa amarilla y azul éxito

Fig. 6. Curva de pérdida de entrenamiento.

El método bootstrapping

se utiliza para dividir el conjunto de datos en un conjunto de entrenamiento
y un conjunto de prueba. En primer lugar, tomamos muestras al azar de una muestra del conjunto fracaso borrosidad en la niebla éxito
de datos original. metro tiempos y trato metro datos muestreados como conjunto de entrenamiento.
Luego, el resto de los datos no muestreados se sirven como el conjunto de prueba. En nuestros
experimentos metro es igual a 2 000 y hay 685 datos de prueba. Además, ampliamos el conjunto de
prueba original a otros tres conjuntos de prueba de OpenCV para mostrar la capacidad de
DO
generalización y la solidez de LPR-Net en un entorno complejo. Elegimos imágenes que se toman
durante el día del conjunto de prueba original para formar el conjunto de día (524 imágenes). Luego,
elegimos al azar 410 imágenes del conjunto de prueba original y reducimos el valor de brillo de
fracaso refugio en la nieve éxito
cada píxel de la imagen en un 50% para formar el conjunto nocturno. Del mismo modo, formamos
TA
un conjunto asimétrico y un conjunto difuso al elegir 410 imágenes al azar del conjunto de prueba
original y rotamos las imágenes entre 5 y 10 grados y filtramos las imágenes entre 5 × 5 fi ltro
EP
gaussiano respectivamente.
AC
fracaso luz lluviosa y dura éxito

4.2. Métodos de comparación
La propuesta LPR-Net se compara con tres métodos de reconocimiento de Fig. 7. Comparación de la ubicación de la matrícula en entornos complejos.
O
matrículas chinos de última generación, es decir, el método basado en MSER [34], el

método basado en color [35] y el método basado en CNN [10].
T
método propuesto y la columna izquierda son los resultados de ubicación de la

combinación del método basado en MSER [34] y el método basado en color [35]. Se
RI
El método basado en MSER extrae regiones de caracteres candidatos en nivel de

puede ver que la LPR-Net propuesta puede ubicar la placa de matrícula más precisa
grises utilizando el detector MSER (Región Extrema Máximamente Estable) [36] e infiere
que el método basado en MSER [34] y el método basado en color [35].
las ubicaciones de las placas de acuerdo con la disposición de los caracteres en las placas
C
de matrícula estándar. El método basado en MSER apenas puede extraer los cuadros
El método basado en CNN [10] presenta un algoritmo de borde de color para localizar la
US
delimitadores de caracteres en entornos complejos.

región de la placa de matrícula, y combina CCA y análisis de proyección para segmentar
caracteres en la región de la placa de matrícula. Y se propone una red neuronal convolucional

El método basado en el color [35] localiza la matrícula utilizando información de color
recurrente simplificada para reconocer automáticamente los caracteres. A pesar de que su índice
AN
para las placas azules y amarillas más comunes. Este método utiliza la propiedad
de reconocimiento de caracteres es alto, es fácilmente un ff efectuado por el método de ubicación
concomitante de color y las transiciones entre el fondo y los caracteres, y elimina las
de la placa y el método de segmentación de caracteres en un contexto complejo
placas falsas y reserva las placas reales. Además, elimina las placas falsas utilizando la
relación entre el ancho del trazo y el tamaño de los caracteres. Puede seleccionar el
M
umbral automáticamente al juzgar la distribución de iluminación de una imagen. Sin

embargo, no puede lidiar con la situación cuando los colores de la matrícula y la
4.3. Criterios de evaluación
carrocería del automóvil son muy similares. Adoptamos la máquina de vectores de
soporte (SVM) para reconocer los caracteres en función de la región de la placa del En este documento, la tasa de detección de matrículas (LPDR), la tasa de
método basado en el color. reconocimiento de caracteres chinos (CCRR), la tasa de reconocimiento de caracteres
alfanuméricos (ACRR), OP1 y OP2 (rendimiento general) se utilizan para evaluar el
rendimiento de la LPR-Net propuesta. LPDR muestra la tasa de detección de la placa de
La figura 7 muestra los resultados de ubicación de la combinación del método basado matrícula y una placa de matrícula se detecta correctamente solo si la superposición de la
en MSER y el método basado en color y el método propuesto. La columna de la derecha casilla de límite de verdad real detectada y de tierra es superior a 0,7. CCRR y ACRR
son los resultados de ubicación de
MANUSCRITO ACEPTADO
8
Tabla 4. Resultados experimentales de LPR-Net. Tabla 5. Precisión de ubicación de la matrícula en el día y la noche
Conjunto de datos LDR CCRR ACRR OP1 OP2 conjunto nocturno (%) día establecido (%)
Método
día establecido 99.8% 99.6% 99.8% 99.1% 99.2% Recuperar puntaje F de precisión Recordar puntaje F de precisión
noche 99.8% 99.8% 99.3% 96.4% 98.9% LPR-Net 99,88 99,16 99,52 99,76 99,51 99,63
torcido 99.7% 99.7% 98.8% 93.9% 99.2% Basado en MSER 98.94 98,75 98.84 97.46 97,59 97,53
conjunto difuso 99.8% 98.9% 99.0% 93.7% 97.7% Color basado 94.17 91,69 92.91 97.95 93,54 95,70
Promedio 99.8% 99.5% 99.2% 95.8% 98.8% Basado en CNN 93.90 94,28 94.09 97.46 97,68 97,57
re fl eja la tasa de reconocimiento de caracteres chinos y caracteres alfanuméricos

respectivamente. Un carácter se reconoce correctamente solo si la superposición del
cuadro delimitador del carácter detectado y el cuadro delimitador de la verdad
fundamental está por encima de 0.7 y las etiquetas de dos cuadros son iguales. OP1 es
la tasa de reconocimiento general de la placa de matrícula y una placa de matrícula se
reconoce correctamente solo si la cadena de caracteres reconocida coincide con el
número de placa real. OP2 es el producto de CCRR y ACRR, que muestra la tasa
general de reconocimiento de caracteres. LPDR, CCRR, ACRR, OP1 y OP2 se definen
como
LPDR = Número de matrículas detectadas correctamente (11)

Número de todas las placas de verdad de tierra.
DO
Número de matrícula real : 赣 C5V253
CCRR = Número de caracteres chinos correctamente reconocidos . Número de placa reconocido: 赣 C5V253
Número de todos los caracteres chinos reales
(12)
TA Fig. 8. Un ejemplo del caso cuando los colores de la matrícula y el cuerpo son similares.
ACRR = Número de caracteres alfanuméricos reconocidos correctamente .
Número de todos los caracteres alfanuméricos reales.
(13)
EP
OP1 = Número de placas correctamente reconocidas . (14)

Número de todas las placas
OP2 = LPDR × CCRR × ACRR (15)

AC
Recall, Precision y F-score también se utilizan para evaluar el rendimiento de

LPR-Net. Sus definiciones se definen como
O
Retirada = TP (dieciséis)
PAGS ,
T
Precisión = TP (17)
RI
FP + TP,
F - puntuación = 2 × Recordar × Precisión (18)

C
Recordar + Precisión
donde TP significa positivos detectados verdaderos, FP significa positivos detectados Número de matrícula real : 粤 B1KF45
US
Número de placa reconocido: 粤 B1KF45

falsos y P significa positivos reales.
Fig. 9. Un ejemplo del caso cuando la iluminación es insuficiente ffi cient.

4.4. Resultados y discusiones
AN
La Tabla 4 muestra las tasas de reconocimiento de LPR-Net en cuatro conjuntos de

prueba. Se puede ver que las tasas de reconocimiento de caracteres chinos y caracteres todavía se puede identificar con precisión como se muestra en la Fig. 9. La Fig. 10
alfanuméricos son más del 99%. Y la tasa de reconocimiento general OP1 en el día muestra que LPR-Net reconoce con éxito la placa que es muy vaga debido a la luz
M
establecido es tan alta como 99.1%. Esto muestra que el LPR-Net propuesto tiene una intensa. La figura 11 muestra que LPR-Net reconoció con precisión la matrícula
alta tasa de reconocimiento y una mayor robustez en entornos complejos. seriamente sesgada sin corrección de ángulo.
Para mostrar intuitivamente los resultados de reconocimiento de LPR-Net, La ubicación de la matrícula es una tarea importante del reconocimiento de la
mostramos algunos ejemplos concretos en las Figs. 8, 9, 10 y 11. La figura 8 muestra matrícula. Mostramos los resultados de comparación de LPR-Net y los métodos de
el caso en que los colores de la matrícula y el cuerpo son similares y los caracteres referencia en la tarea de ubicación de matrículas en el día y la noche en la Tabla 5. Se
están algo rotos. Se puede ver que LPR-Net todavía puede localizar e identificar con puede ver que el LPR-Net propuesto tiene un puntaje F, memoria y precisión más altos
precisión la matrícula. Cuando la iluminación es seriamente insuficiente ffi cient en la que otros Algoritmos de ubicación de placas en la noche y en el día. El puntaje F de
noche y los personajes son defectuosos, el número de placa LPR-Net es tan alto como 99.52% y 99.63% en respeto nocturno y diurno
subred?
hho rrs' 'r r mipags

tu tttu
UNA l yy::lGracias por tu buen consejo. Según su sugerencia, hicimos experimentos para evaluar el
pags
MANUSCRITO ACEPTADO
efectividad de cada subred en la nueva versión. La revisión se copia de la siguiente manera para su conveniencia.
99
La propuesta LPR-Net es una arquitectura profunda híbrida que consta de una red básica, una red multiescala, una red de regresión y una
clasificación.
Tabla 6. Comparación Para con
de rendimiento mostrar
otroslamétodos
efectividad de cada
chinos subred, realizamos experimentos para analizar la contribución de diferentes etapas en LPR-
de LPR
día establecido (%) conjunto nocturno (%) torcido (%) conjunto difuso (%) OP1
Método resultados se informan en la Tabla 7. En la Tabla 7, "LPR-Net" representa la LPR-Net propuesta, " VGG-BasicNet "indica que la red básica R
CCRR ACRR OP1 CCRR ACRR OP1 CCRR ACRR OP1 CCRR ACRR OP1 promedio (%)
reemplaza por VGGnet en LPR-Net," SSD-ScaleNet "representa la red de múltiples escalas en LPR-Net se reemplaza por la estrategia de es
LPR-Net 99,64 99,83 99,10 99,81 99,32 96,42 99,71 98,83 93,91 98,92 99,01 93,68 95,78
Basado en MSER 96,98 97,45 95,36 95,67 SSD-Net y" LPR-Net93,51
98,67 sin BN ”representa
93,55 la propuesta
98,67 LPR-Net sin normalización
93,65 96,93 por lotes.
97,16Se puede 91,21
ver que la LPR-Net
93,43 propuesta siempre l
Basado en el color 97,64 95,15 93,54 94,16 mejor rendimiento.
94,76 Esto muestra la
90,37 efectividad de
95,67 la red básica,
96,43 la red de múltiples
92,03 91,21 escalas y la batmalización.
93,57 91,99 Como la red de regresión y la r
91,92
Basado en CNN 96,55 98,67 96,35 99,26 son indispensables
99,06 clasificación 91,96 y93,78 95,37 usar otros
también se pueden 90,97métodos 98,63 98,69
efectivos de regresión 90,87
y clasificación para92,54
LPR-Net, no hicimos exp
separados sobre ellos. A partir de los resultados experimentales, podemos conocer la efectividad de la red de regresión y la red de clasificaci
la tasa de reconocimiento siempre es mayor al 99%.

Tabla 7. La comparación de la velocidad de reconocimiento.
Método LPR-Net Basado en MSER Basado en color Basado en CNN

Tiempo (s) 0,20 0,61 0,58 0,41
Tabla 7: Análisis en subredes y normalización por lotes.

Tabla 8. Análisis en subredes y normalización por lotes.
Método \ Criterios LDR CCRR ACRR OP1

LPR-Net 99.78% 99.50% 99.23% 95.78%
VGG-BasicNet 98,68% 93,67% 95,56% 90,17%
SSD-ScaleNet 84,16% 82,57% 83,34% 81,32%
LPR-Net sin BN 94.69% 87.65% 88.56% 85.52%
DO
Q2 Los efectos de la normalización de lotes deben evaluarse para respaldar la afirmación del documento.
otros métodos chinos de LPR en cualquier conjunto de datos. Además, el OP1 promedio del
método propuesto en cuatro conjuntos de datos es aproximadamente un 2% más alto que el

Número de matrícula real : 粤 B72Q47 UNA hho rrs' 'r r mipags
tu tttu l yy::l Gracias por este comentario Según su sugerencia, hicimos experimentos para evaluar el
pags
Número de placa reconocido: 粤 B72Q47 método basado en MSER, aproximadamente un 4% más alto que el método basado en color y
efectividad de la normalización por lotes en la nueva versión. La revisión se copia de la siguiente manera para su conveniencia.
TA aproximadamente un 3% más alto que el método basado en CNN. Además, de los resultados se
Fig. 10. Un ejemplo del caso cuando la placa es pequeña y borrosa. puede ver que ACRR siempre es más alto que CCRR, esto muestra que el reconocimiento de
Para mostrar la efectividad de cada subred, realizamos experimentos para analizar la contribución de diferentes etapas en LPR-Net
caracteres chinos es más di ffi culto que el reconocimiento alfanumérico.
EP
resultados se informan en la Tabla 7. En la Tabla 7, "LPR-Net" representa la LPR-Net propuesta, " VGGBasicNet "indica que la red básica
reemplaza por VGGnet en LPR-Net," SSD-ScaleNet "representa la red multiescala en LPR-Net se reemplaza por la estrategia de escala d
El tiempo promedio de reconocimiento de LPR-Net y las líneas de base en cuatro conjuntos
y" LPR-Net sin BN "representa el
de datos se presenta en la Tabla 7. De la Tabla 7, podemos ver que LPR-Net cuesta solo 0.2
AC
segundos para reconocer un número de placa, y su velocidad de reconocimiento es dos o tres
veces Más rápido que otros métodos. La razón principal es que la mayor parte del tiempo se
2
dedica a la ubicación de la placa y la segmentación de caracteres de los métodos de referencia.
Como resultado, el LPR-Net propuesto puede cumplir mejor los requisitos de aplicación práctica
O
que los métodos de línea de base.

T
La propuesta LPR-Net es una arquitectura profunda híbrida que consta de una

RI
red básica, una red multiescala, una red de regresión y una red de clasificación.
Para mostrar la e ff Efectividad de cada subred, realizamos experimentos para
analizar la contribución de diferentes etapas en LPR-Net y los resultados se
C
informan en la Tabla 8. En la Tabla 8, "LPR-Net" representa la LPRNet propuesta,

Número de matrícula real : 川 AEK882
US
"VGG-BasicNet" indica lo básico la red RestNet en LPRNet se reemplaza por

Número de placa reconocido: 川 AEK882
VGGNet [37], "SSD-ScaleNet" representa la red de múltiples escalas en LPR-Net
se reemplaza por la estrategia de escala de SSD-Net [38], y "LPR-Net sin BN"
Fig. 11. Un ejemplo del caso cuando la placa está sesgada.
representa la propuesta LPR-Net sin normalización por lotes. Se puede ver que la
AN
LPR-Net propuesta siempre logra el mejor rendimiento. Esto muestra la e ff efectividad

Tively Las puntuaciones F de LPR-Net solo difieren ff er en un 0,11%, mientras que el de los de la red básica, la red multiescala y la normalización por lotes. Como la red de
métodos de referencia es de alrededor del 3,0%. Esto muestra que los métodos propuestos regresión y la red de clasificación son indispensables y otras ff Los métodos de
M
son más sólidos que los métodos de referencia. Como se puede ver en los resultados de la regresión activa y clasificación también se pueden usar para LPRNet, no hicimos
comparación, la tasa de detección y la solidez de la LPR-Net en el entorno complejo son experimentos separados sobre ellos. A partir de los resultados experimentales,
mejores que los métodos de referencia. podemos conocer el e ff La efectividad de la red de regresión y de la red de
clasificación ya que la tasa de reconocimiento siempre es mayor al 95%.
El LPR-Net propuesto es un algoritmo de reconocimiento de matrículas de
extremo a extremo, que incluye la localización y el reconocimiento de placas y
caracteres. La Tabla 6 muestra CCRR, ACRR y OP1 del método propuesto y
otros métodos LPR chinos en los cuatro conjuntos de datos. Como se puede ver
en la Tabla 6, el método propuesto logra la OP1 más alta en comparación con La tasa de aprendizaje básica es uno de los hiperparámetros más importantes para
entrenar redes neuronales profundas. En este artículo, nosotros
MANUSCRITO ACEPTADO
El gráfico de OP1 con el aprendizaje base diferente 10
Velocidad
1.00
Referencias
0,95 [1] L. Zhu, J. Shen, L. Xie, Z. Cheng, hashing visual sin supervisión con
asistente semántico para la recuperación de imágenes basadas en contenido, Transacciones IEEE sobre
OP1
0,90 conocimiento e ingeniería de datos 29 (2017) 472–486. [2] L. Zhu, J. Shen, L. Xie, Z. Cheng, hash de
hipergrafía de tema sin supervisión
0,85 delantero ffi Recuperación de imágenes móviles cientificas, transacciones IEEE en cibernética 47 (2017)
3941–3954.
0,80 [3] L. Zhu, J. Shen, H. Jin, R. Zheng, L. Xie, contenido visual basado en contenido
0.0001 0.0003 0.0006 0.0009 0.001 0.003 0.006 0.009 0.01 búsqueda de marcas mediante aprendizaje hipergráfico multimodal, transacciones IEEE en cibernética
Tasa de aprendizaje 45 (2015) 2756–2769. [4] D. Zheng, Y. Zhao, J. Wang, An e ffi método eficiente de ubicación de la matrícula,
día noche torcido borroso Cartas de reconocimiento de patrones 26 (2005) 2431–2438. [5] B. Hongliang, L. Changping, un
método híbrido de extracción de matrículas
basado en estadísticas y morfología de vanguardia, en: Conferencia Internacional sobre
Fig. 12. OP1 versus tasa de aprendizaje básico.
Reconocimiento de Patrones, 2004, pp. 831–834 Vol.2. [6] F. Wang, L. Man, B. Wang, Y. Xiao, W. Pan, X.
Lu, algo basado en Fuzzy
Ritmo para el reconocimiento del color de las placas, Pattern Recognition Letters 29 (2008)
muestre experimentalmente las variaciones de rendimiento con la tasa de aprendizaje para 1007-1020.
LPR-Net. La figura 12 muestra las variaciones de OP1 con la tasa de aprendizaje en los cuatro [7] Y. Tian, J. Song, X. Zhang, P. Shen, L. Zhang, W. Gong, W. Wei, G. Zhu,
Un algoritmo combinado con color di ff Modelos diferenciales para la ubicación de la matrícula,
conjuntos de datos. Se puede ver que los valores de OP1 primero aumentan y luego disminuyen
Neurocomputing 212 (2016) 22–35. [8] M. Rasooli, S. Ghofrani, E. Fatemizadeh, detección de
y alcanzan el mejor rendimiento cuando la tasa de aprendizaje es igual a 0.001. Por lo tanto, la matrícula farsi
tasa de aprendizaje básica de LPR-Net se puede elegir para estar alrededor de 0.001. basado en el análisis de elementos y el reconocimiento de caracteres, International Journal of
Signal Processing Image Processing y P 4 (2013) 697 - 700. [9] J. Chen, HE Xiao-Hai, QZ Teng,
Localización de matrículas basada en
DO
mser, Science Technology & Engineering 247 (2015). [10] Y. Liu, H. Huang, J. Cao, T. Huang,
Redes neuronales convolucionales basadas
Reconocimiento inteligente de matrículas chinas, Soft Computing (2017) 1–17.
5. Conclusiones
TA [11] K. Kanayama, Y. Fujikawa, K. Fujimoto, M. Horino, Desarrollo de
sistema de reconocimiento de número de licencia de vehículo que utiliza el procesamiento de imágenes en tiempo real y
su aplicación para la medición del tiempo de viaje, en: Vehicular

Este artículo propone una e ff ective y e ffi Método de reconocimiento de matrícula chino de Conferencia Tecnológica, 1991. Gateway to the Future Technology inMotion., IEEE, 1991, pp.
EP
extremo a extremo llamado red de reconocimiento de matrícula. Es una arquitectura profunda 798–804.
[12] KMV Deneen, un algoritmo para el reconocimiento de matrículas aplicado a
híbrida que consiste en una red de errores residuales para extraer características básicas,
sistema de transporte inteligente, IEEE Transactions on Intelligent Transportation Systems 12
una red de múltiples escalas para extraer características de múltiples escalas, una red de (2011) 830–845.
AC
regresión para localizar placas y caracteres, y una red de clasificación para reconocimiento. [13] J. Jiao, Q. Ye, Q. Huang, un método configurable para la licencia de varios estilos
reconocimiento de placas, Pattern Recognition 42 (2009) 358–369. [14] W. Zou, C. Bai, K. Kpalma,
Al reconocer los caracteres de la placa de una manera de extremo a extremo, evita errores
J. Ronsin, transferencia glocal en línea para auto-
acumulativos en el esquema tradicional de tres pasos y, por lo tanto, identifica los caracteres
segmentación matic fi gure-ground., IEEE Transactions on Image Processing 23 (2014)
de la placa con mayor precisión. Por otra parte, una e ff El esquema activo basado en la 2109–2121.
O
normalización por lotes se utiliza para acelerar la velocidad de entrenamiento en su [15] I. Paliy, V. Turchenko, V. Koval, A. Sachenko, Enfoque para el reconocimiento
ción de números de matrículas utilizando redes neuronales, en: IEEE International Joint
procedimiento de aprendizaje. Extensos experimentos en un complejo conjunto de datos de
T
Conference on Neural Networks, 2004. Proceedings, 2004, pp. 2965–2970 vol.4. [16] NF Gazc´
matrículas chinas han demostrado que la red LPR propuesta supera a varios métodos de
RI
vanguardia en términos de precisión y precisión. ffi ciency. en CI Ches˜ nevar, SM Castro, identificación automática del vehículo
catión para placas argentinas que utilizan la coincidencia inteligente de plantillas, Pattern
Recognition Letters 33 (2012) 1066-1074. [17] MH Dashtban, Z. Dashtban, H. Bevrani, Un nuevo
C
enfoque para el vehículo.

localización y reconocimiento de matrículas, International Journal of Computer Applications 26
US
(2013) 22–30.
[18] F. Gao, J. Yu, S. Zhu, Q. Huang, Q. Tian, predicción de calidad de imagen a ciegas
explotando representaciones profundas de varios niveles, Pattern Recognition 81 (2018) 432–442.
Expresiones de gratitud
AN
[19] S. Wang, X. Chang, X. Li, G. Long, L. Yao, QZ Sheng, código de diagnóstico

asignación utilizando la integración de correlación de enfermedades basadas en la dispersión, IEEE
Este documento fue apoyado en parte por la Fundación Nacional de Ciencias Transactions on Knowledge and Data Engineering 28 (2016) 3191–3202. [20] S. Wang, X. Li, L. Yao, QZ
Sheng, G. Long, et al., Learning multiple di-
Naturales de China bajo Grant 61702394, Grant 61572385 y Grant
M
códigos de diagnóstico para pacientes con icu con minería local de correlación de enfermedades, ACM
61711530248, en parte por la Fundación de Ciencias Postdoctorales de China Transactions on Knowledge Discovery from Data (TKDD) 11 (2017) 31. [21] C. Patel, A. Desai, Gujarati
bajo Grant 2018T111021 y Grant 2017M613082, en parte por el Proyecto de reconocimiento de caracteres escritos a mano usando hy-
Ciencia y Tecnología de Shaanxi Provincia bajo Grant 2016GY-033, en parte por método brid basado en clasificador de árbol binario y vecino k más cercano, Esrsa Publications
(2013).
el Programa de Investigación y Desarrollo Clave Shaanxi bajo Grant
[22] L. Zhu, J. Shen, H. Jin, L. Xie, R. Zheng, Clasificación de Landmark con
2017ZDXM-GY-002, en parte por la Fundación de Ciencias Aeronáuticas de característica ejemplar multimodal jerárquica, IEEE Transactions on Multimedia 17 (2015)
China bajo Grant 20171981008, y en parte por los Fondos Fundamentales de 981–993. [23] T. Jindal, U. Bhattacharya, Reconocimiento de o ffl ine número manuscrito
Investigación para las Universidades Centrales bajo Grant JBX170313, Grant

als usando un conjunto de mlps combinados por adaboost, en: Taller internacional sobre Ocr
XJS17063 y Grant JBF180301.
multilingüe, 2013, pp. 1-5. [24] XU Wei, Clasificación de textos impresos a mano y escritos a
máquina.
sobre el juez bayesiano, Chinese Journal of Computers (2003).
MANUSCRITO ACEPTADO
11
[25] H. Li, C. Shen, Lectura de matrículas de automóviles usando neural convolucional profundo
redes y lstms (2016).

[26] M. Wang, Y. Chen, X. Wang, Reconocimiento de caracteres escritos a mano en
importes legales chinos por autoencoders apilados, en: Conferencia Internacional sobre
Reconocimiento de Patrones, 2014, pp. 3002–3007.
[27] CNE Anagnostopoulos, IE Anagnostopoulos, V. Loumos,
E. Kayafas, un algoritmo de reconocimiento de matrículas para aplicaciones de sistemas de
transporte inteligentes, IEEE Transactions on Intelligent Transportation Systems 7 (2006)
377–392.
[28] R. Panahi, I. Gholampour, detección precisa y reconocimiento de suciedad
números de placa de vehículos para aplicaciones de alta velocidad, IEEE Transactions on Intelligent
Transportation Systems PP (2017) 1–13.
[29] F. Gao, J. Yu, Evaluación de calidad de imagen inspirada biológicamente, Señal
Procesamiento 124 (2016) 210–219.
[30] K. He, X. Zhang, S. Ren, J. Sun, aprendizaje residual profundo para el reconocimiento de imágenes
nition, en: Computer Vision and Pattern Recognition, 2016, pp. 770–778. [31] S. Ren, K. He, R.
Girshick, J. Sun, R-cnn más rápido: hacia un objeto en tiempo real
detección con redes de propuestas regionales, en: Avances en sistemas de procesamiento de
información neuronal, 2015, pp. 91–99.
[32] Y. LeCun, B. Boser, JS Denker, D. Henderson, RE Howard, W. Hub-
bardo, LD Jackel, propagación hacia atrás aplicada al reconocimiento de código postal escrito a
mano, cálculo neuronal 1 (1989) 541–551. [33] S. Io ff e, C. Szegedy, Normalización por lotes: acelerar el
entrenamiento de redes profundas al reducir el cambio interno de covariables (2015) 448–456. [34] B. Li,
B. Tian, Q. Yao, K. Wang, reconocimiento de matrícula de un vehículo
sistema basado en el análisis de regiones extremas máximamente estables, en: IEEE International
DO
Conference on Networking, Sensing and Control, 2012, pp. 399–404.
[35] J. Dun, S. Zhang, X. Ye, Y. Zhang, localización de matrícula china en

multi-carril con fondo complejo basado en colores concomitantes, IEEE Intelligent
Transportation Systems Magazine 7 (2015) 51–61. [36] J. Matas, O. Chum, M. Urban, T. Pajdla,
TA
estéreo de línea base robusta
de regiones extremas máximamente estables, Image Vision Computing 22 (2004) 761–767.
EP
[37] K. Simonyan, A. Zisserman, Redes convolucionales muy profundas para grandes

reconocimiento de imagen a escala, arXiv preprint arXiv: 1409.1556 (2014). [38] W. Liu, D.
Anguelov, D. Erhan, C. Szegedy, S. Reed, CY Fu, AC
Berg, Ssd: Detector multibox de disparo único, en: European Conference on Computer Vision,
AC
2016, pp. 21–37.

T O
C RI
US
AN
M

Wang2018 en Es

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Wang2018 en Es

Cargado por

Copyright:

Formatos disponibles

manuscrito aceptado

LPR-Net: Reconocimiento de matrículas chinas en entornos complejos

Di Wang, Yumin Tian, ​Wenhui Geng, Lin Zhao, Chen Gong

PII: S0167-8655 (18) 30699-8

Aparecer en: Letras de reconocimiento de patrones

Fecha de recepción: 2 de mayo de 2018

Fecha revisada: 28 agosto 2018

• Se propone un método de reconocimiento de matrícula chino de extremo a extremo

• LPR-net evita el problema de acumular errores y mejora la precisión del

procedimiento de aprendizaje de LPR-net.

• LPR-Net supera a los métodos más avanzados en términos de precisión

Letras de reconocimiento de patrones

LPR-Net: Reconocimiento de matrículas chinas en entornos complejos

una Escuela de Informática y Tecnología, Universidad de Xidian, Xi'an, 710071, China

Nanjing, 210094, China

©C© 2018 Elsevier Ltd. Todos los derechos reservados.

se han propuesto varios algoritmos LPR para el reconocimiento automático de matrículas.

correo electrónico: ymtian@mail.xidian.edu.cn ( Yumin Tian)

El resto de este documento está organizado de la siguiente manera. La Sección 2 presenta

la propuesta LPR-Net y su estructura. La Sección 3 presenta el proceso de capacitación de

neuronales convolucionales (CNN) es el método de reconocimiento de caracteres más

segmentación sean lo suficientemente precisos.

tamaño y la salida es el número de placa de la imagen de entrada. Si no hay matrícula en las

2.1. La red básica

Red de reconocimiento de matrículas

NMS y Sort Bbox

Fig. 1. La estructura de la propuesta LPR-Net.

s max Escala máxima de la primera capa en red multiescala

re j ∈ pos Muestra positiva

w Alaska Ancho del cuadro predeterminado en el mapa de características del k- th capa

l mj Cuadro de predicción de la j- caja predeterminada

seleccionamos cuadros predeterminados con varias escalas en seis mapas de características de

profundas, un pequeño número de parámetros y evita la desaparición de gradientes que las

mapas de características se corta en pequeñas redes que se denominan celdas de mapas de

caracteres en las imágenes siempre tienen varias escalas. entidades. Gener-

dónde sol pags

re j significa el j- caja predeterminada

2.3. La red de regresión

características e información de ubicación de cada cuadro predeterminado a la red de regresión

La red de regresión es una capa de convolución con 1 × 1 ﬁ ltro. Su entrada es características de

pérdida de la regresión neta L loc ( X, l, sol)

predeterminado Celda de mapa de características

características se calcula como

s k = s min + s max - s min (1) el número de cajas candidatas.

dónde s k representa la escala mínima del cuadro predeterminado en el mapa de

el caso en que la relación de aspecto es igual a 1, agregamos un cuadro predeterminado cuya

k= √ s k s k + 1) Por lo tanto, hay

∣∣∣ sol pags ∣∣∣ ∣∣∣ sol pags ∣∣∣

dónde pags yo es la probabilidad normalizada de X perteneciente a la categoría soy es el

Tabla 3. Hiperparámetros de LPR-Net

dónde α es el peso de la pérdida de ubicación y su valor predeterminado es 1.

aprendizaje, lr política Es la estrategia de actualización de la tasa de aprendizaje. En este documento,

tasa de aprendizaje es igual a

gradiente estocástico (SGD).

converge muy rápido sin una oscilación obvia.

el experimento. La figura 5 muestra la precisión de reconocimiento promedio de la placa

MSER + COLOR LPR-Net

placa amarilla de pérdida placa amarilla y azul éxito

fracaso luz lluviosa y dura éxito

matrículas chinos de última generación, es decir, el método basado en MSER [34], el

método propuesto y la columna izquierda son los resultados de ubicación de la

El método basado en MSER extrae regiones de caracteres candidatos en nivel de

delimitadores de caracteres en entornos complejos.

Di Wang, Yumin Tian, Wenhui Geng, Lin Zhao, Chen Gong