Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cite este artículo como: Di Wang, Yumin Tian, Wenhui Geng, Lin Zhao, Chen Gong, LPR-Net: Reconocimiento de matrículas chinas en
entornos complejos, Cartas de reconocimiento de patrones ( 2018), doi:
https://doi.org/10.1016/j.patrec.2018.09.026
Este es un archivo PDF de un manuscrito sin editar que ha sido aceptado para su publicación. Como servicio a nuestros clientes,
proporcionamos esta versión temprana del manuscrito. El manuscrito se someterá a edición, composición tipográfica y revisión de la prueba
resultante antes de ser publicado en su forma final. Tenga en cuenta que durante el proceso de producción se pueden descubrir errores que
podrían afectar el contenido, y todas las renuncias legales que se aplican a la revista pertenecen.
MANUSCRITO ACEPTADO
1
Destacar
denominado LPR-net.
• Una e ff El esquema activo basado en la normalización por lotes se utiliza para acelerar el
DO
TA
EP
AC
T O
C RI
US
AN
M
MANUSCRITO ACEPTADO
2
Di Wang a, b, Yumin Tian una, ∗∗, Wenhui Geng una, Lin Zhao c, b, Chen Gong c, b
RESUMEN
La tecnología de reconocimiento de matrículas (LPR) ha estado atrayendo un interés creciente durante los últimos años por su papel exclusivo en el
DO
tráfico inteligente del mundo real ffi c sistemas de gestión. Debido a su importancia, se han desarrollado numerosos métodos LPR. Estos métodos
generalmente se componen de tres pasos de procesamiento, es decir, ubicación de la matrícula, segmentación de caracteres y reconocimiento de
caracteres. Sin embargo, el esquema de tres pasos siempre produce un rendimiento de reconocimiento insatisfactorio en entornos complejos
desafiantes como iluminación desigual, condiciones atmosféricas adversas, fondos complejos, placas de vehículos poco claras, cámaras de
TA
vigilancia de baja calidad, etc. En tales escenas, las placas obtenidas generalmente no son claro, lo que causará resultados imprecisos de
localización y segmentación. En consecuencia, la capacidad de reconocimiento es inadecuada ya que su rendimiento depende en gran medida de
la e ff efectos de localización y segmentación. Para abordar estos desafíos, proponemos un nuevo método de reconocimiento de matrículas de
EP
vehículos chinos para reconocer directamente las matrículas a través de una arquitectura de aprendizaje profundo de extremo a extremo llamada
red de reconocimiento de matrículas (LPR-Net). La LPR-Net es una arquitectura profunda híbrida que consiste en una red de error residual para
extraer características básicas, una red de múltiples escalas para extraer características de múltiples escalas, una red de regresión para localizar
AC
placas y caracteres, y una red de clasificación para el reconocimiento. Por otra parte, una e ff El esquema activo basado en la normalización por lotes
se utiliza para acelerar la velocidad de entrenamiento en el procedimiento de aprendizaje. Extensos experimentos demuestran que el método
propuesto logra una excelente precisión de reconocimiento y funciona de manera más robusta. ffi En comparación con los métodos más modernos
O
en entornos complejos.
T
RI
1. Introducción etapa de LPR, que extrae la región de la matrícula de acuerdo con algunas condiciones o
propiedades definidas [4]. Los resultados de LPL influirán directamente en las siguientes
El reconocimiento de matrículas (LPR) es un tema de investigación importante en
etapas de segmentación y reconocimiento de caracteres. Los métodos típicos de LPL
AN
visión por computadora [1], reconocimiento de patrones [2] y análisis visual [3]. Es
incluyen métodos basados en la detección de bordes [5] y métodos basados en el color [6]
ampliamente empleado en la gestión de estacionamiento, cobro electrónico de peajes,
[7]. Los métodos LPL basados en detección de bordes extraen características de textura
seguimiento de vehículos y tra ffi c administración de control, etc. Debido a su importancia,
para ubicar las placas. Sin embargo, son susceptibles a un área no válida alrededor de las
M
∗∗ Autor correspondiente:
fuera de la región de matrículas. Recientemente, se propone un método de conversión de aprendizaje profundo, a saber, la red neuronal de reconocimiento de matrículas (LPR-Net),
escala de grises con color deprimido [10] para ubicar las placas chinas. Alcanza una alta tasa para mejorar la precisión del reconocimiento en entornos complejos. La propuesta LPR-Net es
de ubicación en un 98.95%. Sin embargo, este método es fácilmente un ff afectado por el color una arquitectura profunda híbrida que consta de una red básica, una red multiescala, una red
de la carrocería del vehículo. de regresión y una red de clasificación. La figura 1 ilustra el diagrama de flujo de la red LPR
propuesta. Primero extrae características básicas profundas por la red básica. Luego, las
La segmentación de caracteres (CS) es el segundo paso de LPR, que ubica a características de múltiples escalas se extraen mediante una red de múltiples escalas para
cada personaje en el área de la matrícula. Existen muchos métodos de CS basados adaptarse a las placas con di ff Tamaños diferentes. En tercer lugar, la LPR-Net propuesta
en el análisis de componentes conectados (CCA) [11], proyección [12], cuantización localiza placas y caracteres por una red de regresión. Y finalmente, una red de clasificación
de nivel de grises [13], análisis de morfología [14] y coincidencia de plantillas [15] está diseñada para identificar personajes. El LPR-Net se entrena mediante el método de
[16]. Los métodos basados en CCA seleccionan el área conectada como candidatos propagación hacia atrás de forma integral y el algoritmo de normalización por lotes (BN) se
escaneando toda la placa. No requieren caracteres binarios rotos e intervalos utiliza para acelerar el entrenamiento. En comparación con las obras existentes, las
relativamente grandes entre cuadros y caracteres. Los métodos basados en principales contribuciones de la propuesta LPR-Net se resumen de la siguiente manera:
proyección proyectan la placa binaria extraída verticalmente para con fi rmar las
coordenadas iniciales y finales de los caracteres, y luego proyectan la región extraída
horizontalmente para extraer cada carácter por separado. Sin embargo, el carácter
chino como el chuan puede dividirse en varios caracteres por métodos basados en
• Al reconocer la matrícula de un extremo a otro, la red LPR propuesta evita
proyección. ff Diferentes niveles de gris, que son susceptibles al brillo. Los métodos
el problema de acumular errores, lo que degrada la precisión del
basados en la coincidencia de plantillas extraen las regiones candidatas de
reconocimiento de los métodos típicos de tres pasos, por lo que se mejora
caracteres que satisfacen el umbral de coincidencia deslizando la ventana dentro de
su precisión de reconocimiento.
la región de la matrícula. Sin embargo, una sola plantilla no puede acomodar
DO
caracteres sesgados y circunstancias complejas. Los métodos basados en regiones
extremas (ER) generan candidatos de caracteres mediante la búsqueda de regiones • Una e ff El esquema activo basado en la normalización por lotes se utiliza para acelerar el
extremas, luego los candidatos seleccionados se clasifican utilizando máquinas de procedimiento de aprendizaje de LPR-net.
vectores de soporte. Todos los métodos de segmentación de caracteres anteriores
TA • Los resultados experimentales exhaustivos demuestran que la LPR-Net
necesitan establecer adecuadamente algunos parámetros involucrados
propuesta supera a los métodos LPR de última generación en términos de
manualmente, por lo tanto, estos métodos no son lo suficientemente robustos para
precisión de reconocimiento y robustez en entornos complejos.
aplicaciones del mundo real.
EP
LPR-Net. Los resultados experimentales y las comparaciones con los métodos tradicionales se
El reconocimiento de caracteres (CR) es la tarea final de LPR. Se han utilizado muchas muestran en la Sección
técnicas de clasificación para CR, como las redes neuronales artificiales [17] [18], la máquina 4. Finalmente, se llega a conclusiones en la Sección 5.
O
de vectores de soporte (SVM) [19] [20], el clasificador vecino más cercano k [21] [22], el
clasificador AdaBoost [23] ] y clasificador bayesiano [24]. Recientemente, las redes
2. Red neuronal de reconocimiento de matrículas
T
Para evitar grandes errores acumulados en los métodos LPR de tres pasos típicos y mejorar el
caracteres es el módulo más robusto y confiable del sistema LPR. Por lo general, los
rendimiento de reconocimiento en entornos complejos desafiantes, en este documento se propone
caracteres se pueden identificar correctamente siempre que los resultados de localización y
un método de reconocimiento de extremo a extremo basado en una red neuronal de convolución
C
imágenes de entrada, LPR-net generará "sin licencia". La propuesta LPR-Net es una arquitectura
La abrumadora mayoría de los métodos de reconocimiento de matrículas profunda híbrida que consta de una red básica, una red multiescala, una red de regresión y una red
existentes utilizan el esquema de procesamiento de tres pasos anterior para de clasificación. Su estructura se muestra en la Fig. 1. En primer lugar, LPR-Net cambia el tamaño
AN
reconocer las matrículas [27] [28]. Sin embargo, el esquema de tres pasos causará de la imagen de entrada a 500 × 500 píxeles Luego, la imagen redimensionada se ingresa a la red
un rendimiento de reconocimiento insatisfactorio en entornos complejos desafiantes básica para obtener características básicas. Después de eso, las características básicas se
como iluminación desigual, condiciones atmosféricas adversas, fondos complejos, ingresan a la red de múltiples escalas para obtener características de múltiples escalas.
M
placas de vehículos poco claras y cámaras de vigilancia de baja calidad [29]. En un Finalmente, las características de múltiples escalas se ingresan en la red de regresión y en la red
entorno complejo, es di ffi culto para obtener un resultado preciso de cada paso. Como de clasificación para ubicar la placa e identificar los caracteres. La Tabla 1 enumera las principales
el paso posterior depende en gran medida del paso anterior, la incompetencia del anotaciones y descripciones utilizadas en este documento.
paso anterior será seriamente un ff afecta el desempeño del paso posterior. Por lo
tanto, se acumularán errores de localización y segmentación que dificultarán el
rendimiento de reconocimiento final.
ResNet
res3b3_relu
res5c_relu
10
conv1_2
conv2_2
19 55
Regresión
conv3_2
Bbox
10 3 3 piscina6
19 5
11
500 500
• 粤 B9A28S
Red básica Red multiescala Red de clasificación
neta de regresión
X
Tabla 1. Anotaciones y descripciones.
Descripción del símbolo
α Peso de pérdida de ubicación
Entrada / grupo
norte Número de muestras positivas
norte Número de cajas candidatas
norte yo Número de cajas de verdad de tierra del yo- th categoría
DO
Conv. F (x)
cx Coordenada horizontal del punto central de cajas Identidad: X
H (x)
cy Coordenada vertical del punto central de cajas
Escala mínima del cuadro predeterminado en el mapa de características del
sk
k- capa de convolución Relu
TA
s min Escala mínima de la primera capa en red multiescala F (x)
h Alaska Altura del cuadro predeterminado en el mapa de características del k- th capa Fig. 2. La estructura de ResNet.
sol Pi los yo- la caja de verdad básica de la pags- th categoría
Indica si el j- El cuadro candidato coincide con el y ángulos Para adaptarse a di ff En diferentes situaciones, extraemos características de
X pij
O
yo- la caja de verdad básica de la pags- th categoría múltiples escalas mediante una red de múltiples escalas para hacer que LPR-Net sea más
Relación de superposición de la yo- la caja de verdad básica y la j- caja predeterminada robusto. La red multiescala involucra seis capas que son res3b3 relu capa, res5C relu capa, conv1
J pij
T
2 capa, conv2 2
Probabilidad de que el k- La muestra positiva pertenece al yo- th
RI
PAGS ik
capa, conv3 2 capa y piscina6 capa. los res3b3 relu capa y res5C relu capa son
categoría
capas originales en ResNet. Las descripciones detalladas sobre ellos pueden
referirse a [30]. Los parámetros de
C
conv1 2 capa, conv2 2 capa y conv3 2 capa se muestran en la Tabla 2. Piscina6 La capa es una capa de
Tabla 2. Parámetros de la red multiescala
US
Capas Relleno Tamaño de grano Paso Números de salida agrupación promedio global. Podemos obtener seis mapas de características de múltiples escalas por
conv2 1 00 1 1 256 estas capas. Las muestras de los mapas de características se muestran en la Fig. 3. Luego, calculamos
conv2 2 1 3 2 512
las escalas máximas y mínimas de cada capa para controlar los tamaños de los cuadros
conv3 2 1 3 2 512
predeterminados mediante una estrategia de transformación de múltiples escalas. Después de eso,
AN
múltiples escalas. Finalmente, los valores de píxeles de los cuadros predeterminados se tratan como
para LPR [30]. Además, tiene ventajas de convergencia rápidamente estable, capas
características de escala múltiple.
M
características como se muestra en la Fig. 4 (b) y (c). En cada mapa de características, seis cuadros
predeterminados con di ff Se generan diferentes relaciones de aspecto para cada celda del mapa de
2.2. La red multiescala
características, que se muestra en la Fig. 4 (b) con un cuadro rectangular formado por una línea de
En el sistema de reconocimiento de matrícula del vehículo, la región de la matrícula y los puntos. El punto central de cada cuadro predeterminado es el mismo que el de la celda del mapa de
para obtener cuadros de predicción de placa y caracteres. Y luego, los errores entre los cuadros
conv1 res3b3_relu res5c_relu
de predicción y la verdad básica se vuelven a propagar para afinar la información de ubicación.
∑norte ∑
L loc ( X, l, g) = ij · suave( l mj - ˆ sol mi j), (3)
j ∈ pos metro ∈ { cx, cy, w, h} X pags
(a) verdad fundamental (b) Mapa de características 8 x 8 (c) Mapa de características 4 x 4
Fig. 4. Mapa de funciones con cuadros predeterminados. (a) es la imagen original con cuadros de verdad de dos
sol cx i - re cx sol cy i - re cx
j ∈ pos j ∈ pos
caracteres; (b) muestra las celdas del mapa de características que se seleccionan de un 8 × 8 mapa de características y sus
ŝol cx ij =
sol ŝol cy ij =
sol
DO
6 cuadros predeterminados correspondientes; (c) muestra una celda de mapa de características y sus cuadros re wj ∈ pos re wj ∈ pos
predeterminados correspondientes en un 4 4 × 4 4 mapa de características y cuatro elementos de ubicación (loc) y una , (4)
confianza de categoría (conf) de un cuadro predeterminado.
ŝol wi j = log (g Wisconsin
sol ) ŝol hola j = Iniciar sesión(
sol ) sol Hola
re wj re hj
TA
{ 0,5 X,
El | x | < 1
Ally, la matrícula china tiene dos especificaciones: 220 × 440 y 140 × 440 mm, y la liso (x) = (5)
El | x | - 0.5, El | x | ≥ 1,
especificación de cada personaje es 45 × 90 mm. Teniendo en cuenta que las placas
EP
pueden inclinarse, el rango de valores de la relación de aspecto una r del cuadro dónde re mj ∈ pos representa el j- Muestra positiva, ˆ sol mi j es el po-
predeterminado en este documento es desviación de posición entre el yo- Muestra positiva re metro
yo ∈ pos y el
una r ∈ { 1, 2, 3, 1 j- caja de verdad básica sol mj cx y cy representa las coordenadas horizontales y verticales del
AC
2, 7 22}.
punto central de cualquier cuadro respectivamente, w y h representan el ancho y la altura de
cualquier cuadro respectivamente, l mj representa el cuadro de predicción de la j- caja
2.2.2. Estrategia de transformación a múltiples escalas
predeterminada, suave ( l mj - ˆ
La propuesta LPR-Net utiliza una estrategia de transformación de múltiples escalas para determinar sol mi j) representa la función de suavizado de errores de la
O
la altura y el ancho del cuadro predeterminado. La escala del cuadro predeterminado para cada mapa de
cuadro de predicción y el valor de desviación de posición, X pags
ij indica
T
características del k- th capa de convolución. También es la escala máxima de la ( k + 1) -th 2.4. La red de clasi fi cación
US
capa de convolución. metro es el número de capas de red multiescala y es igual a 6 en este Las características de múltiples escalas de las muestras positivas se ingresan
documento. s min y s max finalmente a la red de clasificación para el reconocimiento del carácter de la licencia. El
representan la escala mínima y la escala máxima de la primera capa en la red multiescala clasificador softmax se aplica como la red de clasificación para calcular la probabilidad de
AN
respectivamente. El ancho del cuadro predeterminado es w ak = s k la clase de caracteres de la muestra de entrada, para su clasificación alta e ffi ciency y e ff actividad
√ una r, y la altura es h ak = s k / √ una r en el mapa de características de la k- th capa Para
yo ∩ re j yo ∩ re j
J pij = ∣∣∣ sol pags
∣∣∣ = ∣∣∣ sol∣∣∣pags
+ ∣∣∣ re ∣∣∣
j - ∣∣∣ sol pags ∣∣∣, (2) X) nj = 1 mi z yo( X) ,
pags yo( x) = entonces f tmax (z yo( x)) = e z yo(∑ i = 1, 2, ... m, ( 7)
yo ∪ re j yo yo ∩ re j
MANUSCRITO ACEPTADO
66
El objetivo de la red de clasificación es maximizar pags yo( X), Lo que significa que - log
(p yo( X)) debe ser minimizado Definimos la clase 0 como fondo, por lo que el propósito de
la clasificación gira para maximizar la probabilidad de muestras negativas. re j ∈ neg que
pertenecen a la categoría 0, es decir, minimizar - Iniciar sesión( pags 0 ( x = d j ∈ neg)).
Por lo tanto, la función de error de confianza de clase L con f ( X, pags) de la red de clasificación
se define como
∑metro ∑norte yo
∑
sesión( pags j
L con f ( X, p) = ( - norte X ikj Iniciar Iniciar sesión( pags(8)
-∑
0 0 k)),
k)
Fig. 5. Tasas de reconocimiento promedio de LPR-Net con BN y LPR-Net sin BN.
i=1 j=1 k ∈ pos k ∈ neg
dónde X yo
kj indica si el k- La muestra positiva coincide con j- caja de verdad de la
DO
Entonces la función de pérdida general L ( X, pags, l, sol) de la LPR-Net propuesta se puede
3.2. Selección de hiperparámetros
obtener combinando la función de pérdida de ubicación L loc ( X, l, sol) y la función de pérdida de
clasificación L con f ( X, pags) como En el proceso de entrenamiento de redes neuronales profundas, la selección de
hiperparámetros tiene una gran influencia en el rendimiento. Los hiperparámetros son
TA
configuraciones externas de la red neuronal, y sus valores no se pueden aprender de los
L ( X, pags, l, g) = 1 (9)
norte( L con f ( X, pags)) + α L loc ( X, l, sol), datos. Para un problema dado, no podemos conocer los valores óptimos de los
hiperparámetros. A pesar de esto, podemos encontrar empíricamente valores deseables
EP
3. Detalles de implementación
base lr es la tasa básica de aprendizaje gama es un factor de actualización de la tasa de
para normalizar la entrada de cada capa de convolución en la red multiescala [33]. es la función de activación, y la función ReLu se selecciona en este documento. tipo representa
la estrategia de optimización de la función de pérdida y se utiliza el método de descenso de
RI
3.1. Normalización por lotes decadencia de peso es el factor de atenuación de peso para evitar el sobreajuste. impulso
C
es un factor de impulso que permite que la red aprenda más rápido cuando la superficie
Para mantener el patrón de distribución original de los datos de entrada en la medida de lo posible, curva perdida es plana. BN
US
se agrega una capa BN después de cada capa multiescala para evitar que las operaciones de muestra si se utiliza la capa BN. LPR-Net fue entrenado por estos hiperparámetros
convolución destruyan las características de las capas anteriores. La normalización de lotes se define con 120,000 iteraciones en los siguientes experimentos. La curva de pérdida de
como entrenamiento de LPR-Net se muestra en la Fig. 6. Se puede ver que LPR-Net
AN
y ( k) = γ ( k) X( k)√- Var
E (x(x
( k))( k)) + β ( k) (10)
M
4. Resultados experimentales
dónde k representa el k- th capa, X( k) es la entrada de la k- th capa, Ex( k)) es la
media de X( k) Var (x ( k)) es la varianza de Esta sección evalúa el rendimiento de la propuesta LPRNet. La
X( k) γ ( k) y β ( k) Son dos parámetros de normalización. Al agregar la capa BN, el tiempo de configuración de hardware en los siguientes experimentos es GPU GeForce
entrenamiento de LPR-Net con 70,000 iteraciones se acortó de 8.2 horas a 5.6 horas en GTX 1080 y Dell Precision Tower 7810 RAM32G.
Fig. 6. Curva de pérdida de entrenamiento.
El método bootstrapping
se utiliza para dividir el conjunto de datos en un conjunto de entrenamiento
y un conjunto de prueba. En primer lugar, tomamos muestras al azar de una muestra del conjunto fracaso borrosidad en la niebla éxito
de datos original. metro tiempos y trato metro datos muestreados como conjunto de entrenamiento.
Luego, el resto de los datos no muestreados se sirven como el conjunto de prueba. En nuestros
experimentos metro es igual a 2 000 y hay 685 datos de prueba. Además, ampliamos el conjunto de
prueba original a otros tres conjuntos de prueba de OpenCV para mostrar la capacidad de
DO
generalización y la solidez de LPR-Net en un entorno complejo. Elegimos imágenes que se toman
durante el día del conjunto de prueba original para formar el conjunto de día (524 imágenes). Luego,
elegimos al azar 410 imágenes del conjunto de prueba original y reducimos el valor de brillo de
fracaso refugio en la nieve éxito
cada píxel de la imagen en un 50% para formar el conjunto nocturno. Del mismo modo, formamos
TA
un conjunto asimétrico y un conjunto difuso al elegir 410 imágenes al azar del conjunto de prueba
original y rotamos las imágenes entre 5 y 10 grados y filtramos las imágenes entre 5 × 5 fi ltro
EP
gaussiano respectivamente.
AC
La propuesta LPR-Net se compara con tres métodos de reconocimiento de Fig. 7. Comparación de la ubicación de la matrícula en entornos complejos.
O
de matrícula estándar. El método basado en MSER apenas puede extraer los cuadros
El método basado en CNN [10] presenta un algoritmo de borde de color para localizar la
US
para las placas azules y amarillas más comunes. Este método utiliza la propiedad
de reconocimiento de caracteres es alto, es fácilmente un ff efectuado por el método de ubicación
concomitante de color y las transiciones entre el fondo y los caracteres, y elimina las
de la placa y el método de segmentación de caracteres en un contexto complejo
placas falsas y reserva las placas reales. Además, elimina las placas falsas utilizando la
relación entre el ancho del trazo y el tamaño de los caracteres. Puede seleccionar el
M
Tabla 4. Resultados experimentales de LPR-Net. Tabla 5. Precisión de ubicación de la matrícula en el día y la noche
Conjunto de datos LDR CCRR ACRR OP1 OP2 conjunto nocturno (%) día establecido (%)
Método
día establecido 99.8% 99.6% 99.8% 99.1% 99.2% Recuperar puntaje F de precisión Recordar puntaje F de precisión
noche 99.8% 99.8% 99.3% 96.4% 98.9% LPR-Net 99,88 99,16 99,52 99,76 99,51 99,63
torcido 99.7% 99.7% 98.8% 93.9% 99.2% Basado en MSER 98.94 98,75 98.84 97.46 97,59 97,53
conjunto difuso 99.8% 98.9% 99.0% 93.7% 97.7% Color basado 94.17 91,69 92.91 97.95 93,54 95,70
Promedio 99.8% 99.5% 99.2% 95.8% 98.8% Basado en CNN 93.90 94,28 94.09 97.46 97,68 97,57
DO
Número de matrícula real : 赣 C5V253
CCRR = Número de caracteres chinos correctamente reconocidos . Número de placa reconocido: 赣 C5V253
Número de todos los caracteres chinos reales
(12)
TA Fig. 8. Un ejemplo del caso cuando los colores de la matrícula y el cuerpo son similares.
ACRR = Número de caracteres alfanuméricos reconocidos correctamente .
Número de todos los caracteres alfanuméricos reales.
(13)
EP
Retirada = TP (dieciséis)
PAGS ,
T
Precisión = TP (17)
RI
FP + TP,
Recordar + Precisión
donde TP significa positivos detectados verdaderos, FP significa positivos detectados Número de matrícula real : 粤 B1KF45
US
establecido es tan alta como 99.1%. Esto muestra que el LPR-Net propuesto tiene una intensa. La figura 11 muestra que LPR-Net reconoció con precisión la matrícula
alta tasa de reconocimiento y una mayor robustez en entornos complejos. seriamente sesgada sin corrección de ángulo.
Para mostrar intuitivamente los resultados de reconocimiento de LPR-Net, La ubicación de la matrícula es una tarea importante del reconocimiento de la
mostramos algunos ejemplos concretos en las Figs. 8, 9, 10 y 11. La figura 8 muestra matrícula. Mostramos los resultados de comparación de LPR-Net y los métodos de
el caso en que los colores de la matrícula y el cuerpo son similares y los caracteres referencia en la tarea de ubicación de matrículas en el día y la noche en la Tabla 5. Se
están algo rotos. Se puede ver que LPR-Net todavía puede localizar e identificar con puede ver que el LPR-Net propuesto tiene un puntaje F, memoria y precisión más altos
precisión la matrícula. Cuando la iluminación es seriamente insuficiente ffi cient en la que otros Algoritmos de ubicación de placas en la noche y en el día. El puntaje F de
noche y los personajes son defectuosos, el número de placa LPR-Net es tan alto como 99.52% y 99.63% en respeto nocturno y diurno
subred?
99
La propuesta LPR-Net es una arquitectura profunda híbrida que consta de una red básica, una red multiescala, una red de regresión y una
clasificación.
Tabla 6. Comparación Para con
de rendimiento mostrar
otroslamétodos
efectividad de cada
chinos subred, realizamos experimentos para analizar la contribución de diferentes etapas en LPR-
de LPR
día establecido (%) conjunto nocturno (%) torcido (%) conjunto difuso (%) OP1
Método resultados se informan en la Tabla 7. En la Tabla 7, "LPR-Net" representa la LPR-Net propuesta, " VGG-BasicNet "indica que la red básica R
CCRR ACRR OP1 CCRR ACRR OP1 CCRR ACRR OP1 CCRR ACRR OP1 promedio (%)
reemplaza por VGGnet en LPR-Net," SSD-ScaleNet "representa la red de múltiples escalas en LPR-Net se reemplaza por la estrategia de es
LPR-Net 99,64 99,83 99,10 99,81 99,32 96,42 99,71 98,83 93,91 98,92 99,01 93,68 95,78
Basado en MSER 96,98 97,45 95,36 95,67 SSD-Net y" LPR-Net93,51
98,67 sin BN ”representa
93,55 la propuesta
98,67 LPR-Net sin normalización
93,65 96,93 por lotes.
97,16Se puede 91,21
ver que la LPR-Net
93,43 propuesta siempre l
Basado en el color 97,64 95,15 93,54 94,16 mejor rendimiento.
94,76 Esto muestra la
90,37 efectividad de
95,67 la red básica,
96,43 la red de múltiples
92,03 91,21 escalas y la batmalización.
93,57 91,99 Como la red de regresión y la r
91,92
Basado en CNN 96,55 98,67 96,35 99,26 son indispensables
99,06 clasificación 91,96 y93,78 95,37 usar otros
también se pueden 90,97métodos 98,63 98,69
efectivos de regresión 90,87
y clasificación para92,54
LPR-Net, no hicimos exp
separados sobre ellos. A partir de los resultados experimentales, podemos conocer la efectividad de la red de regresión y la red de clasificaci
DO
Q2 Los efectos de la normalización de lotes deben evaluarse para respaldar la afirmación del documento.
otros métodos chinos de LPR en cualquier conjunto de datos. Además, el OP1 promedio del
Fig. 10. Un ejemplo del caso cuando la placa es pequeña y borrosa. puede ver que ACRR siempre es más alto que CCRR, esto muestra que el reconocimiento de
Para mostrar la efectividad de cada subred, realizamos experimentos para analizar la contribución de diferentes etapas en LPR-Net
caracteres chinos es más di ffi culto que el reconocimiento alfanumérico.
EP
resultados se informan en la Tabla 7. En la Tabla 7, "LPR-Net" representa la LPR-Net propuesta, " VGGBasicNet "indica que la red básica
reemplaza por VGGnet en LPR-Net," SSD-ScaleNet "representa la red multiescala en LPR-Net se reemplaza por la estrategia de escala d
El tiempo promedio de reconocimiento de LPR-Net y las líneas de base en cuatro conjuntos
y" LPR-Net sin BN "representa el
de datos se presenta en la Tabla 7. De la Tabla 7, podemos ver que LPR-Net cuesta solo 0.2
AC
veces Más rápido que otros métodos. La razón principal es que la mayor parte del tiempo se
2
dedica a la ubicación de la placa y la segmentación de caracteres de los métodos de referencia.
Como resultado, el LPR-Net propuesto puede cumplir mejor los requisitos de aplicación práctica
O
red básica, una red multiescala, una red de regresión y una red de clasificación.
Para mostrar la e ff Efectividad de cada subred, realizamos experimentos para
analizar la contribución de diferentes etapas en LPR-Net y los resultados se
C
son más sólidos que los métodos de referencia. Como se puede ver en los resultados de la regresión activa y clasificación también se pueden usar para LPRNet, no hicimos
comparación, la tasa de detección y la solidez de la LPR-Net en el entorno complejo son experimentos separados sobre ellos. A partir de los resultados experimentales,
mejores que los métodos de referencia. podemos conocer el e ff La efectividad de la red de regresión y de la red de
clasificación ya que la tasa de reconocimiento siempre es mayor al 95%.
El LPR-Net propuesto es un algoritmo de reconocimiento de matrículas de
extremo a extremo, que incluye la localización y el reconocimiento de placas y
caracteres. La Tabla 6 muestra CCRR, ACRR y OP1 del método propuesto y
otros métodos LPR chinos en los cuatro conjuntos de datos. Como se puede ver
en la Tabla 6, el método propuesto logra la OP1 más alta en comparación con La tasa de aprendizaje básica es uno de los hiperparámetros más importantes para
entrenar redes neuronales profundas. En este artículo, nosotros
MANUSCRITO ACEPTADO
El gráfico de OP1 con el aprendizaje base diferente 10
Velocidad
1.00
Referencias
0,95 [1] L. Zhu, J. Shen, L. Xie, Z. Cheng, hashing visual sin supervisión con
asistente semántico para la recuperación de imágenes basadas en contenido, Transacciones IEEE sobre
OP1
0,90 conocimiento e ingeniería de datos 29 (2017) 472–486. [2] L. Zhu, J. Shen, L. Xie, Z. Cheng, hash de
hipergrafía de tema sin supervisión
0,85 delantero ffi Recuperación de imágenes móviles cientificas, transacciones IEEE en cibernética 47 (2017)
3941–3954.
0,80 [3] L. Zhu, J. Shen, H. Jin, R. Zheng, L. Xie, contenido visual basado en contenido
0.0001 0.0003 0.0006 0.0009 0.001 0.003 0.006 0.009 0.01 búsqueda de marcas mediante aprendizaje hipergráfico multimodal, transacciones IEEE en cibernética
Tasa de aprendizaje 45 (2015) 2756–2769. [4] D. Zheng, Y. Zhao, J. Wang, An e ffi método eficiente de ubicación de la matrícula,
día noche torcido borroso Cartas de reconocimiento de patrones 26 (2005) 2431–2438. [5] B. Hongliang, L. Changping, un
método híbrido de extracción de matrículas
basado en estadísticas y morfología de vanguardia, en: Conferencia Internacional sobre
Fig. 12. OP1 versus tasa de aprendizaje básico.
Reconocimiento de Patrones, 2004, pp. 831–834 Vol.2. [6] F. Wang, L. Man, B. Wang, Y. Xiao, W. Pan, X.
Lu, algo basado en Fuzzy
Ritmo para el reconocimiento del color de las placas, Pattern Recognition Letters 29 (2008)
muestre experimentalmente las variaciones de rendimiento con la tasa de aprendizaje para 1007-1020.
LPR-Net. La figura 12 muestra las variaciones de OP1 con la tasa de aprendizaje en los cuatro [7] Y. Tian, J. Song, X. Zhang, P. Shen, L. Zhang, W. Gong, W. Wei, G. Zhu,
Un algoritmo combinado con color di ff Modelos diferenciales para la ubicación de la matrícula,
conjuntos de datos. Se puede ver que los valores de OP1 primero aumentan y luego disminuyen
Neurocomputing 212 (2016) 22–35. [8] M. Rasooli, S. Ghofrani, E. Fatemizadeh, detección de
y alcanzan el mejor rendimiento cuando la tasa de aprendizaje es igual a 0.001. Por lo tanto, la matrícula farsi
tasa de aprendizaje básica de LPR-Net se puede elegir para estar alrededor de 0.001. basado en el análisis de elementos y el reconocimiento de caracteres, International Journal of
Signal Processing Image Processing y P 4 (2013) 697 - 700. [9] J. Chen, HE Xiao-Hai, QZ Teng,
Localización de matrículas basada en
DO
mser, Science Technology & Engineering 247 (2015). [10] Y. Liu, H. Huang, J. Cao, T. Huang,
Redes neuronales convolucionales basadas
Reconocimiento inteligente de matrículas chinas, Soft Computing (2017) 1–17.
5. Conclusiones
TA [11] K. Kanayama, Y. Fujikawa, K. Fujimoto, M. Horino, Desarrollo de
sistema de reconocimiento de número de licencia de vehículo que utiliza el procesamiento de imágenes en tiempo real y
extremo a extremo llamado red de reconocimiento de matrícula. Es una arquitectura profunda 798–804.
[12] KMV Deneen, un algoritmo para el reconocimiento de matrículas aplicado a
híbrida que consiste en una red de errores residuales para extraer características básicas,
sistema de transporte inteligente, IEEE Transactions on Intelligent Transportation Systems 12
una red de múltiples escalas para extraer características de múltiples escalas, una red de (2011) 830–845.
AC
regresión para localizar placas y caracteres, y una red de clasificación para reconocimiento. [13] J. Jiao, Q. Ye, Q. Huang, un método configurable para la licencia de varios estilos
reconocimiento de placas, Pattern Recognition 42 (2009) 358–369. [14] W. Zou, C. Bai, K. Kpalma,
Al reconocer los caracteres de la placa de una manera de extremo a extremo, evita errores
J. Ronsin, transferencia glocal en línea para auto-
acumulativos en el esquema tradicional de tres pasos y, por lo tanto, identifica los caracteres
segmentación matic fi gure-ground., IEEE Transactions on Image Processing 23 (2014)
de la placa con mayor precisión. Por otra parte, una e ff El esquema activo basado en la 2109–2121.
O
normalización por lotes se utiliza para acelerar la velocidad de entrenamiento en su [15] I. Paliy, V. Turchenko, V. Koval, A. Sachenko, Enfoque para el reconocimiento
ción de números de matrículas utilizando redes neuronales, en: IEEE International Joint
procedimiento de aprendizaje. Extensos experimentos en un complejo conjunto de datos de
T
Conference on Neural Networks, 2004. Proceedings, 2004, pp. 2965–2970 vol.4. [16] NF Gazc´
matrículas chinas han demostrado que la red LPR propuesta supera a varios métodos de
RI
vanguardia en términos de precisión y precisión. ffi ciency. en CI Ches˜ nevar, SM Castro, identificación automática del vehículo
catión para placas argentinas que utilizan la coincidencia inteligente de plantillas, Pattern
Recognition Letters 33 (2012) 1066-1074. [17] MH Dashtban, Z. Dashtban, H. Bevrani, Un nuevo
C
(2013) 22–30.
[18] F. Gao, J. Yu, S. Zhu, Q. Huang, Q. Tian, predicción de calidad de imagen a ciegas
explotando representaciones profundas de varios niveles, Pattern Recognition 81 (2018) 432–442.
Expresiones de gratitud
AN
Este documento fue apoyado en parte por la Fundación Nacional de Ciencias Transactions on Knowledge and Data Engineering 28 (2016) 3191–3202. [20] S. Wang, X. Li, L. Yao, QZ
Sheng, G. Long, et al., Learning multiple di-
Naturales de China bajo Grant 61702394, Grant 61572385 y Grant
M
códigos de diagnóstico para pacientes con icu con minería local de correlación de enfermedades, ACM
61711530248, en parte por la Fundación de Ciencias Postdoctorales de China Transactions on Knowledge Discovery from Data (TKDD) 11 (2017) 31. [21] C. Patel, A. Desai, Gujarati
bajo Grant 2018T111021 y Grant 2017M613082, en parte por el Proyecto de reconocimiento de caracteres escritos a mano usando hy-
Ciencia y Tecnología de Shaanxi Provincia bajo Grant 2016GY-033, en parte por método brid basado en clasificador de árbol binario y vecino k más cercano, Esrsa Publications
(2013).
el Programa de Investigación y Desarrollo Clave Shaanxi bajo Grant
[22] L. Zhu, J. Shen, H. Jin, L. Xie, R. Zheng, Clasificación de Landmark con
2017ZDXM-GY-002, en parte por la Fundación de Ciencias Aeronáuticas de característica ejemplar multimodal jerárquica, IEEE Transactions on Multimedia 17 (2015)
China bajo Grant 20171981008, y en parte por los Fondos Fundamentales de 981–993. [23] T. Jindal, U. Bhattacharya, Reconocimiento de o ffl ine número manuscrito
[25] H. Li, C. Shen, Lectura de matrículas de automóviles usando neural convolucional profundo
nition, en: Computer Vision and Pattern Recognition, 2016, pp. 770–778. [31] S. Ren, K. He, R.
Girshick, J. Sun, R-cnn más rápido: hacia un objeto en tiempo real
detección con redes de propuestas regionales, en: Avances en sistemas de procesamiento de
información neuronal, 2015, pp. 91–99.
[32] Y. LeCun, B. Boser, JS Denker, D. Henderson, RE Howard, W. Hub-
bardo, LD Jackel, propagación hacia atrás aplicada al reconocimiento de código postal escrito a
mano, cálculo neuronal 1 (1989) 541–551. [33] S. Io ff e, C. Szegedy, Normalización por lotes: acelerar el
entrenamiento de redes profundas al reducir el cambio interno de covariables (2015) 448–456. [34] B. Li,
B. Tian, Q. Yao, K. Wang, reconocimiento de matrícula de un vehículo
sistema basado en el análisis de regiones extremas máximamente estables, en: IEEE International
DO
Conference on Networking, Sensing and Control, 2012, pp. 399–404.