Está en la página 1de 4

Automatización del monitoreo de un Sistema BRT

mediante Computer Vision


Camilo Torres Mestra
Estudiante Ingenierı́a Mecatrónica
Universidad Nacional de Colombia
Bogotá
juctorresme@unal.edu.co

Resumen—La congestión presentada en Sistemas de Buses monitoreo de circuitos cerrados de televisión. No obstante, a
de Tránsito Rápido (BRT por sus siglas en inglés) se debe medida que el tamaño de estos sistemas se incrementa, se hace
en esencia a una ineficiente distribución de la flota y de la más complejo para los operadores supervisar todos los datos
frecuencia de los buses, que no logra atender a las demandas
reales de los usuarios en las horas más crı́ticas de operación. disponibles. En el caso especı́fico de Bogotá, esta tarea es
Sin embargo, los métodos actuales carecen de la capacidad asumida por el C-4 de la policı́a, cuya misión principal está
técnica para analizar y evaluar los escenarios de operación, enfocada en la seguridad y no en la planeación de operaciones
puesto que el comportamiento orgánico de los usuarios hace logı́sticas.
difı́cil definir adecuadamente horarios de salida de los buses. Lo anterior plantea la necesidad de automatizar el proceso de
Esta investigación propone aprovechar los sistemas de vigilancia
actualmente disponibles en el Sistema TransMilenio (TM) de la análisis de multitudes en el Sistema TransMilenio, haciendo
ciudad de Bogotá, y mediante la implementación de una red uso de las herramientas tecnológicas disponibles, tales como
neuronal convolucional, obtener en tiempo real datos acerca de las cámaras de seguridad instaladas en las distintas estaciones
los usuarios que esperan en las plataformas de abordaje y en las del STM.
estaciones, logrando una aproximación al comportamiento real Existen actualmente 4 tipos de técnicas principales utilizadas
de los mismos y facilitando la distribución logı́stica de la flota con
datos veraces, proporcionados automáticamente por el sistema. para esta tarea. La primera de ellas está basada en la detección
También se propone una arquitectura de red para conectar las de rasgos caracterı́sticos proporcionados por un dataset anota-
cámaras a diversos centros de cómputo donde se procesarán las do. Este tipo de algoritmos escanean caracterı́sticas comunes al
imágenes. Finalmente, se obtuvieron resultados de precisión de compararlas contra un clasificador, con el fin de encontrar un
tanto porciento para las imágenes analizadas, capturadas en una patrón de identidades (como siluetas de personas). Estos son
estación del sistema.
Index Terms—BRT, TransMilenio, intervalos, frecuencia, visión
los algoritmos predilectos para sistemas basados en detección
por computador, análisis de multitudes de rostros, sin embargo su desempeño resulta ser muy pobre
al implementarse sobre sistemas de vigilancia debido a la baja
resolución de las imágenes.
I. I NTRODUCCI ÓN
En segunda instancia están los métodos basados en Clusters,
Los Buses de Tránsito Rápido se presentan como una solu- cuyo principio se basa en asumir que una caracterı́sitca dada
ción al problema de movilidad urbana y de transporte masivo es constante para todos los individuos en el grupo, y que por lo
ya que cuentan con un carril exclusivo para su recorrido, lo tanto, al rastrear su movimiento se pueden obtener pequeños
cual disminuye el tiempo de los trayectos al compararlo con conjuntos que representan entidades que se mueven de manera
el sistema tradicional de buses que transitan por el tráfico indepente. A pesar de que estos modelos no requieren datos de
mixto. Además, su costo de operación y de construcción de entrenamiento anotados, presentan serias desventajas cuando
infraestructura es muchı́simo menor al de otros sistemas de los sujetos de análisis permanecen quietos durante mucho
transporte masivo como el metro. No obstante, la ineficiente tiempo, o existen varios individuos que comparten trayectorias,
asignación de la flota que ocasiona el aumento en el tiempo por lo tanto no resultan óptimos para el análisis de multitudes
de espera de los usuarios, es uno de los principales factores en un sistema de buses en donde muchos pasajeros permane-
de percepción del mal servicio del transporte. Además, la cerán de pie en su sitio mientras esperan la llegada de un bus.
acumulación de los usuarios en las puertas y plataformas de Existen también técnicas basadas en Regresión de Carac-
abordaje causan embotellamientos que a su vez ocasionan terı́sticas, que consisten en extraer de una imagen los rasgos
retrasos. de bajo nivel (low-level features) tales como los pixeles del
El objetivo de una operación óptima será reducir el tiempo de fondo o los bordes de la imagen, estos datos después se
espera, y de usuarios que se queden esperando a un segundo pasan por un modelo de regresión junto con el número de
bus, mientras se utiliza la flota disponible de manera adecuada. personas presentes, como parte de los datos de entrada de
Para lograr estos objetivos, los operadores logı́sticos de TM entrenamiento. Pese a que este método es uno de los más
se apoyan de estadı́sticas de usuarios recopiladas por méto- usados en la actualidad debido a la baja complejidad de su
dos convencionales de estimación de multitudes mediante el implementación, son modelos que son extremadamente sensi-
bles a los cambios en la perspectiva. Lo anterior implica que modelo está en que el modelo rechace el fondo de la imagen y
la implementación sobre un sistema de cámaras de seguridad empareje los objetos no rechazados con los modelos humanos
requerirı́a de la implementación y entrenamiento para cada anteriormente aprendidos, en contraposición a otros modelos
una de las cámaras de seguridad que existan, resultando en que se basaban en detectar el movimiento de un objeto y
el aumento exponencial de la complejidad que requiere su emparejarlo con el movimiento natural de una persona. Este
instalación. estudio concluye además, que utilizar esta estrategia resulta
Finalmente introducimos los modelos basados en redes neu- ser más eficiente a nivel computacional.
ronales, cuya principal ventaja radica en la capacidad de El principio teórico detrás de la aplicación de una red neuronal
“descubrir” patrones ocultos que pueden ser de utilidad en la se basa en el concepto de un mapa de densidad, en donde la
tarea de contar personas y que no son por defecto intuitivos, integral (suma) sobre una subregión es igual al número de
además pueden ajustarse a caracterı́sticas de la imagen que objetos en esa región. Los valores de densidad se estiman a
dificultan su evaluación, tales como la resolución, la escala, partir de los datos de bajo nivel (low-level features), por lo
la perspectiva e incluso la iluminación. Debido a esto, los tanto se comparte cierta afinidad con los modelos basados en
método basados en redes neuronales pueden ser aplicados regresión. Este método fue propuesto por primera vez en [3],
incluso en otras escenas, lo que representa una ventaja ya en donde se usó un modelo de regresión lineal para predecir
que el entrenamiento puede realizarse en una fase previa el valor de la densidad de pixeles en un arreglo usando MESA
a la implementación fı́sica e inclusive pueden aprovecharse como función objetivo.
conjuntos de datos ya existentes para su entrenamiento sin En [Cross-scene Crowd Counting via Deep Convolutional
la necesidad de crear y anotar uno nuevo para una tarea en Neural Networks] se utiliza por primera vez una red neuronal
especı́fico. Una ventaja adicional con respecto a los métodos convolucional , para predecir los valores de densidad sobre una
basados en regresión, es la capacidad de ubicar espacialmente imagen. El principal avance de esta investigación fue proponer
a un individuo, lo cual se traduce en mejores resultados al un marco y una arquitectura que fuese útil para analizar
analizar escenas con distintas densidades. múltiples escenas, de manera que o fuesen necesarias nuevas
anotaciones para analizar una nueva imagen. Este es uno de los
II. T RABAJOS R ELACIONADOS primeros trabajos en utilizar las ventajas del deep learning para
El problema de la eficiencia de los Sistemas BRT siempre se extraer caracterı́sticas (features) de las imágenes. Este trabajo
ha enfocado como un estudio de optimización de los métodos propone llevar a cabo la operación de normalización de los
utilizados para asignar la frecuencia de salida de los buses. En datos de entrada mediante métodos distintos a la aplicación
[1] se desarrolló un modelo del SITP de la ciudad de Pereira y de filtros Gaussianos, debido a que estos resultan en varias
se resolvió usando un algoritmo genético. Este trabajo enfatiza distorsiones y en resultados ineficientes. La red propuesta
en el uso de una función multiobjetivo que pueda satisfacer (CNN-patch) obtuvo un MAE de 467.0 y un MSE de 498.5
al mismo tiempo la demanda de los usuarios (minimizando sobre el dataset de UCF CC 50.
los tiempos de espera y aumentando el cupo en los buses) y Wang, et al. [4] estudiaron el uso de una red neuronal
al mismo tiempo disminuyendo los costos de operación del convolucional para solucionar problemas relacionados con la
sistema (distribuyendo eficientemente la flota y trabajándola a implementación de las técnicas de computer vision, como la
su capacidad óptima). El modelo de entrenamiento utilizado distorsión de la cámara o la oclusión, presente en escenarios
otorga penalizaciones por cada pasajero que no alcanza a densos. Para solucionarlo, se propone calcular la densidad
abordar el bus, lo cual denota una alta dependencia de las espacial del escenario mediante el análisis sobre parches
estadı́sticas de la cantidad de pasajeros que esperan en la de pequeño tamaño, junto con información espacial de la
plataforma, pero además, de los que están dentro del bus. perspectiva. Esta técnica logra obtener mapas de densidad
La situación anterior presenta la necesidad de buscar estra- mucho más precisos que otros métodos.
tegias para contar multitudes de manera óptima y en tiempo Este trabajo estará especialmente enfocado en implementar
real. la solución propuesta por [5], en donde se diseña una red
En [2] se propone un sistema que monitorea los hábitos neuronal convolucional (CSRNet), basada en VGG-16, capaz
de viaje de los usuarios de un sistema BRT, a partir de la de obtener un mejor rendimiento en la tarea de contar personas
información aportada por los torniquetes de las estaciones y que modelos similares, sobretodo en ambientes altamente
los buses. El procesamiento de esta información se hace en congestionados, sino que además permitı́a muchı́sima más
tiempo real mediante técnicas de minerı́a de datos. El sistema felxibilidad con respecto a la resolución y al tamaño de
implementado reporta estadı́sticas del uso de las distintas rutas las imágenes de entrada. Debido a que implementa solo
del sistema en tiempo real. No obstante, esto es posible debido ciertas secciones de las capas internas del VGG-16, e incluso
a la baja complejidad del sistema, en donde la mayorı́a de prescinde del uso de su capa de clasificaión, CSRNet obtiene
estaciones solo disponen de una única ruta. resultados mucho más rápidos, especialmente en el proceso
El trabajo realizado por [3] propone un método para detectar de entrenamiento, que otras soluciones basadas en la misma
personas haciendo uso de sistemas de vigilancia, implementan- arquitectura. Durante el proceso de entrenamiento se evidenció
do un modelo de regresión Bayesiana, que se entrena a partir un desempeño altı́simo al utilizar el dataset de ShangaiTech
de modelos 3D de figuras humanas. La innovación de este [6], al obtener un error medio MAE muchı́smo menor que
el obtenido mediante la solución predominante llamada CP- a un segmento aleatorio dentro de la misma. Este dataset se
CNN. refleja para obtener el doble de datos de entrada.
Para entrenar la red se usa el enfoque de Descenso de
III. M ETODOLOG ÍA Gradiente Estocástico (SGD) con una tasa de aprendizaje de
Se optó por utilizar una metodologı́a tipo AGILE, en este 1e-6. Las imágenes utilizadas para el entrenamiento fueron
caso SCRUM para llevar a cabo el desarrollo de este proyecto. suministradas por del dataset de ShangaiTech [6] [6].
El Proyecto está dividido principalmente en 3 sprints: III-B. Implementación en python
1. Primer Sprint: Investigación Inicial y revisión del Estado
del Arte. Basados en el repositorio proporcionado por [7] y usando
Google Colab, se implementó mediante el uso de una máquina
2. Segundo Sprint: Implementación de la Red Neuronal
virtual con acelerador gráfico. Haciendo uso del archivo ma-
Convolucional y el algoritmo de conteo.
ke dataset.ipynb, se importaron los datos proporcionados por
3. Tercer Sprint: Diseño y Simulación de la Red WAN.
el dataset de ShangaiTech [6].
III-A. Implementación de la Red Neuronal Convolucional IV. D ISCUSI ÓN DE R ESULTADOS
Para el desarrollo de este proyecto se tomó como base el IV-A. Implementación en python
modelo CSR-Net, que puede ser entendido como un generador
de mapas de densidad y está basado en la arquitectura VGG- Debido al alto tiempo que conlleva el entrenamiento, se
16. Para reducir la complejidad de la red, se utilizan pequeños optó por usar parámetros pre-entrenados y se obtuvo un MAE
filtros convolucionales (3x3) en todas las capas, una ventaja de 75.69 sobre el dataset evaluado. Se realizaron pruebas con
de implementar únicamente filtros convolucionales es que el diversas imágenes obtenidas en internet de diversos escenarios
modelo se vuelve más flexible frente a imágenes de entrada en las estaciones y plataformas de abordaje del sistema Trans-
de distintas resoluciones. Milenio. Se evidenció que el modelo no funciona muy bien
con imágenes donde los usuarios aparecen altamente dispersos,
III-A1. Arquitectura front-end: Para este diseño en parti-
sin embargo el desempeño parece mejorar cuando aumenta el
cular, se omite el uso de la capa de clasificación de VGG-16,
número de usuarios presentes en la imagen. No se observó
y se utilizan únicamente las primeras 10 capas, limitando el
que factores como la iluminación, la distancia a la cámara
número de capas de reducción (pooling) a 3 en lugar de 5 con
o el ángulo de inclinación, tuviesen impacto significativo en
el fin de reducir los efectos detrimentales sobre la precisión
el desempeño, de la misma manera, los resultados parecen ser
de la salida ocasionados por la operación de reducción.
independientes del tamaño de la imagen usada, sin embargo se
evidencia la obtención de un mapa de densidad más suavizado
en imágenes tomadas desde arriba con alta resolución. Para
la imagen de la Figura 2, se evidencia una prueba de una
situación tı́pica de prueba para el sistema. En la imagen
aparecen 106 usuarios, y el sistema detecta 116 personas,
representando un error del 9.43 %.

Figura 1. Arquitectura VGG-16

La salida de esta primera etapa es un mapa de densidad que


tiene 1/8 del tamaño de la entrada. Se utiliza interpolación
bilineal para escalar de nuevo la imagen y asegurar que
tenga las mismas dimensiones de la entrada, de esta mane-
ra pueden compararse con los datos reales (ground thruth)
usando técnicas como PSNR (Peak Signal-to-Noise Ratio) y
SSIM(Structural Similarity in Image).
III-A2. Entrenamiento: Debido a las condiciones de alta
densidad de las imágenes que se pretenden analizar, se generan
Figura 2. Imagen obtenida de una estación del Sistema y analizada con
kernels geométricamente adaptativos, en este caso se usa un CSRNet
kernel Gaussiano (normalizado a 1) para hacer borrosas las
cabezas en la imagen. El la figura 3 se muestra otra situación tı́pica del sistema
Cada imagen es segmentada en 9 parches que tienen 1/4 de en donde la perspectiva y la resolución son distintas a las
la imagen original. Los primeros 4 segmentos contienen a la analizadas en la imagen anterior. En este caso No obstante
imagen sin traslapes, mientras qu elos otros 5 corresponden en la Figura 4 se puede observar una situación en donde la
Se requiere un alto poder computacional para poder
procesar las imágenes, por ende se propone un sistema
de distribución y procesamiento de datos en la nube.
R EFERENCIAS
[1] D. A. G. Guancha, J. A. S. Mejı́a, and S. Estrada, “Asignación de
frecuencias Óptimas, A Través De Un Modelo Multiobjetivo, Para Un
Sistema BRT,” Revista EIA, vol. 13, no. 26, 2017.
[2] F. Dzikrullah, N. A. Setiawan, and S. Sulistyo, “Implementation of
scalable k-means clustering for passengers temporal pattern analysis
in public transportation system (brt trans jogja case study),” 2016 6th
International Annual Engineering Seminar (InAES), 2016.
[3] L. Wang and N. H. Yung, “Crowd counting and segmentation in
visual surveillance,” 2009 16th IEEE International Conference on Image
Processing (ICIP), 2009.
[4] J. Wang, L. Wang, and F. Yang, “Counting crowd with fully convolutio-
nal networks,” 2017 2nd International Conference on Multimedia and
Image Processing (ICMIP), 2017.
[5] Y. Li, X. Zhang, and D. Chen, “Csrnet: Dilated convolutional neural
networks for understanding the highly congested scenes,” in Proceedings
of the IEEE Conference on Computer Vision and Pattern Recognition,
2018, pp. 1091–1100.
[6] Y. Zhang, D. Zhou, S. Chen, S. Gao, and Y. Ma, “Single-image
Figura 3. Prueba con una imagen de baja resolución y una perspectiva distinta. crowd counting via multi-column convolutional neural network,” in
Proceedings of the IEEE conference on computer vision and pattern
recognition, 2016, pp. 589–597.
[7] Y. Li, “Csrnet-pytorch,” https://github.com/leeyeehoo/CSRNet-
densidad de los pasajeros es menor, y el ángulo de inclinación pytorch.git, 2018.
es menor. Resultando en un error de 5.83 %. [8] C. Zhang, H. Li, X. Wang, and X. Yang, “Cross-scene crowd counting
via deep convolutional neural networks,” 2015 IEEE Conference on
Computer Vision and Pattern Recognition (CVPR), 2015.
[9] X. Dong, G. Xiong, B. Hu, F. Zhu, and Z. Shen, “Efficient expression
and deep analysis platform of massive traffic video data,” 2017 IEEE
20th International Conference on Intelligent Transportation Systems
(ITSC), 2017.
[10] D. B. Sam, S. Surya, and R. V. Babu, “Switching convolutional neural
network for crowd counting,” 2017 IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), 2017.
[11] J. S. J. Junior, S. Musse, and C. Jung, “Crowd analysis using computer
vision techniques,” IEEE Signal Processing Magazine, 2010.
[12] “Rapid transit system,” Dictionary Geotechnical Engineering/Wörter-
buch GeoTechnik, p. 1079–1079, 2014.
[13] C. Santhini and V. Gomathi, “Crowd scene analysis using deep learning
network,” 2018 International Conference on Current Trends towards
Converging Technologies (ICCTCT), 2018.

Figura 4. Prueba con una imagen con baja densidad.

V. C ONCLUSIONES
CSRNet es el marco de trabajo más sencillo de imple-
mentar de los revisados en el estado del arte debido a la
reducción de capas en su implementación.
Las redes neuronales convolucionales resultan aptas para
situaciones de análisis de sistemas masivos como Trans-
Milenio.

También podría gustarte