Planeaci N de Frecuencia de Buses de TR Nsito R Pido Mediante Modelos de An Lisis de Multitudes

Automatización del monitoreo de un Sistema BRT
mediante Computer Vision

Camilo Torres Mestra
Estudiante Ingenierı́a Mecatrónica
Universidad Nacional de Colombia
Bogotá
juctorresme@unal.edu.co
Resumen—La congestión presentada en Sistemas de Buses monitoreo de circuitos cerrados de televisión. No obstante, a
de Tránsito Rápido (BRT por sus siglas en inglés) se debe medida que el tamaño de estos sistemas se incrementa, se hace
en esencia a una ineficiente distribución de la flota y de la más complejo para los operadores supervisar todos los datos
frecuencia de los buses, que no logra atender a las demandas
reales de los usuarios en las horas más crı́ticas de operación. disponibles. En el caso especı́fico de Bogotá, esta tarea es
Sin embargo, los métodos actuales carecen de la capacidad asumida por el C-4 de la policı́a, cuya misión principal está
técnica para analizar y evaluar los escenarios de operación, enfocada en la seguridad y no en la planeación de operaciones
puesto que el comportamiento orgánico de los usuarios hace logı́sticas.
difı́cil definir adecuadamente horarios de salida de los buses. Lo anterior plantea la necesidad de automatizar el proceso de
Esta investigación propone aprovechar los sistemas de vigilancia
actualmente disponibles en el Sistema TransMilenio (TM) de la análisis de multitudes en el Sistema TransMilenio, haciendo
ciudad de Bogotá, y mediante la implementación de una red uso de las herramientas tecnológicas disponibles, tales como
neuronal convolucional, obtener en tiempo real datos acerca de las cámaras de seguridad instaladas en las distintas estaciones
los usuarios que esperan en las plataformas de abordaje y en las del STM.
estaciones, logrando una aproximación al comportamiento real Existen actualmente 4 tipos de técnicas principales utilizadas
de los mismos y facilitando la distribución logı́stica de la flota con
datos veraces, proporcionados automáticamente por el sistema. para esta tarea. La primera de ellas está basada en la detección
También se propone una arquitectura de red para conectar las de rasgos caracterı́sticos proporcionados por un dataset anota-
cámaras a diversos centros de cómputo donde se procesarán las do. Este tipo de algoritmos escanean caracterı́sticas comunes al
imágenes. Finalmente, se obtuvieron resultados de precisión de compararlas contra un clasificador, con el fin de encontrar un
tanto porciento para las imágenes analizadas, capturadas en una patrón de identidades (como siluetas de personas). Estos son
estación del sistema.
Index Terms—BRT, TransMilenio, intervalos, frecuencia, visión
los algoritmos predilectos para sistemas basados en detección
por computador, análisis de multitudes de rostros, sin embargo su desempeño resulta ser muy pobre
al implementarse sobre sistemas de vigilancia debido a la baja
resolución de las imágenes.
I. I NTRODUCCI ÓN
En segunda instancia están los métodos basados en Clusters,
Los Buses de Tránsito Rápido se presentan como una solu- cuyo principio se basa en asumir que una caracterı́sitca dada
ción al problema de movilidad urbana y de transporte masivo es constante para todos los individuos en el grupo, y que por lo
ya que cuentan con un carril exclusivo para su recorrido, lo tanto, al rastrear su movimiento se pueden obtener pequeños
cual disminuye el tiempo de los trayectos al compararlo con conjuntos que representan entidades que se mueven de manera
el sistema tradicional de buses que transitan por el tráfico indepente. A pesar de que estos modelos no requieren datos de
mixto. Además, su costo de operación y de construcción de entrenamiento anotados, presentan serias desventajas cuando
infraestructura es muchı́simo menor al de otros sistemas de los sujetos de análisis permanecen quietos durante mucho
transporte masivo como el metro. No obstante, la ineficiente tiempo, o existen varios individuos que comparten trayectorias,
asignación de la flota que ocasiona el aumento en el tiempo por lo tanto no resultan óptimos para el análisis de multitudes
de espera de los usuarios, es uno de los principales factores en un sistema de buses en donde muchos pasajeros permane-
de percepción del mal servicio del transporte. Además, la cerán de pie en su sitio mientras esperan la llegada de un bus.
acumulación de los usuarios en las puertas y plataformas de Existen también técnicas basadas en Regresión de Carac-
abordaje causan embotellamientos que a su vez ocasionan terı́sticas, que consisten en extraer de una imagen los rasgos
retrasos. de bajo nivel (low-level features) tales como los pixeles del
El objetivo de una operación óptima será reducir el tiempo de fondo o los bordes de la imagen, estos datos después se
espera, y de usuarios que se queden esperando a un segundo pasan por un modelo de regresión junto con el número de
bus, mientras se utiliza la flota disponible de manera adecuada. personas presentes, como parte de los datos de entrada de
Para lograr estos objetivos, los operadores logı́sticos de TM entrenamiento. Pese a que este método es uno de los más
se apoyan de estadı́sticas de usuarios recopiladas por méto- usados en la actualidad debido a la baja complejidad de su
dos convencionales de estimación de multitudes mediante el implementación, son modelos que son extremadamente sensi-
bles a los cambios en la perspectiva. Lo anterior implica que modelo está en que el modelo rechace el fondo de la imagen y
la implementación sobre un sistema de cámaras de seguridad empareje los objetos no rechazados con los modelos humanos
requerirı́a de la implementación y entrenamiento para cada anteriormente aprendidos, en contraposición a otros modelos
una de las cámaras de seguridad que existan, resultando en que se basaban en detectar el movimiento de un objeto y
el aumento exponencial de la complejidad que requiere su emparejarlo con el movimiento natural de una persona. Este
instalación. estudio concluye además, que utilizar esta estrategia resulta
Finalmente introducimos los modelos basados en redes neu- ser más eficiente a nivel computacional.
ronales, cuya principal ventaja radica en la capacidad de El principio teórico detrás de la aplicación de una red neuronal
“descubrir” patrones ocultos que pueden ser de utilidad en la se basa en el concepto de un mapa de densidad, en donde la
tarea de contar personas y que no son por defecto intuitivos, integral (suma) sobre una subregión es igual al número de
además pueden ajustarse a caracterı́sticas de la imagen que objetos en esa región. Los valores de densidad se estiman a
dificultan su evaluación, tales como la resolución, la escala, partir de los datos de bajo nivel (low-level features), por lo
la perspectiva e incluso la iluminación. Debido a esto, los tanto se comparte cierta afinidad con los modelos basados en
método basados en redes neuronales pueden ser aplicados regresión. Este método fue propuesto por primera vez en [3],
incluso en otras escenas, lo que representa una ventaja ya en donde se usó un modelo de regresión lineal para predecir
que el entrenamiento puede realizarse en una fase previa el valor de la densidad de pixeles en un arreglo usando MESA
a la implementación fı́sica e inclusive pueden aprovecharse como función objetivo.
conjuntos de datos ya existentes para su entrenamiento sin En [Cross-scene Crowd Counting via Deep Convolutional
la necesidad de crear y anotar uno nuevo para una tarea en Neural Networks] se utiliza por primera vez una red neuronal
especı́fico. Una ventaja adicional con respecto a los métodos convolucional , para predecir los valores de densidad sobre una
basados en regresión, es la capacidad de ubicar espacialmente imagen. El principal avance de esta investigación fue proponer
a un individuo, lo cual se traduce en mejores resultados al un marco y una arquitectura que fuese útil para analizar
analizar escenas con distintas densidades. múltiples escenas, de manera que o fuesen necesarias nuevas
anotaciones para analizar una nueva imagen. Este es uno de los
II. T RABAJOS R ELACIONADOS primeros trabajos en utilizar las ventajas del deep learning para
El problema de la eficiencia de los Sistemas BRT siempre se extraer caracterı́sticas (features) de las imágenes. Este trabajo
ha enfocado como un estudio de optimización de los métodos propone llevar a cabo la operación de normalización de los
utilizados para asignar la frecuencia de salida de los buses. En datos de entrada mediante métodos distintos a la aplicación
[1] se desarrolló un modelo del SITP de la ciudad de Pereira y de filtros Gaussianos, debido a que estos resultan en varias
se resolvió usando un algoritmo genético. Este trabajo enfatiza distorsiones y en resultados ineficientes. La red propuesta
en el uso de una función multiobjetivo que pueda satisfacer (CNN-patch) obtuvo un MAE de 467.0 y un MSE de 498.5
al mismo tiempo la demanda de los usuarios (minimizando sobre el dataset de UCF CC 50.
los tiempos de espera y aumentando el cupo en los buses) y Wang, et al. [4] estudiaron el uso de una red neuronal
al mismo tiempo disminuyendo los costos de operación del convolucional para solucionar problemas relacionados con la
sistema (distribuyendo eficientemente la flota y trabajándola a implementación de las técnicas de computer vision, como la
su capacidad óptima). El modelo de entrenamiento utilizado distorsión de la cámara o la oclusión, presente en escenarios
otorga penalizaciones por cada pasajero que no alcanza a densos. Para solucionarlo, se propone calcular la densidad
abordar el bus, lo cual denota una alta dependencia de las espacial del escenario mediante el análisis sobre parches
estadı́sticas de la cantidad de pasajeros que esperan en la de pequeño tamaño, junto con información espacial de la
plataforma, pero además, de los que están dentro del bus. perspectiva. Esta técnica logra obtener mapas de densidad
La situación anterior presenta la necesidad de buscar estra- mucho más precisos que otros métodos.
tegias para contar multitudes de manera óptima y en tiempo Este trabajo estará especialmente enfocado en implementar
real. la solución propuesta por [5], en donde se diseña una red
En [2] se propone un sistema que monitorea los hábitos neuronal convolucional (CSRNet), basada en VGG-16, capaz
de viaje de los usuarios de un sistema BRT, a partir de la de obtener un mejor rendimiento en la tarea de contar personas
información aportada por los torniquetes de las estaciones y que modelos similares, sobretodo en ambientes altamente
los buses. El procesamiento de esta información se hace en congestionados, sino que además permitı́a muchı́sima más
tiempo real mediante técnicas de minerı́a de datos. El sistema felxibilidad con respecto a la resolución y al tamaño de
implementado reporta estadı́sticas del uso de las distintas rutas las imágenes de entrada. Debido a que implementa solo
del sistema en tiempo real. No obstante, esto es posible debido ciertas secciones de las capas internas del VGG-16, e incluso
a la baja complejidad del sistema, en donde la mayorı́a de prescinde del uso de su capa de clasificaión, CSRNet obtiene
estaciones solo disponen de una única ruta. resultados mucho más rápidos, especialmente en el proceso
El trabajo realizado por [3] propone un método para detectar de entrenamiento, que otras soluciones basadas en la misma
personas haciendo uso de sistemas de vigilancia, implementan- arquitectura. Durante el proceso de entrenamiento se evidenció
do un modelo de regresión Bayesiana, que se entrena a partir un desempeño altı́simo al utilizar el dataset de ShangaiTech
de modelos 3D de figuras humanas. La innovación de este [6], al obtener un error medio MAE muchı́smo menor que
el obtenido mediante la solución predominante llamada CP- a un segmento aleatorio dentro de la misma. Este dataset se
CNN. refleja para obtener el doble de datos de entrada.
Para entrenar la red se usa el enfoque de Descenso de
III. M ETODOLOG ÍA Gradiente Estocástico (SGD) con una tasa de aprendizaje de
Se optó por utilizar una metodologı́a tipo AGILE, en este 1e-6. Las imágenes utilizadas para el entrenamiento fueron
caso SCRUM para llevar a cabo el desarrollo de este proyecto. suministradas por del dataset de ShangaiTech [6] [6].
El Proyecto está dividido principalmente en 3 sprints: III-B. Implementación en python
1. Primer Sprint: Investigación Inicial y revisión del Estado
del Arte. Basados en el repositorio proporcionado por [7] y usando
Google Colab, se implementó mediante el uso de una máquina
2. Segundo Sprint: Implementación de la Red Neuronal
virtual con acelerador gráfico. Haciendo uso del archivo ma-
Convolucional y el algoritmo de conteo.
ke dataset.ipynb, se importaron los datos proporcionados por
3. Tercer Sprint: Diseño y Simulación de la Red WAN.
el dataset de ShangaiTech [6].
III-A. Implementación de la Red Neuronal Convolucional IV. D ISCUSI ÓN DE R ESULTADOS
Para el desarrollo de este proyecto se tomó como base el IV-A. Implementación en python
modelo CSR-Net, que puede ser entendido como un generador
de mapas de densidad y está basado en la arquitectura VGG- Debido al alto tiempo que conlleva el entrenamiento, se
16. Para reducir la complejidad de la red, se utilizan pequeños optó por usar parámetros pre-entrenados y se obtuvo un MAE
filtros convolucionales (3x3) en todas las capas, una ventaja de 75.69 sobre el dataset evaluado. Se realizaron pruebas con
de implementar únicamente filtros convolucionales es que el diversas imágenes obtenidas en internet de diversos escenarios
modelo se vuelve más flexible frente a imágenes de entrada en las estaciones y plataformas de abordaje del sistema Trans-
de distintas resoluciones. Milenio. Se evidenció que el modelo no funciona muy bien
con imágenes donde los usuarios aparecen altamente dispersos,
III-A1. Arquitectura front-end: Para este diseño en parti-
sin embargo el desempeño parece mejorar cuando aumenta el
cular, se omite el uso de la capa de clasificación de VGG-16,
número de usuarios presentes en la imagen. No se observó
y se utilizan únicamente las primeras 10 capas, limitando el
que factores como la iluminación, la distancia a la cámara
número de capas de reducción (pooling) a 3 en lugar de 5 con
o el ángulo de inclinación, tuviesen impacto significativo en
el fin de reducir los efectos detrimentales sobre la precisión
el desempeño, de la misma manera, los resultados parecen ser
de la salida ocasionados por la operación de reducción.
independientes del tamaño de la imagen usada, sin embargo se
evidencia la obtención de un mapa de densidad más suavizado
en imágenes tomadas desde arriba con alta resolución. Para
la imagen de la Figura 2, se evidencia una prueba de una
situación tı́pica de prueba para el sistema. En la imagen
aparecen 106 usuarios, y el sistema detecta 116 personas,
representando un error del 9.43 %.
Figura 1. Arquitectura VGG-16
La salida de esta primera etapa es un mapa de densidad que

tiene 1/8 del tamaño de la entrada. Se utiliza interpolación
bilineal para escalar de nuevo la imagen y asegurar que
tenga las mismas dimensiones de la entrada, de esta mane-
ra pueden compararse con los datos reales (ground thruth)
usando técnicas como PSNR (Peak Signal-to-Noise Ratio) y
SSIM(Structural Similarity in Image).
III-A2. Entrenamiento: Debido a las condiciones de alta
densidad de las imágenes que se pretenden analizar, se generan
Figura 2. Imagen obtenida de una estación del Sistema y analizada con
kernels geométricamente adaptativos, en este caso se usa un CSRNet
kernel Gaussiano (normalizado a 1) para hacer borrosas las
cabezas en la imagen. El la figura 3 se muestra otra situación tı́pica del sistema
Cada imagen es segmentada en 9 parches que tienen 1/4 de en donde la perspectiva y la resolución son distintas a las
la imagen original. Los primeros 4 segmentos contienen a la analizadas en la imagen anterior. En este caso No obstante
imagen sin traslapes, mientras qu elos otros 5 corresponden en la Figura 4 se puede observar una situación en donde la
Se requiere un alto poder computacional para poder
procesar las imágenes, por ende se propone un sistema
de distribución y procesamiento de datos en la nube.
R EFERENCIAS
[1] D. A. G. Guancha, J. A. S. Mejı́a, and S. Estrada, “Asignación de
frecuencias Óptimas, A Través De Un Modelo Multiobjetivo, Para Un
Sistema BRT,” Revista EIA, vol. 13, no. 26, 2017.
[2] F. Dzikrullah, N. A. Setiawan, and S. Sulistyo, “Implementation of
scalable k-means clustering for passengers temporal pattern analysis
in public transportation system (brt trans jogja case study),” 2016 6th
International Annual Engineering Seminar (InAES), 2016.
[3] L. Wang and N. H. Yung, “Crowd counting and segmentation in
visual surveillance,” 2009 16th IEEE International Conference on Image
Processing (ICIP), 2009.
[4] J. Wang, L. Wang, and F. Yang, “Counting crowd with fully convolutio-
nal networks,” 2017 2nd International Conference on Multimedia and
Image Processing (ICMIP), 2017.
[5] Y. Li, X. Zhang, and D. Chen, “Csrnet: Dilated convolutional neural
networks for understanding the highly congested scenes,” in Proceedings
of the IEEE Conference on Computer Vision and Pattern Recognition,
2018, pp. 1091–1100.
[6] Y. Zhang, D. Zhou, S. Chen, S. Gao, and Y. Ma, “Single-image
Figura 3. Prueba con una imagen de baja resolución y una perspectiva distinta. crowd counting via multi-column convolutional neural network,” in
Proceedings of the IEEE conference on computer vision and pattern
recognition, 2016, pp. 589–597.
[7] Y. Li, “Csrnet-pytorch,” https://github.com/leeyeehoo/CSRNet-
densidad de los pasajeros es menor, y el ángulo de inclinación pytorch.git, 2018.
es menor. Resultando en un error de 5.83 %. [8] C. Zhang, H. Li, X. Wang, and X. Yang, “Cross-scene crowd counting
via deep convolutional neural networks,” 2015 IEEE Conference on
Computer Vision and Pattern Recognition (CVPR), 2015.
[9] X. Dong, G. Xiong, B. Hu, F. Zhu, and Z. Shen, “Efficient expression
and deep analysis platform of massive traffic video data,” 2017 IEEE
20th International Conference on Intelligent Transportation Systems
(ITSC), 2017.
[10] D. B. Sam, S. Surya, and R. V. Babu, “Switching convolutional neural
network for crowd counting,” 2017 IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), 2017.
[11] J. S. J. Junior, S. Musse, and C. Jung, “Crowd analysis using computer
vision techniques,” IEEE Signal Processing Magazine, 2010.
[12] “Rapid transit system,” Dictionary Geotechnical Engineering/Wörter-
buch GeoTechnik, p. 1079–1079, 2014.
[13] C. Santhini and V. Gomathi, “Crowd scene analysis using deep learning
network,” 2018 International Conference on Current Trends towards
Converging Technologies (ICCTCT), 2018.
Figura 4. Prueba con una imagen con baja densidad.
V. C ONCLUSIONES
CSRNet es el marco de trabajo más sencillo de imple-
mentar de los revisados en el estado del arte debido a la
reducción de capas en su implementación.
Las redes neuronales convolucionales resultan aptas para
situaciones de análisis de sistemas masivos como Trans-
Milenio.

Planeaci N de Frecuencia de Buses de TR Nsito R Pido Mediante Modelos de An Lisis de Multitudes

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Planeaci N de Frecuencia de Buses de TR Nsito R Pido Mediante Modelos de An Lisis de Multitudes

Cargado por

Copyright:

Formatos disponibles

Automatización del monitoreo de un Sistema BRT

mediante Computer Vision

Figura 1. Arquitectura VGG-16

La salida de esta primera etapa es un mapa de densidad que

Figura 4. Prueba con una imagen con baja densidad.

También podría gustarte