Está en la página 1de 8

Página 1: Un robot funcional para vigilancia de multitudes impreso en 3D

Sibi C. Sethuraman, Pranav Kampally, Srikar Reddy

Resumen - Este artículo presenta un nuevo robot impreso en 3D para la vigilancia


de multitudes llamado VISU. Este robot captura los alrededores usando una cámara
incorporada y lo transmite a una nube. La estructura de la nube de VISU está
conectada a la base de datos de delincuentes y sospechosos proporcionados por la
autoridad policial. Los datos de la multitud capturados, se comparan con imágenes
de delincuentes o sospechosos y se da aviso a las autoridades en caso de que
exista cualquier coincidencia. El algoritmo detecta el número de personas
capturadas en cada fotograma y las autoridades reciben el número de personas en
la multitud. Con la ayuda de segmentación de instancias, las autoridades pueden
rastrear cada movimiento de la persona en los alrededores.

I. Introducción.

Los robots han sido de inmensa ayuda para la humanidad. Los robots se
personalizan para adaptarse a las necesidades del hombre y dan apoyo a los seres
humanos en diversas industrias y dominios. Los robots han demostrado una
importancia extraordinaria en las áreas doméstica, médica e industrial. Los robots
avanzados como Sofía se han vuelto el centro de atención mostrando cómo la IA
puede transformar la interacción humano-robot. Los humanoides se han involucrado
en diferentes actividades, que van desde ayudar a las enfermeras en los hospitales,
hasta servir comida en restaurantes. Recientemente, se ha podido observar robots
desplegados en lugares públicos y hoteles, para la vigilancia de multitudes y
asistencia humana. Este artículo presenta un robot de bajo costo que asemeja
apariencia humana y se puede implementar en lugares públicos para el seguimiento
de multitudes.

Los robots que operan en lugares públicos tienen que ser ligeros y resistentes.
Actualmente, la mayoría de los robots son pesados debido al uso de metales como
el aluminio, lo que dificulta su transporte. Para superar este reto, se utiliza la
tecnología de prototipado rápido, como lo es la impresión en 3D. La impresión 3D,
es una forma eficaz de imprimir diseños en plástico que son económicamente más
baratos, molecularmente más fuertes y que consumen menos tiempo en dar el
resultado deseado. VISU se imprime en 3D con acrilonitrilo butadieno estireno
(ABS), un polímero termoplástico que es más fuerte y ligero, y cumple con los
requisitos.La figura 1 muestra el prototipo de VISU, un robot humanoide impreso en
3D. Para las operaciones a distancia, VISU se apaga en las tecnologías de código
abierto y modular

Figura 1.VISU - Un robot impreso en 3D en nuestras instalaciones.

Página 2: La estructura liviana permite un movimiento suave de muchas partes


móviles como bíceps, manos, abdomen y cabeza. Como parte del monitoreo de
multitudes, las extremidades se pueden usar para ayudar a las personas a señalar
direcciones a un lugar determinado o para interactuar con las personas como parte
de la terapia para la interacción humana. La Tabla I presenta una perspectiva
comparativa de robots similares a VISU.

Tabla 1

VISU vs ROBOTS DE ESTADO DEL ARTE

Características VISU ROBOT ROBOT LARM bot


MÍMICO SOCIAL

Conteo de Sí No No No
multitudes

Segmentación Sí No No No
de instancias

Capacidad de Sí No No No
aprendizaje
automático en
el borde
II. INVESTIGACIÓN PREVIA Y NOVEDAD DE VISU

Muchos robots y plataformas robóticas han aprovechado el uso de técnicas de


vigilancia basadas en visión por computadora en lugares públicos como oficinas,
parques y calles para monitorear el comportamiento humano en tiempo real. Un
método de estimación basado en movimiento utiliza las observaciones espaciales
de sigma media que calcula las diferencias del marco temporal que representan los
vectores de objeto para predecir anomalías en la multitud. Además, requiere un
proceso de formación adecuado para admitir plataformas modulares. Un sistema de
aprendizaje a partir de la demostración (LfD) basado en la visión utiliza YOLOv3
para detectar y reconocer objetos en el proceso de imitar los movimientos humanos
de un brazo robótico. Sin embargo, el sistema LfD se aplica solo para el brazo
robótico con un conjunto limitado de acciones. Un enfoque a nivel de sistema
basado en perfiles identifica el método para aumentar el tiempo operativo de los
robots AAL. La idea clave de este método es analizar varias entradas predefinidas,
procesarlas y, en consecuencia, generar las instrucciones operativas para reducir el
consumo de energía. Robot social en educación especial identifica el uso de robots
para terapia y mejora las interacciones sociales de niños con necesidades
especiales. Sin embargo, los robots sociales están restringidos a un caso de uso
definido de educación especial. VISU avanza en todos los enfoques de investigación
mencionados. El uso de la Red de propuestas regionales en Mask-RCNN ayuda a
localizar anclajes individuales que identifican máscaras únicas, lo que facilita a los
usuarios el seguimiento de un tema en particular dentro de la vista con una precisión
del 98%. Mask-RCNN también avanza YOLOv3 en términos de reconocer objetos
con precisión y rastrearlos. A diferencia de YOLOv3, Mask-RCNN aplica máscaras a
los detalles minuciosos a una resolución más baja, lo que proporciona una mayor
precisión de seguimiento. Los movimientos corporales de VISU están controlados
por software y microcontrolador utilizando un recurso mínimo. Todos los servos en
VISU obtienen energía de la fuente de alimentación de modo conmutado (SMPS)
solo cuando el integrado les indica que, para cualquier movimiento, reduciendo así
el consumo de energía en espera. La plataforma inteligente de VISU también se
puede implementar como un robot terapéutico con la ayuda del movimiento
interactivo de las extremidades codificado en ella. Los terapeutas pueden
seleccionar entre una amplia gama de movimientos y conversaciones interactivas
para ayudar a las personas a sentirse estables mentalmente durante la terapia.

III. DESCRIPCIÓN GENERAL DEL DISEÑO DE VISU

VISU tiene 45 grados de libertad (DoF) con 23 servomotores, lo que lo hace


altamente dependiente del sistema mecánico. VISU está diseñado para
implementarse como una plataforma inmóvil, por lo que no se incorpora una base
móvil.

Parte superior del cuerpo completamente impresa en 3D

La parte superior del cuerpo de VISU está completamente impresa en 3D con


material ABS que está hecho de un polímero plástico reciclable que es fuerte y
duradero. Los hombros izquierdo y derecho funcionan con motores Hitec HS805B
con 3 grados de libertad. El cabezal tiene 3 grados de libertad y está alimentado por
motores Hitec HS 805BB con las placas de ojo alimentadas por micro servos SG90.
Las diestras manos izquierda y derecha tienen 5 dedos con estructuras parecidas a
falanges conectadas a una articulación de la muñeca. Los dedos en total tienen 15
grados de libertad y están controlados por cinco servomotores MG946R que se
colocan en el antebrazo. Las falanges se sujetan con hilo de pescar y se conectan a
estos 5 motores. Otro servomotor se coloca en la articulación de la muñeca para
controlar la rotación hacia adelante y hacia atrás. La cintura tiene 1 grado de libertad
y puede tener VISU inclinado en un ángulo aproximado de 30 grados.

Página 3:

Imagen de entrada Capas convolucionales Mapa de características


Red de Propuestas Regional ROI align Capas de conexión completa
etiquetado clasificación Persona +1 Vehículo +1 Contador
cuadro delimitador máscaras detección y conteo

Figura 2. Diseño y flujo de Mask-RCNN

Cámara Integrada VISU subir por Wi-Fi Captura y transmisión de escenas a tiempo
directo análisis del sistema La nube análisis de
imágenes reconocimiento facial información del criminal o sospechoso
segmentación de instancias rastreo de persona autoridades
inmediatas
Figura 3. Explicación detallada de VISU

Control y equipamiento

Se coloca una cámara en la cabeza del VISU que permite la función visual como la
vigilancia de un grupo de personas. La disponibilidad del On-board en los
comandos VISU da las órdenes, por consecuencia, incrementa el potencial de los
motores designados. El On-board se conecta a la nube para transferir información a
las bases de datos para crear modelos con aprendizaje más profundo en la
vigilancia de multitudes.

Resumen del diseño de software de VISU

Una cámara captura información y los envía a la nube a través de una conexión a
internet (ver figura 3). Las fotos obtenidas en la nube son usadas para la vigilancia.
La Nube está integrada con un sistema de reconocimiento facial que se usa para
encontrar rostros que coincidan con el criminal o sospechoso dentro de una
multitud. Esto permite que las autoridades vigilen si existe una coincidencia con
algún criminal o sospechoso. Después de esto, las autoridades pueden rastrear a
cada persona de manera individual con la ayuda de la segmentación de instancias
junto al número de personas que componen la multitud. La segmentación de
instancias funciona al crear niveles con Mask -RCNN para el seguimiento de las
masas. Mask -RCNN toma una imagen de entrada y genera predicciones de lugares
donde es posible encontrar objetos o materiales conocidos, después estas áreas se
clasifican en diferentes categorías que dependen en la probabilidad de la presencia
de dicho objeto, permitiendo así rastrear e identificar la posición de una persona u
objeto dentro del marco dado por el monitoreo y vigilancia de las personas.

IV. VIGILANCIA DE MULTITUDES POR VISU

La vigilancia consiste en dos componentes: El reconocimiento facial y monitoreo de


las personas.

Monitoreo de personas.

En VISU, el monitoreo consiste en dos partes esenciales que son el conteo de la


gente y el seguimiento de la misma. El conteo de las personas da un número
aproximado de personas presente en una multitud y el seguimiento de personas
remarca y visualiza los movimientos de cada una de las personas dentro de un
grupo. La figura 2 muestra de manera profunda el aprendizaje del MASK-RCNN. El
MASK-RCNN usa la arquitectura de ResNet 101 [10] para la extracción de sus
características. Estas características actúan como una entrada para la Red de
Propuestas Regional. Esto predice si un objeto (o persona) está presente en una
región específica o no.

Página 4
Cómo las regiones obtenidas no tienen la misma forma, se convierten utilizando
una capa de agrupación. Esta regiones se pasan al etiquetado y la predicción de la
caja de limitadora. La intersección sobre la unión con regiones originales se
denominan cajas de verdad. La intersección de unión (IU) Se calcula dividiendo el
área intersección por el área de union. Si el resultado es mayor hoy iguala a 0.5, Se
genera una máscara de segmentación de instancia de tamaño 28×28 Para esta
regiones. Las máscaras generadas para cada región se escalan por la interferencia.

Recuento de multitudes: Normalmente, El recuento se realiza utilizando el modelo


CSRnet con el Marco VGG-19[11], Sin embargo, Mask-RCNN Ofrece grandes
resultados en la detección y el reconocimiento de objetos, Personas y vehículos
también [42] . Esto lo convierte en una ventaja añadida para visu. Las máscaras que
negadas ayudan en el etiquetado de 1 clase.

Las más caras distinguen a los humanos de otros conjuntos de objetos. Estoy yuda
a reducir el tiempo de computación y el modelo qué se entrena en el conjunto de
datos common objects in context (CoCo) [13] Se utiliza para comparar y generar
cuadros delimitadores para predecir la clase de las máscaras. Al detectarlos clases,
se inicia un contador simple qué comienza en cero. Cuando se detecta una persona
en la imagen, El contador se incrementa en uno. El contador muestra el número de
personas en la multitud en tiempo real. Mask-RCNN Se provocan una imagen de
baja resolución que contenía 47 personas. El modelo arrojó un resultado de conteo
precisó de 44 personas con un nivel de confianza medio de 0, 91. La Fig. 4 Muestra
la imagen de salida con las más caras generadas y el recuento de las mismas. La
precisión del recuento de personas de esta imagen en particular fue del 93%. El
modelo también se probó en zonas menos concurridas con un número de personas
inferior a 10. Mask-RCNN Funcionó muy bien en espacios menos concurridos. El
modelo predijo el recuento con una precisión del 100% y un nivel de confianza
medio de 0,96. Mask-RCNN Proporciona resultados óptimos tanto en espacios
abarrotados como no abarrotados, Por lo que es una aplicación capaz de
monitorizar multitudes. La Fig. 5 muestra los resultados del análisis de rendimiento
de Mask-RCNN.

Seguimiento de multitudes mediante segmentación de instancias:

El concepto de segmentación de instancias se utiliza para el seguimiento del


movimiento de personas individuales en la multitud. El algoritmo identifica a objetos
individuales (personas) Hoy instancias y superpone cada persona con un color de
máscaras diferente facilitando el seguimiento de la multitud. Para objeto o persona
detectada en el marco, Se genera una máscara a la entidad detectada. Las
máscaras son utilizadas por el algoritmo. El algoritmo se asegura de que cada
máscara sea única y no hay solapamiento entre los conjuntos. La máscara de cada
persona se muestra con un cuadro delimitador que representa la puntuación de
confianza de la predicción. La Fig. 4 muestra el resultado después de aplicar la
segmentación por instancias en una imagen. Cómo se ve en esa figura, El color de
la máscara de cada persona es único con respecto a las demás, lo que facilita el
seguimiento de las personas visibles en el cuadro. Además, el algoritmo muestra la
puntuación de confianza en la parte superior izquierda de los cuadros de limitadores
generados.

Reconocimiento de rostros

El reconocimiento de rostros es uno de los aspectos más destacados de VISU.


VISU Captura y extrae las caras de las personas en la multitud. Los rostros
extraídos se envian a la nube para detectar si hay alguna coincidencia con los
rostros de la base de datos de delincuentes/sospechosos. El algoritmo Eigenface
Según utiliza para comparar las caras con la base de datos. El reconocimiento de
rostros necesita un conjunto de datos predefinidos para especificar los rostros que
se van a registrar.

Se ha tomado un conjunto de datos de entrenamiento de 300 caras distintas y


almacenando en carpetas individuales. Cada carpeta contiene un mínimo de 40
imágenes de un individuo con una resolución de 980p cada una. Para obtener
resultados precisos, la cara está centrada en el marco. A continuación, cada carpeta
se somete a la algoritmo Eigenface.

- Las caras de la carpeta se extraen como T1, T2, T3...


- Tn. Cada imagen Ti Se transforma en un vector y se coloca en conjunto del
entrenamiento "s" : S=T1,T2,T3...
Tn, donde n= Número de imágenes en las carpetas

Página 5

Página 6
El vector de rostros promedio es obtenido al (...) y el resultado adquirido es restado
de los rostros de entrenamiento originales y el resultante es conservado como
variable (...). La matriz de la covarianza (C) es obtenida al usar: C= (...) C también
puede ser representado como C=AA(N2*N2 matriz en donde A es ……). Los
Eigenvectors M obtenidos de L= AA son usados para encontrar los Eigenvectors M
Mi de C los cuales forman la base del Eigenface.
En esta fórmula, Mi es el eigenface y el Eigenvector , Oi es la variable del vector de
rostros promedio sustraído de los rostros de entrenamiento y Vi es el eigenvector de
M de L=AA
Para mayores resultados, el Eigenvector con mayores Eigenvalues son usados y los
que poseen bajos Eigenvalues son descartados. El proceso anteriormente explicado
está realizado en cada imagen en cada carpeta y es clasificado con el nombre de la
persona (rostro).

V. Diseño de Estudio de Caso de VISU


El algoritmo es ahora implementado en el siguiente proceso.
● La tabla de procesamiento captura un video clip de 15 segundos.
● Después el video es cortado en fotogramas individuales o imágenes que son
guardadas en una carpeta específica para pruebas
● 5 fotogramas son seleccionados y los cuadros sobrantes son borrados de la
memoria del sistema.
● Esto da como resultado un rostro reconstruido el cual es comparado con los
rostros pre-procesados.
● Si la similitud es igual o abajo de 0.6% o 60%, acepta el dato como usuario
reconocido.

La figura 6 muestra la imagen final con las diferentes etiquetas en los individuos.
Para reconocer si el rostro capturado está o no en la base de datos, la cara es
transformada a las mismas dimensiones del rostro de entrenamiento y sustraída del
rostro pre-procesado promedio. El vector adquirido es proyectado en el Eigenspace
para obtener una combinación lineal del set de Eigenfaces. Un vector o matriz de
coeficiente es generado de la combinación. La distancia Euclidiana es calculada
entre el proceso de entrenamiento y la validación de vectores muestra una
combinación correspondiente del algoritmo era de 93%. El promedio de precisión y
memoria del algoritmo de Eigenface, fue en este caso de 95% y 93%.
Por motivos de prueba, el conjunto de datos de prueba fue añadido con el rostro de
un sujeto del set de datos de imágenes abiertas. El conjunto de datos fue entrenado
con el algoritmo Eigenface. El algoritmo reconoció exitosamente todos los rostros de
los sujetos y mostró un cuadro delimitador alrededor del rostro junto con la
identificación de la cara.

VI. Conclusión

En este artículo se analizaron las ventajas del uso de VISU para la vigilancia y
monitoreo de multitudes en espacios públicos. El enfoque propuesto sobre el
reconocimiento facial y el conteo de multitudes arrojaron un promedio de precisión
del 93% y 94%. Por ende, se sugiere que VISU puede ser usado con el propósito de
vigilar multitudes tanto como en lugares concurridos como los que no, con un costo
de producción mínimo.

También podría gustarte