Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Facultad de Ingeniería
Código 20170260
Código 20171120
Asesor
Lima – Perú
Enero de 2024
1
2
EVALUATION OF THE EFFECTIVENESS OF
DATA AUGMENTATION TECHNIQUES FOR
THE DETECTION AND CLASSIFICATION OF
WORKERS ON CONSTRUCTION SITES
3
TABLA DE CONTENIDO
RESUMEN................................................................................................................................x
ABSTRACT.............................................................................................................................xi
INTRODUCCIÓN....................................................................................................................1
2.1 Objetivos.........................................................................................................................24
2.2 Hipótesis.........................................................................................................................25
3.2. Materiales.......................................................................................................................26
3.3 Procedimiento.................................................................................................................27
4
3.3.3. Aumento de Datos..................................................................................................29
4.2.2 Red neuronal con conjunto de datos aumentado con la técnica Brillo-Contraste
...........................................................................................................................................44
4.2.3 Red neuronal con conjunto de datos aumentado con la técnica Difuminación 45
4.2.4 Red neuronal con conjunto de datos aumentado con la técnica Lluvia............46
4.2.5 Red neuronal con conjunto de datos aumentado con todas las técnicas
combinadas.......................................................................................................................47
4.3.2 Red neuronal con conjunto de datos aumentado con la técnica Brillo-Contraste
...........................................................................................................................................51
4.3.3 Red neuronal con conjunto de datos aumentado con la técnica Difuminación 52
4.3.4 Red neuronal con conjunto de datos aumentado con la técnica Lluvia............53
4.3.5 Red neuronal con conjunto de datos aumentado con todas las técnicas
combinadas.......................................................................................................................54
REFERENCIAS.....................................................................................................................58
ANEXOS.................................................................................................................................65
5
ÍNDICE DE TABLAS
6
ÍNDICE DE FIGURAS
7
Figura 4.12 Validación de la red neuronal entrenada con el segundo conjunto de datos en una
obra de edificación ubicada en el distrito de Miraflores de Lima, Perú..................................53
Figura 4.13 Validación de la red neuronal entrenada con el tercer conjunto de datos en una
obra de edificación ubicada en el distrito de Miraflores de Lima, Perú..................................54
Figura 4.14 Validación de la red neuronal entrenada con el cuarto conjunto de datos en una
obra de edificación ubicada en el distrito de Miraflores de Lima, Perú..................................55
Figura 4.15 Resultados de validación de la red neuronal con todas las técnicas de Aumento
de Datos en una obra de una edificación ubicada en el distrito de Miraflores de Lima, Perú. 56
Figura 4.16 Gráfico de máximos niveles de confianza de cada red neuronal en una obra
distinta......................................................................................................................................57
8
ÍNDICE DE ANEXOS
9
RESUMEN
10
ABSTRACT
The applications of Artificial Intelligence within the construction industry for the detection of
workers, equipment and tools require a large amount of varied data to achieve a high mean
Average Precision (mAP) and confidence level in detections and avoid overfitting, which
could harm the deep learning models. Unfortunately, publicly existing data sets lack a variety
of images that capture the different scenarios in a building, such as the various activities in
construction, the changes of season, the variation in lighting over the course of the day,
among others. In addition, the creation of these usually entails a long and monotonous
process.
Therefore, to address this problem, this investigation proposes the use of 3 Data
Augmentation techniques applied on real construction images to generate varied data and,
subsequently, measure the variation of mAP and confidence level in detections and
classification of workers in construction sites in order to achieve the best performance from
deep learning models. In that sense, the Data Augmentation techniques used were
“Brightness-Contrast”, “Blur” and “Rain” from the Albumentations gallery. For this study
1212 images were collected from 4 cameras strategically located at different points in the
building of the Centro de Bienestar Universitario (CEBUL) of the University of Lima in
Lima, Peru.
The research results showed that the proposed Data Augmentation techniques
improved training mAP by up to 4%. In addition, the use of all the techniques together
obtained better levels of confidence by up to 9% during the validation of results in an image
of a different construction site. This experimental research has shown the importance of
considering Data Augmentation techniques to correctly detect and classify workers in the
construction industry, which is the first step to accurately automate worker monitoring and
various future applications.
11
INTRODUCCIÓN
Desde hace varios años el monitoreo de los sitios de construcción es una actividad
fundamental para los gerentes de proyectos para el análisis de la productividad y la gestión de
la seguridad (Yang et al., 2015, Kim et al., 2016, Yang et al., 2016, Ding et al., 2018, Fang et
al., 2018, Fang et al., 2018, Luo et al., 2018, Luo et al., 2018, Kim et al., 2018, Luo et al.,
2019, Seo et al., 2019 Kim et al., 2020). Tradicionalmente, las formas de monitoreo se llevan
a cabo visitando las construcciones en persona. Sin embargo, hoy en día estas construcciones
son más complejas y dinámicas, por lo que el seguimiento en persona requiere de mucho
tiempo (Bohn et al., 2010, Seo et al.,2015, Teizer et al.,2015, Yang et al.,2015, Ham et al.,
2016., Zhong et al., 2019, Kim et al., 2020, Kim et al., 2020, Xiao et al., 2021). Por lo tanto,
diversos estudios se han enfocado en investigar sistemas de monitoreo automatizados (Kim et
al., 2020). Uno de los sistemas más utilizados es el basado en el Internet de las Cosas (IoT),
el cual consiste en conectar sensores a los objetos de construcción para analizar los
movimientos físicos y evaluar el desempeño operativo (Montaser et al., 2014 & Nath et al.,
2017). A pesar de los resultados favorables, existen limitaciones en la aplicación de ese tipo
de sistema; por ejemplo, cuando los sitios de construcción son complejos y tienen numerosos
objetos de construcción lo cual hace imposible conectar sensores a todos los tipos de objetos
como equipos, herramientas y personas (Park et al., 2012 y Cheng et al., 2017). En ese
sentido, el monitoreo basado en la visión por computadora está tomando lugar en el campo de
los sistemas de monitoreo automatizados. Debido a que las cámaras son equipos de bajo
costo, estas se integran fácilmente en las obras de construcción y ofrecen un amplio rango de
visión, por lo que son adecuadas para el monitoreo en dichas obras de construcción (Xiao et
al., 2020 y Xiao et al., 2021).
Asimismo, con el fin de utilizar las imágenes del sitio de construcción en los sistemas
de monitoreo automatizados, primero es fundamental desarrollar el reconocimiento
automático y certero de los recursos operativos de construcción, tales como los trabajadores,
equipos y materiales (Xiao et al., 2020 y Xiao et al., 2021); una vez realizado esto las tareas
de monitoreo de la construcción se pueden automatizar. En cuanto a la detección de
trabajadores de la construcción, este es un paso esencial en los sistemas de monitoreo basados
en la visión por computador para controlar el avance en las obras de construcción, que por lo
general requieren de una supervisión de estas in situ.
12
Por otro lado, el entrenamiento para la detección de trabajadores utilizando los
métodos de Aprendizaje Profundo requieren grandes conjuntos de datos de imágenes de
construcción. Sin embargo, no existe una gran variedad de base de datos de obras de
construcción publicados en línea debido a la dificultad y alto costo que representa elaborarlos
y etiquetarlos manualmente (Bang et al., 2020; Xiao et al., 2020). Además, el entrenamiento
de los métodos de Aprendizaje Profundo requiere de una gran variedad de imágenes para
evitar problemas de sobreentrenamiento de los conjuntos de datos.
En ese sentido, diversos estudios en diferentes áreas han demostrados que el uso de
las técnicas de Aumento de Datos aplicados en la visión por computador puede resolver los
problemas de sobreentrenamiento al aumentar el volumen y la diversidad de los datos,
transformando las imágenes y las etiquetas correspondientes (Kim and Jeong, 2020; Prusty et
al., 2021; Bang et al., 2020; Qin et al., 2021; Dung et al., 2019). Sin embargo, actualmente
existen pocos estudios en la industria de la construcción que evalúen la efectividad en la
adopción de estas técnicas en la detección y clasificación de trabajadores en obras de
construcción. Con el fin de abordar este problema, en el presente trabajo se evaluó el
desempeño en el uso de 3 técnicas de Aumento de datos aplicadas en imágenes de
construcción reales con el fin de determinar los resultados de mean Average Precision (mAP)
y niveles confianza de cada una de las técnicas y compararlos con los resultados del
entrenamiento utilizando solo las imágenes originales.
13
CAPÍTULO I: REVISIÓN DE LITERATURA
14
como los Sistemas ciber físicos (CPS), IoT, actuadores y sensores inteligentes, la
inteligencia artificial, entre otros.
- Asistencia técnica, la cual hace referencia al objetivo de cada sistema, que es el
de realizar tareas complejas, resolver problemas y tomar decisiones de manera
autónoma que sirvan de soporte a las personas.
- Capacidad en tiempo real, la cual se atribuye a la capacidad de cada sistema de
recolectar, transferir, analizar, monitorear y compartir información en tiempo real
con el fin de acelerar los procesos de producción, identificar anomalías,
identificar oportunidades de mejora y observar tendencias.
En los últimos años se han desarrollado diversas innovaciones por parte de empresas
emergentes, capitalistas e investigadores académicos, los cuales han buscado realizar una
fuerte contribución al sector de la construcción con la aplicación de una variedad de
Tecnologías de la Información y Automatización (Sacos, 2020). En ese sentido, algunas
innovaciones desarrolladas incluyen el uso de la robótica para automatizar procesos de
construcción, el desarrollo de dispositivos con tecnología de Internet de las Cosas (IoT), tales
como sensores inteligentes en herramientas, equipos de protección personal o maquinarias; la
creación de vehículos autónomos que permiten que las maquinarias de construcción operen
por sí mismas y con una mejor comunicación; el uso de drones con fines de monitoreo,
levantamientos topográficos y modelado de información de construcción (BIM); el
desarrollo de tecnologías inmersivas, representadas por la Realidad Virtual (VR) y la
Realidad Aumentada (AR), los cuales simulan espacios de construcción reales; entre otros.
(Okpala et al., 2020; Mohammadpour et al., 2019). En la Figura 1.1 se describe un resumen
de las innovaciones de la Construcción 4.0 con el uso de la Inteligencia Artificial.
15
Figura 1.1
Innovaciones de la Construcción 4.0 con la Inteligencia Artificial
Nota. De Roles of artificial intelligence in construction engineering and management: A critical review and
future trends, por Y. Pan, L. Zhang, 2021, Automation in Construction, 122
(https://doi.org/10.1016/j.autcon.2020.103517).
Figura 1.2
Tendencias de publicaciones realizadas de IA en el sector AEC entre los siglos 20 y 21
Nota. De Artificial intelligence in the AEC industry: Scientometric analysis and visualization of research
activities, por A. Darko, A. P. C. Chan, M. A. Adabre, D. J. Edwards, M. R. Hosseini, E. E. Ameyaw, 2021,
Automation in Construction, 112 (https://doi.org/10.1016/j.autcon.2020.103081).
17
de la construcción realizaría en mayor tiempo y procesaría con menor precisión debido a los
errores humanos (Mohammadpour et al., 2019). Entre otros beneficios específicos, se incluye
la supervisión automatizada de actividades, la mitigación de riesgos mediante la predicción
de problemas críticos, el aumento de la eficiencia mediante la optimización de actividades
repetitivas, y el aprovechamiento de imágenes tomadas en sitios de construcción reales para
la producción de nueva información mediante su procesamiento utilizando la visión por
computador (Pan & Zhang, 2021).
Una vez realizado el entrenamiento, los resultados obtenidos de la red neuronal son
comparados con los resultados reales esperados. Luego, el nivel de pérdida o error es
calculado a través de funciones como perdida logarítmica, error cuadrático medio, error
absoluto medio, entre otros. A través de los errores calculados, se procede a obtener la
función de costo, la cual deberá ser minimizada ajustando los pesos de entrada de cada
neurona mediante el método backpropagation. El método backpropagation se encarga de
calcular la gradiente entre los pesos y errores procesados, y utiliza algoritmos de
optimización como Adadelta, Adam y Descenso de gradiente para calcular nuevos pesos que
minimicen la perdida. Finalmente, el mismo conjunto de datos es procesado varias veces
ajustando en cada iteración los pesos de cada data de entrada para obtener un modelo
entrenado con un error mínimo (Baduge et al., 2022).
19
Figura 1.3
Composición de una ANN
Nota. De Artificial intelligence and smart vision for building and construction 4.0: Machine and deep learning
methods and applications, por S. K. Baduge, S. Thilakarathna, J. S. Perera, M. Arashpour, P. Sharafi, B.
Teodosio, A. Shringi, P. Mendis, 2022, Automation in Construction, 141
(https://doi.org/10.1016/j.autcon.2022.104440).
22
de Gemelos Digitales y la robótica presentan un desarrollo lento dentro de la industria
(Schönbeck, Löfsjögård y Ansell, 2021; Salah Alaloul et al., 2020)
TP
Precision=
TP+ FP
(1)
TP
Recall=
TP+ FN
(2)
1
AP= ∑
11 recall ∈ {0 ,0.1 , 0.2 ,… ,1 }
Precision @ recall (3)
1
mAP= ∑ AP
k
(4)
Recall x Precision
F1-score=2 x
Recall+Precision
(5)
23
En ese sentido, se dice también que una detección correcta ocurre cuando se tiene un
valor de Intersection over Union (IoU) mayor que 0.5. Dentro del campo de la detección de
objetos, se define como IoU a una medida basada en la intersección de las áreas entre el
Bounding Box detectado y el Bounding Box real de los objetos, dividido entre la suma de
áreas resultado de la unión de ambos bounding box, como se muestra en Figura 1.4 (Padilla et
al., 2020).
Figura 1.4
Ecuación de IoU
Nota. De A survey on Performance Metrics for Object – Detection Algorithms, por R. Padilla, S. L. Netto, E. A.
B. da Silva, 2020, 2020 International Conference on Systems, Signals and Image Processing (IWSSIP)
(10.1109/IWSSIP48289.2020).
Respecto a las CNN, estas son las más usadas dentro de los algoritmos de aprendizaje
supervisado de DL, ya que son capaces de identificar automáticamente las características más
relevantes de los datos de entrada por sí misma (Alzubaidi et al., 2021). Este tipo de
arquitectura es principalmente utilizado para el procesamiento de imágenes y generalmente
cuenta con 3 tipos de capas: la Capa de Convolución o Convolutional Layer (CL), la Capa de
Agrupación o Pooling Layer (PL) y la capa totalmente conectada o Fully Connected Layer
(FCL), las cuales se ordenan una tras otra, respectivamente, como se muestra en la Figura 1.6.
Asimismo, debido a las técnicas de reducción de neuronas utilizadas, las CNN requieren de
menos preprocesamiento en relación con otros algoritmos de clasificación. (Mathew, Arul y
Sivakumari, 2021)
25
Recientemente, en la industria AEC se ha desarrollado y aplicado diversos algoritmos de
CNN como métodos basados en la visión y aprendizaje para la resolución de problemáticas
comunes como: la detección de los daños en una estructura, la gestión y operación de
instalaciones, el monitoreo de la seguridad en sitios de construcción, el monitoreo de la salud
estructural, estimación de la fuerza de compresión del concreto, entre otras. Entre las
problemáticas nombradas, la detección de daños en estructuras ha recibido mayor atención.
Asimismo, estos estudios se han centrado en los daños presentes en estructuras de concreto,
particularmente en las fallas de dichas estructuras.
En ese sentido, en el estudio realizado por Cha et al. (2017), los investigadores
propusieron una técnica de Visión por Computador empleando una arquitectura de CNN para
la detección de fallas en estructuras de concreto de túneles. La evaluación de los resultados se
realizó mediante un análisis comparativo en el que se demostró que la aplicación de la técnica
propuesta tiene mejores resultados que los métodos tradicionales de detección de fallas en
situaciones reales. Otro estudio realizado por Modarres et al. (2018), presentó un nuevo
método basado en CNN para la detección de fallas en puentes de concreto. El resultado de
mAP obtenido por el método presentado fue comparado con otros algoritmos de ML, a través
de lo cual se demostró una mejor precisión en la detección de fallas con el método propuesto
de CNN. Estos estudios demuestran la capacidad de las CNN de convertirse en una técnica
efectiva y poderosa tanto para la detección de daños estructurales como la detección de
maquinarias y mano de obra.
Por otro lado, el rendimiento de las CNN en las aplicaciones en la industria AEC
depende de la cantidad de datos usados en la etapa de entrenamiento. Es decir, se requiere de
una amplio y variado dataset en los entrenamientos para evitar problemas de
sobreentrenamiento. Dentro de la industria, este problema puede ser abordado utilizando
diversos métodos de recolección de datos y enriqueciendo las CNN con tecnología IoT, el
uso de los drones, los escáneres láser, el Modelado de la Información de la Construcción o
Building Information Modeling (BIM) y los métodos de minería de datos (Darko et al., 2020).
26
Figura 1.5
Aplicaciones y algoritmos de AI, ML y DL
Nota. De Artificial intelligence and smart vision for building and construction 4.0: Machine and deep learning
methods and applications, por S. K. Baduge, S. Thilakarathna, J. S. Perera, M. Arashpour, P. Sharafi, B.
Teodosio, A. Shringi, P. Mendis, 2022, Automation in Construction, 141
(https://doi.org/10.1016/j.autcon.2022.104440).
27
Figura 1.6
Arquitectura típica de una CNN
Nota. De Artificial intelligence and smart vision for building and construction 4.0: Machine and deep learning
methods and applications, por S. K. Baduge, S. Thilakarathna, J. S. Perera, M. Arashpour, P. Sharafi, B.
Teodosio, A. Shringi, P. Mendis, 2022, Automation in Construction, 141
(https://doi.org/10.1016/j.autcon.2022.104440).
Actualmente existen diversas versiones del algoritmo YOLO: You Only Look Once:
Unified, Real-Time Object Detection (Yolov1); YOLO9000: Better, Faster, Stronger
(Yolov2); YOLOv3: An Incremental Improvement (Yolo v3); YOLO v4: Optimal Speed and
Accuracy for object detection (Yolo v4), entre otras versiones. Asimismo, YOLO puede ser
implementado en distintos entornos de trabajo como Darknet, la cual fue creada por los
mismos desarrolladores del algoritmo YOLO, escrito en C con CUDA y permitiendo el
cómputo en GPU. Otro entorno de trabajo utilizado es AlexeyAB/Darknet, el cual es una
bifurcación del Darknet original que puede ser utilizado en Windows y Linux. Finalmente,
también es utilizado el entorno Darkflow, el cual es una adaptación de Darknet a la biblioteca
Tensorflow (Ameijeiras, Gonzales y Hernandez, 2020).
28
Respecto a las primeras versiones de YOLO (Yolov1 y Yolov2), estas presentan
dificultades en la detección de objetos pequeños, es por ello que en la tercera versión
(Yolov3) se agregó la detección de características multiescala, lo cual convirtió la red en un
sistema más eficiente. Además, se hizo uso de 53 capas convolucionales, conocida como la
arquitectura Darknet-53, lo cual mejoró el tiempo de respuesta y la precisión obtenida
(Srivastava et al., 2021). Por otro lado, en la versión cuatro (Yolov4), se realizaron múltiples
optimizaciones que mejoraron el AP y la cantidad de cuadros por segundo (FPS) en un 10 y
12%, respectivamente, a comparación de la versión tres (Jiang et al., 2022). Las
optimizaciones realizadas involucraron al método de procesamiento de datos, la red troncal,
el entrenamiento de la red, las funciones de activación y pérdida, entre otros aspectos
(Xuelong et al., 2021)
Otro estudio realizado por Zeng et al. (2021), desarrolló una versión mejorada de
Yolov3 para la detección y localización de maquinarias y sitios en una construcción, los
cuales normalmente son representadas en múltiples escalas al capturar una imagen o grabar
videos ínsita. Asimismo, el modelo optimizado de Yolov3 también utilizó una versión
mejorada del algoritmo Grey Wolf Optimizer (GWO) para la localización de las maquinarias.
En la etapa de resultados de este estudio, se compararon las métricas de mAP y Recuperación
obtenidas al entrenar el modelo original de Yolov3 y el modelo optimizado, con imágenes de
objetos es escala pequeña, mediana y grande. Los valores de mAP mejoraron notablemente al
utilizar el modelo optimizado (69.7%, 93.1% y 78.7%) y el modelo original (52.5%, 88.9%,
78.3%) para cada escala, respectivamente. De igual manera, los valores de Recuperación
mostraron mejoría en los objetos a pequeña y mediana escala para el modelo optimizado
(72% y 95.2%) y original (58.7% y 93.4%), de manera respectiva. Este estudio demuestra
que tanto una versión optimizada de Yolov3 y el modelo original son capaces de detectar
objetos en diferentes escalas en un sitio de construcción de manera asertiva, siendo los
objetos a mediana escala, aquellos que obtienen el mayor mAP y valor de Recuperación en
ambos modelos.
30
En este primer nivel se busca el reconocimiento de los objetos de interés ubicados en
sus posiciones naturales a través del uso de imágenes y videos. Así mismo, los
métodos para la detección y reconocimiento se dividen en tres categorías: métodos
basados en la geometría, métodos basados en la apariencia y métodos basados en las
características de la imagen o video. Por otro lado, el monitoreo es otra de las etapas
más importantes debido a su alto valor en el control de la productividad y seguridad
de los trabajadores y maquinarias.
- N2: Evaluación
- N3: Predicción
Por último, en el tercer nivel, la tarea de predicción hace referencia a la capacidad del
modelo de CV de anticipar las acciones o movimientos de los objetos de estudio.
Otro estudio similar realizado por Arabi et al. (2020) desarrolló una versión mejorada
del algoritmo Single Shot Detector (SSD) en la arquitectura MobileNet para la detección de
31
maquinaria de construcción utilizando sistemas embebidos o microprocesadores. En este
estudio se trabajó desde la etapa de desarrollo del algoritmo hasta la implementación del
mismo, tomando en cuenta la naturaleza restrictiva del hardware de los dispositivos. El
resultado de esta investigación mostró un mAP de 90%.
Otro de los temas con mayor relevancia entre los investigadores ha sido la detección
de equipos de protección personal para trabajadores. Huang et al. (2021) desarrollaron un
algoritmo optimizado de YOLO-v3 para la identificación de cascos y detectar su posición,
diferenciando si estos están siendo usados o no. El algoritmo optimizado funcionó mejor que
el normal, aumentando el mAP en 3.5% y la cantidad de fotogramas por segundo (FPS) en
3f/s. Del mismo modo, Shen et al (2020) implementó una novedosa metodología para la
identificación del uso seguro de los cascos a través de la detección de los rostros utilizando
CNN y la técnica de Bounding Box Regression. Con el fin de mejorar la precisión en el
reconocimiento de los cascos, se utilizó un tipo de aprendizaje llamando Deep Transfer
Learning (DTL) con la cual se entrenó la arquitectura DenseNet, logrando alcanzar un
94.47% de mAP, 96.2% de recall y precision.
El Aumento de Datos o Data Augmentation (DA) es uno de los métodos que puede
lograr evitar el sobreentrenamiento de los modelos y mejorar el mAP. Este método crea
diferentes escenarios de la data introducida que representan un dataset más complejo,
disminuyendo la brecha entre los errores de validación y entrenamiento (Alzubaidi et al.,
2021). La creación de los distintos escenarios es lograda mediante la transformación de las
imágenes de entrenamiento y sus respectivas etiquetas (Xiao et al.,2021). Algunas de estas
transformaciones incluyen el volteo horizontal y vertical de las imágenes, el recorte de ciertas
partes, la rotación, la traslación en los ejes horizontal y vertical, la inserción de ruido, la
transformación de los colores, entre otras (Alzubaidi et al., 2021). A continuación, se listan
las características de las transformaciones más comunes de DA, explicadas por Shorten y
Khoshgoftaar (2019):
- Volteado (Flipping)
- Recorte (Cropping)
- Rotación (Rotation)
- Traslación (Translation)
La traslación de las imágenes hacia la izquierda, derecha, arriba o abajo es una muy
práctica de utilizar para evitar el sesgo posicional en los datos. Por ejemplo, si un
dataset está compuesto de imágenes centradas, lo cual es muy común en el
reconocimiento de rostros, el modelo entrenado funcionará perfectamente en la
detección de solo imágenes centradas. A medida que la imagen es trasladada en una
dirección, el espacio sobrante de este proceso puede ser rellenado con una constante
de valor de RGB entre 0 a 255, manteniendo de esta forma la dimensión de la imagen
después de la aplicación de la técnica.
34
- Inserción de ruido (Noise injection)
La oclusión es un fenómeno que ocurre cuando algunas de las partes del objeto de
interés se encuentran ocultas en la imagen. La técnica del borrado aleatorio fue
específicamente diseñada para combatir estos problemas de reconocimiento debido a
la oclusión. El borrado aleatorio forzará al modelo a aprender características más
descriptivas de una imagen, evitando el sobreentrenamiento de una determinada
característica visual. Está técnica funciona aplicando una matriz de nxm en la imagen
y rellenándola con un valor constante de RGB entre 0 a 255.
35
Respecto a las aplicaciones de DA en la industria de la construcción, Bang et al.
(2020) utilizaron técnicas de DA para mejorar la detección de los materiales; entre las
técnicas utilizadas se aplicó Revoming-and-Painting utilizando GAN, Cut-and-paste,
Variación de la intensidad de iluminación, difuminado de las imágenes mediante la
aplicación del filtro de Gaussian y transformación de la escala. Esta investigación tuvo como
resultado una mejora de 11.5% de mAP aplicando una combinación de todas las técnicas
mencionadas.
En otro estudio desarrollado por Qin et al. (2021), el cual se enfocó en la detección de
vigas de acero curvadas, huecos o vacíos y el material de revestimiento inicial en la
construcción de túneles, información obtenida a través de un reloj de penetración del suelo, se
demostró que el mAP incrementó en 4% utilizando las técnicas de Finite-Difference Time-
Domain (FDTD) y Deep Convolutional Generative Adversarial Network (DCGAN) para
crear nuevas imágenes sintéticas. Finalmente, la investigación realizada por Dung et al.
(2019) para la detección de grietas ocasionadas por fatigas en las uniones con placas Gusset
pertenecientes a puentes de acero, mostró que el uso de las diversas técnicas de DA como la
rotación, el acercamiento, el volteo horizontal y vertical, entre otras, generaron un aumento
de hasta 5% en las tres técnicas de DL aplicadas.
2.1 Objetivos
36
2.1.1 Objetivo General
2.2 Hipótesis
37
La investigación tiene una metodología cuantitativa, ya que se desarrollaron análisis
numéricos para probar la hipótesis del estudio (Hernández et al., 2014). Este análisis
numérico incluyó la preparación y el procesamiento de los datos recolectados para realizar la
comparación de los resultados obtenidos utilizando las diferentes técnicas de Aumento de
Datos.
3.2. Materiales
Los materiales e imágenes utilizados en el presente estudio se obtuvieron a partir de la
investigación realizada por Del Savio et al. (2022). Estos materiales incluyeron 4 cámaras
posicionadas estratégicamente en diferentes zonas del edificio en construcción, de tal manera
que se obtengan imágenes de diferentes ambientes con grupos de trabajadores en distintas
escalas, como se muestra en la Figura 3.1. Los tipos de cámaras utilizadas en la investigación
en mención fueron 3 IP tipo PTZ motorizadas (Dahua Technology, 4K 48x Starlight + IR
WizMind Network PTZ Camera) y 1 tipo Bullet (Dahua Technology, 8MP Lite IR Vari-focal
Bullet Network Camera), las cuales fueron posicionadas entre los 12 y 35 metros.
Asimismo, los grupos de trabajadores captados por las cámaras fueron peones,
operarios, ingenieros, arquitectos, supervisores y toda aquella mano de obra presente en la
obra de construcción. Por otro lado, el procesamiento de las imágenes recolectadas y los
entrenamientos posteriores, se realizaron en una CPU Intel(R) Core (TM) i7-8700.
38
Figura 3.7
Posiciones de las cámaras en el sitio de construcción
3.3 Procedimiento
A continuación, se explica el procedimiento realizado para la detección de mano de obra
utilizando las técnicas de Aumento de Datos propuestas, como se muestra en la Figura 3.2.
39
Figura 3.8
Proceso para la detección y clasificación de trabajadores utilizando las técnicas de Aumento
de Datos
40
3.3.2 Preparación del conjunto de datos
Una vez que se ha creado el primer conjunto de datos con las 1212 imágenes extraídas, el
segundo paso consiste en etiquetar manualmente las imágenes utilizando la herramienta de
anotación LabelImg. Esta herramienta te permite crear anotaciones en los formatos de
PASCAL VOC XML y YOLO, las cuales son conocidas como “Bounding Box” (Tzutalin,
2015). En la presente investigación se escogieron dos categorías de anotaciones para la
clasificación de la mano de obra: Person y Leaning Person. Estas categorías se seleccionaron
siguiendo la investigación realizada por Del Savio et al. (2023) sobre la detección de mano de
obra de construcción como parte de las medidas de seguridad luego de la pandemia de
COVID-19. En ese sentido, la categoría Person o persona se refiere a cualquier trabajador
que se encuentre parado o ligeramente inclinado, mientras que la categoría Leaning Person o
persona inclinada se refiere a cualquier trabajador cuya posición se encuentre muy inclinada,
agachada o en cuclillas (Del Savio et al. 2023). De esta manera, se forma el primer conjunto
de datos para el entrenamiento de la red neuronal. El resultado del proceso de anotación se
muestra en la Figura 3.3.
Figura 3.9
Imagen etiquetada con las categorías Person y Leaning Person
41
En el tercer paso se procederá a crear cuatro conjuntos de datos adicionales utilizando tres
técnicas de Aumento de Datos escogidas. Estas técnicas provienen de la biblioteca
Albumentations, realizada por Buslaev et al. (2020), la cual contiene más de 30 tipos de
transformaciones disponibles de manera abierta. Esta biblioteca te permite realizar estas
transformaciones tanto en imágenes, como en máscaras de imágenes y los Bounding Box. En
esta investigación se escogieron las técnicas de Brightness - Contrast (Brillo - Contraste),
Blur (Difuminación) y Rain (Lluvia), las cuales se explican en los puntos 3.3.3.1, 3.3.3.2 y
3.3.3.3. Cabe añadir que estas transformaciones se seleccionaron con el objetivo de simular
diferentes ambientes en un sitio de construcción tomando en cuenta las condiciones
meteorológicas del entorno y técnicas de los dispositivos de grabación y detección.
En ese sentido, los cinco conjuntos de datos totales están formados como se muestra
en la Tabla 3.1. El primero de ellos está compuesto por las 1212 imágenes originales
extraídas de las grabaciones. El segundo, contiene tanto las imágenes originales, como el
aumento de estas utilizando la técnica de Brillo - Contraste. El tercero y cuarto, de igual
forma, están compuestas por las imágenes originales y las aumentadas con las técnicas de
Difuminación y Lluvia, respectivamente. Finalmente, el quinto de ellos contiene tanto las
imágenes originales, como las aumentadas con las tres técnicas mencionadas. Luego de la
creación de los conjuntos de datos, estos son divididos de manera aleatoria entre las carpetas
de entrenamiento (70%) y validación (30%), para ambas etapas correspondientes.
Tabla 3.1
Conjunto de datos creados
1 1212
2 2424
3 2424
4 2424
5 4848
42
A continuación, se explica el uso de las tres técnicas de Aumento de Datos escogidas para
esta investigación:
3.3.3.2. Difuminación
La segunda técnica utilizada fue la difuminación, la cual fue escogida debido al constante
movimiento de los trabajadores dentro de los ambientes de la construcción, así como los
efectos del viento, lo cual puede influir en la captura de imágenes claras. Además, esta
técnica simula escenarios en donde las cámaras pueden perder el enfoque, lo que permite que
la red neuronal pueda lograr una mayor precisión en la detección al utilizar esta técnica (Asif
et al., 2023).
3.3.3.3. Lluvia
43
continuación, en la Figura 3.4 se muestra una de las imágenes originales extraídas y en las
Figuras 3.5, 3.6, 3.7 imágenes transformadas con las técnicas de Aumento de Datos.
Figura 3.10
Imagen original (IMG-680) sin técnica de Aumento de Datos
44
Figura 3.11
Imagen aumentada utilizando la técnica de Brillo – Contraste
Figura 3.12
Imagen aumentada utilizando la técnica de Difuminación
Figura 3.13
Imagen aumentada utilizando la técnica de Lluvia
45
3.3.4 Detección de mano de obra
47
Tabla 3.2
Hiperparámetros de entrenamiento
Hiperparámetros Valores
Batch size 64
Subdivision 16
Saturation 1
Exposure 1
Hue 1
48
La presente investigación tiene como objetivo determinar la efectividad en el uso de las
técnicas de Aumento de Datos para mejorar la precisión en términos de mAP y los niveles de
confianza en la detección y clasificación de trabajadores de una obra construcción. En ese
sentido, se elaboraron 5 conjuntos de datos los cuales contienen imágenes etiquetadas con 2
clases: Person y Leaning Person, las cuales fueron establecidas siguiendo la investigación de
Del Savio et al. (2023) sobre la detección de mano de obra de construcción. Las imágenes
recolectadas provienen del estudio realizado por Del Savio et al. (2022), las cuales fueron
extraídas a través de grabaciones de 4 cámaras posicionadas alrededor de la edificación en
construcción, cada una con una resolución de 3840 x 2160 píxeles. Asimismo, el primer
conjunto de datos está compuesto por las 1212 imágenes originales obtenidas en la Sección
3.3, mientras que los restantes se crearon transformando las imágenes originales con tres
técnicas de Aumento de Datos por separado: Brillo - Contraste, Difuminación y Lluvia,
siendo el último de los conjuntos la suma del primer conjunto de datos más los tres aumentos
anteriores.
49
utilizó una nueva imagen en una obra de construcción distinta con el fin de comparar estos
niveles en un nuevo escenario.
Tabla 4.3
Resultados de entrenamientos de la red neuronal con el conjunto de datos original
El segundo, tercer y cuarto conjunto de datos están compuestos por 2424 imágenes;
de igual manera, el 70% (1697) de las imágenes fueron usadas para el entrenamiento. Los
resultados del entrenamiento de la red neuronal con el segundo conjunto de datos, en el cual
se utilizó la técnica de Brillo - Contraste, se muestran en la Tabla 4.2. Sobre los
entrenamientos ejecutados, el cuarto de ellos contiene los mejores valores, los cuales son muy
similares al segundo entrenamiento, por lo que ambos son igualmente válidos para la
50
detección de trabajadores. En comparación con los resultados obtenidos en el entrenamiento
con el conjunto de datos original, se muestra una mejoría de 4.39% en el valor de mAP y 3%
en el valor-F1.
Tabla 4.4
Resultados de entrenamientos de la red neuronal con el conjunto de datos aumentado con la
técnica Brillo-Contraste
Tabla 4.5
Resultados de entrenamientos de la red neuronal con el conjunto de datos aumentado con la
técnica de Difuminación
51
Nº entrenamiento mAP Precision Recall F1-score IoU
1 81.21% 0.74 0.83 0.78 56.38%
2 77.42% 0.73 0.80 0.76 55.02%
3 80.50% 0.74 0.83 0.78 54.90%
4 77.46% 0.74 0.81 0.77 54.77%
Tabla 4.6
Resultados de entrenamientos de la red neuronal con el conjunto de datos aumentado con la
técnica de Lluvia
Tabla 4.7
Resultados de entrenamientos de la red neuronal con el conjunto de datos aumentado con
todas las técnicas de Aumento de Datos
En suma, como se muestra en la Figura 4.1, se puede observar que todas las técnicas
de Aumento de Datos obtuvieron valores de mAP superiores al 81% en sus mejores
resultados; es decir, mejoraron la precisión media en 4% con respecto a la red neuronal
entrenada sin ninguna técnica de Aumento de Datos. Además, se muestra una ligera
diferencia entre los valores de mAP para cada técnica empleada, siendo la técnica de Brillo -
Contraste la que generó mejores resultados que las técnicas de Difuminación y Lluvia. Esto
se podría explicar debido a que un alto valor de estas últimas en las imágenes generaría una
mayor distorsión y, por lo tanto, incrementan la dificultad del entrenamiento de los modelos.
Finalmente, se observa que existe una tendencia en el incremento del mAP al aumentar la
cantidad de imágenes de entrenamiento utilizando las técnicas de Aumento de Datos.
53
Figura 4.14
Resultados de entrenamiento de las redes neuronales con y sin técnicas de Aumento de Datos
54
Figura 4.15
Ejemplo de Bounding Box
Figura 4.16
Nueva imagen (IMG-44) para la validación de las redes neuronales
3 4 5
1
Tabla 4.8
Clasificación de cada trabajador en la obra CEBUL de la Universidad de Lima en Lima,
Perú
N° de trabajador Categoría
1 Leaning person
2 Leaning person
3 Person
4 Leaning person
5 Person
55
4.2.1 Red neuronal con conjunto de datos original
Los resultados de validación de la red neuronal del conjunto de datos original se muestran en
la Figura 4.4, en donde se detectaron 3 de los 5 trabajadores presentes en la imagen. En ese
sentido, el trabajador Nº2 fue detectado en la categoría correcta con un nivel de confianza
bastante alto de 0.98. Luego, el trabajador Nº4 fue detectado correctamente en la categoría
Leaning Person, con un alto nivel de confianza de 0.88. Por último, el trabajador Nº5 se
detectó de igual forma correctamente en la categoría correspondiente con un nivel de
confianza de 0.97. De estos resultados, se puede observar que la red neuronal entrenada con
el primer conjunto de datos no es muy confiable ya que, en una primera instancia, solo se ha
detectado 3 de trabajadores, por lo que el nivel de recuperación es deficiente.
Figura 4.17
Validación de la red neuronal entrenada con el conjunto de datos original
4.2.2 Red neuronal con conjunto de datos aumentado con la técnica Brillo-Contraste
Respecto a los resultados de validación de la red neuronal entrenada con el segundo conjunto
de datos con la técnica de Brillo-Contraste, estos se muestran en la Figura 4.5, en donde se
detectaron 4 de los 5 trabajadores presentes en la imagen. En ese sentido, el trabajador Nº1
fue detectado en la categoría correcta; sin embargo, con un bajo nivel de confianza de 0.30.
Seguidamente, el trabajador Nº2 fue detectado en la categoría correcta con un nivel de
56
confianza bastante alto de 0.99. Por otro lado, el trabajador Nº3 fue detectado de manera
incorrecta con un nivel de confianza bajo de 0.28. Luego, el trabajador Nº4 fue detectado
correctamente en la categoría correspondiente; sin embargo, con un nivel de confianza bajo
de 0.38. Por último, el trabajador Nº5 se detectó de igual forma en la categoría
correspondiente con un nivel de confianza alto de 0.96. De estos resultados se puede observar
una mejoría en el nivel de Recuperación o en la cantidad de detecciones de trabajadores y en
el nivel de confianza utilizando la técnica de aumento de datos Brillo-Contraste. Sin
embargo, se observa que la red neuronal presentó un error en la clasificación de un
trabajador. Esto se puede deber a un error en el etiquetado manual del trabajador para la etapa
de entrenamiento.
Figura 4.18
Validación de la red neuronal entrenada con el segundo conjunto de datos
4.2.3 Red neuronal con conjunto de datos aumentado con la técnica Difuminación
Respecto a los resultados de validación de la red neuronal entrenada con el tercer conjunto de
datos con la técnica de Difuminación, estos se muestran en la Figura 4.6, en donde se
detectaron 4 de los 5 trabajadores presentes en la imagen. Se puede observar que el trabajador
Nº1 fue detectado en la categoría correcta y con un bajo nivel de confianza de 0.35.
57
Igualmente, el trabajador Nº2 fue detectado en la categoría correcta y con un nivel de
confianza bastante alto de 0.97. Luego el trabajador Nº4 fue detectado de manera correcta en
la categoría Leaning Person, con un nivel de confianza de 0.45. Por último, el trabajador Nº5
se detectó correctamente en la categoría correspondiente con un nivel de confianza alto de
0.98. A partir de los resultados mencionados, de manera similar que lo obtenido con la
técnica de Brillo-Contrate, se obtuvo un mejor nivel de Recuperación con respecto a la
validación de la red neuronal entrenada con el conjunto de datos original.
Figura 4.19
Validación de la red neuronal entrenada con el tercer conjunto de datos
4.2.4 Red neuronal con conjunto de datos aumentado con la técnica Lluvia
Respecto a los resultados de validación de la red neuronal entrenada con el cuarto conjunto
de datos con la técnica de Lluvia, estos se muestran en la Figura 4.7, en donde se detectaron 3
de los 5 trabajadores presentes en la imagen. Se puede observar que el trabajador Nº2 fue
detectado en la categoría correcta y con un alto nivel de confianza de 0.99. Luego, el
trabajador Nº4 fue detectado igualmente de manera correcta en la categoría Leaning Person,
con un nivel de confianza de 0.52. Por último, se observa que el trabajador Nº5 se detectó
correctamente en la categoría correspondiente con un nivel de confianza alto de 0.97. A partir
58
de los resultados mencionados, se infiere que la técnica de Aumento de Datos Lluvia presenta
un nivel similar de recuperación y clasificación de trabajadores que la red neuronal sin
técnica de aumento de datos, por lo que se puede deducir que el entrenamiento con esta
técnica no genera cambios significativos en los resultados de validación de la red neuronal.
Figura 4.20
Validación de la red neuronal entrenada con el cuarto conjunto de datos
4.2.5 Red neuronal con conjunto de datos aumentado con todas las técnicas combinadas
Respecto a la validación con el último conjunto de datos entrenado utilizando todas las
técnicas de Aumento de Datos, los resultados obtenidos se muestran en la Figura 4.8, en
donde se detectaron 4 de los 5 trabajadores presentes en la imagen. Se puede observar que el
trabajador Nº1 fue detectado en la categoría correcta; sin embargo, con un nivel de confianza
de 0.30. Luego, el trabajador Nº2 se detectó correctamente en la categoría correspondiente
con el mejor nivel de confianza de 1.00. De igual manera, el trabajador Nº4 fue detectado de
manera correcta en la categoría Leaning Person, con un nivel de confianza alto de 0.96. Por
último, se observa que el trabajador Nº5 se detectó también de manera correcta en la
categoría Person con un nivel de confianza alto de 0.97. De los resultados obtenidos, se
concluye que el uso de todas las técnicas de aumento de datos generó mejores resultados que
los conjuntos de datos restantes.
59
Figura 4.21
Validación de la red neuronal entrenada con el quinto conjunto de datos
60
Tabla 4.9
Niveles de confianza en cada detección de las redes neuronales durante la etapa de
validación en la obra CEBUL de la Universidad de Lima en Lima, Perú
Figura 4.22
Gráfico de máximos niveles de confianza de cada red neuronal
Luego de haber realizado la validación de cada red neuronal, se procedió a evaluar los
resultados de cada una en una misma imagen tomada de una obra de construcción distinta,
mostrada en la Figura 4.10, en donde se ha asignado un número de detección a cada
trabajador. Asimismo, la categoría correcta de clasificación de cada trabajador se muestra en
la Tabla 4.8. Luego, la imagen tomada fue transformada con las cuatro técnicas de Aumento
61
de Datos escogidas con el fin de evaluar el desempeño de cada red neuronal sometiéndolas a
un mayor grado de dificultad.
Figura 4.23
Imagen de una obra de construcción de una edificación ubicada en el distrito de Miraflores
de Lima, Perú
3
1 2
Tabla 4.10
Clasificación de cada trabajador de una edificación ubicada en el distrito de Miraflores de
Lima, Perú
N° de trabajador Categoría
1 Leaning person
2 Leaning person
3 Person
4 Person
5 Person
62
De los resultados obtenidos, en la Figura 4.11 se puede observar que la red neuronal
entrenada con el conjunto de imágenes originales solo realizó 1 detección, lo cual indicaría
que esta red no es confiable para realizar detecciones en diferentes escenarios. De igual
forma, este resultado es congruente con los resultados de entrenamiento obtenidos para esta
red, en la que se observa un menor valor-F1 respecto a los entrenamientos con los conjuntos
de datos restantes.
Figura 4.24
Validación de la red neuronal entrenada con el conjunto de datos original en una obra de
edificación ubicada en el distrito de Miraflores de Lima, Perú
4.3.2 Red neuronal con conjunto de datos aumentado con la técnica Brillo-Contraste
Por otro lado, los resultados de la aplicación de las técnicas de Aumento de Datos muestran
mejores resultados que a comparación del caso anterior. Respecto a los resultados del uso de
la técnica de Brillo - Contraste, los cuales se muestran en la Figura 4.12, se detectaron 3
trabajadores clasificados correctamente; sin embargo, no se detectaron dos trabajadores
pertenecientes a la categoría Person (3 y 4) y se puede observar que la red neuronal realizó
una detección incorrecta en el extremo de la imagen. El primer trabajador se detectó con un
nivel de confianza de 0.26, el segundo con 0.64 y el quinto con un nivel de confianza de 0.96.
En ese sentido, se puede afirmar que esta red neuronal es capaz de detectar ambas categorías,
63
Leaning Person y Person; aunque aún presente dificultades de recuperación cuando se tiene
imágenes nuevas.
Figura 4.25
Validación de la red neuronal entrenada con el segundo conjunto de datos en una obra de
edificación ubicada en el distrito de Miraflores de Lima, Perú
4.3.3 Red neuronal con conjunto de datos aumentado con la técnica Difuminación
En el tercer caso, se presentan mejores resultados que en los casos anteriores, mostrados en la
Figura 4.13. La técnica de Difuminación logró mejorar el número de detecciones realizadas;
es decir, se mejoró el valor de recuperación a 4 de 5 trabajadores. Así mismo, 3 de las 4
detecciones realizadas pertenecen a la categoría correcta, siendo errónea la segunda
detección, la cual pertenece a la categoría Leaning Person. Esta última categoría no ha sido
detectada en ninguno de los trabajadores correspondientes (1 y 2). Respecto a los niveles de
confianza, el segundo trabajador se detectó con un nivel de 0.41, el tercero con 0.81, el cuarto
con 0.28 y el quinto con 0.97. Por lo tanto, por los resultados anteriores, se considera que la
red neuronal es más confiable para detectar trabajadores en contextos distintos de una obra de
construcción.
64
Figura 4.26
Validación de la red neuronal entrenada con el tercer conjunto de datos en una obra de
edificación ubicada en el distrito de Miraflores de Lima, Perú
4.3.4 Red neuronal con conjunto de datos aumentado con la técnica Lluvia
65
Figura 4.27
Validación de la red neuronal entrenada con el cuarto conjunto de datos en una obra de
edificación ubicada en el distrito de Miraflores de Lima, Perú
4.3.5 Red neuronal con conjunto de datos aumentado con todas las técnicas combinadas
Respecto a los resultados del último caso, mostrados en la Figura 4.15, la red neuronal
entrenada con todas las técnicas presenta resultados más favorables que en todos los casos
anteriores. De los 5 trabajadores presentes, la red neuronal detectó 4 de ellos con niveles de
confianza altos, excepto por la segunda detección la cual correspondería a la categoría
Leaning Person. Esta última no ha sido correctamente detectada en la mayoría de los casos,
por lo que se asume que esta categoría no ha estado tan presente en las imágenes durante los
entrenamientos a comparación de la categoría Person. En ese sentido, el segundo trabajador
se detectó con un nivel de confianza de 0.31, el tercero con 0.83, el cuarto con 0.68 y el
quinto con 0.97. En contraste con el tercer caso la mayoría de las detecciones realizadas
tienen un mejor nivel de confianza, por lo que se considera que esta red neuronal es la más
precisa para detección y clasificación de trabajadores en distintas construcciones.
66
Figura 4.28
Resultados de validación de la red neuronal con todas las técnicas de Aumento de Datos en
una obra de una edificación ubicada en el distrito de Miraflores de Lima, Perú
Por otro lado, se puede inferir que la segunda y cuarta red neuronal, las cuales
contienen las técnicas de aumento de Brillo - Contraste y Lluvia respectivamente, presentan
el problema de sobreentrenamiento. Esto se muestra en las imágenes de validación del
segundo y cuarto caso en donde no se han detectado dos trabajadores visibles, en cambio se
67
detectaron objetos no pertenecientes a ninguna categoría. Este problema puede deberse a que
las técnicas no han transformado de manera significativa la imagen, generando imágenes
similares, lo cual puede acostumbrar al modelo entrenado a detectar solo ciertos parámetros.
Por otro lado, la tercera red neuronal presenta resultados similares a la quinta, lo cual
demuestra la efectividad de la aplicación de esta técnica en imágenes nuevas.
Tabla 4.11
Niveles de confianza en cada detección de las redes neuronales durante la etapa de
validación en una obra de una edificación ubicada en el distrito de Miraflores de Lima, Perú
Figura 4.29
Gráfico de máximos niveles de confianza de cada red neuronal en una obra distinta
68
CAPÍTULO V: CONCLUSIONES Y RECOMENDACIONES
Como tercer punto, respecto a los resultados de validación en la imagen de una obra
distinta en la sección 4.3, tanto la segunda red neuronal como la cuarta, a los cuales se les
aplicó las técnicas de Brillo - Contraste y Lluvia respectivamente, mostraron aparentemente
problemas de sobreentrenamiento u Overfitting al realizar detecciones imprecisas o no
detectar trabajadores visibles en distintas posiciones. Esto demuestra que al utilizar estas
técnicas se debe tomar en cuenta el grado de transformación de las imágenes para evitar que
sean similares a las originales.
Por último, a pesar de los buenos resultados obtenidos al aplicar todas las técnicas de
Aumentado de Datos en conjunto, lo cual simuló distintos escenarios de una obra de
construcción, se recomienda realizar este mismo procedimiento utilizando imágenes
provenientes de distintas obras para mejorar los resultados en la etapa de validación y con el
fin de evitar problemas de sobreentrenamientos de las redes neuronales, pues los conjuntos de
datos no cubren al 100% los diferentes escenarios de los proyectos.
70
REFERENCIAS
Ahmad, J., Farman, H., & Jan, Z. (2019). Deep Learning Methods and Applications. Deep
Learning: Convergence to Big Data Analytics. SpringerBriefs in Computer Science.
Springer, Singapore. https://doi.org/10.1007/978-981-13-3459-7_3
Aichholzer, G., Rhomberg, W., Gudowsky, N., Saurwein, F., & Weber, M. (2015). Industry
4.0. Background Paper on the pilot project ‘Industry 4.0. Foresight & Technology
Assessment on the social dimension of the next industrial revolution’. Austrian
Academy of Sciences.
Alaloul, W. S., Liew, M. S., Zawawi, N. A. W. A., & Kennedy, I. B. (2020). Industrial
Revolution 4.0 in the construction industry: Challenges and opportunities for
stakeholders. Ain Shams Engineering Journal, 11 (1), 225-230.
https://doi.org/10.1016/j.asej.2019.08.010.
Alzubaidi, L., Zhang, J., Humaidi, A.J., Al-Dujaili, A., Duan, Y., Al-Shamma, O.,
Santamaría, J., Fadhel, M.A., Al-Amidie, M., & Farhan, L. (2021). Review of deep
learning: concepts, CNN architectures, challenges, applications, future directions.
Journal of Big Data, 8(53). https://doi.org/10.1186/s40537-021-00444-8
Ameijeiras Sánchez, D., González Diez, H. R., & Hernández Heredia, Y. (01 de septiembre
de 2020). Revisión de algoritmos de detección y seguimiento de objetos con redes
profundas para videovigilancia inteligente. Revista Cubana de Ciencias Informáticas,
14(3), 165-195. http://scielo.sld.cu/scielo.php?script=sci_abstract&pid=S2227-
18992020000300165
Angah, O., & Chen, A.Y. (2020). Tracking multiple construction workers through deep
learning and the gradient based method with re-matching based on multi-object
tracking accuracy. Automation in Construction, 119.
https://doi.org/10.1016/j.autcon.2020.103308.
Arabi, S., Haghighat, A., & Sharma, A. (2020). A deep‐learning‐based computer vision
solution for construction vehicle detection. Computer-Aided Civil and Infrastructure
Engineering, 35(7), 753-767. https://doi.org/10.1111/mice.12530
Babich, N. (2020). What Is Computer Vision & How Does it Work? An Introduction.
https://xd.adobe.com/ideas/principles/emerging-technology/what-is-computer-vision-
how-does-it-work/
Baduge, S. K., Thilakarathna, S., Perera, J. S., Arashpour, M., Sharafi, P., Teodosio, B.,
Shringi, A., & Mendis, P. (2022). Artificial intelligence and smart vision for building
and construction 4.0: Machine and deep learning methods and applications.
Automation in Construction, 141. https://doi.org/10.1016/j.autcon.2022.104440
Bang, S., Park, S., Kim, H., & Kim, H. (2019). Encoder-decoder network for pixel-level road
crack detection in black-box images. Computer-Aided Civil and Infrastructure
Engineering, 34(8), 713-727. https://doi.org/10.1111/mice.12440
71
Bang, S., Baek, F., Park, S., Kim, W., & Kim, H. (2020). Image augmentation to improve
construction resource detection using generative adversarial networks, cut-and-paste,
and image transformation techniques. Automation in Construction, 115,
https://doi.org/10.1016/j.autcon.2020.103198
Bilal, M., Oyedele, L. O., Qadir, J., Munir, K., Ajayi, S., Akinade, O., Owolabi, H., Alaka,
H., & Pasha, M. (2016). Big Data in the construction industry: A review of present
status, opportunities, and future trends. Advanced engineering informatics, 30(3), 500-
521. https://doi.org/10.1016/j.aei.2016.07.001
Bochkovskiy, A., Wang, C. Y., & Liao, H. Y. M. (2020). Yolov4: Optimal speed and
accuracy of object detection. arXiv preprint arXiv:2004.10934.
https://doi.org/10.48550/arXiv.2004.10934
Buslaev, A., Iglovikov, V. I., Khvedchenya, E., Parinov, A., Druzhinin, M., & Kalinin, A. A.
(2020). Albumentations: fast and flexible image augmentations. Information, 11(2),
125. https://doi.org/10.3390/info11020125
Caña, H., Mula, J., Díaz-Madroñero, M., & Campuzano-Bolarín, F. (2021). Implementing
Industry 4.0 principles. Computers & Industrial Engineering, 158.
https://doi.org/10.1016/j.cie.2021.107379
Guo, B. H., Zou, Y., Fang, Y., Goh, Y. M., & Zou, P. X. (2021). Computer vision
technologies for safety science and management in construction: A critical review and
future research directions. Safety Science, 135.
https://doi.org/10.1016/j.ssci.2020.105130
Cheng, C.F., Rashidi, A., Davenport, M.A., & Anderson, D.V. (2017). Activity analysis of
construction equipment using audio signals and support vector machines. Automation
in Construction, 81, 240–253. https://doi.org/10.1016/j.autcon.2017.06.005
Cogswell, M., Ahmed, F., Girshick, R., Zitnick, L., & Batra D. (2015). Reducing overfitting in
deep networks by decorrelating representations. arXiv preprint arXiv:1511.06068.
https://doi.org/10.48550/arXiv.1511.06068
Darko, A., Chan, A. P. C., Adabre, M. A., Edwards, D. J., Hosseini, M. R., & Ameyaw, E. E.
(2020). Artificial intelligence in the AEC industry: Scientometric analysis and
visualization of research activities. Automation in Construction, 112, 103081.
https://doi.org/10.1016/j.autcon.2020.103081
Del Savio, A., Luna, A., Cárdenas-Salas, D., Vergara, M., & Urday, G. (2022). Dataset of
manually classified images obtained from a construction site. Data in Brief, 42.
https://doi.org/10.1016/j.dib.2022.108042
Del Savio, A., Luna Torres, A., Cárdenas-Salas, D., Vergara Olivera, M. A., & Urday Ibarra,
G. T. (2023). Artificial Intelligence Applied to the Control and Monitoring of
Construction Site Personnel. Advances in Mechanics of Materials for Environmental
and Civil Engineering (pp. 19-29). Revista: Springer International Publishing.
https://doi.org/10.1007/978-3-031-37101-1_2
Dikhanbayeva, D.; Shaikholla, S.; Suleiman, Z., & Turkyilmaz, A. (2020). Assessment of
Industry 4.0 Maturity Models by Design Principles. Sustainability, 12(23).
72
https://doi.org/10.3390/su12239927
Dung, C. V., Sekiya, H., Hirano, S., Okatani, T., & Miki, C. (2019). A vision-based method for
crack detection in gusset plate welded joints of steel bridges using deep convolutional
neural networks. Automation in Construction, 102, 217-229.
https://doi.org/10.1016/j.autcon.2019.02.013
Fang, Q., Li, H., Luo, X., Ding, L., Luo, H., & Rose, T. M. (2018). Detecting non-hardhat-use
by a deep learning method from far-field surveillance videos. Automation in
Construction, 85, 1–9. https://doi.org/10.1016/j.autcon.2017.09.018.
Fang, W., Ding, L., Love, P. E. D., Luo, H., Li, H., Peña-Mora, F., Zhong, B., & Zhou, C.
(2020). Computer vision applications in construction safety assurance. Automation in
Construction, 110. https://doi.org/10.1016/j.autcon.2019.103013
Gu, J., Wang, Z., Kuen, J., Ma, L., Shahroudy, A., Shuai, B., Liu, T., Wang, X, Wang, G. Cai,
J., & Chen, T. (2018). Recent advances in convolutional neural networks. Pattern
recognition, 77, 354-377. https://doi.org/10.1016/j.patcog.2017.10.013
Hermann, M., Pentek T., & Otto, B. (2016, 10 de marzo). Design Principles for Industrie 4.0
Scenarios [Conferencia]. 2016 49th Hawaii International Conference on System
Sciences (HICSS), Koloa, HI, USA. https://doi.org/10.1109/HICSS.2016.488
Hernández, R., Fernández C., & Baptista, P. (2014). Metodología de la investigación (6.ª Ed.).
McGraw-Hill
Hu, X., Liu, Y., Zhao, Z., Liu, J., Yang, X., Sun, C., Chen, S., Li, B., & Zhou, C. (2021). Real-
time detection of uneaten feed pellets in underwater images for aquaculture using an
improved YOLO-V4 network. Computers and Electronics in Agriculture, 185.
https://doi.org/10.1016/j.compag.2021.106135
Huang, L., Fu, Q., He, M., Jiang, D., & Hao, Z. (2021). Detection algorithm of safety helmet
wearing based on deep learning. Concurrency and Computation: Practice and
Experience, 33(13). https://doi.org/10.1002/cpe.6234
Jiang, P., Ergu, D., Liu, F., Cai, Y., & Ma, B. (2022, 9-11 de julio). A Review of Yolo
algorithm developments. [Conferencia]. The 8th International Conference on
Information Technology and Quantitative Management. (ITQM 2020 & 2021),
Chengdu, China. https://doi.org/10.1016/j.procs.2022.01.135
Kim, H., Kim, H., Hong, Y. W., & Byun, H. (2018). Detecting Construction Equipment Using
a Region-Based Fully Convolutional Network and Transfer Learning. Journal of
Computing in Civil Engineering, 32(2). https://doi.org/10.1061/(ASCE)CP.1943-
5487.0000731
Kim, J., Hwang, J., Chi, S., & Seo, J. (2020). Towards database-free vision-based monitoring
on construction sites: A deep active learning approach. Automation in Construction,
120. https://doi.org/10.1016/j.autcon.2020.103376
Kim, K., & Jeong, J. (2020, 9-12 de agosto). Deep Learning-based Data Augmentation for
Hydraulic Condition Monitoring System. [Conferencia]. The 17th International
73
Conference on Mobile Systems and Pervasive Computing (MobiSPC), Leuven,
Belgica. https://doi.org/10.1016/j.procs.2020.07.007
LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521 (7553): 436–444.
https://doi.org/10.1038/nature14539.
Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C., & Berg, A. C. (2016). SSD:
Single Shot Multibox Detector [Conferencia]. European Conference on Computer
Vision. Tel Aviv, Israel. https://doi.org/10.48550/arXiv.1512.02325
Lu, Y., & Young, S. (2020). A survey of public datasets for computer vision tasks in precision
agriculture. Computers and Electronics in Agriculture.
https://doi.org/10.1016/j.compag.2020.105760.
Liu, Y., Yeoh, J., & Chua, D. (2020). Deep Learning-Based Enhancement of Motion Blurred
UAV Concrete Crack Images. Journal of Computing in Civil Engineering, 34.
https://doi.org/10.1061/(ASCE)CP.1943-5487.0000907
Mathew, A., Amudha, P., & Sivakumari, S. (2021). Deep Learning Techniques: An Overview.
Advances in Intelligent Systems and Computing. https://doi.org/10.1007/978-981-15-
3383-9_54
Modarres, C., Astorga, N., Droguett, E. L., & Meruane, V. (2018). Convolutional neural
networks for automated damage recognition and damage type identification. Structural
Control and Health Monitoring, 25(10). https://doi.org/10.1002/stc.2230
Mohammadpour, A., Karan, E., & Asadi, S. (2019). Artificial Intelligence Techniques to
Support Design and Construction [Conferencia]. Proceedings of the International
Symposium on Automation and Robotics in Construction. Banff, Canadá.
https://doi.org/10.22260/ISARC2019/0172
Montaser, A., & Moselhi, O. (2014). Truck + for earthmoving operations. Journal of
Information Technology in Construction, 19, 412-433. http://www.itcon. org/2014/25.
Na, S., Heo, S., Han, S., Shin, Y., & Lee, M. (2022). Development of an Artificial Intelligence
Model to Recognise Construction Waste by Applying Image Data Augmentation and
Transfer Learning. Buildings, 12 (2), 175. https://doi.org/10.3390/buildings12020175
Nath, N.D., Akhavian, R., & Behzadan, A.H. (2017). Ergonomic analysis of construction
worker’s body postures using wearable mobile sensors. Applied Ergonomics. 62, 107-
117. https://doi.org/10.1016/j.apergo.2017.02.007
Okpala, I., Nnaji, C., & Karakhan, A. A. (2020). Utilizing Emerging Technologies for
Construction Safety Risk Mitigation. Practice Periodical on Structural Design and
Construction, 25(2). https://doi.org/10.1061/(ASCE)SC.1943-5576.0000468
Padilla, R., Netto, S. L., & Da Silva, E. A. B. (2020). A Survey on Performance Metrics for
Object-Detection Algorithms [Conferencia]. International Conference on Systems,
Signals and Image Processing (IWSSIP). Niterói, Brazil.
https://doi.org/10.1109/IWSSIP48289.2020.9145130.
74
Pan, Y., & Zhang, L. (2021). Roles of artificial intelligence in construction engineering and
management: A critical review and future trends. Automation in Construction, 122.
https://doi.org/10.1016/j.autcon.2020.103517
Park, M.W., & Brilakis, I. (2012). Construction worker detection in video frames for
initializing vision trackers. Automation in Construction, 28, 15-25.
https://doi.org/10.1016/j.autcon. 2012.06.001.
Prusty, M. R., Tripathi, V., & Dubey, A. (2021). A novel data augmentation approach for mask
detection using deep transfer learning. Intelligence-Based Medicine, 5.
https://doi.org/10.1016/j.ibmed.2021.100037
Qin, H., Zhang, D., Tang, Y., & Wang, Y. (2021). Automatic recognition of tunnel lining
elements from GPR images using deep convolutional networks with data augmentation.
Automation in Construction, 130. https://doi.org/10.1016/j.autcon.2021.103830
Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-
time object detection [Conferencia]. IEEE Conference on Computer Vision and Pattern
Recognition. Las Vegas, Estados Unidos.
https://doi.org/10.48550/arXiv.1506.02640
Ren, S., He, K., R. Girshick, R., & Sun, J. (2017). Faster R-CNN: Towards real-time object
detection with region proposal networks. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 39 (6), 1137–1149. https://doi.org/10.1109
/TPAMI.2016.2577031.
Sacks, R., Girolami, M., & Brilakis, I. (2020). Building Information Modelling, Artificial
Intelligence and Construction Tech. Developments in the Built Environment, 4.
https://doi.org/10.1016/j.dibe.2020.100011
Schönbeck, P., Löfsjögård, M., & Ansell, A. (2021). Collaboration and knowledge exchange
possibilities between industry and construction 4.0 research. Procedia Computer
Science, 192, 129-137. https://doi.org/10.1016/j.procs.2021.08.014.
Shen, J., Xiong, X., Li, Y., He, W., Li, P., & Zheng, X. (2020). Detecting safety helmet
wearing on construction sites with bounding‐box regression and deep transfer learning.
Computer-Aided Civil and Infrastructure Engineering, 36(1), 180-196.
https://doi.org/10.1111/mice.12579
Shorten, C., & Khoshgoftaar, T. (2019). A survey on Image Data Augmentation for Deep
Learning. Journal of Big Data. 6. https://doi.org/10.1186/s40537-019-0197-0
Sircar, A., Yadav, K., Rayavarapu, K., Bist, N., & Oza, H. (2021). Application of machine
learning and artificial intelligence in oil and gas industry. Petroleum Research, 4, 379-
391. https://doi.org/10.1016/j.ptlrs.2021.05.009
Sohn, K., Berthelot, D., Li, C.-L., Zhang, Z., Carlini, N., Cubuk, E.D., Kurakin, A., Zhang, H.,
& Raffel, C. (2020). FixMatch: Simplifying semi-supervised learning with consistency
and confidence. ArXiv. http://arxiv.org/abs/2001.07685
Son, H., & Kim, C. (2021). Integrated worker detection and tracking for the safe operation of
construction machinery. Automation in Construction, 126.
75
https://doi.org/10.1016/j.autcon.2021.103670
Srivastava, S., Divekar, A.V., Anilkumar, C., Naik, I., Kulkarni, V., & Pattabiraman, V.
(2021). Comparative analysis of deep learning image detection algorithms. Journal of
Big Data, 8(66). https://doi.org/10.1186/s40537-021-00434-w.
Turk, Ž. (2023). Structured analysis of ICT adoption in the European construction industry.
International Journal of Construction Management, 5, 756-762.
https://doi.org/10.1080/15623599.2021.1925396.
Turner, C., Oyekan, J., Stergioulas, L., & Griffin, D. (2020). Utilizing Industry 4.0 on the
Construction Site: Challenges and opportunities. IEEE Transactions on Industrial
Informatics, 17, 746-756. https://doi.org/10.1109/TII.2020.3002197
Xiao, B., & Kang, S.-C. (2021). Development of an Image Data Set of Construction Machines
for Deep Learning Object Detection. Journal of Computing in Civil Engineering, 35(2).
https://doi.org/10.1061/(ASCE)CP.1943-5487.0000945.
Xiao, B., Zhang, Y., Chen, Y., & Yin, X. (2021). A semi-supervised learning detection method
for vision-based monitoring of construction sites by integrating teacher-student
networks and data augmentation. Advanced Engineering Informatics, 50.
https://doi.org/10.1016/j.aei.2021.101372.
Yan, X., Zhang, H., & Li, H. (2020). Computer vision‐based recognition of 3D relationship
between construction entities for monitoring struck‐by accidents. Computer-Aided Civil
and Infrastructure Engineering, 35 (9), 1023-1038. https://doi.org/10.1111/mice.12536
Yang, J., Park, M.-W., Vela, P.A, & Golparvar-Fard, M. (2015). Construction performance
monitoring via still images, time-lapse photos, and video streams: Now, tomorrow, and
the future. Advanced Engineering Informatics, 29, 211–224.
https://doi.org/10.1016/j.aei.2015.01.011
Zhao, Z.-Q., Zheng, P., S.-T. X., & X. Wu. (2019). Object detection with deep learning: A
review. IEEE Transactions on Neural Networks and Learning Systems, 30 (11), 3212–
3232. https://doi.org/10.1109/TNNLS.2018.2876865.
76
ANEXOS
77
Primer entrenamiento
Segundo entrenamiento
78
Tercer entrenamiento
Cuarto entrenamiento
79
Anexo 2: Gráficas de Resultados de la Tabla N° 4.2
Primer entrenamiento
Segundo entrenamiento
80
Tercer entrenamiento
Cuarto entrenamiento
81
Anexo 3: Gráficas de Resultados de la Tabla N° 4.3
Primer entrenamiento
Segundo entrenamiento
82
Tercer entrenamiento
Cuarto entrenamiento
Segundo entrenamiento
84
Tercer entrenamiento
Cuarto entrenamiento
Segundo entrenamiento
86
Tercer entrenamiento
Cuarto entrenamiento
87