Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Rafael Rincón-T00076683
1. Introducción
La regresión lineal es un modelo estadístico que busca establecer la relación lineal entre
una variable dependiente (objetivo) y una o más variables independientes (predictoras).
Matemáticamente, para un problema de regresión lineal simple con una sola variable
independiente, la fórmula se expresa como:
𝑦 = 𝑚𝑥 + 𝑏
Donde:
● y es la variable dependiente.
● x es la variable independiente.
● m es la pendiente de la línea (coeficiente).
● b es la intersección en el eje
● y (ordenada al origen).
El objetivo en la regresión lineal es encontrar los coeficientes "b" que minimicen la suma
de los errores cuadrados entre las predicciones del modelo y los valores reales de la
variable dependiente.
3
2.2. Redes Neuronales
Cada neurona en una red neuronal tiene pesos y sesgos asociados a las entradas que
recibe. Estos pesos y sesgos se ajustan durante el proceso de entrenamiento para
minimizar una función de pérdida (como el error cuadrático medio o el error absoluto
medio).
𝑧 −𝑧
𝑒 −𝑒
𝑓(𝑧) = 𝑧 −𝑧
𝑒 +𝑒
La función de pérdida (loss function) evalúa qué tan bien están prediciendo los
resultados del modelo con respecto a los valores reales. En problemas de regresión, el
error cuadrático medio (MSE) o el error absoluto medio (MAE) se utilizan comúnmente
como funciones de pérdida. Para problemas de clasificación, se utilizan funciones como la
entropía cruzada.
2.2.4. Backpropagation:
DateTime
2021-01-01 00:00:00 35.203999
2021-01-01 01:00:00 36.805000
2021-01-01 02:00:00 32.004002
2021-01-01 03:00:00 31.205000
2021-01-01 04:00:00 39.605000
...
2023-01-01 20:00:00 49.206001
2023-01-01 21:00:00 42.805000
2023-01-01 22:00:00 37.203999
7
2023-01-01 23:00:00 33.202999
2023-01-02 00:00:00 22.003000
Name: Caudal, Length: 17545, dtype: float64
Descripción Valor
Conteo 17545
Media 55.39
Desv. Estándar 87.48
Valor min 0.000
Cuartil del 25 por ciento 24.003
Cuartil del 50 por ciento 67.205
Cuartil del 75 por ciento 82.010
Valor max 7748.75
Inmediatamente es apreciable que existen valores de tipo outliers, los cuales serán
tenidos en cuenta en el proceso de limpieza de datos y preprocesamiento.
8
Estas gráficas son necesarias para aterrizar las bases de la aplicación, al lector o
intervinientes en el proceso y el modelo a implementar. Se observa que esta señal tiene
comportamientos con diferencias marcadas en el tiempo.
Asi mismo, este comportamiento está obedeciendo a otros fenómenos y variables que
influyen sobre la misma, principalmente se deberá incorporar en el análisis la variable de
presión asociada a esta tubería en la cual se está registrando el caudal, y las horas serán
codificadas para facilitar la aproximación de los modelos mediante la técnica de one-hot
coding, binarizado en 24 columnas las 24 horas del día, de esta forma se extraen los
patrones de la señal de una forma directa y la detección de patrones será óptima para
los modelos de machine learning.
4. Aplicación
Los modelos de machine learning y deep learning a implementar serán utilizando las
librerías de python scikit-learn, numpy y pandas principalmente para el procesamiento de
los datos y la generación de los modelos, y finalmente en la graficación estará utilizando
matplotlib y seaborn.
10
De forma gráfica se puede apreciar la calidad de las predicciones, sabiendo que estas
métricas suponen una evaluación sobre la totalidad de los datos que también contienen
errores, por lo tanto para efectos prácticos, poder predecir los valores de caudal en esos
momentos de defecto o falla en el dato serán de gran confiabilidad y utilidad para el
proceso de análisis y gestión de las redes.
14
En este caso en el cual, la señal real del instrumento y el registro primario del dato
marca un congelamiento total de los datos para ese dia 2022-09-28 se compara entre el
valor típico, la predicción de la red neuronal y la predicción de la regresión, con
particularidades y detalles a profundizar en campo para asegurarse cuál modelo ofrece
mayor confiabilidad en la estimación.
5. Conclusiones
La utilidad del machine learning es inmensa, sin límites que se puedan imaginar a
simple vista, para esta investigación aplicamos la regresión múltiple mixta
polinomial y un modelo de redes neuronales con tensorflow y Keras, obteniendo
una propuesta para solucionar un gran problema de la industria, como lo son la
falla o defectos en los datos, que requieren ser procesados continuamente y que a
partir de dichos análisis depende la efectividad de la gestión y la sostenibilidad del
proceso.
Cuando el gasto computacional para crear sistemas de apoyo para corregir data
defectuosa, es de relevancia y se requieren modelos rápidos, ligeros y fáciles de
implementar, las técnicas del machine learning serán suficientes, también teniendo
en cuenta que la complejidad de estos sistemas pueden ser soportados por estas
técnicas.
6. Referencias