Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Proyecto Geoestadística
Proyecto Geoestadística
Learning
Daniela Quintero Madariaga, Madeleine Castellanos Rincón y María Cristina Lizcano Ortega
Docente
Geólogo Mgtr
Escuela de Geología
Geología
Bucaramanga
2023
PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 2
Tabla de Contenido
Pág.
1. Introducción .............................................................................................................. 8
2. Objetivos ......................................................................................................................... 9
3. Marco Teórico................................................................................................................. 9
4. Metodología .................................................................................................................. 11
6. Resultados ..................................................................................................................... 16
7. Discusión....................................................................................................................... 18
8. Conclusiones ................................................................................................................. 19
Lista de Tablas
Tabla 1. Descripción estadística de los datos donde se puede observar la relación directa
Lista de Figuras
Figura 3. Mapa de calor que muestra la correlación entre las variables de entrada y la
Resumen
Learning.*
Santander. Se obtuvo un conjunto de datos proporcionados por el IDEAM del año 2020. Se llevó
modelo y finalmente, se obtuvo la predicción. El modelo tuvo dificultades para hacer predicciones
precisas, posiblemente por la correlación negativa entre las variables o porque dicho modelo no
fue el más apropiado para el conjunto de datos. Se sugiere implementar varios modelos de redes
*
Proyecto Final de la Asignatura Geoestadística
**
Facultad de Ingenierías Fisicoquímicas. Escuela de Geología. Docente: Sergio Andrés Garcia
Arias, Mgtr.
PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 7
Abstract
Learning.*
Description: This project focuses on the development of a Machine Learning model based on the
by IDEAM for the year 2020 was obtained. The exploratory analysis of the data was carried out,
the necessary preprocessing was performed, the model was trained and finally, the prediction was
obtained. The model had difficulties in making accurate predictions, possibly due to the negative
correlation between the variables or because the model was not the most appropriate for the data
set. It is suggested to implement several neural network models to obtain more accurate results.
1
Final Project of the Geostatistics Course
2
Facultad de Ingenierías Fisicoquímicas. Escuela de Geología. Docente: Sergio Andrés Garcia
Arias, Mgtr.
PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 8
1. Introducción
sociales y económicas, ya que afecta a las actividades humanas diarias como el desplazamiento,
agricultura, construcción, turismo etc., por lo que es tema de interés para las entidades
Por esto, es necesario contar con un sistema de predicción de las precipitaciones para tomar
El propósito del desarrollo de este proyecto consiste en pronosticar las predicciones acerca de las
aprendizaje automático, debido a que estas predicciones contribuyen a la reducción de los riesgos
de desastre y ofrecen a las comunidades alertas tempranas de inundaciones, sequías, olas de frío
repentinas, olas de calor y otros fenómenos climáticos extremos con objeto de que puedan
prepararse para esos fenómenos y protegerse de sus efectos (UNGRD, 2009). La precipitación es
definida como la caída de partículas de agua líquida o sólida que se originan en una nube,
atraviesan la atmósfera y llegan al suelo. Todas las formas de precipitación se miden en milímetros
(mm) de lluvia, un milímetro de precipitación es la altura que alcanza el agua sobre una superficie
2. Objetivos
3. Marco Teórico
Se refiere a machine learning como un campo de las ciencias de la computación, que se ocupa del
desarrollo de la Inteligencia Artificial, responsable del “aprendizaje”, en el que una máquina está
programada para pensar y aprender dado un conjunto de datos (Nolasco, 2023). Se trata de crear
un modelo a partir de la información proporcionada para sacar conclusiones y con ello solucionar
el/los problemas(s) que se trata(n) (Marquez, 2018). A partir de ello, se hará una recopilación de
datos de precipitación y de esta forma dar una conclusión respecto a las predicciones y el
comportamiento generalizado.
Un modelo en machine learning es usado para el filtro generado por la entrada de un conjunto de
datos y la clasificación que se genera dado por los patrones detectados a raíz del entrenamiento. A
partir de ello, se definen distintos tipos de machine learning, como lo son el aprendizaje
relacionan valores o características y una variable continua, se puede clasificar como regresión
lineal, no lineal, logística, árboles de decisión y deep learning. La regresión no lineal genera un
modelo con estimaciones arbitrarias para la relación entre variables independientes y una variable
dependiente.
“Para comprender el modelo computacional de las redes neuronales artificiales, uno debe
comenzar desde su componente básico, conocido como el perceptrón” Rosenblatt (1958), la forma
de perceptrón es usada por redes neuronales simulando las neuronas del cerebro las cuales toman
uno o más datos de información como entrada y dan como resultado un único valor como salida.
Figura 1. Perceptrón simple. Imagen tomada de “Natural Language Generation With Neuronal
Variational Models” Bahulevan (2018).
PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 11
Normalmente se utiliza un perceptrón más avanzado, donde hay una conexión entre cada nodo
individual junto a una capa específica, dando como resultado una red neuronal.
Figura 2. Perceptrón complejo. Imagen tomada de “Natural Language Generation with Neuronal
Variational Models” Bahuleyan (2018).
4. Metodología
Durante esta fase, se llevó a cabo una revisión bibliográfica, donde se buscó recopilar y sintetizar
de la información corresponde a trabajos previos de machine learning que presentan el tema central
académicas y revistas científicas como fuentes primarias para garantizar la fiabilidad de los datos.
Un artículo revisado que abarca todos los aspectos contemplados en este proyecto es el de Oswal
de precipitaciones con una frecuencia diaria en los municipios del departamento de Santander
durante el año 2020. Esta base de datos consta de información sobre el nombre y la ubicación
geográfica de la estación, el municipio y la fecha donde fue instalada, las fechas exactas en las que
tomó el valor y dicho valor en milímetros (mm). Para procesar dicha base de datos se utilizó el
entorno de ejecución Google Colab donde se importaron las librerías necesarias para el desarrollo
del modelo. Los datos se leyeron en un DataFrame para organizarlos, almacenarlos y manipularlos
de manera integrada.
Esta fase se hizo con el objetivo de tener certeza de que los resultados obtenidos sean válidos y se
puedan utilizar para aplicar el modelo. Se aplicó el método “.describe” de pandas (Tabla 1) para
observar el resumen estadístico del conjunto de datos, donde se pudo observar el promedio de los
Tabla 1. Descripción estadística de los datos donde se puede observar la relación directa entre la
altitud y el valor.
Además, se aplicó el método “.dtypes” para conocer el tipo de cada una de las variables del
conjunto de datos, para poder operar y transformar estos datos a la hora de implementar el modelo.
En esta fase se prepararon los datos para poder implementar el modelo de manera eficaz. Con el
método “.drop” se eliminaron variables que no se utilizaron en el modelo para así simplificar y
tipo Float para poder aplicar una correlación y luego poder realizar la normalización de los datos.
Con el método “.heatmap” se realizó un mapa de calor, como se muestra en la Figura 3, que
muestra una correlación positiva no lineal entre la variable de entrada ‘Fecha’ y la variable a
predecir ‘Valor’. Y una correlación negativa no lineal entre las otras variables de entrada y la
variable a predecir.
PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 14
Figura 3. Mapa de calor que muestra la correlación entre las variables de entrada y la variable a
predecir ‘Valor’.
“StandarScaler” para que estas variables tengan una escala similar y así evitar que los valores muy
Para esta fase se utilizó la función “train_test_split” para dividir los conjuntos de datos X y Y en
20% a la prueba El conjunto de entrenamiento se utiliza para ajustar los parámetros del modelo,
4.6 Entrenamiento
En esta fase se aplicó el algoritmo de regresión de redes neuronales para su aprendizaje, ya que
este tiene la finalidad de predecir un valor numérico continuo, en este caso, la precipitación. El
activación ‘Relu’ (Rectified Linear Unit), debido a que introduce no linealidad entre las variables
que fue observado durante la correlación. Finalmente, se entrenó el modelo aplicando el método
“.fit” al conjunto de datos de entrenamiento, para que aprenda a relacionar las características de
En esta fase se evaluó el rendimiento del modelo en el conjunto de datos de prueba. Se utilizó el
método “.score” para medir el porcentaje de ajuste del modelo a los datos de prueba y para evaluar
desde 0 a 100%, entre los datos de prueba y las predicciones. Valores cercanos al 100% indican
un menor ajuste y valores cercanos a 0% indican un mejor ajuste del modelo. El coeficiente arrojó
un valor de 3.39 % por lo que el modelo tiene una capacidad predictiva muy baja.
4.8 Predicción
Finalmente, se aplicó el método “.predict” a los datos del conjunto de prueba para realizar la
predicción de los valores de precipitación de la variable objetivo para nuevos datos de entrada que
arrojó un nuevo conjunto de valores numéricos con los valores predichos de precipitaación.
PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 16
6. Resultados
de 0.38 mm/día, lo que indica que corresponden a niveles de precipitación inferiores a 5 mm. De
acuerdo con la clasificación de precipitaciones (ver tabla 2) propuesta por Brown, Diaz, Gallardo
y Valero (2017), estos valores de precipitación se consideran dentro del rango de lluvias ligeras.
El 63.5% de los datos predichos corresponden a precipitaciones inferiores a 0 mm, las cuales se
promedio de la predicción de las precipitaciones por municipio (Figura 4). Se observa que Lebrija
es el municipio con mayor promedio de precipitaciones y Sucre el menor. Los municipios que no
En la Figura 5 se muestra el MLPRegressor donde se comparan los datos de prueba con las
predicciones y se puede apreciar cómo se ajusta el modelo, aunque es importante destacar que no
logra predecir las precipitaciones clasificadas como fuertes, intensas y torrenciales según Brown
et al. (2017). Esta limitación del modelo es relevante, ya que estas lluvias representan un mayor
interés debido a la necesidad de tomar medidas preventivas para minimizar los riesgos asociados,
como inundaciones y deslizamientos del suelo. Sin embargo, el modelo tiene un mejor desempeño
7. Discusión
Al realizar la correlación entre las variables de entrada y la variable a predecir, durante la fase de
preprocesamiento, se observó que no hubo una variable fuerte, es decir, una variable que se
acercara a 1 para el buen entrenamiento del modelo. Por lo tanto, el rendimiento del modelo de
regresión en los datos presenta un score bajo, lo que sugiere que el modelo tiene dificultades para
hacer predicciones precisas. Esto implica que hay una gran discrepancia entre las predicciones del
Geetha y Selvaraj (2011) sugieren para investigaciones futuras la inclusión de otras variables,
como la temperatura máxima, además del valor de la precipitación utilizada en este proyecto. La
PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 19
precipitación desempeña un papel fundamental en el ciclo del agua, ya que cuando el agua cae
sobre la superficie puede seguir diferentes rutas. Puede infiltrarse en el suelo, fluir hacia los cursos
de agua, evaporarse o ser absorbida por las plantas, completando así su ciclo. Por lo tanto, es
viento, entre otras posibles, para mejorar las predicciones relacionadas con precipitaciones.
8. Conclusiones
● Se evidenció que el rendimiento del modelo fue deficiente, ya que más de la mitad de las
como este, con el fin de obtener resultados más precisos. Esta práctica permite realizar
comparaciones entre los modelos y determinar cuál de ellos tuvo un rendimiento superior.
PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 20
Referencias Bibliográficas
precipitación (Versión 1,10). Informe del Estado del Medio Ambiente y de los Recursos
statistics/saas?topic=regression-nonlinear
usando imágenes del radar de lluvias de UDEP. [Tesis de pregrado]. Universidad de Piura.
https://doi.org/10.36227/techrxiv.14398304.v1
Portal Gestión del Riesgo (2009). Importancia de la información y predicción climática para el
Portal.gestiondelriesgo.gov.co.http://portal.gestiondelriesgo.gov.co/paginas/old_noticias/47
0.aspx#:~:text=Esas%20predicciones%20contribuyen%20a%20la
Semana. (2023, Marzo 15). Lluvias en Santander: estos municipios están con alerta roja por
https://www.semana.com/nacion/bucaramanga/articulo/lluvias-en-santander-estos-
municipios-estan-con-alerta-roja-por-deslizamientos-e-inundaciones/202353/
PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 21
The black box lab (17 de junio de 2022). Machine learning: diferencias entre algoritmos de
diferencias-entre-algoritmos-clasificacion-regresion/