Está en la página 1de 21

PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 1

Predicción de las precipitaciones en Santander usando el algoritmo regresión de Machine

Learning

Daniela Quintero Madariaga, Madeleine Castellanos Rincón y María Cristina Lizcano Ortega

Proyecto Final de la Asignatura Geoestadística

Docente

Sergio Andrés García Arias

Geólogo Mgtr

Universidad Industrial de Santander

Facultad de Ingenierías Fisicoquímicas

Escuela de Geología

Geología

Bucaramanga

2023
PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 2

Tabla de Contenido

Pág.

1. Introducción .............................................................................................................. 8

2. Objetivos ......................................................................................................................... 9

2.1 Objetivo General .................................................................................................... 9

2.2 Objetivos Específicos................................................................................................ 9

3. Marco Teórico................................................................................................................. 9

3.1 Machine Learning ..................................................................................................... 9

3.2 Tipo de machine learning: Aprendizaje supervisado .................................... 10

3.3 Redes neuronales .................................................................................................... 10

4. Metodología .................................................................................................................. 11

4.1 Revisión Bibliográfica ............................................................................................ 11

4.2 Selección del conjunto de datos .............................................................................. 12

4.3 Análisis exploratorio de los datos ........................................................................... 12

4.4 Preprocesamiento de los datos ................................................................................ 13

4.5 División de los datos de entrenamiento y prueba ................................................... 14

4.6 Entrenamiento ......................................................................................................... 15

4.7 Evaluación del modelo............................................................................................ 15

4.8 Predicción ............................................................................................................... 15


PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 3

6. Resultados ..................................................................................................................... 16

7. Discusión....................................................................................................................... 18

8. Conclusiones ................................................................................................................. 19

Referencias Bibliográficas ................................................................................................ 20


PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 4

Lista de Tablas

Tabla 1. Descripción estadística de los datos donde se puede observar la relación directa

entre la altitud y el valor. .............................................................................................................. 13

Tabla 2. Clasificación de precipitaciones. ........................................................................ 16


PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 5

Lista de Figuras

Figura 1. Perceptrón simple. Imagen tomada de “Natural Language Generation With

Neuronal Variational Models” Bahulevan(2018). ........................................................................ 10

Figura 2. Perceptrón complejo. Imagen tomada de “Natural Language Generation with

Neuronal Variational Models” Bahuleyan (2018). ....................................................................... 11

Figura 3. Mapa de calor que muestra la correlación entre las variables de entrada y la

variable a predecir ‘Valor’. ........................................................................................................... 14

Figura 4. Predicción de precipitación por municipio. ...................................................... 17

Figura 5. Predicción de MLPRegressor vs los datos de prueba de las precipitaciones en

Santander en el año 2020. ............................................................................................................. 18


PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 6

Resumen

Título: Predicción de las precipitaciones en Santander usando el algoritmo regresión de Machine

Learning.*

Autor: Daniela Quintero, Madeleine Castellanos y Cristina Lizcano.**

Palabras Clave: Machine Learning, Algoritmo, MLPRegression, Santander

Descripción: Este proyecto se centra en el desarrollo de un modelo de Machine Learning basado

en el algoritmo de MLPRegression para predecir las precipitaciones en el departamento de

Santander. Se obtuvo un conjunto de datos proporcionados por el IDEAM del año 2020. Se llevó

a cabo el análisis exploratorio de los datos, se realizó el preprocesamiento necesario, se entrenó el

modelo y finalmente, se obtuvo la predicción. El modelo tuvo dificultades para hacer predicciones

precisas, posiblemente por la correlación negativa entre las variables o porque dicho modelo no

fue el más apropiado para el conjunto de datos. Se sugiere implementar varios modelos de redes

neuronales para obtener resultados más precisos.

*
Proyecto Final de la Asignatura Geoestadística
**
Facultad de Ingenierías Fisicoquímicas. Escuela de Geología. Docente: Sergio Andrés Garcia
Arias, Mgtr.
PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 7

Abstract

Title: Predicción de las precipitaciones en Santander usando el algoritmo regresión de Machine

Learning.*

Author(s): Daniela Quintero, Madeleine Castellanos y Cristina Lizcano.**

Key Words: Machine Learning, Algorithm, MLPRegression, Santander

Description: This project focuses on the development of a Machine Learning model based on the

MLPRegression algorithm to predict rainfall in the department of Santander. A dataset provided

by IDEAM for the year 2020 was obtained. The exploratory analysis of the data was carried out,

the necessary preprocessing was performed, the model was trained and finally, the prediction was

obtained. The model had difficulties in making accurate predictions, possibly due to the negative

correlation between the variables or because the model was not the most appropriate for the data

set. It is suggested to implement several neural network models to obtain more accurate results.

1
Final Project of the Geostatistics Course
2
Facultad de Ingenierías Fisicoquímicas. Escuela de Geología. Docente: Sergio Andrés Garcia
Arias, Mgtr.
PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 8

1. Introducción

La precipitación es un fenómeno natural muy importante por sus implicaciones ambientales,

sociales y económicas, ya que afecta a las actividades humanas diarias como el desplazamiento,

agricultura, construcción, turismo etc., por lo que es tema de interés para las entidades

gubernamentales de gestión de riesgos. Durante el transcurso del presente año, la mayoría de

municipios del departamento de Santander ha estado en alerta roja debido a deslizamientos e

inundaciones ocasionados por el aumento de las fuertes lluvias, lo cual ha resultado en el

desbordamiento de quebradas, pérdidas de cultivos y afectaciones viales (Revista Semana, 2023).

Por esto, es necesario contar con un sistema de predicción de las precipitaciones para tomar

medidas preventivas sobre dicho fenómeno.

El propósito del desarrollo de este proyecto consiste en pronosticar las predicciones acerca de las

precipitaciones en Santander, mediante el uso del algoritmo de regresión de machine learning o

aprendizaje automático, debido a que estas predicciones contribuyen a la reducción de los riesgos

de desastre y ofrecen a las comunidades alertas tempranas de inundaciones, sequías, olas de frío

repentinas, olas de calor y otros fenómenos climáticos extremos con objeto de que puedan

prepararse para esos fenómenos y protegerse de sus efectos (UNGRD, 2009). La precipitación es

definida como la caída de partículas de agua líquida o sólida que se originan en una nube,

atraviesan la atmósfera y llegan al suelo. Todas las formas de precipitación se miden en milímetros

(mm) de lluvia, un milímetro de precipitación es la altura que alcanza el agua sobre una superficie

de un metro cuadrado (González, 2014).


PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 9

2. Objetivos

2.1 Objetivo General

● Desarrollar un modelo de Machine Learning basado en el algoritmo de regresión para

predecir las precipitaciones en el departamento de Santander.

2.2 Objetivos Específicos

● Implementar un algoritmo de regresión utilizando el conjunto de datos de entrenamiento,

ajustando los parámetros según sea necesario.

● Estimar la probabilidad del valor de precipitación en una fecha determinada.

3. Marco Teórico

3.1 Machine Learning

Se refiere a machine learning como un campo de las ciencias de la computación, que se ocupa del

desarrollo de la Inteligencia Artificial, responsable del “aprendizaje”, en el que una máquina está

programada para pensar y aprender dado un conjunto de datos (Nolasco, 2023). Se trata de crear

un modelo a partir de la información proporcionada para sacar conclusiones y con ello solucionar

el/los problemas(s) que se trata(n) (Marquez, 2018). A partir de ello, se hará una recopilación de

datos de precipitación y de esta forma dar una conclusión respecto a las predicciones y el

comportamiento generalizado.

Un modelo en machine learning es usado para el filtro generado por la entrada de un conjunto de

datos y la clasificación que se genera dado por los patrones detectados a raíz del entrenamiento. A

partir de ello, se definen distintos tipos de machine learning, como lo son el aprendizaje

supervisado, el no supervisado y con refuerzo.


PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 10

3.2 Tipo de machine learning: Aprendizaje supervisado

El aprendizaje supervisado es un modelo entrenado con cierta cantidad de datos clasificados o

definidos en etiquetas. El algoritmo obtiene un aprendizaje en base a la comparación de los datos

suministrados al programa y así detectar errores. En el caso de un algoritmo de regresión se

relacionan valores o características y una variable continua, se puede clasificar como regresión

lineal, no lineal, logística, árboles de decisión y deep learning. La regresión no lineal genera un

modelo con estimaciones arbitrarias para la relación entre variables independientes y una variable

dependiente.

3.3 Redes neuronales

“Para comprender el modelo computacional de las redes neuronales artificiales, uno debe

comenzar desde su componente básico, conocido como el perceptrón” Rosenblatt (1958), la forma

de perceptrón es usada por redes neuronales simulando las neuronas del cerebro las cuales toman

uno o más datos de información como entrada y dan como resultado un único valor como salida.

Figura 1. Perceptrón simple. Imagen tomada de “Natural Language Generation With Neuronal
Variational Models” Bahulevan (2018).
PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 11

Normalmente se utiliza un perceptrón más avanzado, donde hay una conexión entre cada nodo

individual junto a una capa específica, dando como resultado una red neuronal.

Figura 2. Perceptrón complejo. Imagen tomada de “Natural Language Generation with Neuronal
Variational Models” Bahuleyan (2018).

4. Metodología

4.1 Revisión Bibliográfica

Durante esta fase, se llevó a cabo una revisión bibliográfica, donde se buscó recopilar y sintetizar

la información relevante y confiable proveniente de diversas fuentes. La recopilación y diagnóstico

de la información corresponde a trabajos previos de machine learning que presentan el tema central

de este proyecto. La selección de la información se basó en la utilización de bases de datos

académicas y revistas científicas como fuentes primarias para garantizar la fiabilidad de los datos.

Un artículo revisado que abarca todos los aspectos contemplados en este proyecto es el de Oswal

(2019), el cual se enfoca en la aplicación de técnicas de machine learning con el objetivo de

pronosticar la precipitación en las principales ciudades de Australia. Se realiza una comparación

de diversas variables de modelado, métodos de modelado y técnicas de preprocesamiento para


PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 12

evaluar su eficacia en la predicción de la lluvia. El conjunto de datos utilizado en la investigación

consiste en registros diarios de observaciones meteorológicas de estaciones meteorológicas

ubicadas en Australia. El estudio abarca la exploración y el análisis de los datos, el

preprocesamiento de los mismos, la implementación de modelos y la evaluación de su desempeño.

4.2 Selección del conjunto de datos

Para generar el modelo de machine learning de predicción de precipitaciones se tomó la base de

datos proporcionada por el Instituto de Hidrología, Metereología y Estudios Ambientales - IDEAM

de precipitaciones con una frecuencia diaria en los municipios del departamento de Santander

durante el año 2020. Esta base de datos consta de información sobre el nombre y la ubicación

geográfica de la estación, el municipio y la fecha donde fue instalada, las fechas exactas en las que

tomó el valor y dicho valor en milímetros (mm). Para procesar dicha base de datos se utilizó el

entorno de ejecución Google Colab donde se importaron las librerías necesarias para el desarrollo

del modelo. Los datos se leyeron en un DataFrame para organizarlos, almacenarlos y manipularlos

de manera integrada.

4.3 Análisis exploratorio de los datos

Esta fase se hizo con el objetivo de tener certeza de que los resultados obtenidos sean válidos y se

puedan utilizar para aplicar el modelo. Se aplicó el método “.describe” de pandas (Tabla 1) para

observar el resumen estadístico del conjunto de datos, donde se pudo observar el promedio de los

valores de precipitación en Santander y la relación directa entre la altitud y la precipitación.


PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 13

Tabla 1. Descripción estadística de los datos donde se puede observar la relación directa entre la
altitud y el valor.

index CodigoEstacion Latitud Longitud Altitud Valor Grado


count 33827.0 33827.0 33827.0 33827.0 33827.0 33827.0
mean 2,40E+16 6,78E+15 -7,33E+14 1,16E+16 5,58E+15 50.0
std 2,21E+15 0.490959 0.396842 9,58E+15 1,32E+16 0.0
min 23110060.0 5,76E+09 -7,43E+09 10.0 0.0 50.0
25% 23190210.0 6,36E+09 -7,36E+09 171.0 0.0 50.0
50% 24010650.0 6,79E+09 -7,32E+09 950.0 0.0 50.0
75% 24030320.0 7,21E+03 -7,30E+05 1814.0 5.0 50.0
max 37015020.0 7,78E+09 -7,26E+09 3824.0 162.0 50.0

Además, se aplicó el método “.dtypes” para conocer el tipo de cada una de las variables del

conjunto de datos, para poder operar y transformar estos datos a la hora de implementar el modelo.

4.4 Preprocesamiento de los datos

En esta fase se prepararon los datos para poder implementar el modelo de manera eficaz. Con el

método “.drop” se eliminaron variables que no se utilizaron en el modelo para así simplificar y

reducir la dimensionalidad de los datos como 'FechaSuspension', 'Calificador', 'Grado',

'NivelAprobacion'. Con el método “.astype(float)” se convirtió la variable ‘Fecha’ de tipo object a

tipo Float para poder aplicar una correlación y luego poder realizar la normalización de los datos.

Con el método “.heatmap” se realizó un mapa de calor, como se muestra en la Figura 3, que

muestra una correlación positiva no lineal entre la variable de entrada ‘Fecha’ y la variable a

predecir ‘Valor’. Y una correlación negativa no lineal entre las otras variables de entrada y la

variable a predecir.
PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 14

Figura 3. Mapa de calor que muestra la correlación entre las variables de entrada y la variable a
predecir ‘Valor’.

Finalmente, se separaron los datos de las variables en X y Y y se normalizaron con la herramienta

“StandarScaler” para que estas variables tengan una escala similar y así evitar que los valores muy

grandes o pequeños afecten negativamente el rendimiento del modelo.

4.5 División de los datos de entrenamiento y prueba

Para esta fase se utilizó la función “train_test_split” para dividir los conjuntos de datos X y Y en

conjuntos de entrenamiento y prueba, asignando el 80% de los datos al entrenamiento y el restante

20% a la prueba El conjunto de entrenamiento se utiliza para ajustar los parámetros del modelo,

mientras que el conjunto de prueba se utiliza para evaluar su rendimiento.


PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 15

4.6 Entrenamiento

En esta fase se aplicó el algoritmo de regresión de redes neuronales para su aprendizaje, ya que

este tiene la finalidad de predecir un valor numérico continuo, en este caso, la precipitación. El

modelo de regresión utilizado fue el MLPRegressor (Multilayer Perceptron) basado en redes

neuronales multicapas. Para su aprendizaje se implementaron 3 capas ocultas y la función de

activación ‘Relu’ (Rectified Linear Unit), debido a que introduce no linealidad entre las variables

que fue observado durante la correlación. Finalmente, se entrenó el modelo aplicando el método

“.fit” al conjunto de datos de entrenamiento, para que aprenda a relacionar las características de

las variables de entrada con las variables de salida.

4.7 Evaluación del modelo

En esta fase se evaluó el rendimiento del modelo en el conjunto de datos de prueba. Se utilizó el

método “.score” para medir el porcentaje de ajuste del modelo a los datos de prueba y para evaluar

la efectividad de la predicción. Este método calcula el coeficiente de determinación (R2), que va

desde 0 a 100%, entre los datos de prueba y las predicciones. Valores cercanos al 100% indican

un menor ajuste y valores cercanos a 0% indican un mejor ajuste del modelo. El coeficiente arrojó

un valor de 3.39 % por lo que el modelo tiene una capacidad predictiva muy baja.

4.8 Predicción

Finalmente, se aplicó el método “.predict” a los datos del conjunto de prueba para realizar la

predicción de los valores de precipitación de la variable objetivo para nuevos datos de entrada que

arrojó un nuevo conjunto de valores numéricos con los valores predichos de precipitaación.
PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 16

6. Resultados

Los datos pronosticados de precipitaciones en el departamento de Santander muestran una media

de 0.38 mm/día, lo que indica que corresponden a niveles de precipitación inferiores a 5 mm. De

acuerdo con la clasificación de precipitaciones (ver tabla 2) propuesta por Brown, Diaz, Gallardo

y Valero (2017), estos valores de precipitación se consideran dentro del rango de lluvias ligeras.

El 63.5% de los datos predichos corresponden a precipitaciones inferiores a 0 mm, las cuales se

consideran como lluvias nulas.

Tabla 2. Clasificación de precipitaciones.

clasificación Rango (mm)


Lluvia Nula 0
Lluvia Ligeras 0-5
Lluvias Moderadas 5-20
Lluvias Fuertes 20-70
Lluvias Intensas 70-150
Llvias Torrenciales >150

Fuente: Brown et al. (2017).

El modelo MLPRegressor de redes neuronales de Machine Learning en donde se muestra el

promedio de la predicción de las precipitaciones por municipio (Figura 4). Se observa que Lebrija

es el municipio con mayor promedio de precipitaciones y Sucre el menor. Los municipios que no

se muestran en la gráfica obtuvieron promedios por debajo de cero.


PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 17

Figura 4. Predicción de precipitación por municipio.

En la Figura 5 se muestra el MLPRegressor donde se comparan los datos de prueba con las

predicciones y se puede apreciar cómo se ajusta el modelo, aunque es importante destacar que no

logra predecir las precipitaciones clasificadas como fuertes, intensas y torrenciales según Brown

et al. (2017). Esta limitación del modelo es relevante, ya que estas lluvias representan un mayor

interés debido a la necesidad de tomar medidas preventivas para minimizar los riesgos asociados,

como inundaciones y deslizamientos del suelo. Sin embargo, el modelo tiene un mejor desempeño

al predecir eventos secos.


PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 18

Figura 5. Predicción de MLPRegressor vs los datos de prueba de las precipitaciones en Santander


en el año 2020.

7. Discusión

Al realizar la correlación entre las variables de entrada y la variable a predecir, durante la fase de

preprocesamiento, se observó que no hubo una variable fuerte, es decir, una variable que se

acercara a 1 para el buen entrenamiento del modelo. Por lo tanto, el rendimiento del modelo de

regresión en los datos presenta un score bajo, lo que sugiere que el modelo tiene dificultades para

hacer predicciones precisas. Esto implica que hay una gran discrepancia entre las predicciones del

modelo y los datos de prueba.

Geetha y Selvaraj (2011) sugieren para investigaciones futuras la inclusión de otras variables,

como la temperatura máxima, además del valor de la precipitación utilizada en este proyecto. La
PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 19

precipitación desempeña un papel fundamental en el ciclo del agua, ya que cuando el agua cae

sobre la superficie puede seguir diferentes rutas. Puede infiltrarse en el suelo, fluir hacia los cursos

de agua, evaporarse o ser absorbida por las plantas, completando así su ciclo. Por lo tanto, es

importante continuar midiendo e incluyendo nuevas variables, como la evaporación, humedad,

viento, entre otras posibles, para mejorar las predicciones relacionadas con precipitaciones.

8. Conclusiones

● La media de las predicciones de precipitaciones utilizando el MLPRegressor para el

departamento de Santander fue de 0.38 mm/día.

● Se evidenció que el rendimiento del modelo fue deficiente, ya que más de la mitad de las

predicciones resultaron en valores negativos, los cuales carecen de relevancia en la

interpretación de los resultados.

● Es necesario implementar múltiples modelos de redes neuronales en casos de predicción

como este, con el fin de obtener resultados más precisos. Esta práctica permite realizar

comparaciones entre los modelos y determinar cuál de ellos tuvo un rendimiento superior.
PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 20

Referencias Bibliográficas

González O. C. y Casallas I.M. (2014). Hoja metodológica del indicador Anomalía de

precipitación (Versión 1,10). Informe del Estado del Medio Ambiente y de los Recursos

Naturales Renovables. Servicio de Información Ambiental. Colombia: Instituto de

Hidrología, Meteorología y Estudios Ambientales – IDEAM. 9 p.

IBM (13 de septiembre de 2022). Regresión no lineal. https://www.ibm.com/docs/es/spss-

statistics/saas?topic=regression-nonlinear

Naranjo Polania, D. F. (2021). Pronostico de la precipitación para la zona de influencia de la

estación agroclimática Yariguies, utilizando técnicas de Machine Learning.

Nolasco, P (2023). Aplicación de Machine Learning para pronóstico de desplazamiento de lluvias

usando imágenes del radar de lluvias de UDEP. [Tesis de pregrado]. Universidad de Piura.

Oswal, N. (2019). Predicting Rainfall using Machine Learning Techniques.

https://doi.org/10.36227/techrxiv.14398304.v1

Portal Gestión del Riesgo (2009). Importancia de la información y predicción climática para el

beneficio de la población. (n.d.).

Portal.gestiondelriesgo.gov.co.http://portal.gestiondelriesgo.gov.co/paginas/old_noticias/47

0.aspx#:~:text=Esas%20predicciones%20contribuyen%20a%20la

Semana. (2023, Marzo 15). Lluvias en Santander: estos municipios están con alerta roja por

deslizamientos e inundaciones. Semana.com Últimas Noticias de Colombia Y El Mundo.

https://www.semana.com/nacion/bucaramanga/articulo/lluvias-en-santander-estos-

municipios-estan-con-alerta-roja-por-deslizamientos-e-inundaciones/202353/
PREDICCIÓN DE PRECIPITACIONES EN SANTANDER 21

The black box lab (17 de junio de 2022). Machine learning: diferencias entre algoritmos de

clasificación y regresión. https://theblackboxlab.com/2022/05/06/machine-learning-

diferencias-entre-algoritmos-clasificacion-regresion/

También podría gustarte