Paper - Machine Learning para La Prediccion de Sismos en Lima e Ica

Aplicacion de Machine Learning para la prediccion
de sismos en Lima e Ica

*Nota: El presente paper es para visualización educativa del curso IA
Jeannette María Monroy García

Universidad Nacional de Ingeniería Melissa Paola Vargas Torres
Lima, Perú Universidad Nacional de Ingeniería
jmonroyg@uni.pe Lima, Perú
mvargast@uni.pe
Resumen—Existen variables básicas de predicción de de tener un fuerte sismo posterior. El análisis se lleva a cabo
terremotos. La mayoría de los estudios se realizan sobre en varias etapas de tiempo para simular el aumento del
pronósticos, teniendo en cuenta el historial de terremotos en conocimiento a lo largo del tiempo. Abordamos el principal
países y áreas específicas. En este contexto, la idea central problema de las estadísticas y el aprendizaje automático
de este trabajo es predecir cuándo un evento se clasifica cuando se aplican a la variación espaciotemporal de la
como sismo menor, ligero, moderado y fuerte en las sismicidad: los pequeños conjuntos de datos disponibles, del
ciudades de Lima e Ica del Peru. Se aplica diferentes orden de decenas o menos instancias, necesitan un análisis
algoritmos de aprendizaje automático sobre un conjunto de más preciso con respecto a los procedimientos de prueba
datos de terremotos reales, tales como: Random Forest, clásicos, donde cientos o miles de los datos están
Naive Bayes, Logistic Regression, MultiLayer Perceptron, disponibles. Además, desarrollamos un método NESTORE
AdaBoost, K-vecinos más cercanos, Support Vector más robusto basado en un enfoque jackknife (rNESTORE) y
Machine y árboles de clasificación. lo aplicamos con éxito a la sismicidad de California.
B. Equivalencia de modelos de aprendizaje automático en
Palabras clave - Aprendizaje automático, predicción de
el modelado del caos
sismos, J48, Random Forest, BayesNet, LibSVM
Los avances recientes han demostrado que los modelos de
I. INTRODUCCIÓN aprendizaje automático son métodos efectivos para predecir
Los terremotos, una gran catástrofe que ha ocupado el 60% sistemas caóticos. Aunque la predicción del caos a corto
de las muertes en general los desastres naturales. plazo se puede realizar con éxito mediante modelos de
Obviamente, los humanos no pueden detener los desastres aprendizaje automático aparentemente diferentes, aún se
naturales, mientras que la aplicación del aprendizaje desconoce una pregunta intrigante sobre su correlación.
automático es un método y una técnica poderosos e Aquí, nos enfocamos en tres modelos de aprendizaje
invaluables, utilizados por los investigadores como una automático de uso común que son la computación de
nueva área de estudio en geología, para reducir, tanto como reservorio, las redes de memoria a corto plazo y las redes de
sea posible, la pérdida de vidas y miles de millones de creencias profundas, respectivamente. Encontramos que
dólares en costos de infraestructura y vivienda. Los métodos estos modelos seleccionados presentan propiedades
de clasificación tradicionales se basan en supuestos estadísticas a largo plazo casi idénticas a las de un sistema
estadísticos para terremotos que resultan ser insatisfactorios caótico aprendido. Específicamente, mostramos que estos
en la predicción del estado de peligro. Por ello, cada vez modelos de aprendizaje automático tienen la misma
está más extendido el uso de algoritmos de aprendizaje dimensión de correlación y tiempo de recurrencia. Además,
automático, que se adaptan y aprenden un problema al compartir una señal común, realizamos sincronización,
simulando un Sistema biológico o natural. sincronización en cascada y sincronización acoplada entre
La introducción de técnicas de aprendizaje automático en el modelos de aprendizaje automático. Nuestros hallazgos
campo de la geología y los terremotos supera los métodos revelan la equivalencia de los modelos de aprendizaje
tradicionales y estándar utilizados en años anteriores y automático en la caracterización y el modelado de sistemas
proporciona a los científicos un nuevo método para evaluar caóticos.
el riesgo sísmico y desencadenar futuros terremotos. Las
aplicaciones de minería de datos han logrado un gran éxito C. Predicción de intervenciones de rehabilitación y daños
en geofísica y geología como ecología, predicción del por terremotos mediante aprendizaje automático
tiempo modelado, etc.
Es importante predecir el grado de daño y las intervenciones
II. ESTADO DEL ARTE de rehabilitación, especialmente después de terremotos de
moderados a fuertes, ya que la priorización de la
A. Pronóstico de fuertes terremotos posteriores en grupos recuperación de viviendas después del terremoto necesita
de California mediante aprendizaje automático (1) información sobre el alcance del daño. La predicción de
En este artículo, proponemos un enfoque innovador de daños generalmente se realiza utilizando funciones de
aprendizaje automático llamado NESTORE, que analiza fragilidad, que generalmente están asociadas con grandes
grupos sísmicos para pronosticar fuertes terremotos de incertidumbres. Además, la disponibilidad y
magnitudes similares o mayores a las del terremoto principal. representatividad de las funciones de fragilidad para una
El método analiza la sismicidad en las primeras horas/días región afectada por un terremoto no siempre es un hecho. Se
posteriores al sismo principal y proporciona la probabilidad puede obtener una predicción más realista del daño a partir
©2022 FIIS
de métodos que se basen en los atributos relevantes de los algoritmos de modelado destacando sus aplicaciones,
edificios afectados. Las formulaciones basadas en rendimiento, brechas de conocimiento actuales y sugerencias
inteligencia artificial tienen una gran perspectiva en este para futuras investigaciones. Este documento ayudará a los
sentido. Utilizando la medida de la intensidad de la sacudida ingenieros e investigadores de materiales de construcción a
del suelo y las características detalladas de construcción de seleccionar técnicas adecuadas y precisas que se ajusten a sus
549251 edificios afectados por el terremoto de Gorkha en aplicaciones.
Nepal en 2015, este documento evalúa la efectividad de
cuatro algoritmos comunes de aprendizaje automático para la
predicción del grado de daño y la intervención de III. DEFINICIONES
rehabilitación. Los algoritmos de árbol de decisión, bosque
aleatorio, XGBoost y regresión logística se utilizan para
A. J48: Comparaciones basadas en la eficiencia en cuanto a
preparar modelos de aprendizaje automático y probar su
la clasificación de las variables de riesgo, lo que
rendimiento. Se encontró que el algoritmo XGBoost predice
finalmente, da como mejor herramienta para la
el colapso y el fortalecimiento de edificios con mayor
precisión que los otros algoritmos. Además, la importancia clasificación futura de riesgo, a los arboles de decisión
de las características del modelo XGBoost identifica 19 de basados en el algoritmo C4.5 (J48)
las 20 características más importantes como relevantes tanto
para el grado de daño como para la predicción de la
intervención de rehabilitación. B. Multiplayer Perceptron: Algortimo formado por
múltiples capas, de tal manera que tiene capacidad para
resolver problemas que no son linealmente separables, lo
D. Aprendizaje automático para aplicaciones de cual es la principal limitación del perceptrón (también
perforación: una revisión llamado perceptrón simple). El perceptrón multicapa
En las últimas décadas, el aprendizaje automático ha ganado puede estar totalmente o localmente conectado. En el
un interés creciente en la industria del petróleo y el gas. Este primer caso cada salida de una neurona de la capa "i" es
documento presenta una revisión exhaustiva de los estudios entrada de todas las neuronas de la capa "i+1", mientras
de aprendizaje automático para aplicaciones de perforación que en el segundo cada neurona de la capa "i" es entrada
en las siguientes categorías: (1) fluidos de perforación; (2) de una serie de neuronas (región) de la capa "i+1".
hidráulica de perforación; (3) dinámica de perforación; (4)
problemas de perforación; y (5) diversas aplicaciones de
perforación. En cada estudio, se extraen los algoritmos de C. Random Forest: Es una técnica de aprendizaje
aprendizaje automático, el tamaño de la muestra, las entradas automático supervisada basada en árboles de decisión.
y salidas y el rendimiento. Además, se resumen las Su principal ventaja es que obtiene un mejor rendimiento
similitudes de los estudios en cada categoría y se hacen de generalización para un rendimiento durante
recomendaciones para el desarrollo futuro. entrenamiento similar.
D. BayesNet: Una red bayesiana es un grafo acíclico dirigido

E. Modelos predictivos para propiedades concretas
en el que cada nodo representa una variable aleatoria que
utilizando enfoques de aprendizaje automático y
tiene asociada una función de probabilidad condicional.
aprendizaje profundo: una revisión.
La estructura de la red bayesiana provee información
El hormigón es uno de los materiales más utilizados en sobre las relaciones de dependencia e independencia
diversas aplicaciones de ingeniería civil. Su tasa de condicional existentes entre las variables. Estas relaciones
producción global está aumentando para satisfacer la simplifican la representación de la función de
demanda. Las propiedades mecánicas del concreto se probabilidad conjunta como el producto de las funciones
encuentran entre los parámetros importantes en el diseño y de probabilidad condicional de cada variable. Sea U =
evaluación de su desempeño. En las últimas décadas, el {X1, X2,…, Xn} un conjunto de variables aleatorias.
aprendizaje automático se ha utilizado para modelar Formalmente, una red bayesiana para U es un par B = <G,
problemas del mundo real. El aprendizaje automático, como T> en el que: G es un grafo acíclico dirigido en el que
rama de la inteligencia artificial, está ganando popularidad en cada nodo representa una de las variables X1, X2,…, Xn,
muchos campos científicos, como la robótica, la estadística, y cada arco representa relaciones de dependencia directas
la bioinformática, la informática y los materiales de entre las variables. La dirección de los arcos indica que la
construcción. El aprendizaje automático tiene muchas variable "apuntada" por el arco depende de la variable
ventajas sobre los modelos estadísticos y experimentales, situada en su origen.
como precisión óptima, velocidad de alto rendimiento,
capacidad de respuesta en entornos complejos y rentabilidad
económica. Recientemente, más investigadores están
investigando el aprendizaje profundo, que es un grupo de
algoritmos de aprendizaje automático, como un método IV. TECNICA PROPUESTA
poderoso en materia de diagnóstico y clasificación. Por lo Se propone el siguiente modelo para la predicción de sismos.
tanto, este documento proporciona una revisión de las La entrada de datos viene a ser el DATASET de Sismos el
aplicaciones exitosas de los modelos ML y DL para predecir cual ha sido ordenado y categorizado de forma manual. Este
las propiedades mecánicas del hormigón. Se revisaron varios DATASET se procesa en el software WEKA dando como
primer paso la normalización de datos para reducir los sesgos
y transformarlos a una misma escala. Lo siguiente es aplicar Cabe señalar, que se enmarco inicialmente los sismos
los algoritmos de clasificación J48, Random Forest, ocurridos en Lima, Ica y otros departamentos colindantes
BayesNet, Multiplayer Perceptron y LibSVN. A como se puede observar en la fig. 3. Sin embargo, la data de
continuación, se realizan las pruebas y entrenamientos esa forma influía negativamente en los resultados de
correspondiente al algoritmo utilizado. Y, Finalmente el WEKA, por esa razón mediante el API de GOOGLE Maps
Software WEKA nos entrega un resultado del porcentaje de y APPScript se obtuvo los nombres aproximados de los
predicción de sismos. En el apartado de departamentos, provincias y distritos del recuadro Fig. 3. De
EXPERIMENTACION se dará más detalles de los datos y
esa forma, se filtró solo los sismos Lima e Ica, quedando la
configuración utilizadas en los algoritmos.
data de sismo como se aprecia en la Fig. 4 y 5.
Fig 3. Se enmarca sismos ocurridos en las ciudades Lima,

Ica y otras ciudades colindantes.
Fig 1. Modelo Propuesto para la prediccion de Sismos.
A. DATASET
1) El DATASET original se obtuvo de IGP (Instituto

Geofísico del Perú). Se descargo la base de datos de sismos
en el Perú de 1960 al 2021 que consta de 23 mil registros
Un aproximado de un sismo diario. En la figura 2. Se puede
observar el diccionario de datos de sismo de IGP donde
detalla la descripción de cada atributo.
Fig 4. Epicentros de Lima e Ica.
Fig 2. Diccionario de Datos de Sismos de 1960 al 2021 IGP
2) Delimitacion de DATASET
En base al DATASET original de IGP, se extrae los sismos

de solo los departamentos Lima e Ica, que equivale a 4413
sismos reportados desde 1960 al 2021.
Los mapas que se muestran en la fig. 3, 4, 5 y 6, fueron

realizados con MyMaps de Google, que requiere como
mínimo la latitud y longitud para identificar el lugar. En esta
investigación se usa los datos de los atributos Latitud y
Longitud para identificar el epicentro.
Fig 5. Acercamiento de epicentros de Lima e Ica. # Atributo Descripción
1 DIA SEMANA Dia de semana del sismo
Finalmente, se dividió por zonas los departamentos de Lima
2 Numero de semana del año del
e Ica. Donde la Zona 1, 2, 3 y 4 pertenecen a Lima y Zona 5 NUM SEMANA
sismo
y 6 a Ica. Fig. 6.
3 PROFUNDIDA Profundidad del foco sísmico por
D KM debajo de la superficie
4 ZONA Ubicación de sismo, es un sector.
5 CLASE Clasificación de Magnitud
Tabla 3. Atributos de DATASET NUM_SEMANA
# Cantidad
de
Magnitud Clasificación Registros
1 3.2-4.5 Menor_Magnitud 1352
2 4.6-5.2 Ligera_Magnitud 2620
3 5.3-5.9 Moderada_Magnitud 392
4 6.0-8.0 Fuerte_Magnitud 49
Total de registros 4413
Tabla 4. Clasificación de Magnitudes de DATASET
Fig. 6. División de Zonas los departamentos Lima e Ica
NUM_SEMANA
3) Escenarios de DATASET
V. EXPERIMENTACION Y RESULTADOS
En esta investigación se configuró dos escenarios buscando
Se utiliza WEKA para el aprendizaje automático y la
los mejores resultados de clasificación. La diferencia entre
minería de datos. El modelo procesó 4413 instancias donde
los escenarios está relacionada con los atributos y
el 70% de la data fue para entrenamiento y 30% para
categorización de las clases. Se denominará DATASET
pruebas. Los algoritmos aplicados fueron:
MINUTOS y DATASET NUM_SEMANA para resaltar el
atributo que no se repite entre ellos.
– Random Forest (RF);
A continuación, se muestra los atributos y clasificación
– Maquina de vectores de soporte (SVM);
respectivo de cada DATASET.
– Naïve Bayes (NB);
– Multiflayer Perceptron (MP)
– J48
# Atributo Descripción –CostSensitiveClassifier
1 DIA SEMANA Dia de semana del sismo.
2 MES Mes del sismo. Y, para el balanceo se utilizó el algoritmo SMOTE con un
3 Hora del sismo transformado en 50%. Previamente los datos fueron Normalizados.
MINUTOS
minutos.
4 PROFUNDIDA Profundidad del foco sísmico por
D KM debajo de la superficie. A. Aplicación de Algoritmos WEKA
5 ZONA Ubicación de sismo, es un sector. A continuación, se aplica los algoritmos mencionados en el
6 CLASE Clasificación de Magnitud. DATASET MINUTOS. Donde, se puede observar en la
Tabla 1. Atributos de DATASET MINUTOS Fig.6, que inicialmente con J48, como algoritmo base, se
tiene una clasificación correcta del 37.54% y al aplicar
SMOTE mejora a un 48.63%.
# Cantidad También se observa que el algoritmo con peor resultado fue
de el SVM polinomial con 35% inicialmente y al aplicar
Magnitud Clasificación Registros SMOTE mejora con 40.1%.
1 3.2-4.5 Menor_Magnitud 1352
2 4.6-4.8 1597 Aplicando SMOTE, con 1,407instancias más, se halla que el
Moderada_Magnitud mejor algoritmo es el Random Forest con 44.2%
3 4.9-8.0 Fuerte_Magnitud 1464
Total de registros 4413
Tabla 2. Clasificación de Magnitudes de DATASET
MINUTOS
Fig. 6. Resultado de algoritmos en DATASET MINUTOS
Fig. 9. Mejor resultado de algoritmos RandomForest con

SMOTE en DATASET NUM_SEMANA
B. Comparacion de DATASETs
Camparando los resuldos del procesamietno de los
DATASET MINUTOS y NUM_SEMANA.
En el DATASET MINUTOS los porcentajes los TP Rate,

antes del SMOTE, se ven mas balancedos debido a que los
registros fueron clasificados con tres clase y con similar
numero de registros. En diferencia que el DATASET
NUM_SEMANA los porcentajes de TP Rate, antes del
SMOTE, tiene en el TP Rate porcentajes 0. Esto debido a que
Fig. 7. Mejor resultado de algoritmos RandomForest con
las data fue clasificada en 4 clases donde la clase
SMOTE en DATASET MINUTOS
FUERTE_MAGNITUD tenia 49 registros, es decir cantidad
de registros de las clases no estaban balanceadas en un incio.
Lo cual Aplicar SMOTE mejora significativamente en ambos
Seguidamente, se aplica los algoritmos mencionados para el
DATASETS. Principalmente en el DATASET
DATASET NUM_SEMANA. En el cual, se puede observar
NUM_SEMANA.
en la Fig.8, que inicialmente con J48, como algoritmo base,
se tiene una clasificación correcta del 57.10% y al aplicar
SMOTE mejora con un 56%.
También se observa que el algoritmo con peor resultado fue
el CostSensitiveClassifier con 49.2%, sin embargo, tiene
mejor TP Rate en comparación de los otros algoritmos. VI. CONCLUSIONES
El estudio se realizó en base a datos abiertos del IGP. Estos

Aplicando SMOTE, con 1151 instancias más, se halla que el datos corresponden de1960 al 2021. La investigación estuvo
mejor algoritmo es el Random Forest con 54.7% realizada solo para los departamentos de Lima e Ica del
Perú. Se han probado cinco algoritmos de Machine Learning
en dos escenarios de DATASETS para clasificar magnitudes
sísmicas y se identifica como mejor DATASET
NUM_SEMANA con 4 clases denominas menor, ligera,
moderada y fuerte magnitud. De los algoritmos probados el
que tuvo mejor resultado fue el RandomForest con 54.7%,
el cual previamente se aplico un SMOTE para aumentar
instancias en la clase minoritaria.
En un trabajo futuro nos gustaría conseguir más datos para
el estudio y aplicar otros atributos como precipitaciones,
temperaturas, tipos de suelos.
REFERENCIAS
Fig. 8. Resultado de algoritmos en DATASET
NUM_SEMANA [1] S.Gentili, Pronóstico de fuertes terremotos posteriores en grupos de
California mediante aprendizaje automático
[2] S. Gentili, “Equivalencia de modelos de aprendizaje automático en el [7] Giuseppe Bonaccorso.Algoritmos de aprendizaje automático: una guía
modelado del caos” de referencia de algoritmos populares para la ciencia de datos y el
[3] SajanK C , “Predicción de intervenciones de rehabilitación y daños por aprendizaje automático. Packt Publishing, 2017.Ffff
terremotos mediante aprendizaje automático” [8] Leo Breiman. Bosques aleatorios.Aprendizaje automático, 45(1):5–32,
[4] RuizhiZhong, “Aprendizaje automático para aplicaciones de 2001.
perforación: una revisión” [9] Ff ff Louise K Comodidad. Autoorganización en respuesta a desastres:
[5] MohammadMohtasham Moei , “Modelos predictivos para propiedades El gran terremoto de Hanshin, Japón del 17 de enero de 1995. En
concretas utilizando enfoques de aprendizaje automático y aprendizaje Autoorganización en respuesta a desastres: el gran terremoto de
profundo: una revisión.” Hanshin, Japón, del 17 de enero de 1995. Universidad de Colorado de
los Estados Unidos. Centro de Peligros Naturales, 1995.
[6] KM Asim, F Martı́nez-Álvarez, A Basit y T Iqbal. Predicción de la
magnitud del terremoto en la región hindukush utilizando técnicas de
aprendizaje automático. Peligros Naturales, 85(1):471–486, 2017.

Paper - Machine Learning para La Prediccion de Sismos en Lima e Ica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Paper - Machine Learning para La Prediccion de Sismos en Lima e Ica

Cargado por

Copyright:

Formatos disponibles

Aplicacion de Machine Learning para la prediccion

de sismos en Lima e Ica

Jeannette María Monroy García

D. BayesNet: Una red bayesiana es un grafo acíclico dirigido

Fig 3. Se enmarca sismos ocurridos en las ciudades Lima,

Fig 1. Modelo Propuesto para la prediccion de Sismos.

1) El DATASET original se obtuvo de IGP (Instituto

Fig 4. Epicentros de Lima e Ica.

Fig 2. Diccionario de Datos de Sismos de 1960 al 2021 IGP

En base al DATASET original de IGP, se extrae los sismos

Los mapas que se muestran en la fig. 3, 4, 5 y 6, fueron

Fig. 9. Mejor resultado de algoritmos RandomForest con

En el DATASET MINUTOS los porcentajes los TP Rate,

El estudio se realizó en base a datos abiertos del IGP. Estos

También podría gustarte