Electronics 10 02367 v3

Machine Translated by Google
electrónica
Artículo
Uso del aprendizaje automático para detectar eventos sobre la base de

Publicaciones de Facebook en bengalí y bengalí
Noyon Dey 1,† , Md. Sazzadur Rahman 1,* ,† , Motahara Sabah Mredula1, 2 mangueras ASM Sanwar
y In-Ho Ra 3,*
1
Instituto de Tecnología de la Información, Universidad de Jahangirnagar, Dhaka 1342,
Bangladesh; noyondey8@gmail.com (ND); mmredula12@gmail.com (MSM)
2
División de Informática e Ingeniería, Universidad Nacional de Jeonbuk, Jeonju 54896, Corea;
sanwar@jbnu.ac.kr
3 Facultad de Informática, Ingeniería de la Información y la Comunicación, Universidad Nacional de Kunsan,
Gunsan 54150, Corea
* Correspondencia: sazzad@juniv.edu (MSR); ihra@kunsan.ac.kr (I.-HR) † Estos
autores contribuyeron igualmente a este trabajo.
Resumen: En los tiempos modernos, garantizar la seguridad social se ha convertido en la principal preocupación de los
administradores de seguridad. El uso generalizado y recurrente de los sitios de redes sociales está creando un gran
riesgo para la vida de las personas en general, ya que estos sitios se están convirtiendo con frecuencia en fuentes
potenciales para la organización de diversos tipos de eventos inmorales. Para proteger a la sociedad de estos peligros,
es fundamental un sistema de detección previa que pueda detectar eventos de manera efectiva mediante el análisis de
estos datos de las redes sociales. Sin embargo, la automatización del proceso de detección de eventos ha sido difícil, ya
que los procesos existentes deben tener en cuenta diversos estilos de escritura, idiomas, dialectos, longitudes de
publicaciones, etc. Para superar estas dificultades, desarrollamos un modelo efectivo para detectar eventos que, para
nuestros propósitos, se clasificaron como protestas, celebraciones, religiosos o neutrales, utilizando publicaciones de Facebook en be
Cita: Dey, N.; Rahman, MS;
Al principio, el texto de las publicaciones recopiladas se procesó para detectar el idioma y, luego, las publicaciones
Mredula, MS; Hosen, ASMS; Real academia de bellas artes,
detectadas se preprocesaron mediante la eliminación de palabras vacías y la tokenización. Luego, se extrajeron
I.-H. Uso del aprendizaje automático para
características de estos textos preprocesados mediante tres subprocesos: filtrado, coincidencia de frases de eventos
detectar eventos sobre la base de publicaciones
de Facebook en bengalí y bengalí.

específicos y análisis de sentimientos. Las funciones recopiladas finalmente se utilizaron para entrenar nuestro modelo
Electronics 2021, 10, 2367. hÿps: //doi.org/ de clasificación Bernoulli Naive Bayes, que fue capaz de detectar eventos con una precisión del 90,41 % (para
10.3390/electronics10192367 publicaciones en bengalí) y del 70 % (para publicaciones en bengalí). Para evaluar la efectividad de nuestro modelo
propuesto con mayor precisión, lo comparamos con otros dos clasificadores: Support Vector Machine y Decision Tree.
Editor Académico: Juan M. Corchado
Recibido: 13 julio 2021 Palabras clave: bengalí; Bengalí; Bernoulli Naïve Bayes; árbol de decisión; detección de eventos; redes sociales;
Aceptado: 14 de septiembre de 2021
máquinas de vectores soporte
Publicado: 28 septiembre 2021
Nota del editor: MDPI se mantiene neutral con
respecto a reclamos jurisdiccionales en mapas

1. Introducción
publicados y afiliación institucional
aciones. La escala y la interactividad de los sitios de redes sociales dan como resultado la generación de un
volumen masivo de datos en forma de audio, video, texto e imágenes relevantes para la vida personal,
social, política y económica de los usuarios. Estas características han permitido a los participantes
organizar eventos en todo el mundo, que se reflejaron en las protestas de George Floyd en los Estados
Unidos el 26 de mayo de 2020 [1] y la Primavera Árabe de 2010-2012 [2]. Se han organizado eventos
Copyright: © 2021 por los autores.
similares en Bangladesh, incluidas protestas estudiantiles en Dhaka en 2018 [3] y protestas por la
Licenciatario MDPI, Basilea, Suiza.
seguridad vial en la misma ciudad en 2019 [4]. La dureza de estos eventos aterradores nos ha horrorizado,
Este artículo es un artículo de acceso abierto
distribuido bajo los términos y lo que nos llevó a analizar los datos de las redes sociales generados por los usuarios para construir un
condiciones de Creative Commons marco de detección de eventos para que las autoridades de seguridad puedan adquirir la información
Licencia de atribución (CC BY) (hÿps:// adecuada en el momento adecuado y mantener la seguridad social.
creativecommons.org/licenses/by/ Gran parte de la investigación durante la última década se ha centrado en la detección y predicción
4.0/). de eventos utilizando información extraída de las redes sociales. Numerosos investigadores han examinado
Electrónica 2021, 10, 2367. https://doi.org/10.3390/electronics10192367 https://www.mdpi.com/journal/electronics

Electrónica 2021, 10, 2367 2 de 25
tráfico [5,6], desastres [7,8], enfermedades [7,9], eventos deportivos [10], terremotos [8] y delitos [10], por
nombrar solo algunos. Estos estudios han examinado eventos descritos en inglés [11,12], hindi [12], mandarín
[13], urdu [14], japonés [8], coreano [15], árabe [16] y otros idiomas, y han examinó los datos recopilados de
diferentes plataformas para realizar su investigación, incluidos Twiÿer [17–19] o Sina Weibo [20,21]. Aunque
estos estudios se centraron en diferentes idiomas y plataformas de diferentes países, ninguno de ellos ha
analizado el bengalí y sus complejidades relacionadas en la detección de eventos.
Hasta la fecha, ningún equipo de investigación se ha centrado en detectar o predecir eventos religiosos.
Los eventos religiosos, culturales y políticos ocurren durante todo el año en Bangladesh y es común organizar
eventos en Facebook, ya que es utilizado por el 86,73% de todos los usuarios de redes sociales en
Bangladesh [22]. De hecho, aproximadamente 41 millones de personas usan Facebook diariamente en todo
el país [23]. Como Facebook es un sitio de redes sociales popular, un gran número de investigadores han
realizado sus experimentos utilizando datos de Facebook [24,25]. Además, los trabajos existentes solo han
considerado publicaciones en redes sociales de longitudes cortas predeterminadas, como las posibles en
Twiÿer, es decir, 280 caracteres por publicación [26], mientras que las publicaciones en Facebook suelen ser
más largas y complejas. Este estudio también es único por su consideración de publicaciones en bengalí y
bengalí, es decir, palabras bengalíes escritas en el alfabeto inglés, ya que se usan ampliamente en
Bangladesh para publicar en Facebook. Especialmente, Banglish ofrece desafíos significativos en el
procesamiento de texto debido a sus múltiples representaciones posibles de una palabra, es decir, una
palabra con varias grafías pero la misma pronunciación y significado.
Aunque algunos investigadores han utilizado palabras clave específicas para realizar su investigación
[8,20], ningún investigador ha reconocido listas de palabras específicas de eventos en bengalí y bengalí para
sus experimentos. Las listas de frases específicas de eventos para bengalí y bengalí tampoco se reconocen
hasta ahora. En este documento, descubrimos listas separadas para palabras específicas de eventos en
bengalí y bengalí, así como para frases específicas de eventos. Hasta ahora, ninguno ha reconocido múltiples
representaciones de palabras y frases en bengalí. En nuestro trabajo, reconocimos todas las representaciones
posibles de palabras y frases en bengalí.
Hasta donde sabemos, este es el primer estudio que analiza las publicaciones de Facebook escritas
en bengalí y bengalí para detectar eventos. Aunque existen algunas obras en bengalí [24,25,27–29], todas
estas obras son de análisis de opiniones o sentimientos. En este estudio, ampliamos nuestro trabajo anterior
en el que solo trabajamos con publicaciones bengalíes de Facebook con una precisión del 87,5 % en la
detección de eventos [30]. Nuestro trabajo anterior utilizó los mismos procedimientos, es decir, recopilación
de datos, preprocesamiento, extracción de características, entrenamiento de modelos y detección, que
seguimos en este trabajo. Sobre la base de este trabajo anterior, aumentamos la precisión de detección de
eventos de nuestro trabajo anterior y también trabajamos con las publicaciones en formato Banglish.
Modificamos nuestro modelo anterior reconociendo las múltiples representaciones de las palabras en bengalí.
Además, en este modelo también se agregaron representaciones múltiples de frases en bengalí y bengalí
para mejorar la precisión de detección. También mejoramos el procedimiento de detección de idioma para la
detección posterior de la forma bengalí, ya que las bibliotecas disponibles no lo detectan directamente.
Además, la puntuación de opinión de las publicaciones en bengalí también se calculó de manera diferente en
comparación con las publicaciones en bengalí, ya que no se puede calcular directamente con las bibliotecas
de software actuales. Eventualmente, en este estudio, confiamos en las publicaciones de Facebook escritas
en bengalí y en bengalí. Realizamos un estudio detallado sobre publicaciones relacionadas con eventos en
bengalí y bengalí, y determinamos palabras de eventos de uso común y frases de eventos específicos.
También reconocimos múltiples representaciones de palabras en bengalí y frases en bengalí y bengalí. Esta
multiplicidad de presentaciones de palabras y frases, si no se hubiera reconocido, habría creado valores de
características incorrectos y detecciones incorrectas. Además, analizamos los sentimientos de las
publicaciones en bengalí y bengalí y finalmente detectamos cuatro tipos de eventos: celebración, protesta,
religiosos y neutrales.
El resto del documento está estructurado de la siguiente manera. En la Sección 2, revisamos el estudio
de literatura relevante anterior a nuestro trabajo. En la Sección 3, describimos nuestro modelo propuesto y
evaluamos su desempeño en la Sección 4. En la Sección 5, ofrecemos nuestros pensamientos finales y
proponemos algunas direcciones para futuras investigaciones.
Electrónica 2021, 10, 2367 3 de 25
2. Revisión de la literatura
El enorme depósito de datos, es decir, las redes sociales, ha fascinado a los investigadores, y no
sorprende que la predicción y detección de eventos haya sido un tema recurrente en la literatura.
Los investigadores han adoptado diferentes enfoques, incluido el aprendizaje automático, la red neuronal, el
enfoque basado en reglas y muchas otras técnicas para implementar en su trabajo.
La Tabla 1 presenta una representación tabular de algunos de estos estudios de antecedentes.
Para el análisis predictivo, una red neuronal proporciona el mejor análisis, ya que utiliza capas ocultas.
Por lo tanto, muchos investigadores han recurrido a las redes neuronales para detectar eventos de manera
efectiva en las publicaciones de las redes sociales [31–33]. Chen et al. [31] utilizó una red neuronal para
introducir un módulo de identificación de eventos en línea. Al principio, se entrenó un marco de clasificación
para rastrear eventos, sobre la base del contenido de una publicación. Luego, se adoptó un método efectivo
basado en agrupamiento para identificar y rastrear los eventos, y se utilizó un componente de memoria para
almacenar y actualizar la representación de eventos. Bekoulis et al. [32] se centró en la naturaleza secuencial
de los flujos de datos para detectar eventos de datos de redes sociales con un modelo de secuencia neuronal.
Este equipo no solo detectó la existencia de subeventos a partir de los datos de Twiÿer, sino que también logró
identificar el tipo de subevento detectado. Presentaron un modelo de línea de base para la clasificación binaria
y demostraron que su modelo propuesto superó el estado del arte en la identificación de la presencia o
ausencia del sub-evento. Para lograr estos resultados, utilizaron la agrupación AVG (promedio) y MLP
(perceptrón multicapa). Aldhaheri et al. [33] utilizaron redes neuronales para sugerir un esquema único para la
detección de eventos. Se propuso un enfoque temporal que convertía flujos de datos de redes sociales en
imágenes consecutivas y, en última instancia, demostraron que la transformación de un flujo de datos en
imágenes cubre la complicación general de la cadena de redes sociales y mejora la precisión de detección de
eventos.
Para detectar eventos con precisión, algunos investigadores se han basado en el aprendizaje no
supervisado (considerado 'el enfoque de agrupación'). En este método, un conjunto de datos determinado se
divide en objetos similares. PN et al. [9] utilizó esta técnica de agrupación para proponer un marco de
transformación de eventos basado en el interés del usuario (el 'modelo de evolución de eventos calientes'). Se
utilizó un algoritmo de agrupamiento (el 'algoritmo automático de eventos calientes') para asociar los mini-
textos grupo por grupo con sus temas relevantes. También se ha intentado un enfoque de agrupamiento en línea.
Alsaedi et al. [18] propusieron un modelo asimilado que detectaba eventos a partir de datos árabes de Twitter.
Este equipo de investigación estaba principalmente interesado en filtrar eventos disruptivos de los flujos de
datos de las redes sociales y diferenciar entre estos y otros eventos. Los eventos disruptivos incluyeron
diferentes tipos de protestas, ataques terroristas, pérdida de transporte y ciertos delitos. Mencionaron varias
etapas, incluida la recopilación de datos, el preprocesamiento, la clasificación, el agrupamiento y el resumen,
y utilizaron el modelo de clasificación Naive Bayes (NB) junto con un algoritmo de agrupamiento en línea para
la detección de eventos. También se utilizaron el reconocimiento automático de entidades con nombre (NER),
diccionarios y varias funciones de tweet (hashtags y proporción de retweet) para mejorar la detección de
eventos.
Algunos métodos de detección de eventos se centran en identificar cómo evolucionan los eventos con
el tiempo. Un ejemplo de esta técnica fue presentado por Fedoryszak et al. [11], quienes aplicaron la agrupación
en un gran flujo para producir un conjunto de eventos dinámicamente racionalizados. Este método se diseñó
para funcionar en tiempo real a la escala de publicaciones del tamaño de Twiÿer. Se presentó la estimación
tanto fuera de línea como en línea de su modelo. Li et al. [34] propusieron un procedimiento que constaba de
tres pasos: clasificación de tweets en clases semánticas relevantes, cálculo de la relación de clase entre los
tweets e integración. Usaron diferentes clases semánticas, incluyendo nombre propio, ubicación, mención,
verbo, nombre común y hashtag. También introdujeron un módulo de identificación de información cronológica
para identificar información temporal en un grupo. Este módulo indica si un evento es nuevo o antiguo.
La investigación de detección de eventos también ha llegado al dominio de los deportes.

Kanan et al. [35] presentó un procedimiento novedoso para identificar eventos críticos en tiempo real a partir
de tweets en vivo asociados con el cricket. Aplicaron la técnica Locality Sensitive Hashing (LSH) para cumplir
con la agrupación incremental en línea de tweets del dominio de cricket y los eventos clave se reconocieron
aprovechando el léxico de eventos. Algunos enfoques de detección también tienen en cuenta la ubicación.
Feng et al. [36] usó LSH para lograr una comparación de similitud mejorada
Electrónica 2021, 10, 2367 4 de 25
isones Su método propuesto para extraer información de ubicación se basó en Part-of-Speech

(POS) y un clasificador de máquina de vectores de soporte (SVM). Presentaron una singular
dimensión de similitud que consideró el contenido del mensaje, así como su tiempo y ubicación, para
mejorar la velocidad y la precisión de la detección de eventos.
Otros investigadores se han concentrado en el dominio de los desastres naturales [7,8,12,37,38]
utilizando datos de estudios de casos con el objetivo de mejorar la resiliencia de la humanidad frente
de calamidades naturales adversas. Imran et al. [7] propuso un marco efectivo capaz
de extraer datos relacionados con desastres de tweets. Al analizar el comportamiento de las redes sociales
contenido propagado durante dos desastres naturales diferentes, entrenaron un modelo basado en campos
aleatorios condicionales (CRF) para identificar información valiosa. Su sistema detectó
entre el 40% y el 80% de los tuits que contenían información relevante sobre el desastre.
Sakaki et al. [8] analizó los datos de Twiÿer para detectar eventos sísmicos en tiempo real. Para detectar esta
circunstancia se construyó un modelo portal espaciotemporal basado en la probabilidad. Para la estimación de
la ubicación se utilizaron Filtrado de Kalman y Filtrado de Partículas. Otros investigadores han utilizado
los datos disponibles para la detección de eventos de bienestar. Akbari et al. [39] presentó un marco
capaz de identificar eventos de bienestar a partir de las publicaciones de los usuarios en las redes sociales. Sus
esqueleto utilizó el contenido de los textos de microblog, junto con la relación entre el evento
categorías, para extraer Eventos de Bienestar Personal (PWE). Su proceso se basó en un
Modelo de aprendizaje multitarea (MTL) con un regularizador Lasso para evaluar el modelo para cada tarea, y
finalmente calcularon las correlaciones entre las tareas individuales.
Si bien la mayoría de los investigadores se han concentrado en los datos de Twiÿer y Facebook, algunos
investigadores han trabajado con otros datos de redes sociales. Utilizando estos datos, Panagiotou et al. [40]
reorganizó la complicación de los conceptos borrosos y resumió varios enfoques diferentes para la detección
de eventos. Además, desarrollaron un lenguaje fácil de usar para describir el método más avanzado bajo el
mismo esquema. Algunos investigadores han enfatizado el corpus de prueba utilizado para detectar eventos
[41], mientras que otros se han centrado solo en
la relación cronológica entre los datos disponibles [42,43].
Koyla et al. [41] exploró eventos de varios periódicos donde los vectores (persona,
lugar, hora, fecha, etc.) se consideraron principalmente. Básicamente pretendían averiguar si
dos documentos de noticias del mismo período de tiempo indican el mismo evento o no. Para esto, un
Se consideró un valor de umbral predefinido para comprobar si el número total de vectores de dos documentos
separados coincidía al menos con este umbral. Usando el basado en SVM
NER, generaron sus vectores de eventos. Zhao et al. [42] generó un Microblog Clique (MC) de nivel semántico
intermedio capaz de analizar la gran cantidad de interrelaciones entre microblogs. Se comprometieron de
manera unida con el contenido textual, visual y social
en evaluación de microblog por explorar verdaderamente la interrelación inherente entre los diversos
datos. Shi et al. [43] propusieron una búsqueda de tema inducida por hipertexto (HITS) basada en el método
de decisión de tema (TD-HITS) junto con una asignación de Dirichlet latente (LDA) basada en
Modelo de tres pasos (TS-LDA). TDHITS pudo determinar con precisión el número total
de temas de una amplia colección de publicaciones mientras identifica publicaciones clave conectadas. Algunos
investigadores han realizado una revisión bibliográfica de los artículos disponibles y han resumido hábilmente
los métodos estudiados [44–49].
Nurwidyantoro et al. [44] se centró en los métodos de detección de desastres, congestión de tráfico,
pandemias y temas noticiosos, y presentó algunas definiciones relevantes para la detección de eventos.
Zarrinkalam et al. [45] proporcionó una descripción completa de los métodos disponibles y
algunos impedimentos para su funcionamiento efectivo, incluyendo la corta duración, el ruido y la
informalidad de los contenidos sociales. Clasificaron las técnicas disponibles como especificadas
o tipos de detección de eventos no especificados. Además, proporcionaron algunas técnicas de detección de
eventos basadas en aplicaciones potenciales. Dou et al. [46] presentó cuatro tareas para detectar eventos:
detección de nuevos eventos, seguimiento de eventos, resumen de eventos y asociación de eventos.
Electrónica 2021, 10, 2367 5 de 25
Tabla 1. Un resumen de algunos artículos significativos de la revisión de la literatura, incluido su objetivo principal, el método utilizado, los datos y el lenguaje junto con algunas diferencias con nuestro enfoque.
Artículos con año de publicación Método Objetivo Idioma utilizado Datos usados Disimilitud de nuestro trabajo
-Examinó solo datos de Twiÿer.

Árbitro. [9] “Detección de eventos y resumen -Propuso un modelo basado en el interés del usuario. -Solo comentarios resumidos de datos de
LDA - -
de texto por alerta de desastres”, -Su modelo genera un breve resumen de los microblog.
2019. comentarios de microblogging. -Se descartaron algunos atributos de tweet (es
decir, URL incrustada) durante la computación.
Árbitro. [11] “Detección de eventos -Control del progreso del evento a lo largo del tiempo. -Analizado solo datos de Twiÿer.
en tiempo real en flujos de datos sociales”, -Rendimiento estimado tanto en línea -
Algoritmo de agrupamiento -Inglés -Su conjunto de datos solo constaba de
2019. como fuera de línea. tweets en inglés.
-Adoptó solo el idioma árabe e ignoró los idiomas
NB y esquema de locales que se usan para twittear.

Árbitro. [18] “Detección de eventos en árabe en -Reconoció eventos disruptivos de tuits en árabe. -Arábica -1,7 millones de tuits
las redes sociales”, 2015. agrupamiento en línea
-Detectado solo eventos disruptivos
ignorando otros tipos de eventos.
Árbitro. [24] “Detección de personas -Solo se consideró el idioma bengalí.

deprimidas a partir del estado de las -Utilizó un algoritmo híbrido. -7163.
CNN híbrido-LSTM -Bangla -El conjunto de datos todavía estaba en el
redes sociales de Bangla mediante el -Detectado personas deprimidas.
enfoque LSTM y CNN”, 2021. etapa de actualización.
Árbitro. [25] “Detección del discurso de -Experimentado solo con el idioma

-Discurso de odio revelado en bengalí.
odio en bengalí en las redes sociales LSTM y GRU (híbrido) modelo El -Comentarios de noticias clasificados en siete - bengalí.
utilizando una red neuronal recurrente -Bangla
-Analizar solo comentarios de noticias en
categorías.
basada en la atención”, 2021. lugar de publicaciones completas.
-Mecanismo de atención -No ocupa significados semánticos de palabras

Árbitro. [27] “Red neuronal
efectivamente incorporado. individuales.
convolucional basada en la atención para el CNN -Bangla -2979 opiniones y comentarios
-Se analizó el sentimiento bengalí de los -No se pudo eludir la
análisis de sentimiento bengalí”, 2021. comentarios y reseñas. ambigüedad del sentido de las palabras.
Árbitro. [28] “Identificación y -Comentarios de noticias deportivas categorizados

en función de su sentimiento. -Solo se emplea el idioma
categorización de opiniones expresadas en Redes de aprendizaje profundo (CNN y -2492 frases
-Bangla bengalí.
oraciones en bengalí mediante técnicas de LSTM) -Exploró cuatro tipos de sentimientos: felicidad,
-Comentarios de noticias utilizados solamente.
aprendizaje profundo”, 2020. tristeza, consejo, molestia.
-Conjunto de datos de
-Exploré diferentes modelos de comentarios de Youtube (15,686)
transformadores para clasificar texto. -Conjunto de datos de sentimiento de

Árbitro. [29] “Clasificación de -Trabajo realizado en el dominio de análisis de
BERT multilingüe y comentarios de noticias (13,802) -El conjunto de datos constaba solo de
texto bengalí mediante transformadores”, XLM-RoBERTa -Bangla
2020. sentimientos, categorización de noticias, -Conjunto de datos de artículos bengalíes.
detección de emociones y distribución de autoría. adjudicación de autoría (14.047)
-Conjunto de datos de
clasificación de noticias (11,284)

Electrónica 2021, 10, 2367 6 de 25
Tabla 1. Continuación
Artículos con año de publicación Método Objetivo Idioma utilizado Datos usados Disimilitud de nuestro trabajo
Árbitro. [31] “Detección y seguimiento de

eventos en línea en las redes sociales basado NN -Eventos distinguidos y rastreados. - -Realizaron su experimento solo con datos
-9.563.979 tuits
en el aprendizaje de métricas de similitud -Módulo de memoria utilizado. de Twiÿer.
neuronal”, 2017.
-Detectada la existencia y tipo de sub

Árbitro. [32] “Detección de subeventos
Memoria a corto plazo largo evento. -
de flujos de twiÿer como un problema de -2 M -Usó datos de Twiÿer.
(LSTM), MLP -Básicamente, centrado en la relación cronológica
etiquetado de secuencias”, 2019. de los tuits.
-Propuso un enfoque temporal de detección

Árbitro. [33] “Detección de eventos en de eventos. -Trabajó solo con datos de Twiÿer.
- -17GB
grandes redes sociales mediante análisis Red neuronal (NN) -No consideró las publicaciones en
-También detectó la complejidad de las cadenas
temporal”, 2017. de redes sociales. bengalí o bengalí.
Árbitro. [34] “Detección de eventos novedosos -Enfocado en mejorar el rendimiento de detección -120 millones de tuits recogidos
en tiempo real desde las redes Algoritmo de agrupamiento de eventos. -Inglés (finalmente se utilizaron 100k de -Utilizó solo datos de Twiÿer.
sociales”, 2017. -También se identifica información temporal. ellos)
Árbitro. [35] “Sportsbuzzer: -Eventos identificados del dominio de cricket.

detección de eventos en LSH -Léxico de eventos utilizado para la identificación del - -Tweets de 44 juegos con un tamaño -Evento deportivo detectado.
tiempo real en twiÿer mediante de archivo de más de 6 GB -Explotación de datos de Twiÿer.
evento.
agrupamiento incremental”, 2018.
-Propuso un método de detección de eventos

Árbitro. [36] “Detección eficiente de eventos
basado en la ubicación. - -Microblogs recopilados solo de Sina
basada en la ubicación en Clasificador LSH y SVM -257.872 mensajes
-Considerado el contenido del mensaje junto Weibo.
flujos de texto social”, 2015.
con su tiempo.
-Consideró la correlación entre los -El conjunto de datos constaba de

Árbitro. [42] “Detección de eventos
Método de corte hipergráfico [50] y datos. - microblogs de Sina Weibo.
sociales multimedia en tiempo real -3 millones de microblogs
método de corte de transferencia [51] -Genera un nivel semántico intermedio. -No se consideraron los idiomas bengalí ni
en microblog”, 2018.
bengalí.
Electrónica 2021, 10, 2367 7 de 25
El aprendizaje profundo, el aprendizaje automático y otras técnicas se han probado como un medio
de detectar o predecir eventos. En este trabajo, además de la detección de lenguaje, se utilizó el modelo de clasificación NB,
que es capaz de cálculos rápidos y de alta precisión.
preprocesamiento, filtrado, coincidencia de frases de eventos específicos y análisis de sentimientos para detectar eventos. En
la siguiente sección, proporcionamos una explicación detallada de nuestro módulo.
así como las herramientas y tecnologías utilizadas para su implementación.
3. Modelo Propuesto
Nuestro modelo propuesto incluye recopilación de datos, detección de idioma, preprocesamiento de datos,
pasos de extracción de características, entrenamiento de modelos y detección de eventos. Estos pasos están representados en
Figura 1. Este modelo nos permitió detectar celebrando, protestando, religiosas y neutrales.
eventos después del análisis del texto de las publicaciones de Facebook en bengalí y bengalí. 'Celebración de eventos'
incluyen matrimonios, eventos culturales, etc. Las protestas estudiantiles o de cadenas humanas (una demostración de
individuos que forman una estructura en cadena tomándose de la mano para mostrar solidaridad [3,4]) o mítines se clasificaron
como 'eventos de protesta'. Las celebraciones de Eid, los funerales, las veneraciones, etc. se clasificaron como 'eventos
religiosos'. Cualquier evento fuera de estos marcos
fueron considerados "eventos neutrales".
Figura 1. Modelo para la detección de eventos sobre la base del texto de las publicaciones de Facebook en formato
bengalí y bengalí.
Para detectar eventos, utilizamos solo publicaciones reales en bengalí y bengalí recopiladas de Facebook. El algoritmo
1 representa el pseudocódigo del proceso general de nuestra detección de eventos
procedimiento. El idioma en el que se escribieron las publicaciones recopiladas se detectó mediante el
biblioteca de python “langdetect” [52], y este procedimiento se realizó con el Algoritmo 2. Después de la detección del idioma,
se realizó un preprocesamiento de las publicaciones detectadas mediante la función de preprocesamiento (P) y luego se
extrajeron las características. La extracción de características consistió
de tres subprocesos: filtrado, coincidencia de frases de eventos específicos y análisis de sentimiento. Estos tres subprocesos
extrajeron palabras de eventos comunes y específicos y
y frases de eventos específicos usando el Algoritmo 3, y puntajes de sentimientos usando el procedimiento V(P) ,
respectivamente. V(P) calculó el sentimiento utilizando el Valence Aware Dictionary y
Sentiment Reasoner (VADER) [53]. En última instancia, todas las características extraídas de la publicación,
Machine Translated by Googlede acuerdo con las Figuras 4, 5 y 6. La sangría debe mantenerse estrictamente en todos los
algoritmos.
Problema -
ii. Número de línea 20, Algoritmo 3 -- P[ j ] debe reemplazarse con Ph[ j ]. Hemos 8 de 25
Electrónica 2021, 10, 2367
resaltado esto en la Figura 6.
Solución: si es posible, cambie esto. Si realiza este cambio, también se ejecutará otro a través del
modelorelacionado
cambio de clasificación
dadoBernoulli Naïve Bayes
en el problema número(BNB)
6. Si ynoelconsidera
modelo luego
resolver este problema, detecte
eventos
por basados
favor no corrija en
loslos valores de
problemas las características.
mencionados Estos pasos
en el problema númerose describen
6. con mayor detalle en
las siguientes subsecciones.
Algoritmo 1. Detección de eventos
3.1. Recopilación de datos
Como no existía ningún conjunto de datos de publicaciones de Facebook en bengalí y bengalí para detectar eventos,
hecho nuestro recopilando manualmente publicaciones de varias páginas públicas mantenidas por
una variedad de grupos e individuos (p. ej., Documento de Material Suplementario S1). Para
recopilando datos sobre diferentes eventos relevantes para los estudiantes, consideramos varios
y páginas y grupos de Facebook de universidades privadas, ya que la mayoría de los estudiantes y otros funcionarios
universitarios publican con frecuencia sobre protestas, celebraciones y eventos relacionados con la religión.
información en estos grupos y páginas. Además, por cubrir las protestas en todo el país,
celebración e información relacionada con eventos religiosos, seleccionamos un buen número de
grupos y páginas públicos populares de Facebook que tienen un número significativo de seguidores.
Las publicaciones recopiladas contenían información relacionada con eventos recientes y anteriores. el conjunto de datos
sesgado hacia eventos anteriores debido a las restricciones a las reuniones públicas establecidas en respuesta al brote de
COVID-19. Nuestros conjuntos de datos se mantuvieron pequeños debido a esta situación y
no utilizó ningún método automático de recopilación de datos. No construimos ninguna recopilación automática de datos.
herramienta, y tampoco hay conjuntos de datos de referencia disponibles en bengalí y bengalí para eventos
detección. Por estas razones, tuvimos que recopilar publicaciones manualmente de diferentes Facebook
páginas, grupos o cuentas individuales. Esta recopilación manual limitó nuestra recopilación de datos.
esfuerzos Luego se verificaron las publicaciones recopiladas para determinar si estaban en bengalí.
o Banglish.
3.2. Detección de idioma
Las publicaciones que no estaban escritas en bengalí o bengalí se excluyeron de este estudio. Por lo tanto, ben gali
y banglish se detectaron utilizando "langdetect", una biblioteca de Python que admite 55 idiomas diferentes. El uso del
método "detectar" le permite al usuario ingresar un texto y recibir el
forma abreviada del idioma detectado (en el caso del bengalí, es 'bn'). El algoritmo 2 representa el
proceso de detección de idioma en el que se identificaron la publicación ( P) y la lista de idiomas admitidos (L).
las entradas length (L) es un procedimiento que proporciona el número de elementos en una lista. detectar (P)
es un procedimiento que determina el idioma de la publicación, y bnb (P) es otro procedimiento
que convierte la publicación bengalí encontrada en bengalí usando 'bnbphoneticparser' [54].
processFurther (P) es un procedimiento que procesa aún más la publicación para la detección de eventos.
Electrónica 2021, 10, 2367 9 de 25
Figura 4 - Algoritmo 1
Algoritmo 2. Detección de idioma
Para la detección posterior de Banglish, el algoritmo

Banglish: sigue un2enfoque
el algoritmo diferente, ya
no es compatible que la Figura
directamente con5ninguna
de de
las bibliotecas disponibles. Además, existe la posibilidad de que la biblioteca pueda detectar Banglish como una
publicación en inglés, ya que la publicación solo contiene letras en inglés. Es por eso que la publicación también se
verifica para publicaciones en inglés en las líneas 8 a 14 del Algoritmo 2. Si la condición de la línea 15 es falsa, la
publicación se descarta como una publicación que no es bengalí ni bengalí, y de lo contrario define un publicar con
posibilidades tanto en inglés como en bengalí. Dado que la publicación debe estar en inglés o en bengalí, empleamos
una función, bnb. El bnb es una función de biblioteca que toma Banglish como entrada y lo convierte a bengalí. Si
se da como entrada el texto de cualquier otro idioma, la salida no será un texto en bengalí. Por lo tanto, usamos
esto como un factor determinante para Banglish ya que bnb solo puede convertir Banglish a bengalí. Después de la
conversión, detectamos nuevamente el idioma; si es 'bn', entonces se confirma como una publicación en bengalí.
De lo contrario, se descarta.
3.3. Preprocesamiento de
datos Se aplicaron procesos de tokenización y eliminación de palabras vacías para el preprocesamiento de datos.
Se aplicó el preprocesamiento porque las publicaciones realizadas en las plataformas de redes sociales generalmente
se escriben de manera informal y reflejan el estilo de escritura idiosincrásico de un usuario. Este estilo de escritura
presenta desafíos significativos y, por lo tanto, el uso del preprocesamiento reduce el impacto de este problema. En
este paso de preprocesamiento, se eliminaron las palabras vacías y, posteriormente, se aplicó la tokenización. Las
palabras vacías son aquellas palabras, caracteres o caracteres especiales que no ofrecen información valiosa sobre
el texto y, por lo tanto, se excluyeron. La tokenización divide el flujo de texto en sus palabras componentes para su
posterior procesamiento. En general, el preprocesamiento de datos hace que las publicaciones sean más adecuadas
para la extracción de características.
Electrónica 2021, 10, 2367 10 de 25
3.4. Extracción de características
La frecuencia de las palabras clave de eventos comunes, la frecuencia de las frases de eventos específicos,
es decir, celebrando, protestando y religioso, la frecuencia de las palabras clave de eventos específicos, es decir,
celebrando, protestando y religioso, y la puntuación del análisis de sentimiento se utilizaron como características
en este trabajo. Al principio, las palabras de eventos comunes se detectaron en la publicación, ya que las palabras
de eventos comunes seleccionan principalmente una publicación como candidata probable para un evento.
Posteriormente, se detectaron palabras relacionadas con eventos específicos de la publicación y su aparición
reforzó aún más la posibilidad de que una publicación sea un tipo de evento. Junto con las palabras, se detectaron
frases específicas de eventos y se usaron como el tipo de característica más importante, ya que esta característica
influye en gran medida en la clasificación de una publicación de una categoría de evento. Finalmente, se calculó
la puntuación de opinión para mejorar aún más la posibilidad de un tipo de publicación, ya que las opiniones se
correlacionan con cualquier tipo de evento. En resumen, una selección gradual de palabras de eventos comunes,
palabras de eventos específicos, frases de eventos específicos y, finalmente, la puntuación de sentimiento detectó
un evento. El filtrado, la coincidencia de frases de eventos específicos y el análisis de sentimientos son los tres
subprocesos que se aplicaron en este proceso de extracción de características.
3.4.1. Filtración
El filtrado determina la frecuencia de eventos comunes y palabras clave de eventos específicos

del texto de la publicación. El algoritmo 3 describe este proceso.
ÿ ÿ
Aquí, P (publicaciones), C {'a', 'b', . . . } (listas de palabras) y Ph{ ÿ abcÿ , def , . . .} (listas de frases) son
entradas, Wtype y Phtype son los tipos de palabras y frases respectivamente determinados por una función
length( ), Wcount y Phcount almacenan cada tipo de ocurrencia de palabras y frases respectivamente, Wx es una
palabra de P y Ky es una palabra de W[i] (tipo específico de palabra), y Pphrase es una frase de Ph[j] (tipo
específico de frase). El filtrado se realizó por pasos. En cada paso, se detectaron las palabras de evento de W y
se registró su frecuencia. Las palabras comunes y específicas del evento se detectaron utilizando los pasos de la
línea 7 a la 18 del Algoritmo 3. En estos pasos, se verificó cada tipo de palabra de W para ver si coincidían con
una palabra de la publicación mediante un bucle. Las ocurrencias de esos tipos también se rastrearon utilizando
un Wcount de almacenamiento designado [i].
Las palabras clave de eventos comunes se definen como palabras de uso común para describir un evento.
Tanto el bengalí como el bengalí emplean palabras clave de eventos comunes, así como palabras relacionadas
con eventos específicos, algunas de las cuales se presentan en la Tabla 2. La primera fila de la Tabla 2 muestra
palabras de eventos en bengalí junto con sus palabras equivalentes en inglés entre paréntesis y la segunda fila
muestra las correspondientes palabras en bengalí.
Dado que el banglish puede incluir múltiples representaciones de una palabra, en este trabajo se
identificaron y utilizaron todas las combinaciones posibles de las palabras relevantes. La Figura 2 describe estas
múltiples representaciones de palabras en bengalí.
En la forma de escritura bengalí, la pronunciación y el significado de una palabra siguen siendo los mismos,
mientras que la ortografía de esa palabra se puede presentar de múltiples maneras. Por ejemplo, “My” es una
palabra en inglés, mientras que la forma bengalí equivalente es “ÿÿÿÿ” y sus representaciones en bengalí pueden
ser “Amar”, “Amr”, “Amaar” o “Aamar”. Son comunes los casos en los que hay más de cuatro grafías alternativas
de una palabra. Tal complejidad entre las representaciones afecta las puntuaciones de sentimiento.
Tabla 2. Palabras clave de eventos comunes y palabras clave de eventos específicos utilizadas para el filtrado.
Palabras de eventos comunes Celebrando las palabras del evento Palabras del evento de protesta Palabras de eventos religiosos
ÿÿÿÿÿ (procesión), ÿÿÿÿÿÿÿ (cadena ÿÿÿÿÿ (waaz), ÿÿÿÿÿÿ (concierto

ÿÿÿÿ (sucediendo), ÿÿÿÿ (sucederá), ÿÿÿÿÿÿÿ (parque de atracciones),
humana), ÿÿÿÿÿÿ (demonstrato), religioso), ÿÿÿÿÿ (oración), ÿÿÿÿ
ÿÿÿÿÿÿ (asamblea), ÿÿÿÿÿÿÿ (reunión), ÿÿÿÿÿÿ (ceremonia), ÿÿÿÿÿ
ÿÿÿÿ ÿ(conflct), ÿÿÿÿÿ (aÿack), ÿÿÿst (entierro), ÿÿÿÿÿÿ (funeral),
ÿÿÿÿÿ (reunión), ÿÿÿ (reunión) (matrimonio), ÿÿÿÿÿÿÿÿÿ
ÿÿÿÿ (adoración)
(reunión), ÿÿÿÿ (feria)
Michil, manobbondhon,
Ghotche, ghotbe, shomabesh, Anondomela, onusthan, biye, Waaz, mahfil, namaz, dafon, janaza,
bikkhov, shongghorsho, hamla,
jomayet, shomagom, shova punomiloni, mela puja
andolon
Electrónica 2021, 10, 2367 11 de 25
Algoritmo 3. Filtrado de Palabras y Frases
Figura 6 - Algoritmo 3
4. Problema -
I. En la Tabla 11, 1ra columna fila 2 -- Bnglish debe ser reemplazado por Banglish.
Figura 2. Un ejemplo de múltiples representaciones de palabras en bengalí.
3.4.2. Coincidencia de frase de evento específico

Una frase es una colección de palabras que colectivamente definen un significado. Tanto el bengalí
como el ban glish emplean frases específicas para describir eventos. La coincidencia de frases de eventos
específicos sigue el mismo proceso que el Algoritmo 3. Las frases y sus ocurrencias se rastrearon junto con
sus tipos utilizando los pasos de la línea 19 a la 28. Para cada frase de Ph[j], se verificó Figura 7 - Error de
ortografía
ocurrencia se registraba en su almacenamiento para verPhcount[
designado si estaba
j ],en
deellopuesto P. Siseestaba
contrario, allí, su
verificaba una
nueva frase.
Algunas de las frases de eventos específicos que buscamos se presentan en la Tabla 3. La primera fila
muestra frases de eventos en bengalí junto con sus frases equivalentes en inglés entre paréntesis. Las
representaciones en bengalí correspondientes de las frases se presentan en la segunda fila. En este trabajo
se identificaron y utilizaron todas las combinaciones posibles de frases, ya que las representaciones múltiples
de frases también son un escenario común para las frases en bengalí y bengalí. Esta representación de
frases múltiples es similar a la representación de palabras múltiples donde el significado y la pronunciación
de una frase permanecen intactos mientras que su forma escrita puede ser de varios tipos. La figura 3 muestra
este escenario, en el que tres banglish equivalentes y dos
Electrónica 2021, 10, 2367 12 de 25
Hay frases en bengalí equivalentes y todas significan la misma frase.
Tabla 3. Frases de eventos específicos.
Celebrando las frases del evento ÿ ÿ ÿÿÿÿ ÿ ÿÿÿ ÿÿÿ ÿ Frases de eventos de protesta Frases de Eventos Religiosos
ÿÿ ÿÿ ÿÿ ÿÿ ÿÿ ÿÿ ÿÿ ÿÿ ÿÿ ÿÿ ÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿ ÿ ÿ ÿÿ ÿÿ ÿ ÿ ÿ ÿÿÿ (condición

ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ turbulenta creada), ÿÿÿÿÿÿÿ ÿÿÿÿÿ ÿÿÿÿÿ ÿÿÿÿÿ ÿÿÿ ÿÿ ÿ ÿÿÿ ÿÿÿ
ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿÿ (llamada de procesión), ÿÿ ÿ (Waaz Mahfil se mantendrá),
ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿÿÿÿ ÿÿÿ (será zanaja), ÿÿÿÿ ÿÿÿ
(La reunión continúa), ÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿ ÿÿÿÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿ
ÿÿÿ (se organizará),ÿÿÿÿÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿÿ
ÿ ÿÿÿÿ ÿÿÿ (será un rally espléndido) autopista), ÿÿÿÿÿÿ ÿÿÿ ÿÿÿ (será ÿÿÿÿ ÿÿÿÿ (
una reunión de protesta)
Jonmobarshikir onusthan, Uÿal obostha toiri, michiler

Owaaz mahfil onusthito hbe, janaza
bijoymichil cholche, ahoban, andoloner dak,
hbe, dafon kora hbe, puja hbe
milonmela cholche, aayojit hbe, rajpothe namte hbe, protibad
jomkalo rally hbe shobha hbe
Figura 3. Ejemplo de múltiples representaciones de frases en bengalí y bengalí.
3.4.3. Análisis del sentimiento

Como regla general, el sentimiento positivo se correlaciona con la celebración de eventos, mientras
que el sentimiento negativo se correlaciona con eventos de protesta, y el sentimiento positivo o neutral se
correlaciona con eventos religiosos. La puntuación de sentimiento, por lo tanto, juega un papel importante
en la detección de eventos. Para determinar las puntuaciones de opinión, el texto de cada publicación se
sometió a "vader multi", una versión mejorada de VADER, adecuada para conjuntos de datos de redes
sociales, que tiene en cuenta los emoticones, así como diversas frases abreviadas y estructuras de
oraciones. A cada palabra se le asignó una puntuación dentro de un rango de -4 a +4 según su puntuación
de valencia en el diccionario de VADER, con -4 incluyendo las palabras más negativas y +4 incluyendo las
más positivas. Luego, se normalizó la puntuación de valencia de una publicación entre -1 y +1 usando la
Ecuación (1), donde -1 indica un texto extremadamente negativo y +1 indica un texto extremadamente positivo.
Xvalancia
Xcompuesto = (1)
X2cenefa + ÿ
ÿ
Aquí, Xcompound es la puntuación compuesta en el rango [ÿ1, 1], Xvalance es la puntuación de

valencia sumada en la publicación y ÿ es la constante de normalización con un valor predeterminado de
15 [55].
Utilizamos puntajes compuestos para determinar si una publicación es positiva, negativa o neutral.
Cuando la puntuación compuesta era mayor o igual a +0,05, el sentimiento se consideraba positivo. De
manera similar, cuando la puntuación compuesta era menor o igual a -0,05, el sentimiento se consideraba
negativo. El sentimiento se trató como neutral si la puntuación compuesta era superior a -0,05 e inferior a
+0,05.
Se siguió un enfoque ligeramente diferente para determinar las puntuaciones de sentimiento de las
publicaciones de Ben gali y Banglish. Para las publicaciones bengalíes, la publicación se aplicó directamente al "vader-
Electrónica 2021, 10, 2367 13 de 25
multi". Las publicaciones en bengalí, por el contrario, se convirtieron a bengalí y luego se aplicaron a "vader-multi". La
conversión de bengalí a bengalí se realizó utilizando otra biblioteca de Python, "bnbphoneticparser". En ambos casos,
se recogieron valores apropiados de la publicación y se etiquetaron de acuerdo con las características.
A continuación, las características recopiladas de los tres subprocesos se utilizaron con fines de formación del
modelo.
3.5. Entrenamiento y detección de modelos
El modelo BNB se utilizó como algoritmo principal para esta tarea, mientras que los algoritmos SVM y DT se
utilizaron para las comparaciones de rendimiento. Para el modelo SVM, se seleccionaron núcleos polinómicos con grado
3. Para el DT, utilizamos los Árboles de Clasificación y Regresión (CART). Como usamos el paquete de aprendizaje
scikit de Python y también usamos variables numéricas, es decir, valores de características binarias, es por eso que
usamos CART. Se utilizó el BNB ya que nuestros conjuntos de datos son pequeños y este algoritmo entrena más rápido
y con precisión con conjuntos de datos pequeños y también proporciona una buena precisión. La misma razón también
se aplica para seleccionar algoritmos DT y SVM. Otros métodos, como el aprendizaje profundo, requieren grandes datos
de entrenamiento que actualmente no están disponibles para nosotros, ya que no hay datos de referencia. Las
características extraídas de cada publicación se usaron para entrenar el modelo. Los valores reales de las características
se convirtieron en binarios antes de que se aplicaran al modelo de entrenamiento. Si el valor de cualquier característica
era mayor o igual a 1, el valor se establecía en 1; en todas las demás circunstancias, el valor se estableció en 0.
Las ecuaciones (2) y (3) reflejan el proceso subyacente del modelo de clasificación de NB.
P(F|C) ÿ P(C)
P(C|F) = (2)
P(F)
O,
PAGS(C|F) = PAGS(F1|C) × PAGS(F2|C) × . . . P(Fn|C) × P(C) (3)
Donde, P (C|F) se refiere a la probabilidad de que C (Clase) sea verdadera dado que F (Características) ya ha
ocurrido. P (F|C) se refiere a la probabilidad de que F sea verdadera dado que C es verdadera.
P (C) se refiere a la probabilidad de que C sea verdadera. P (F) se refiere a la probabilidad de que F sea verdadera.
Aunque hay tres tipos de modelos de clasificación NB (es decir, Bernoulli, Multinomial y Gaussian), usamos el
modelo BNB ya que proporciona resultados superiores cuando se trabaja con características binarias [56]. La ecuación
(4) refleja la ecuación del modelo de clasificación BNB:
norte
p(f |Ck) = ÿ pags

f j kj( 1 ÿ pkj)(1ÿf j ) (4)
j=1
En este caso, p(f |Ck): la probabilidad de un evento dada una clase CK. fj : es un vector de características
booleano que expresa la ocurrencia o ausencia del j-ésimo término. pkj: la probabilidad de que la clase Ck genere el
vector de características fj .
Después de entrenar el modelo con las características recopiladas y las etiquetas asignadas, el modelo
luego detectó eventos sobre la base de las características asociadas en la publicación.
4. Evaluación del Desempeño 4.1.
Métricas de rendimiento Precisión,
recuperación, puntuación F1, exactitud, características operativas del receptor (ROC), área bajo la curva (AUC),
tasa de verdaderos positivos (TPR), tasa de verdaderos negativos (TNR), tasa de falsos positivos (FPR), tasa de falsos
negativos (FNR) y la matriz de confusión se mencionaron como métricas de desempeño.
TPR y TNR: Verdadero positivo es una clase o etiqueta realmente positiva que el modelo detectó como positiva.
Del mismo modo, verdadero negativo es una clase negativa que el modelo detectó como negativa.
FPR y FNR: los falsos positivos son aquellos en los que el modelo detectó incorrectamente un posi
clase activa, mientras que los falsos negativos son clases negativas detectadas incorrectamente.
Electrónica 2021, 10, 2367 14 de 25
Precisión: La precisión se define como la relación entre los casos positivos verdaderos detectados y todas las instancias
positivas detectadas. Todas las instancias identificadas positivamente también contienen instancias de
falsos positivos.
Recuperación: la recuperación es la relación entre las instancias positivas verdaderas detectadas y todas las posi reales.
instancias tivas. Todas las instancias reales pueden o no haber sido detectadas por el modelo.
Puntuación F1: el promedio ponderado de las puntuaciones de precisión y recuperación se denomina
Puntuación F1. En esta medición se tienen en cuenta los falsos positivos y los falsos negativos.
Precisión: La precisión se define como la relación entre el número total de detec
ciones a todas las detecciones. La precisión se utiliza para medir la capacidad de detección general.
ROC: La curva ROC muestra la TPR frente a la FPR en diferentes valores de umbral.
La curva ROC identifica la probabilidad de un verdadero o falso positivo en un determinado valor de umbral. Un resultado óptimo
sería 0 FPR y 1 TPR.
AUC: AUC se define como la capacidad de distinguir entre clases. AUC puede caer dentro de un rango de 0 a 1 para
una clase específica, donde 1 indica que una clase se identifica categóricamente y 0 indica que nunca se identifica. Un AUC
más cercano a 1 indica un modelo que clasifica bien.
Matriz de confusión: una matriz de confusión contiene todas las etiquetas de salida utilizadas para la clasificación.
Cada valor diagonal en la matriz de confusión define las verdaderas clases detectadas para cada etiqueta, mientras que todas
las demás celdas definen las etiquetas de falsos positivos. La precisión, la recuperación y la exactitud se pueden calcular
haciendo referencia a esta matriz.
4.2. Conjuntos de datos usados
Creamos dos conjuntos de datos separados para las publicaciones de Facebook en bengalí y bengalí. Los conjuntos de
datos fueron etiquetados manualmente por dos expertos. Revisaron cada publicación en los conjuntos de datos y etiquetaron
cada publicación de acuerdo con los tipos de eventos. Luego, cada una de las etiquetas del conjunto de datos fue verificada de
forma cruzada por otro experto. El conjunto de datos bengalí contenía 364 publicaciones reales de Facebook, incluidos cuatro
tipos de publicaciones (celebración = 47, protesta = 64, religiosa = 42 y neutral = 211). Por otro lado, se recopilaron 200
publicaciones reales de Facebook para el conjunto de datos de Banglish. El conjunto de datos de Banglish también contenía
cuatro tipos de publicaciones de eventos (celebrando = 56, protestando = 69, religioso = 27 y neutral = 48). En ambos conjuntos
de datos, el 80 % de los datos se utilizó con fines de capacitación y el 20 % restante se utilizó con fines de prueba. Hubo 4
publicaciones de celebración, 15 de protesta, 6 religiosas y 48 neutrales en los datos de las pruebas bengalíes. En el caso de los
datos de prueba de Banglish, hubo 10 publicaciones de celebración, 16 de protesta, 3 religiosas y 11 neutrales. Los resultados
experimentales obtenidos de los datos de prueba se proporcionan en la subsección de resultados experimentales.
4.3. Resultados experimentales

4.3.1. Resultados de la evaluación de nuestro modelo de publicaciones en bengalí La Figura 4
presenta la curva AUC-ROC del modelo BNB a medida que detectaba eventos sobre la base de publicaciones de
Facebook escritas en bengalí. Los eventos de celebración (AUC = 0,93), protesta (AUC = 0,99), religiosos (AUC = 1,00) y
neutrales (AUC = 0,88) se presentan como líneas rojas, azules, naranjas y verdes, respectivamente. Según estas puntuaciones,
el modelo BNB se desempeñó bien en la detección de eventos, ya que los valores de AUC están más cerca de 1. Cuanto más
cerca esté el valor de AUC de 1, mejor será el rendimiento del modelo.
Para mostrar la efectividad de nuestra evaluación de desempeño, nuestro modelo de detección de eventos también se
probó con los clasificadores SVM y Decision Tree (DT) en el mismo conjunto de datos.
La Tabla 4 compara el rendimiento de los tres modelos e incluye las métricas de precisión, recuperación, puntuación F1 y
precisión. En resumen, los datos de la Tabla 4 muestran que el modelo BNB superó a los otros modelos. Las tablas 4 y 5 y las
figuras 4 y 5 representan solo la evaluación de nuestros datos de prueba. No incorporamos nuestros datos de entrenamiento al
formar estas tablas y figuras.
Electrónica 2021, 10, 2367 15 de 25
Figura 4. Curva AUC-ROC del modelo de clasificación BNB para detectar eventos del idioma bengalí
publicaciones de facebook
Tabla 4. Desempeño de los modelos de clasificación BNB, SVM y DT en la detección de eventos de bengalí
Método Tipo de evento Precisión Recuerdo Puntuación F1 Precisión
Celebrando 0.50 0.50 0.50
protestando 0.83 1.00 0.91

bnb 0.9041
Religioso 1.00 1.00 1.00
Neutral 0,96 0.90 0,92
Celebrando 0.50 0.50 0.50

MVS 0.8767
Religioso 1.00 0,67 0.80
Neutral 0.91 0.90 0.91
Celebrando 0,60 0.75 0,67
protestando 079 1.00 0.88

DT 0.8761
Religioso 1.00 0,67 0.80
Neutral 0.93 0.88 0.90
La Tabla 5 presenta las tasas de identificación de eventos verdaderos y falsos del BNB, SVM y DT
modelos producidos. El BNB se desempeñó muy bien con respecto a las protestas, religiosas,
y eventos neutrales, pero mostró una tasa comparativamente baja de eventos verdaderos para celebrar eventos.
La precisión de SVM para detectar eventos de celebración y neutrales fue baja, aunque funcionó
beÿer para las otras clases. DT mostró una tasa real baja para eventos neutrales pero una tasa real
comparativamente buena en otras clases de eventos. En general, el BNB se desempeñó bien, logrando
casi la misma precisión en todas las clases.
La figura 5 presenta las matrices de confusión de los modelos NB de Bernoulli, multinomial y gaussiano.
Los eventos de protesta, celebración, neutrales y religiosos se refieren a los números
en la 1ra, 2da, 3ra y 4ta columna respectivamente. Los valores de las diagonales en las matrices son
los eventos verdaderos detectados por el modelo de Clasificación NB mientras que otras celdas expresan el
número de eventos falsos positivos. En general, la Figura 5 sugiere que el modelo BNB superó
los comparadores.
Electrónica 2021, 10, 2367 16 de 25
Figura 5. Matrices de confusión del modelo de clasificación NB sobre la base de publicaciones en bengalí.
Electrónica 2021, 10, 2367 17 de 25
Tabla 5. Rendimiento de detección verdadera y falsa de los modelos BNB, SVM y DT en cada clase de salida en la detección de eventos de
Publicaciones bengalíes en Facebook.
protestando Celebrando Religioso Neutral
Método
Verdad
neutral
neutro
falso
verdaderos
religiosos
verdadera
protesta
religioso
falso
protesta
falsa celebración
Verdadera
festejo
Falso
bnb 1.00 0.00 0.50 0.50 0.89 0.11 1.00 0.00
MVS 1.00 0.00 0.50 0.50 0.89 0.11 0,67 0.33
DT 1.00 0.00 0.75 0.25 0.87 0.13 0,67 0.33
La clasificación BNB tuvo una precisión del 90,41 % en la detección de eventos sobre la base de las publicaciones de
Facebook en idioma bengalí, mientras que los modelos SVM y DT tuvieron solo un 87,67 % y un 87,61 %.
precisa, respectivamente.
Realizamos una validación cruzada de 10 veces de nuestro modelo de detección de eventos. La tabla 6 muestra
los resultados de la validación cruzada de 10 veces junto con su desviación estándar para BNB, SVM,
y clasificadores DT para el idioma bengalí. Los valores de la tabla son aproximadamente iguales.
como nuestro resultado promedio, lo que significa que nuestro modelo funciona de manera uniforme para todos los datos.
Tabla 6. El resultado de la validación cruzada de 10 veces de las publicaciones bengalíes de Facebook junto con su estándar
desviación.
Método Desviación Estándar
bnb MVS DT bnb MVS DT
0.9041 0.8767 0.8904
0.8767 0.8904 0.8904
0.8904 0.8493 0.8904
0.8630 0.8630 0.8767
0.8082 0.8219 0.8356

0.027707 0.023926 0.024082
0.9041 0.8767 0.8767
0.8493 0.8630 0.8630
0.8767 0.8630 0.8767
0.8904 0.8767 0.8356
0.89041 0.9178 0.9178
0.8753 0.8698 0.8753 Promedio
La Tabla 7 muestra la comparación entre nuestro trabajo actual, trabajo previo [30] y algunos
trabajos similares de la revisión de la literatura. Nuestro trabajo mostró mejores resultados que los trabajos
mencionado anteriormente en términos de puntaje F por un margen significativo. Además, esta comparación
también muestra la mejora de nuestra tarea anterior de detección de eventos.
4.3.2. Resultados de la evaluación de nuestro modelo de publicaciones en formato Banglish
La Figura 6 presenta la curva AUC-ROC del modelo BNB a medida que detecta eventos sobre la base
de publicaciones de Facebook en formato bengalí. Los eventos de celebración se indican con una línea roja, protestando
los eventos se indican con una línea azul, los eventos religiosos se indican con una línea naranja y
los eventos neutrales se indican con una línea verde en la Figura 6. Los valores de AUC para estos eventos
estaban celebrando (0,92), protestando (0,92), religiosos (0,98) y neutrales (0,73). la cercanía
de estos valores a 1 confirma que el modelo detectó bien los eventos.
Electrónica 2021, 10, 2367 18 de 25
Tabla 7. Comparación de nuestro enfoque y otros enfoques en términos de puntajes F.
Nombre del autor con referencia Puntuación F
Sakaki et al. [8] 73.69
Alomari et al. [dieciséis] 83
Alsaedi et al. [18] 80.24
Dey et al. [30] 82.5
Nuestro enfoque 92
Figura 6. Curva AUC-ROC del modelo de clasificación BNB en la detección de eventos de publicaciones de Facebook en formato
Banglish.
Los rendimientos de los modelos SVM y DT también se evaluaron utilizando el mismo

conjunto de datos para demostrar la eficiencia de nuestro modelo, con la Tabla 8 que compara la precisión,
el recuerdo, la puntuación F1 y la precisión de los tres modelos. La Tabla 8 refleja el desempeño superior
del modelo BNB.
Tabla 8. Desempeño de los modelos de clasificación BNB, SVM y DT en la detección de eventos de Banglish
Método Tipo de evento Precisión Recuerdo Puntuación F1 Precisión
Celebrando 0,64 0.70 0,67

bnb 0.70
Religioso 0.75 1.00 0.86
Neutral 0.57 0.36 0.44
Celebrando 0,60 0,60 0,60

protestando 0.85 0,69 0.75
MVS 0,65
Religioso 0.75 1.00 0.86
Neutral 0,46 0,55 0.50
Celebrando 0.54 0.70 0,61

DT 0,67
Religioso 0.75 1.00 0.86
Neutral 0.50 0.18 0.27
La Tabla 9 presenta las tasas de identificación de eventos verdaderos y falsos de los tres modelos. los
Electrónica 2021, 10, 2367 19 de 25
El modelo de BNB se desempeñó muy bien con respecto a las protestas, las actividades religiosas y las celebraciones.
clases de eventos, pero mostró una tasa de eventos reales comparativamente baja en eventos neutrales. MVS
fue más preciso en la detección de eventos religiosos, pero demostró una tasa real baja en otros
clases DT mostró una tasa real alta para eventos de celebración, religiosos y de protesta, pero
una tasa comparativamente baja para eventos neutrales. En general, el modelo BNB funcionó bien en
detectar cada clase de evento. Las tablas 8 y 9 y las figuras 6 y 7 presentan el resultado de
nuestros datos de prueba, excluyendo nuestros datos de entrenamiento.
Tabla 9. Rendimiento de detección verdadera y falsa de los modelos BNB, SVM y DT en cada clase de salida en la detección de eventos de
Publicaciones de Facebook de Banglish.
protestando Celebrando Religioso Neutral
Método
Verdad
neutral
neutro
falso
verdaderos
religiosos
verdadera
protesta
religioso
falso
protesta
falsa
celebración
Verdadera
celebración
falsa
bnb 0.87 0.13 0.70 0.30 1.00 0.00 0.38 0,62
MVS 0,69 0.31 0,60 0.40 1.00 0.00 0,55 0,45
DT 0.93 0.07 0.70 0.30 1.00 0.00 0.19 0.81
La figura 7 presenta la confusión de los modelos NB de Bernoulli, multinomial y gaussiano

matrices. Las columnas 1, 2, 3 y 4 se refieren a protestar, celebrar, neutral,
y eventos religiosos, respectivamente. Las celdas diagonales reflejan eventos detectados con precisión
y las celdas restantes reflejan detecciones falsas positivas. En general, el modelo BNB
superó a los otros dos modelos NB según la Figura 7.
El modelo de clasificación BNB tuvo una precisión del 70,0 % en la detección de eventos utilizando publicaciones de
Facebook en formato Banglish. SVM y DT, por el contrario, fueron 65,0% y 67,0% precisos,
respectivamente.
También se realizó la validación cruzada de 10 veces para el idioma bengalí y se presenta en la Tabla 10. Esta tabla
no solo muestra el resultado de la validación cruzada de 10 veces, sino
también muestra el resultado de la desviación estándar y el valor promedio de los resultados. De esto
tabla, podemos afirmar que nuestro modelo de detección funciona uniformemente para todos los valores de datos, ya que el
los resultados de esta tabla son aproximadamente los mismos que nuestro resultado promedio.
Figura 7. Continuación.
Electrónica 2021, 10, 2367 20 de 25
Figura 7. Matrices de confusión del modelo de clasificación de NB en la detección de eventos sobre la base de publicaciones de
formularios en Banglish.
Tabla 10. El resultado de la validación cruzada de 10 veces de las publicaciones de Banglish Facebook junto con su estándar
desviación.
Método Desviación Estándar
bnb MVS DT bnb MVS DT
0.675 0.675 0,65
0.7 0.675 0.675
0.725 0.675 0,65
0.75 0.725 0.75
0,65 0.625 0.625
0.8 0.725 0.725 0.06 0.061033 0.070755
0.775 0.75 0.675
0.85 0.825 0.85
0.7 0.675 0.625
0.675 0.6 0.6
0.73 0,69 0,68 Promedio
La Tabla 11 muestra los resultados de las pruebas estadísticas que se realizaron en los conjuntos de datos.
utilizando STAC [57]. En términos del conjunto de datos bengalí, el valor p general fue 0.97639 y el
Se aceptó H0. En todas las demás comparaciones con SVM y DT, se aceptó la H0. Este
sugiere que nuestro resultado siempre estuvo cerca del resultado promedio. Del mismo modo, en el Banglish
Electrónica 2021, 10, 2367 21 de 25
conjunto de datos, el valor p fue 1.0 y se aceptó H0 en todos los casos. Este resultado, nuevamente, sugiere que el resultado
estuvo cerca del resultado promedio.
Tabla 11. Pruebas estadísticas realizadas en los conjuntos de datos.
Prueba ANOVA entre casos Prueba de Bonferroni-Dunn

conjuntos de datos
Estadística valor p Resultado Comparar Estadística valor p Resultado
NB frente a SVM 0.18943 1.00000 H0 es aceptado
0.02392 0.97639 SVM frente a DT 0.18940 1.00000 H0 es aceptado

bengalí H0 es aceptado
NB contra DT 0.00003 1.00000 H0 es aceptado
NB frente a SVM 0.48853 0.94368 H0 es aceptado
ÿ0.23622 1.00000 SVM frente a DT 0.17447 1.00000 H0 es aceptado

bengalí H0 es aceptado
NB contra DT 0.66300 0.76943 H0 es aceptado
Nuestro enfoque propuesto funcionó bien en la detección de eventos de bengalí y bengalí

publicaciones de facebook Funcionó mejor ya que seleccionamos BNB como nuestro algoritmo principal, y las características
de nuestro método eran de naturaleza binaria. Además, detectamos eventos comunes adecuados
palabras y frases, así como palabras y frases específicas de eventos, que capturaron mejor la
eventos. Además, el análisis de opinión de las publicaciones en bengalí y bengalí aceleró nuestra tarea de detección de
eventos.
Una vez que el evento es detectado por este modelo, las autoridades pueden vigilarlo.
evento en particular y mantenerse al día con la preparación previa. Si no hay evento, no hay necesidad.
para la acción cautelar. Por lo tanto, este modelo de detección puede ayudar a las autoridades a garantizar
seguridad Social.
5. Conclusiones, Limitaciones y Alcance Futuro

5.1. Conclusiones
En este artículo, propusimos un esquema de detección de eventos que analiza bengalí y

Publicaciones de Facebook en formato Banglish y detecta eventos como celebraciones, protestas, religiosos o
tipos neutros. Para este propósito, extrajimos publicaciones de Facebook de diferentes páginas y grupos públicos populares
de Facebook junto con varios grupos universitarios públicos y privados.
y páginas. Las publicaciones recopiladas se revisaron primero para la detección de idioma que considera solo
Publicaciones en bengalí y bengalí y descarta las publicaciones en otros idiomas. Las publicaciones detectadas fueron luego
preprocesado y luego se recopilaron las características. Las características recopiladas se utilizaron para la
proceso de entrenamiento y luego se procedió a la detección de eventos. En este trabajo de detección de eventos,
Se detectaron palabras y frases comunes y específicas del evento tanto para bengalí como para ban glish. Además, también
se reconocieron las múltiples representaciones de palabras y frases. Nosotros
obtenido resultados satisfactorios empleando este modelo. Logramos una precisión del 90,41%
para bengalí y 70,0% para las publicaciones en bengalí. Empleamos el modelo BNB para este proceso de detección y
usamos valores de características binarias para los cuales BNB funcionó mejor en la detección
eventos. Además, reconocer a fondo palabras de eventos comunes y palabras de eventos específicos
y frases reforzaron el rendimiento de este modelo. Otro factor importante en este buen
la precisión es el reconocimiento de múltiples representaciones de palabras y frases del bengalí
y Banglish. Sin estas múltiples representaciones, previamente logramos el mal
valores de características y, en última instancia, detectó los tipos incorrectos de eventos. Este reconocimiento ayuda
en la identificación de las mismas palabras o frases de múltiples maneras y también proporciona valores de característica
adecuados.
5.2. Limitaciones existentes y alcance futuro
Debido a la inevitable situación de COVID-19, recopilamos nuestros datos manualmente en lugar de

que usar cualquier herramienta automatizada como un rastreador web. En el futuro, tenemos la intención de desarrollar
nuestro propio rastreador web para recopilar datos. También esperamos trabajar con un conjunto de datos más grande.
A partir de este documento, consideramos principalmente las perspectivas de los pueblos de Bangladesh, y percibimos
Electrónica 2021, 10, 2367 22 de 25
formamos nuestros experimentos utilizando publicaciones en bengalí y en bengalí. Nuestro objetivo futuro es construir
un modelo independiente del idioma que brindará un servicio a gran escala a cualquier otro dialecto.
Además, nos gustaría ampliar nuestra lista de palabras y frases específicas de eventos en el futuro.
para que podamos lograr una mayor precisión también para el idioma de forma bengalí. también deseamos
para intentar incorporar la detección de ubicación de eventos en nuestro modelo.
Materiales complementarios: Los siguientes están disponibles en línea en https://www.mdpi.com/article/10.

3390/electrónica10192367/s1, Documento S1: “Un conjunto de datos para la detección de eventos de bengalí y bengalí
publicaciones de Facebook”.
Contribuciones de los autores: Conceptualización, ND, MSR y MSM; metodología, ND, MSR
y HSH; software, ND y MSM; validación y análisis formal, ND, MSR y MSM;
escritura—ND, MSR y MSM; redacción—revisión y edición, ASMSH y MSR; visualización, ND, MSR y MSM; supervisión, MSR;
adquisición de fondos, ASMSH e I.-HR Todos
los autores han leído y aceptado la versión publicada del manuscrito.
Financiamiento: Este trabajo fue apoyado en parte por el Instituto Coreano de Tecnología Energética
Evaluación y Planificación (KETEP), Gobierno de Corea, Ministerio de Comercio, Industria y Energía
(MOTIE), bajo la subvención 20194010201800, y en parte por la Fundación Nacional de Investigación de Corea
(NRF) subvención financiada por el Gobierno de Corea [Ministerio de Ciencia y TIC (MSIT)], bajo Grant
2021R1A2C2014333.
Declaración de disponibilidad de datos: datos de elaboración propia que se adjuntan como documento complementario.
Conflictos de interés: Los autores declaran no tener ningún conflicto de interés.
abreviaturas
En este manuscrito se utilizan las siguientes abreviaturas y símbolos:

PROMEDIO
Promedio
ABC Área bajo la curva
bnb Bernoulli Bayes ingenuo
FRC Campo aleatorio condicional
DT Árbol de decisión
FPR Tasa de falsos positivos
FNR Tasa de falsos negativos
GOLPES Búsqueda de temas inducida por hipertexto
Memoria a corto plazo de LSTM
LDA Asignación latente de Dirichlet
LSH Hashing sensible a la localidad
MLP Perceptrón multicapa
MTL Aprendizaje multitarea
MC Camarilla de microblog
nótese bien
bayesiana ingenua
NER Nombre Entidad Reconocimiento
PWE Eventos de Bienestar Personal
República de China
Características de funcionamiento del receptor
MVS Máquinas de vectores soporte
TD-HITS Tema Decisión HITS
TPR Tasa de verdaderos positivos
TNR Tasa negativa verdadera

TS-LDA LDA de tres pasos
VADER Valence Aware Dictionary y Sentiment Reasoner
Referencias
1. Taylor, DB The New York Times. Disponible en línea: https://web.archive.org/web/20200602235547/https://www.nytimes.com/ar

ticle/george-floyd-protests-timeline.html (consultado el 8 de mayo de 2021).
2. Robinson, K. Consejo de Relaciones Exteriores. Disponible en línea: https://www.cfr.org/article/arab-spring-ten-years-whats-legacy
-levantamientos (consultado el 2 de abril de 2021).
Electrónica 2021, 10, 2367 23 de 25
3. El economista. Disponible en línea: https://www.economist.com/asia/2018/04/21/protests-in-bangladesh-put-an-end-to-a-corru

pt-sistema-de-cuotas (consultado el 20 de marzo de 2021).
4. Primera trama. Disponible en línea: https://www.firstpost.com/world/students-end-protests-on-road-safety-in-bangladesh-after-nine days-education-ministry-to-hold-meet-
tomorrow-4913421. html (consultado el 27 de marzo de 2021).
5. Anantaram, P.; Barnaghi, P.; Thirunarayan, K.; Sheth, A. Extrayendo eventos de tráfico de la ciudad de flujos sociales. ACM Trans. Intel.
sist. Tecnología 2015, 6, 1–27. [Referencia cruzada]
6. Alomari, E.; Mehmod, R.; Katib, I. Análisis de sentimiento de tuits en árabe para la congestión del tráfico y la detección de eventos. en inteligente
Infraestructura y Aplicaciones; Springer: Cham, Suiza, 2020; págs. 37–54. [Referencia cruzada]
7. Imran, M.; Elbassuoni, S.; Castillo, C.; Díaz, F.; Meier, P. Extracción práctica de información relevante para desastres de las redes sociales. En Actas de la 22.ª Conferencia Internacional
sobre la World Wide Web, Río de Janeiro, Brasil, 13–17 de mayo de 2013; págs. 1021–1024. [Referencia cruzada]
8. Sakaki, T.; Okazaki, M.; Matsuo, Y. Earthquake sacude a los usuarios de Twitter: detección de eventos en tiempo real mediante sensores sociales. En Actas de la 19.ª Conferencia
Internacional sobre la World Wide Web, Raleigh, NC, EE. UU., 26–30 de abril de 2010; págs. 851–860. [Referencia cruzada]
9. Fátima, PN; George, A. Detección de eventos y resumen de texto por alerta de desastre. En t. Res. J. Ing. Tecnología 2019, 6, 2510–2513.
10. Ristea, A.; Al Boni, M.; Resch, B.; Gerber, MS; Leitner, M. Distribución espacial de delitos y predicción para eventos deportivos utilizando
redes sociales. En t. J. Geogr. información ciencia 2020, 34, 1708–1739. [Referencia cruzada]
11. Fedoryszak, M.; Federico, B.; Rajaram, V.; Zhong, C. Detección de eventos en tiempo real en flujos de datos sociales. En Actas de la 25.ª Conferencia Internacional ACM SIGKDD sobre
Descubrimiento de Conocimiento y Minería de Datos, Anchorage, AK, EE. UU., 4–8 de agosto de 2019; págs. 2774–2782. [Referencia cruzada]
12. Ahmad, Z.; Varshney, D.; Ekbal, A.; Bhaÿacharyya, P. Identificación de eventos multilingües en el dominio de desastres; Instituto Indio de Tecnología de Patna: Bihta, India, 2019.
13. Shi, K.; Gong, C.; Lu, H.; Zhu, Y.; Niu, Z. Red de cápsulas de granularidad amplia con función de nivel de oración para detectar eventos meteorológicos en redes sociales. futuro genero.
computar sist. 2020, 102, 323–332. [Referencia cruzada]
14. Alí, D.; Señorita, MMS; Husnain, M. Clasificación de eventos multiclase a partir del texto. ciencia Programa. 2021, 2021, 6660651. [Referencia cruzada]
15. Choi, D.; Parque, S.; Jamón, D.; Lim, H.; Bok, K.; Yoo, J. Esquema de detección de eventos locales mediante el análisis de documentos relevantes en redes sociales
Redes. aplicación ciencia 2021, 11, 577. [Referencia cruzada]
16. Alomari, E.; Katib, I.; Mehmood, R. Iktishaf: Una herramienta de detección de eventos de tráfico de carretera de big data que utiliza Twiÿer y el aprendizaje automático de chispas.
Multitud. Neto. aplicación 2020, 1–16. [Referencia cruzada]
17. Jain, A.; Kasiviswanathan, G.; Huang, R. Hacia la detección precisa de eventos en las redes sociales: un enfoque supervisado débilmente para aprender indicadores de eventos
implícitos. En Actas del segundo taller sobre texto ruidoso generado por el usuario (WNUT), Osaka, Japón, 11 de diciembre de 2016; págs. 70–77.
18. Alsaedi, N.; Burnap, P. Detección de eventos en árabe en las redes sociales. En Actas de la Conferencia Internacional sobre Procesamiento de Textos Inteligentes y Lingüística
Computacional, El Cairo, Egipto, 14–20 de abril de 2015; Springer: Cham, Suiza, 2015; págs. 384–401. [Referencia cruzada]
19. Suma, S.; Mehmod, R.; Albeshri, A. Detección automática de eventos en ciudades inteligentes utilizando análisis de big data. En Actas de la Conferencia Internacional sobre Ciudades
Inteligentes, Infraestructura, Tecnologías y Aplicaciones, Jeddah, Arabia Saudita, 27–29 de noviembre de 2017; Springer: Cham, Suiza, 2017; págs. 111–122. [Referencia cruzada]
20. Cui, W.; Wang, P.; Du, Y.; Chen, X.; Guo, D.; Li, J.; Zhou, Y. Un algoritmo para la detección de eventos basado en datos de redes sociales.
Neurocomputación 2017, 254, 53–58. [Referencia cruzada]
21. Gao, Y.; Zhao, S.; Yang, Y.; Chua, TS Detección de eventos sociales multimedia en microblog. En Actas de la Conferencia Internacional sobre Modelado Multimedia, Sydney, NSW,
Australia, 5–7 de enero de 2015; Springer: Cham, Suiza, 2015; págs. 269–281. [Referencia cruzada]
22. Estadísticas globales del contador de estadísticas. Disponible en línea: https://gs.statcounter.com/social-media-stats/all/bangladesh (accedido en
1 de marzo de 2021).
23. Estadística. Disponible en línea: https://www.statista.com/statistics/268136/top-15-countries-based-on-number-of-facebook-users/
(consultado el 25 de enero de 2021).
24. Mumu, TF; Munni, IJ; Das, AK Detección de personas deprimidas a partir del estado de las redes sociales de bangla utilizando el enfoque lstm y cnn. j
Ing. Adv. 2021, 2, 41–47. [Referencia cruzada]
25. Das, AK; Al Asif, A.; Pablo, A.; Hossain, MN Detección del discurso de odio bengalí en las redes sociales mediante el uso recurrente basado en la atención
red neuronal J. Intel. sist. 2021, 30, 578–591. [Referencia cruzada]
26. Rozen, A. Twiÿer Blog. Disponible en línea: https://blog.twitter.com/official/en_us/topics/product/2017/tweetingmadeeasier.html (consultado el 25 de marzo de 2021).
27. Sharmin, S.; Chakma, D. Red neuronal convolucional basada en Aÿention para el análisis de sentimiento bengalí. AI Soc. 2021, 36,
381–396. [Referencia cruzada]
28. Rahman, M.; Haque, S.; Saurav, ZR Identificar y categorizar opiniones expresadas en oraciones en bengalí utilizando técnicas de aprendizaje profundo. En t. J. Cómputo. aplicación
2020, 975, 8887. [Referencia cruzada]
29. Alam, T.; Kan, A.; Alam, F. Clasificación de texto bengalí mediante transformadores. arXiv 2020, arXiv:2011.04446.
Electrónica 2021, 10, 2367 24 de 25
30. Dey, N.; Mredula, MS; Sakib, MN; Islam, MN; Rahman, MS Un enfoque de aprendizaje automático para predecir eventos mediante el análisis de publicaciones de Facebook en
bengalí. En Actas de la Conferencia Internacional sobre Tendencias en Ingeniería Computacional y Cognitiva, Dhaka, Bangladesh, 17 y 18 de diciembre de 2021; Springer:
Berlín/Heidelberg, Alemania, 2021; págs. 133–143.
31. Chen, G.; Kong, Q.; Mao, W. Detección y seguimiento de eventos en línea en las redes sociales basado en el aprendizaje de métricas de similitud neuronal. En Actas
de la Conferencia Internacional IEEE sobre Informática de Inteligencia y Seguridad (ISI) de 2017, Beijing, China, 22–24 de julio de 2017; IEEE: Piscataway, Nueva
Jersey, EE. UU., 2017; págs. 182–184. [Referencia cruzada]
32. Bekoulis, G.; Deleu, J.; Demeester, T.; Develder, C. Detección de subeventos de flujos twiÿer como un problema de etiquetado de secuencias. arXiv 2019, arXiv:1903.05396.
33. Aldhaheri, A.; Lee, J. Detección de eventos en grandes redes sociales mediante análisis temporal. En Actas del 7º Taller y Conferencia Anual de Computación y Comunicación
(CCWC) del IEEE de 2017, Las Vegas, NV, EE. UU., 9 al 11 de enero de 2017; IEEE: Piscataway, Nueva Jersey, EE. UU., 2017; págs. 1 a 6. [Referencia cruzada]
34. Li, Q.; Nourbakhsh, A.; Sha, S.; Liu, X. Detección de eventos novedosos en tiempo real de las redes sociales. En Actas de la 33.ª Conferencia internacional sobre
ingeniería de datos (ICDE) del IEEE de 2017, San Diego, CA, EE. UU., 19 al 22 de abril de 2017; IEEE: Piscataway, Nueva Jersey, EE. UU., 2017; págs. 1129–
1139. [Referencia cruzada]
35. Kannan, J.; Shanavas, AM; Swaminathan, S. Sportsbuzzer: Detección de eventos en tiempo real en twiÿer mediante agrupamiento incremental.
Trans. Mach. Aprender. Artefacto Intel. 2018, 6, 1.
36. Feng, X.; Zhang, S.; Liang, W.; Liu, J. Detección eficiente de eventos basada en la ubicación en flujos de texto social. En Actas de la Conferencia Internacional sobre
Ciencia Inteligente e Ingeniería de Big Data, Suzhou, China, 14–16 de junio de 2015; Springer: Cham, Suiza, 2015; págs. 213–222. [Referencia cruzada]
37. Arachie, C.; Gaur, M.; Anzaroot, S.; Arboledas, W.; Zhang, K.; Jaimes, A. Detección no supervisada de subeventos en desastres de gran escala. En Actas de la
Conferencia AAAI sobre Inteligencia Artificial, Nueva York, NY, EE. UU., 7–12 de febrero de 2020; Volumen 34, págs. 354–361. [Referencia cruzada]
38. Pekar, V.; Binner, J.; Najafi, H.; Sano, C.; Schmidt, V. Detección temprana de eventos heterogéneos de desastres utilizando las redes sociales. J. Asociado.
información ciencia Tecnología 2020, 71, 43–54. [Referencia cruzada]
39. Akbari, M.; Hu, X.; Liqiang, N.; Chua, TS De los tweets al bienestar: Detección de eventos de bienestar a partir de transmisiones de Twitter. En Actas de la Conferencia AAAI sobre
Inteligencia Artificial, Phoenix, AZ, EE. UU., 12–17 de febrero de 2016; Volumen 30.
40. Panagiotou, N.; Katakis, I.; Gunopulos, D. Detección de eventos en redes sociales online: Definiciones, tendencias y desafíos. En la resolución de tareas de aprendizaje a gran
escala. Desafíos y Algoritmos; Springer: Cham, Suiza, 2016; págs. 42–84. [Referencia cruzada]
41. Kolya, Alaska; Ekbal, A.; Bandyopadhyay, S. Un enfoque simple para el sistema de seguimiento de eventos monolingües en bengalí. En Actas del Octavo Simposio Internacional
sobre Procesamiento del Lenguaje Natural de 2009, Bangkok, Tailandia, 20–22 de octubre de 2009; IEEE: Piscataway, NJ, EE. UU., 2009; págs. 48–53. [Referencia cruzada]
42. Zhao, S.; Gao, Y.; Ding, G.; Chua, TS Detección de eventos sociales multimedia en tiempo real en microblog. Trans. IEEE. cibernético 2017, 48,
3218–3231. [Referencia cruzada] [PubMed]
43. Shi, L.; Wu, Y.; Liu, L.; Sol, X.; Jiang, L. Detección de eventos e identificación de difusores influyentes en flujos de datos de redes sociales.
Mín. de datos grandes Anal. 2018, 1, 34–46. [Referencia cruzada]
44. Nurwidyantoro, A.; Winarko, E. Detección de eventos en redes sociales: una encuesta. En Actas de la Conferencia Internacional sobre TIC para una Sociedad Inteligente, Yakarta,
Indonesia, 13 y 14 de junio de 2013; IEEE: Piscaaway, Nueva Jersey, EE. UU., 2013; págs. 1 a 5. [Referencia cruzada]
45. Zarrinkalam, F.; Bagheri, E. Identificación de eventos en redes sociales. Encic. semántico computar Robot. Intel. 2017, 1,
1630002. [Referencia cruzada]
46. Dou, W.; Wang, X.; Ribarsky, W.; Zhou, M. Detección de eventos en datos de redes sociales. En Actas del taller VisWeek de IEEE sobre análisis de texto visual interactivo: análisis
basado en tareas de contenido de redes sociales, Seaÿle, WA, EE. UU., 14 al 19 de octubre de 2012; IEEE: Piscataway, NJ, EE. UU., 2012; págs. 971–980.
47. Dijo, N.; Ahmed, K.; Riegler, M.; Pogorélov, K.; Hassan, L.; Ahmed, N.; Conci, N. Detección de desastres naturales en redes sociales
e imágenes satelitales: una encuesta. multimed. Aplicación de herramientas 2019, 78, 31267–31302. [Referencia cruzada]
48. Said, Z.; Abbasi, RA; Maqbool, O.; Sadaf, A.; Razzak, I.; Daud, A.; Aljohani, NR; Xu, G. ¿Qué está pasando en el mundo?
Una encuesta y un marco sobre técnicas de detección de eventos en twiÿer. J. Cómputo de cuadrícula. 2019, 17, 279–312. [Referencia cruzada]
49. Yu, M.; Bambacus, M.; Cervone, G.; Clarke, K.; Duffy, D.; Huang, Q.; Li, J.; Li, W.; Li, Z.; Liu, Q.; et al. Evento espaciotemporal
detección: una revisión. En t. J. Dígito. Tierra 2020, 13, 1339–1365. [Referencia cruzada]
50. Zhou, D.; Huang, J.; Schölkopf, B. Aprendizaje con hipergrafías: agrupamiento, clasificación e incrustación. Adv. Información neuronal
Proceso. sist. 2006, 19, 1601–1608.
51. Akaike, H. Teoría de la información y una extensión del principio de máxima verosimilitud. En Documentos seleccionados de Hirotugu Akaike;
Springer: Nueva York, NY, EE. UU., 1998; págs. 199–213.
52. Pipi. Disponible en línea: https://pypi.org/project/langdetect/?fbclid=IwAR17pzcUCVFUaWi7PMLHOiD7pqjYhX7rew_DTxSLXX FBKJdGmes6V3qooyU (consultado el 2 de enero de
2021).
53. Huÿo, C.; Gilbert, E. Vader: un modelo parsimonioso basado en reglas para el análisis de sentimientos del texto de las redes sociales. En Proceedings of the International AAAI
Conference on Web and Social Media, Ann Arbor, MI, EE. UU., 1 al 4 de junio de 2014; IEEE: Piscataway, Nueva Jersey, EE. UU., 2014; Volumen 8.
Electrónica 2021, 10, 2367 25 de 25
54. GitHub. Disponible en línea: https://github.com/porimol/bnbphoneticparser?fbclid=IwAR2bXVZioSZyVaijKoIXE8srOEtyhycFmc

atsl88zwnprnhbrrxy4j2nxpy (consultado el 5 de enero de 2021).
55. Quant Insti. Disponible en línea: https://blog.quantinsti.com/vader-sentiment/#:~{}:text=Compound$\delimiter”026E30F$%20VA DER$
\delimiter”026E30F$%20scores$\delimiter”026E30F$% 20for$\delimiter”026E30F$%20analizando,1$\delimiter”026E30 F$%20(la mayoría$
\delimiter”026E30F$%20extremo$\delimiter”026E30F$%20positivo) (consultado el 10 de marzo de 2021).
56. Analítica Vidhya. Disponible en línea: https://www.analyticsvidhya.com/blog/2017/09/naive-bayes-explained/ (accedido en
12 de agosto de 2021).
57. Rodríguez-Fdez, I.; Canosa, A.; Mucientes, M.; Bugarín, A. STAC: Una plataforma web para la comparación de algoritmos mediante pruebas
estadísticas. En Actas de la Conferencia Internacional IEEE 2015 sobre Sistemas Fuzzy (FUZZ-IEEE), Estambul, Turquía, 2 al 5 de agosto de
2015; IEEE: Piscataway, Nueva Jersey, EE. UU., 2015; págs. 1 a 8.

Electronics 10 02367 v3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Electronics 10 02367 v3

Cargado por

Copyright:

Formatos disponibles

Machine Translated by Google

Uso del aprendizaje automático para detectar eventos sobre la base de

de Facebook en bengalí y bengalí.

Nota del editor: MDPI se mantiene neutral con

respecto a reclamos jurisdiccionales en mapas

Electrónica 2021, 10, 2367. https://doi.org/10.3390/electronics10192367 https://www.mdpi.com/journal/electronics

Electrónica 2021, 10, 2367 2 de 25

Electrónica 2021, 10, 2367 3 de 25

La investigación de detección de eventos también ha llegado al dominio de los deportes.

Electrónica 2021, 10, 2367 4 de 25

isones Su método propuesto para extraer información de ubicación se basó en Part-of-Speech

Electrónica 2021, 10, 2367 5 de 25

-Examinó solo datos de Twiÿer.

-Adoptó solo el idioma árabe e ignoró los idiomas

NB y esquema de locales que se usan para twittear.

Árbitro. [24] “Detección de personas -Solo se consideró el idioma bengalí.

Árbitro. [25] “Detección del discurso de -Experimentado solo con el idioma

-Mecanismo de atención -No ocupa significados semánticos de palabras

Árbitro. [28] “Identificación y -Comentarios de noticias deportivas categorizados

-Exploré diferentes modelos de comentarios de Youtube (15,686)

transformadores para clasificar texto. -Conjunto de datos de sentimiento de

clasificación de noticias (11,284)

Electrónica 2021, 10, 2367 6 de 25

Árbitro. [31] “Detección y seguimiento de

-Detectada la existencia y tipo de sub

-Propuso un enfoque temporal de detección

Árbitro. [35] “Sportsbuzzer: -Eventos identificados del dominio de cricket.

-Propuso un método de detección de eventos

-Consideró la correlación entre los -El conjunto de datos constaba de

Electrónica 2021, 10, 2367 7 de 25

Algoritmo 1. Detección de eventos

3.1. Recopilación de datos

3.2. Detección de idioma

Electrónica 2021, 10, 2367 9 de 25

Algoritmo 2. Detección de idioma

Para la detección posterior de Banglish, el algoritmo

Electrónica 2021, 10, 2367 10 de 25

3.4. Extracción de características

El filtrado determina la frecuencia de eventos comunes y palabras clave de eventos específicos

ÿÿÿÿÿ (procesión), ÿÿÿÿÿÿÿ (cadena ÿÿÿÿÿ (waaz), ÿÿÿÿÿÿ (concierto

Electrónica 2021, 10, 2367 11 de 25

Algoritmo 3. Filtrado de Palabras y Frases

Figura 2. Un ejemplo de múltiples representaciones de palabras en bengalí.

3.4.2. Coincidencia de frase de evento específico

Electrónica 2021, 10, 2367 12 de 25

Hay frases en bengalí equivalentes y todas significan la misma frase.

Tabla 3. Frases de eventos específicos.

ÿÿ ÿÿ ÿÿ ÿÿ ÿÿ ÿÿ ÿÿ ÿÿ ÿÿ ÿÿ ÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿ ÿ ÿ ÿÿ ÿÿ ÿ ÿ ÿ ÿÿÿ (condición

Jonmobarshikir onusthan, Uÿal obostha toiri, michiler

Figura 3. Ejemplo de múltiples representaciones de frases en bengalí y bengalí.

3.4.3. Análisis del sentimiento

Aquí, Xcompound es la puntuación compuesta en el rango [ÿ1, 1], Xvalance es la puntuación de

Electrónica 2021, 10, 2367 13 de 25

3.5. Entrenamiento y detección de modelos

p(f |Ck) = ÿ pags

4. Evaluación del Desempeño 4.1.

Métricas de rendimiento Precisión,

Electrónica 2021, 10, 2367 14 de 25

4.2. Conjuntos de datos usados

4.3. Resultados experimentales

Electrónica 2021, 10, 2367 15 de 25

Método Tipo de evento Precisión Recuerdo Puntuación F1 Precisión

Celebrando 0.50 0.50 0.50