Documentos de Académico
Documentos de Profesional
Documentos de Cultura
electrónica
Artículo
Noyon Dey 1,† , Md. Sazzadur Rahman 1,* ,† , Motahara Sabah Mredula1, 2 mangueras ASM Sanwar
y In-Ho Ra 3,*
1
Instituto de Tecnología de la Información, Universidad de Jahangirnagar, Dhaka 1342,
Bangladesh; noyondey8@gmail.com (ND); mmredula12@gmail.com (MSM)
2
División de Informática e Ingeniería, Universidad Nacional de Jeonbuk, Jeonju 54896, Corea;
sanwar@jbnu.ac.kr
3 Facultad de Informática, Ingeniería de la Información y la Comunicación, Universidad Nacional de Kunsan,
Gunsan 54150, Corea
* Correspondencia: sazzad@juniv.edu (MSR); ihra@kunsan.ac.kr (I.-HR) † Estos
autores contribuyeron igualmente a este trabajo.
Resumen: En los tiempos modernos, garantizar la seguridad social se ha convertido en la principal preocupación de los
administradores de seguridad. El uso generalizado y recurrente de los sitios de redes sociales está creando un gran
riesgo para la vida de las personas en general, ya que estos sitios se están convirtiendo con frecuencia en fuentes
potenciales para la organización de diversos tipos de eventos inmorales. Para proteger a la sociedad de estos peligros,
es fundamental un sistema de detección previa que pueda detectar eventos de manera efectiva mediante el análisis de
estos datos de las redes sociales. Sin embargo, la automatización del proceso de detección de eventos ha sido difícil, ya
que los procesos existentes deben tener en cuenta diversos estilos de escritura, idiomas, dialectos, longitudes de
publicaciones, etc. Para superar estas dificultades, desarrollamos un modelo efectivo para detectar eventos que, para
nuestros propósitos, se clasificaron como protestas, celebraciones, religiosos o neutrales, utilizando publicaciones de Facebook en be
Cita: Dey, N.; Rahman, MS;
Al principio, el texto de las publicaciones recopiladas se procesó para detectar el idioma y, luego, las publicaciones
Mredula, MS; Hosen, ASMS; Real academia de bellas artes,
detectadas se preprocesaron mediante la eliminación de palabras vacías y la tokenización. Luego, se extrajeron
I.-H. Uso del aprendizaje automático para
características de estos textos preprocesados mediante tres subprocesos: filtrado, coincidencia de frases de eventos
detectar eventos sobre la base de publicaciones
Electronics 2021, 10, 2367. hÿps: //doi.org/ de clasificación Bernoulli Naive Bayes, que fue capaz de detectar eventos con una precisión del 90,41 % (para
10.3390/electronics10192367 publicaciones en bengalí) y del 70 % (para publicaciones en bengalí). Para evaluar la efectividad de nuestro modelo
propuesto con mayor precisión, lo comparamos con otros dos clasificadores: Support Vector Machine y Decision Tree.
Editor Académico: Juan M. Corchado
Recibido: 13 julio 2021 Palabras clave: bengalí; Bengalí; Bernoulli Naïve Bayes; árbol de decisión; detección de eventos; redes sociales;
Aceptado: 14 de septiembre de 2021
máquinas de vectores soporte
Publicado: 28 septiembre 2021
tráfico [5,6], desastres [7,8], enfermedades [7,9], eventos deportivos [10], terremotos [8] y delitos [10], por
nombrar solo algunos. Estos estudios han examinado eventos descritos en inglés [11,12], hindi [12], mandarín
[13], urdu [14], japonés [8], coreano [15], árabe [16] y otros idiomas, y han examinó los datos recopilados de
diferentes plataformas para realizar su investigación, incluidos Twiÿer [17–19] o Sina Weibo [20,21]. Aunque
estos estudios se centraron en diferentes idiomas y plataformas de diferentes países, ninguno de ellos ha
analizado el bengalí y sus complejidades relacionadas en la detección de eventos.
Hasta la fecha, ningún equipo de investigación se ha centrado en detectar o predecir eventos religiosos.
Los eventos religiosos, culturales y políticos ocurren durante todo el año en Bangladesh y es común organizar
eventos en Facebook, ya que es utilizado por el 86,73% de todos los usuarios de redes sociales en
Bangladesh [22]. De hecho, aproximadamente 41 millones de personas usan Facebook diariamente en todo
el país [23]. Como Facebook es un sitio de redes sociales popular, un gran número de investigadores han
realizado sus experimentos utilizando datos de Facebook [24,25]. Además, los trabajos existentes solo han
considerado publicaciones en redes sociales de longitudes cortas predeterminadas, como las posibles en
Twiÿer, es decir, 280 caracteres por publicación [26], mientras que las publicaciones en Facebook suelen ser
más largas y complejas. Este estudio también es único por su consideración de publicaciones en bengalí y
bengalí, es decir, palabras bengalíes escritas en el alfabeto inglés, ya que se usan ampliamente en
Bangladesh para publicar en Facebook. Especialmente, Banglish ofrece desafíos significativos en el
procesamiento de texto debido a sus múltiples representaciones posibles de una palabra, es decir, una
palabra con varias grafías pero la misma pronunciación y significado.
Aunque algunos investigadores han utilizado palabras clave específicas para realizar su investigación
[8,20], ningún investigador ha reconocido listas de palabras específicas de eventos en bengalí y bengalí para
sus experimentos. Las listas de frases específicas de eventos para bengalí y bengalí tampoco se reconocen
hasta ahora. En este documento, descubrimos listas separadas para palabras específicas de eventos en
bengalí y bengalí, así como para frases específicas de eventos. Hasta ahora, ninguno ha reconocido múltiples
representaciones de palabras y frases en bengalí. En nuestro trabajo, reconocimos todas las representaciones
posibles de palabras y frases en bengalí.
Hasta donde sabemos, este es el primer estudio que analiza las publicaciones de Facebook escritas
en bengalí y bengalí para detectar eventos. Aunque existen algunas obras en bengalí [24,25,27–29], todas
estas obras son de análisis de opiniones o sentimientos. En este estudio, ampliamos nuestro trabajo anterior
en el que solo trabajamos con publicaciones bengalíes de Facebook con una precisión del 87,5 % en la
detección de eventos [30]. Nuestro trabajo anterior utilizó los mismos procedimientos, es decir, recopilación
de datos, preprocesamiento, extracción de características, entrenamiento de modelos y detección, que
seguimos en este trabajo. Sobre la base de este trabajo anterior, aumentamos la precisión de detección de
eventos de nuestro trabajo anterior y también trabajamos con las publicaciones en formato Banglish.
Modificamos nuestro modelo anterior reconociendo las múltiples representaciones de las palabras en bengalí.
Además, en este modelo también se agregaron representaciones múltiples de frases en bengalí y bengalí
para mejorar la precisión de detección. También mejoramos el procedimiento de detección de idioma para la
detección posterior de la forma bengalí, ya que las bibliotecas disponibles no lo detectan directamente.
Además, la puntuación de opinión de las publicaciones en bengalí también se calculó de manera diferente en
comparación con las publicaciones en bengalí, ya que no se puede calcular directamente con las bibliotecas
de software actuales. Eventualmente, en este estudio, confiamos en las publicaciones de Facebook escritas
en bengalí y en bengalí. Realizamos un estudio detallado sobre publicaciones relacionadas con eventos en
bengalí y bengalí, y determinamos palabras de eventos de uso común y frases de eventos específicos.
También reconocimos múltiples representaciones de palabras en bengalí y frases en bengalí y bengalí. Esta
multiplicidad de presentaciones de palabras y frases, si no se hubiera reconocido, habría creado valores de
características incorrectos y detecciones incorrectas. Además, analizamos los sentimientos de las
publicaciones en bengalí y bengalí y finalmente detectamos cuatro tipos de eventos: celebración, protesta,
religiosos y neutrales.
El resto del documento está estructurado de la siguiente manera. En la Sección 2, revisamos el estudio
de literatura relevante anterior a nuestro trabajo. En la Sección 3, describimos nuestro modelo propuesto y
evaluamos su desempeño en la Sección 4. En la Sección 5, ofrecemos nuestros pensamientos finales y
proponemos algunas direcciones para futuras investigaciones.
Machine Translated by Google
2. Revisión de la literatura
El enorme depósito de datos, es decir, las redes sociales, ha fascinado a los investigadores, y no
sorprende que la predicción y detección de eventos haya sido un tema recurrente en la literatura.
Los investigadores han adoptado diferentes enfoques, incluido el aprendizaje automático, la red neuronal, el
enfoque basado en reglas y muchas otras técnicas para implementar en su trabajo.
La Tabla 1 presenta una representación tabular de algunos de estos estudios de antecedentes.
Para el análisis predictivo, una red neuronal proporciona el mejor análisis, ya que utiliza capas ocultas.
Por lo tanto, muchos investigadores han recurrido a las redes neuronales para detectar eventos de manera
efectiva en las publicaciones de las redes sociales [31–33]. Chen et al. [31] utilizó una red neuronal para
introducir un módulo de identificación de eventos en línea. Al principio, se entrenó un marco de clasificación
para rastrear eventos, sobre la base del contenido de una publicación. Luego, se adoptó un método efectivo
basado en agrupamiento para identificar y rastrear los eventos, y se utilizó un componente de memoria para
almacenar y actualizar la representación de eventos. Bekoulis et al. [32] se centró en la naturaleza secuencial
de los flujos de datos para detectar eventos de datos de redes sociales con un modelo de secuencia neuronal.
Este equipo no solo detectó la existencia de subeventos a partir de los datos de Twiÿer, sino que también logró
identificar el tipo de subevento detectado. Presentaron un modelo de línea de base para la clasificación binaria
y demostraron que su modelo propuesto superó el estado del arte en la identificación de la presencia o
ausencia del sub-evento. Para lograr estos resultados, utilizaron la agrupación AVG (promedio) y MLP
(perceptrón multicapa). Aldhaheri et al. [33] utilizaron redes neuronales para sugerir un esquema único para la
detección de eventos. Se propuso un enfoque temporal que convertía flujos de datos de redes sociales en
imágenes consecutivas y, en última instancia, demostraron que la transformación de un flujo de datos en
imágenes cubre la complicación general de la cadena de redes sociales y mejora la precisión de detección de
eventos.
Para detectar eventos con precisión, algunos investigadores se han basado en el aprendizaje no
supervisado (considerado 'el enfoque de agrupación'). En este método, un conjunto de datos determinado se
divide en objetos similares. PN et al. [9] utilizó esta técnica de agrupación para proponer un marco de
transformación de eventos basado en el interés del usuario (el 'modelo de evolución de eventos calientes'). Se
utilizó un algoritmo de agrupamiento (el 'algoritmo automático de eventos calientes') para asociar los mini-
textos grupo por grupo con sus temas relevantes. También se ha intentado un enfoque de agrupamiento en línea.
Alsaedi et al. [18] propusieron un modelo asimilado que detectaba eventos a partir de datos árabes de Twitter.
Este equipo de investigación estaba principalmente interesado en filtrar eventos disruptivos de los flujos de
datos de las redes sociales y diferenciar entre estos y otros eventos. Los eventos disruptivos incluyeron
diferentes tipos de protestas, ataques terroristas, pérdida de transporte y ciertos delitos. Mencionaron varias
etapas, incluida la recopilación de datos, el preprocesamiento, la clasificación, el agrupamiento y el resumen,
y utilizaron el modelo de clasificación Naive Bayes (NB) junto con un algoritmo de agrupamiento en línea para
la detección de eventos. También se utilizaron el reconocimiento automático de entidades con nombre (NER),
diccionarios y varias funciones de tweet (hashtags y proporción de retweet) para mejorar la detección de
eventos.
Algunos métodos de detección de eventos se centran en identificar cómo evolucionan los eventos con
el tiempo. Un ejemplo de esta técnica fue presentado por Fedoryszak et al. [11], quienes aplicaron la agrupación
en un gran flujo para producir un conjunto de eventos dinámicamente racionalizados. Este método se diseñó
para funcionar en tiempo real a la escala de publicaciones del tamaño de Twiÿer. Se presentó la estimación
tanto fuera de línea como en línea de su modelo. Li et al. [34] propusieron un procedimiento que constaba de
tres pasos: clasificación de tweets en clases semánticas relevantes, cálculo de la relación de clase entre los
tweets e integración. Usaron diferentes clases semánticas, incluyendo nombre propio, ubicación, mención,
verbo, nombre común y hashtag. También introdujeron un módulo de identificación de información cronológica
para identificar información temporal en un grupo. Este módulo indica si un evento es nuevo o antiguo.
Tabla 1. Un resumen de algunos artículos significativos de la revisión de la literatura, incluido su objetivo principal, el método utilizado, los datos y el lenguaje junto con algunas diferencias con nuestro enfoque.
Artículos con año de publicación Método Objetivo Idioma utilizado Datos usados Disimilitud de nuestro trabajo
Árbitro. [11] “Detección de eventos -Control del progreso del evento a lo largo del tiempo. -Analizado solo datos de Twiÿer.
en tiempo real en flujos de datos sociales”, -Rendimiento estimado tanto en línea -
Algoritmo de agrupamiento -Inglés -Su conjunto de datos solo constaba de
2019. como fuera de línea. tweets en inglés.
-Conjunto de datos de
Tabla 1. Continuación
Artículos con año de publicación Método Objetivo Idioma utilizado Datos usados Disimilitud de nuestro trabajo
Árbitro. [34] “Detección de eventos novedosos -Enfocado en mejorar el rendimiento de detección -120 millones de tuits recogidos
en tiempo real desde las redes Algoritmo de agrupamiento de eventos. -Inglés (finalmente se utilizaron 100k de -Utilizó solo datos de Twiÿer.
sociales”, 2017. -También se identifica información temporal. ellos)
El aprendizaje profundo, el aprendizaje automático y otras técnicas se han probado como un medio
de detectar o predecir eventos. En este trabajo, además de la detección de lenguaje, se utilizó el modelo de clasificación NB,
que es capaz de cálculos rápidos y de alta precisión.
preprocesamiento, filtrado, coincidencia de frases de eventos específicos y análisis de sentimientos para detectar eventos. En
la siguiente sección, proporcionamos una explicación detallada de nuestro módulo.
así como las herramientas y tecnologías utilizadas para su implementación.
3. Modelo Propuesto
Nuestro modelo propuesto incluye recopilación de datos, detección de idioma, preprocesamiento de datos,
pasos de extracción de características, entrenamiento de modelos y detección de eventos. Estos pasos están representados en
Figura 1. Este modelo nos permitió detectar celebrando, protestando, religiosas y neutrales.
eventos después del análisis del texto de las publicaciones de Facebook en bengalí y bengalí. 'Celebración de eventos'
incluyen matrimonios, eventos culturales, etc. Las protestas estudiantiles o de cadenas humanas (una demostración de
individuos que forman una estructura en cadena tomándose de la mano para mostrar solidaridad [3,4]) o mítines se clasificaron
como 'eventos de protesta'. Las celebraciones de Eid, los funerales, las veneraciones, etc. se clasificaron como 'eventos
religiosos'. Cualquier evento fuera de estos marcos
fueron considerados "eventos neutrales".
Figura 1. Modelo para la detección de eventos sobre la base del texto de las publicaciones de Facebook en formato
bengalí y bengalí.
Para detectar eventos, utilizamos solo publicaciones reales en bengalí y bengalí recopiladas de Facebook. El algoritmo
1 representa el pseudocódigo del proceso general de nuestra detección de eventos
procedimiento. El idioma en el que se escribieron las publicaciones recopiladas se detectó mediante el
biblioteca de python “langdetect” [52], y este procedimiento se realizó con el Algoritmo 2. Después de la detección del idioma,
se realizó un preprocesamiento de las publicaciones detectadas mediante la función de preprocesamiento (P) y luego se
extrajeron las características. La extracción de características consistió
de tres subprocesos: filtrado, coincidencia de frases de eventos específicos y análisis de sentimiento. Estos tres subprocesos
extrajeron palabras de eventos comunes y específicos y
y frases de eventos específicos usando el Algoritmo 3, y puntajes de sentimientos usando el procedimiento V(P) ,
respectivamente. V(P) calculó el sentimiento utilizando el Valence Aware Dictionary y
Sentiment Reasoner (VADER) [53]. En última instancia, todas las características extraídas de la publicación,
Machine Translated by Googlede acuerdo con las Figuras 4, 5 y 6. La sangría debe mantenerse estrictamente en todos los
algoritmos.
Problema -
ii. Número de línea 20, Algoritmo 3 -- P[ j ] debe reemplazarse con Ph[ j ]. Hemos 8 de 25
Electrónica 2021, 10, 2367
resaltado esto en la Figura 6.
Solución: si es posible, cambie esto. Si realiza este cambio, también se ejecutará otro a través del
modelorelacionado
cambio de clasificación
dadoBernoulli Naïve Bayes
en el problema número(BNB)
6. Si ynoelconsidera
modelo luego
resolver este problema, detecte
eventos
por basados
favor no corrija en
loslos valores de
problemas las características.
mencionados Estos pasos
en el problema númerose describen
6. con mayor detalle en
las siguientes subsecciones.
Como no existía ningún conjunto de datos de publicaciones de Facebook en bengalí y bengalí para detectar eventos,
hecho nuestro recopilando manualmente publicaciones de varias páginas públicas mantenidas por
una variedad de grupos e individuos (p. ej., Documento de Material Suplementario S1). Para
recopilando datos sobre diferentes eventos relevantes para los estudiantes, consideramos varios
y páginas y grupos de Facebook de universidades privadas, ya que la mayoría de los estudiantes y otros funcionarios
universitarios publican con frecuencia sobre protestas, celebraciones y eventos relacionados con la religión.
información en estos grupos y páginas. Además, por cubrir las protestas en todo el país,
celebración e información relacionada con eventos religiosos, seleccionamos un buen número de
grupos y páginas públicos populares de Facebook que tienen un número significativo de seguidores.
Las publicaciones recopiladas contenían información relacionada con eventos recientes y anteriores. el conjunto de datos
sesgado hacia eventos anteriores debido a las restricciones a las reuniones públicas establecidas en respuesta al brote de
COVID-19. Nuestros conjuntos de datos se mantuvieron pequeños debido a esta situación y
no utilizó ningún método automático de recopilación de datos. No construimos ninguna recopilación automática de datos.
herramienta, y tampoco hay conjuntos de datos de referencia disponibles en bengalí y bengalí para eventos
detección. Por estas razones, tuvimos que recopilar publicaciones manualmente de diferentes Facebook
páginas, grupos o cuentas individuales. Esta recopilación manual limitó nuestra recopilación de datos.
esfuerzos Luego se verificaron las publicaciones recopiladas para determinar si estaban en bengalí.
o Banglish.
Las publicaciones que no estaban escritas en bengalí o bengalí se excluyeron de este estudio. Por lo tanto, ben gali
y banglish se detectaron utilizando "langdetect", una biblioteca de Python que admite 55 idiomas diferentes. El uso del
método "detectar" le permite al usuario ingresar un texto y recibir el
forma abreviada del idioma detectado (en el caso del bengalí, es 'bn'). El algoritmo 2 representa el
proceso de detección de idioma en el que se identificaron la publicación ( P) y la lista de idiomas admitidos (L).
las entradas length (L) es un procedimiento que proporciona el número de elementos en una lista. detectar (P)
es un procedimiento que determina el idioma de la publicación, y bnb (P) es otro procedimiento
que convierte la publicación bengalí encontrada en bengalí usando 'bnbphoneticparser' [54].
processFurther (P) es un procedimiento que procesa aún más la publicación para la detección de eventos.
Machine Translated by Google
Figura 4 - Algoritmo 1
3.3. Preprocesamiento de
datos Se aplicaron procesos de tokenización y eliminación de palabras vacías para el preprocesamiento de datos.
Se aplicó el preprocesamiento porque las publicaciones realizadas en las plataformas de redes sociales generalmente
se escriben de manera informal y reflejan el estilo de escritura idiosincrásico de un usuario. Este estilo de escritura
presenta desafíos significativos y, por lo tanto, el uso del preprocesamiento reduce el impacto de este problema. En
este paso de preprocesamiento, se eliminaron las palabras vacías y, posteriormente, se aplicó la tokenización. Las
palabras vacías son aquellas palabras, caracteres o caracteres especiales que no ofrecen información valiosa sobre
el texto y, por lo tanto, se excluyeron. La tokenización divide el flujo de texto en sus palabras componentes para su
posterior procesamiento. En general, el preprocesamiento de datos hace que las publicaciones sean más adecuadas
para la extracción de características.
Machine Translated by Google
La frecuencia de las palabras clave de eventos comunes, la frecuencia de las frases de eventos específicos,
es decir, celebrando, protestando y religioso, la frecuencia de las palabras clave de eventos específicos, es decir,
celebrando, protestando y religioso, y la puntuación del análisis de sentimiento se utilizaron como características
en este trabajo. Al principio, las palabras de eventos comunes se detectaron en la publicación, ya que las palabras
de eventos comunes seleccionan principalmente una publicación como candidata probable para un evento.
Posteriormente, se detectaron palabras relacionadas con eventos específicos de la publicación y su aparición
reforzó aún más la posibilidad de que una publicación sea un tipo de evento. Junto con las palabras, se detectaron
frases específicas de eventos y se usaron como el tipo de característica más importante, ya que esta característica
influye en gran medida en la clasificación de una publicación de una categoría de evento. Finalmente, se calculó
la puntuación de opinión para mejorar aún más la posibilidad de un tipo de publicación, ya que las opiniones se
correlacionan con cualquier tipo de evento. En resumen, una selección gradual de palabras de eventos comunes,
palabras de eventos específicos, frases de eventos específicos y, finalmente, la puntuación de sentimiento detectó
un evento. El filtrado, la coincidencia de frases de eventos específicos y el análisis de sentimientos son los tres
subprocesos que se aplicaron en este proceso de extracción de características.
3.4.1. Filtración
Las palabras clave de eventos comunes se definen como palabras de uso común para describir un evento.
Tanto el bengalí como el bengalí emplean palabras clave de eventos comunes, así como palabras relacionadas
con eventos específicos, algunas de las cuales se presentan en la Tabla 2. La primera fila de la Tabla 2 muestra
palabras de eventos en bengalí junto con sus palabras equivalentes en inglés entre paréntesis y la segunda fila
muestra las correspondientes palabras en bengalí.
Dado que el banglish puede incluir múltiples representaciones de una palabra, en este trabajo se
identificaron y utilizaron todas las combinaciones posibles de las palabras relevantes. La Figura 2 describe estas
múltiples representaciones de palabras en bengalí.
En la forma de escritura bengalí, la pronunciación y el significado de una palabra siguen siendo los mismos,
mientras que la ortografía de esa palabra se puede presentar de múltiples maneras. Por ejemplo, “My” es una
palabra en inglés, mientras que la forma bengalí equivalente es “ÿÿÿÿ” y sus representaciones en bengalí pueden
ser “Amar”, “Amr”, “Amaar” o “Aamar”. Son comunes los casos en los que hay más de cuatro grafías alternativas
de una palabra. Tal complejidad entre las representaciones afecta las puntuaciones de sentimiento.
Tabla 2. Palabras clave de eventos comunes y palabras clave de eventos específicos utilizadas para el filtrado.
Palabras de eventos comunes Celebrando las palabras del evento Palabras del evento de protesta Palabras de eventos religiosos
Michil, manobbondhon,
Ghotche, ghotbe, shomabesh, Anondomela, onusthan, biye, Waaz, mahfil, namaz, dafon, janaza,
bikkhov, shongghorsho, hamla,
jomayet, shomagom, shova punomiloni, mela puja
andolon
Machine Translated by Google
Figura 6 - Algoritmo 3
4. Problema -
I. En la Tabla 11, 1ra columna fila 2 -- Bnglish debe ser reemplazado por Banglish.
Celebrando las frases del evento ÿ ÿ ÿÿÿÿ ÿ ÿÿÿ ÿÿÿ ÿ Frases de eventos de protesta Frases de Eventos Religiosos
Xvalancia
Xcompuesto = (1)
X2cenefa + ÿ
ÿ
multi". Las publicaciones en bengalí, por el contrario, se convirtieron a bengalí y luego se aplicaron a "vader-multi". La
conversión de bengalí a bengalí se realizó utilizando otra biblioteca de Python, "bnbphoneticparser". En ambos casos,
se recogieron valores apropiados de la publicación y se etiquetaron de acuerdo con las características.
A continuación, las características recopiladas de los tres subprocesos se utilizaron con fines de formación del
modelo.
El modelo BNB se utilizó como algoritmo principal para esta tarea, mientras que los algoritmos SVM y DT se
utilizaron para las comparaciones de rendimiento. Para el modelo SVM, se seleccionaron núcleos polinómicos con grado
3. Para el DT, utilizamos los Árboles de Clasificación y Regresión (CART). Como usamos el paquete de aprendizaje
scikit de Python y también usamos variables numéricas, es decir, valores de características binarias, es por eso que
usamos CART. Se utilizó el BNB ya que nuestros conjuntos de datos son pequeños y este algoritmo entrena más rápido
y con precisión con conjuntos de datos pequeños y también proporciona una buena precisión. La misma razón también
se aplica para seleccionar algoritmos DT y SVM. Otros métodos, como el aprendizaje profundo, requieren grandes datos
de entrenamiento que actualmente no están disponibles para nosotros, ya que no hay datos de referencia. Las
características extraídas de cada publicación se usaron para entrenar el modelo. Los valores reales de las características
se convirtieron en binarios antes de que se aplicaran al modelo de entrenamiento. Si el valor de cualquier característica
era mayor o igual a 1, el valor se establecía en 1; en todas las demás circunstancias, el valor se estableció en 0.
Las ecuaciones (2) y (3) reflejan el proceso subyacente del modelo de clasificación de NB.
P(F|C) ÿ P(C)
P(C|F) = (2)
P(F)
O,
PAGS(C|F) = PAGS(F1|C) × PAGS(F2|C) × . . . P(Fn|C) × P(C) (3)
Donde, P (C|F) se refiere a la probabilidad de que C (Clase) sea verdadera dado que F (Características) ya ha
ocurrido. P (F|C) se refiere a la probabilidad de que F sea verdadera dado que C es verdadera.
P (C) se refiere a la probabilidad de que C sea verdadera. P (F) se refiere a la probabilidad de que F sea verdadera.
Aunque hay tres tipos de modelos de clasificación NB (es decir, Bernoulli, Multinomial y Gaussian), usamos el
modelo BNB ya que proporciona resultados superiores cuando se trabaja con características binarias [56]. La ecuación
(4) refleja la ecuación del modelo de clasificación BNB:
norte
En este caso, p(f |Ck): la probabilidad de un evento dada una clase CK. fj : es un vector de características
booleano que expresa la ocurrencia o ausencia del j-ésimo término. pkj: la probabilidad de que la clase Ck genere el
vector de características fj .
Después de entrenar el modelo con las características recopiladas y las etiquetas asignadas, el modelo
luego detectó eventos sobre la base de las características asociadas en la publicación.
recuperación, puntuación F1, exactitud, características operativas del receptor (ROC), área bajo la curva (AUC),
tasa de verdaderos positivos (TPR), tasa de verdaderos negativos (TNR), tasa de falsos positivos (FPR), tasa de falsos
negativos (FNR) y la matriz de confusión se mencionaron como métricas de desempeño.
TPR y TNR: Verdadero positivo es una clase o etiqueta realmente positiva que el modelo detectó como positiva.
Del mismo modo, verdadero negativo es una clase negativa que el modelo detectó como negativa.
FPR y FNR: los falsos positivos son aquellos en los que el modelo detectó incorrectamente un posi
clase activa, mientras que los falsos negativos son clases negativas detectadas incorrectamente.
Machine Translated by Google
Precisión: La precisión se define como la relación entre los casos positivos verdaderos detectados y todas las instancias
positivas detectadas. Todas las instancias identificadas positivamente también contienen instancias de
falsos positivos.
Recuperación: la recuperación es la relación entre las instancias positivas verdaderas detectadas y todas las posi reales.
instancias tivas. Todas las instancias reales pueden o no haber sido detectadas por el modelo.
Puntuación F1: el promedio ponderado de las puntuaciones de precisión y recuperación se denomina
Puntuación F1. En esta medición se tienen en cuenta los falsos positivos y los falsos negativos.
Precisión: La precisión se define como la relación entre el número total de detec
ciones a todas las detecciones. La precisión se utiliza para medir la capacidad de detección general.
ROC: La curva ROC muestra la TPR frente a la FPR en diferentes valores de umbral.
La curva ROC identifica la probabilidad de un verdadero o falso positivo en un determinado valor de umbral. Un resultado óptimo
sería 0 FPR y 1 TPR.
AUC: AUC se define como la capacidad de distinguir entre clases. AUC puede caer dentro de un rango de 0 a 1 para
una clase específica, donde 1 indica que una clase se identifica categóricamente y 0 indica que nunca se identifica. Un AUC
más cercano a 1 indica un modelo que clasifica bien.
Matriz de confusión: una matriz de confusión contiene todas las etiquetas de salida utilizadas para la clasificación.
Cada valor diagonal en la matriz de confusión define las verdaderas clases detectadas para cada etiqueta, mientras que todas
las demás celdas definen las etiquetas de falsos positivos. La precisión, la recuperación y la exactitud se pueden calcular
haciendo referencia a esta matriz.
Creamos dos conjuntos de datos separados para las publicaciones de Facebook en bengalí y bengalí. Los conjuntos de
datos fueron etiquetados manualmente por dos expertos. Revisaron cada publicación en los conjuntos de datos y etiquetaron
cada publicación de acuerdo con los tipos de eventos. Luego, cada una de las etiquetas del conjunto de datos fue verificada de
forma cruzada por otro experto. El conjunto de datos bengalí contenía 364 publicaciones reales de Facebook, incluidos cuatro
tipos de publicaciones (celebración = 47, protesta = 64, religiosa = 42 y neutral = 211). Por otro lado, se recopilaron 200
publicaciones reales de Facebook para el conjunto de datos de Banglish. El conjunto de datos de Banglish también contenía
cuatro tipos de publicaciones de eventos (celebrando = 56, protestando = 69, religioso = 27 y neutral = 48). En ambos conjuntos
de datos, el 80 % de los datos se utilizó con fines de capacitación y el 20 % restante se utilizó con fines de prueba. Hubo 4
publicaciones de celebración, 15 de protesta, 6 religiosas y 48 neutrales en los datos de las pruebas bengalíes. En el caso de los
datos de prueba de Banglish, hubo 10 publicaciones de celebración, 16 de protesta, 3 religiosas y 11 neutrales. Los resultados
experimentales obtenidos de los datos de prueba se proporcionan en la subsección de resultados experimentales.
presenta la curva AUC-ROC del modelo BNB a medida que detectaba eventos sobre la base de publicaciones de
Facebook escritas en bengalí. Los eventos de celebración (AUC = 0,93), protesta (AUC = 0,99), religiosos (AUC = 1,00) y
neutrales (AUC = 0,88) se presentan como líneas rojas, azules, naranjas y verdes, respectivamente. Según estas puntuaciones,
el modelo BNB se desempeñó bien en la detección de eventos, ya que los valores de AUC están más cerca de 1. Cuanto más
cerca esté el valor de AUC de 1, mejor será el rendimiento del modelo.
Para mostrar la efectividad de nuestra evaluación de desempeño, nuestro modelo de detección de eventos también se
probó con los clasificadores SVM y Decision Tree (DT) en el mismo conjunto de datos.
La Tabla 4 compara el rendimiento de los tres modelos e incluye las métricas de precisión, recuperación, puntuación F1 y
precisión. En resumen, los datos de la Tabla 4 muestran que el modelo BNB superó a los otros modelos. Las tablas 4 y 5 y las
figuras 4 y 5 representan solo la evaluación de nuestros datos de prueba. No incorporamos nuestros datos de entrenamiento al
formar estas tablas y figuras.
Machine Translated by Google
Figura 4. Curva AUC-ROC del modelo de clasificación BNB para detectar eventos del idioma bengalí
publicaciones de facebook
Tabla 4. Desempeño de los modelos de clasificación BNB, SVM y DT en la detección de eventos de bengalí
publicaciones de facebook
La Tabla 5 presenta las tasas de identificación de eventos verdaderos y falsos del BNB, SVM y DT
modelos producidos. El BNB se desempeñó muy bien con respecto a las protestas, religiosas,
y eventos neutrales, pero mostró una tasa comparativamente baja de eventos verdaderos para celebrar eventos.
La precisión de SVM para detectar eventos de celebración y neutrales fue baja, aunque funcionó
beÿer para las otras clases. DT mostró una tasa real baja para eventos neutrales pero una tasa real
comparativamente buena en otras clases de eventos. En general, el BNB se desempeñó bien, logrando
casi la misma precisión en todas las clases.
La figura 5 presenta las matrices de confusión de los modelos NB de Bernoulli, multinomial y gaussiano.
Los eventos de protesta, celebración, neutrales y religiosos se refieren a los números
en la 1ra, 2da, 3ra y 4ta columna respectivamente. Los valores de las diagonales en las matrices son
los eventos verdaderos detectados por el modelo de Clasificación NB mientras que otras celdas expresan el
número de eventos falsos positivos. En general, la Figura 5 sugiere que el modelo BNB superó
los comparadores.
Machine Translated by Google
Figura 5. Matrices de confusión del modelo de clasificación NB sobre la base de publicaciones en bengalí.
Machine Translated by Google
Tabla 5. Rendimiento de detección verdadera y falsa de los modelos BNB, SVM y DT en cada clase de salida en la detección de eventos de
Publicaciones bengalíes en Facebook.
Método
Verdad
neutral
neutro
falso
verdaderos
religiosos
verdadera
protesta
religioso
falso
protesta
falsa celebración
Verdadera
festejo
Falso
La clasificación BNB tuvo una precisión del 90,41 % en la detección de eventos sobre la base de las publicaciones de
Facebook en idioma bengalí, mientras que los modelos SVM y DT tuvieron solo un 87,67 % y un 87,61 %.
precisa, respectivamente.
Realizamos una validación cruzada de 10 veces de nuestro modelo de detección de eventos. La tabla 6 muestra
los resultados de la validación cruzada de 10 veces junto con su desviación estándar para BNB, SVM,
y clasificadores DT para el idioma bengalí. Los valores de la tabla son aproximadamente iguales.
como nuestro resultado promedio, lo que significa que nuestro modelo funciona de manera uniforme para todos los datos.
Tabla 6. El resultado de la validación cruzada de 10 veces de las publicaciones bengalíes de Facebook junto con su estándar
desviación.
La Tabla 7 muestra la comparación entre nuestro trabajo actual, trabajo previo [30] y algunos
trabajos similares de la revisión de la literatura. Nuestro trabajo mostró mejores resultados que los trabajos
mencionado anteriormente en términos de puntaje F por un margen significativo. Además, esta comparación
también muestra la mejora de nuestra tarea anterior de detección de eventos.
La Figura 6 presenta la curva AUC-ROC del modelo BNB a medida que detecta eventos sobre la base
de publicaciones de Facebook en formato bengalí. Los eventos de celebración se indican con una línea roja, protestando
los eventos se indican con una línea azul, los eventos religiosos se indican con una línea naranja y
los eventos neutrales se indican con una línea verde en la Figura 6. Los valores de AUC para estos eventos
estaban celebrando (0,92), protestando (0,92), religiosos (0,98) y neutrales (0,73). la cercanía
de estos valores a 1 confirma que el modelo detectó bien los eventos.
Machine Translated by Google
Nuestro enfoque 92
Figura 6. Curva AUC-ROC del modelo de clasificación BNB en la detección de eventos de publicaciones de Facebook en formato
Banglish.
Tabla 8. Desempeño de los modelos de clasificación BNB, SVM y DT en la detección de eventos de Banglish
publicaciones de facebook
La Tabla 9 presenta las tasas de identificación de eventos verdaderos y falsos de los tres modelos. los
Machine Translated by Google
El modelo de BNB se desempeñó muy bien con respecto a las protestas, las actividades religiosas y las celebraciones.
clases de eventos, pero mostró una tasa de eventos reales comparativamente baja en eventos neutrales. MVS
fue más preciso en la detección de eventos religiosos, pero demostró una tasa real baja en otros
clases DT mostró una tasa real alta para eventos de celebración, religiosos y de protesta, pero
una tasa comparativamente baja para eventos neutrales. En general, el modelo BNB funcionó bien en
detectar cada clase de evento. Las tablas 8 y 9 y las figuras 6 y 7 presentan el resultado de
nuestros datos de prueba, excluyendo nuestros datos de entrenamiento.
Tabla 9. Rendimiento de detección verdadera y falsa de los modelos BNB, SVM y DT en cada clase de salida en la detección de eventos de
Publicaciones de Facebook de Banglish.
Método
Verdad
neutral
neutro
falso
verdaderos
religiosos
verdadera
protesta
religioso
falso
protesta
falsa
celebración
Verdadera
celebración
falsa
Figura 7. Continuación.
Machine Translated by Google
Figura 7. Matrices de confusión del modelo de clasificación de NB en la detección de eventos sobre la base de publicaciones de
formularios en Banglish.
Tabla 10. El resultado de la validación cruzada de 10 veces de las publicaciones de Banglish Facebook junto con su estándar
desviación.
La Tabla 11 muestra los resultados de las pruebas estadísticas que se realizaron en los conjuntos de datos.
utilizando STAC [57]. En términos del conjunto de datos bengalí, el valor p general fue 0.97639 y el
Se aceptó H0. En todas las demás comparaciones con SVM y DT, se aceptó la H0. Este
sugiere que nuestro resultado siempre estuvo cerca del resultado promedio. Del mismo modo, en el Banglish
Machine Translated by Google
conjunto de datos, el valor p fue 1.0 y se aceptó H0 en todos los casos. Este resultado, nuevamente, sugiere que el resultado
estuvo cerca del resultado promedio.
Una vez que el evento es detectado por este modelo, las autoridades pueden vigilarlo.
evento en particular y mantenerse al día con la preparación previa. Si no hay evento, no hay necesidad.
para la acción cautelar. Por lo tanto, este modelo de detección puede ayudar a las autoridades a garantizar
seguridad Social.
formamos nuestros experimentos utilizando publicaciones en bengalí y en bengalí. Nuestro objetivo futuro es construir
un modelo independiente del idioma que brindará un servicio a gran escala a cualquier otro dialecto.
Además, nos gustaría ampliar nuestra lista de palabras y frases específicas de eventos en el futuro.
para que podamos lograr una mayor precisión también para el idioma de forma bengalí. también deseamos
para intentar incorporar la detección de ubicación de eventos en nuestro modelo.
Contribuciones de los autores: Conceptualización, ND, MSR y MSM; metodología, ND, MSR
y HSH; software, ND y MSM; validación y análisis formal, ND, MSR y MSM;
escritura—ND, MSR y MSM; redacción—revisión y edición, ASMSH y MSR; visualización, ND, MSR y MSM; supervisión, MSR;
adquisición de fondos, ASMSH e I.-HR Todos
los autores han leído y aceptado la versión publicada del manuscrito.
Financiamiento: Este trabajo fue apoyado en parte por el Instituto Coreano de Tecnología Energética
Evaluación y Planificación (KETEP), Gobierno de Corea, Ministerio de Comercio, Industria y Energía
(MOTIE), bajo la subvención 20194010201800, y en parte por la Fundación Nacional de Investigación de Corea
(NRF) subvención financiada por el Gobierno de Corea [Ministerio de Ciencia y TIC (MSIT)], bajo Grant
2021R1A2C2014333.
Declaración de disponibilidad de datos: datos de elaboración propia que se adjuntan como documento complementario.
abreviaturas
Referencias
sobre la World Wide Web, Río de Janeiro, Brasil, 13–17 de mayo de 2013; págs. 1021–1024. [Referencia cruzada]
8. Sakaki, T.; Okazaki, M.; Matsuo, Y. Earthquake sacude a los usuarios de Twitter: detección de eventos en tiempo real mediante sensores sociales. En Actas de la 19.ª Conferencia
Internacional sobre la World Wide Web, Raleigh, NC, EE. UU., 26–30 de abril de 2010; págs. 851–860. [Referencia cruzada]
9. Fátima, PN; George, A. Detección de eventos y resumen de texto por alerta de desastre. En t. Res. J. Ing. Tecnología 2019, 6, 2510–2513.
10. Ristea, A.; Al Boni, M.; Resch, B.; Gerber, MS; Leitner, M. Distribución espacial de delitos y predicción para eventos deportivos utilizando
redes sociales. En t. J. Geogr. información ciencia 2020, 34, 1708–1739. [Referencia cruzada]
11. Fedoryszak, M.; Federico, B.; Rajaram, V.; Zhong, C. Detección de eventos en tiempo real en flujos de datos sociales. En Actas de la 25.ª Conferencia Internacional ACM SIGKDD sobre
Descubrimiento de Conocimiento y Minería de Datos, Anchorage, AK, EE. UU., 4–8 de agosto de 2019; págs. 2774–2782. [Referencia cruzada]
12. Ahmad, Z.; Varshney, D.; Ekbal, A.; Bhaÿacharyya, P. Identificación de eventos multilingües en el dominio de desastres; Instituto Indio de Tecnología de Patna: Bihta, India, 2019.
13. Shi, K.; Gong, C.; Lu, H.; Zhu, Y.; Niu, Z. Red de cápsulas de granularidad amplia con función de nivel de oración para detectar eventos meteorológicos en redes sociales. futuro genero.
computar sist. 2020, 102, 323–332. [Referencia cruzada]
14. Alí, D.; Señorita, MMS; Husnain, M. Clasificación de eventos multiclase a partir del texto. ciencia Programa. 2021, 2021, 6660651. [Referencia cruzada]
15. Choi, D.; Parque, S.; Jamón, D.; Lim, H.; Bok, K.; Yoo, J. Esquema de detección de eventos locales mediante el análisis de documentos relevantes en redes sociales
Redes. aplicación ciencia 2021, 11, 577. [Referencia cruzada]
16. Alomari, E.; Katib, I.; Mehmood, R. Iktishaf: Una herramienta de detección de eventos de tráfico de carretera de big data que utiliza Twiÿer y el aprendizaje automático de chispas.
Multitud. Neto. aplicación 2020, 1–16. [Referencia cruzada]
17. Jain, A.; Kasiviswanathan, G.; Huang, R. Hacia la detección precisa de eventos en las redes sociales: un enfoque supervisado débilmente para aprender indicadores de eventos
implícitos. En Actas del segundo taller sobre texto ruidoso generado por el usuario (WNUT), Osaka, Japón, 11 de diciembre de 2016; págs. 70–77.
18. Alsaedi, N.; Burnap, P. Detección de eventos en árabe en las redes sociales. En Actas de la Conferencia Internacional sobre Procesamiento de Textos Inteligentes y Lingüística
Computacional, El Cairo, Egipto, 14–20 de abril de 2015; Springer: Cham, Suiza, 2015; págs. 384–401. [Referencia cruzada]
19. Suma, S.; Mehmod, R.; Albeshri, A. Detección automática de eventos en ciudades inteligentes utilizando análisis de big data. En Actas de la Conferencia Internacional sobre Ciudades
Inteligentes, Infraestructura, Tecnologías y Aplicaciones, Jeddah, Arabia Saudita, 27–29 de noviembre de 2017; Springer: Cham, Suiza, 2017; págs. 111–122. [Referencia cruzada]
20. Cui, W.; Wang, P.; Du, Y.; Chen, X.; Guo, D.; Li, J.; Zhou, Y. Un algoritmo para la detección de eventos basado en datos de redes sociales.
Neurocomputación 2017, 254, 53–58. [Referencia cruzada]
21. Gao, Y.; Zhao, S.; Yang, Y.; Chua, TS Detección de eventos sociales multimedia en microblog. En Actas de la Conferencia Internacional sobre Modelado Multimedia, Sydney, NSW,
Australia, 5–7 de enero de 2015; Springer: Cham, Suiza, 2015; págs. 269–281. [Referencia cruzada]
22. Estadísticas globales del contador de estadísticas. Disponible en línea: https://gs.statcounter.com/social-media-stats/all/bangladesh (accedido en
1 de marzo de 2021).
23. Estadística. Disponible en línea: https://www.statista.com/statistics/268136/top-15-countries-based-on-number-of-facebook-users/
(consultado el 25 de enero de 2021).
24. Mumu, TF; Munni, IJ; Das, AK Detección de personas deprimidas a partir del estado de las redes sociales de bangla utilizando el enfoque lstm y cnn. j
Ing. Adv. 2021, 2, 41–47. [Referencia cruzada]
25. Das, AK; Al Asif, A.; Pablo, A.; Hossain, MN Detección del discurso de odio bengalí en las redes sociales mediante el uso recurrente basado en la atención
red neuronal J. Intel. sist. 2021, 30, 578–591. [Referencia cruzada]
26. Rozen, A. Twiÿer Blog. Disponible en línea: https://blog.twitter.com/official/en_us/topics/product/2017/tweetingmadeeasier.html (consultado el 25 de marzo de 2021).
27. Sharmin, S.; Chakma, D. Red neuronal convolucional basada en Aÿention para el análisis de sentimiento bengalí. AI Soc. 2021, 36,
381–396. [Referencia cruzada]
28. Rahman, M.; Haque, S.; Saurav, ZR Identificar y categorizar opiniones expresadas en oraciones en bengalí utilizando técnicas de aprendizaje profundo. En t. J. Cómputo. aplicación
2020, 975, 8887. [Referencia cruzada]
29. Alam, T.; Kan, A.; Alam, F. Clasificación de texto bengalí mediante transformadores. arXiv 2020, arXiv:2011.04446.
Machine Translated by Google
30. Dey, N.; Mredula, MS; Sakib, MN; Islam, MN; Rahman, MS Un enfoque de aprendizaje automático para predecir eventos mediante el análisis de publicaciones de Facebook en
bengalí. En Actas de la Conferencia Internacional sobre Tendencias en Ingeniería Computacional y Cognitiva, Dhaka, Bangladesh, 17 y 18 de diciembre de 2021; Springer:
Berlín/Heidelberg, Alemania, 2021; págs. 133–143.
31. Chen, G.; Kong, Q.; Mao, W. Detección y seguimiento de eventos en línea en las redes sociales basado en el aprendizaje de métricas de similitud neuronal. En Actas
de la Conferencia Internacional IEEE sobre Informática de Inteligencia y Seguridad (ISI) de 2017, Beijing, China, 22–24 de julio de 2017; IEEE: Piscataway, Nueva
Jersey, EE. UU., 2017; págs. 182–184. [Referencia cruzada]
32. Bekoulis, G.; Deleu, J.; Demeester, T.; Develder, C. Detección de subeventos de flujos twiÿer como un problema de etiquetado de secuencias. arXiv 2019, arXiv:1903.05396.
33. Aldhaheri, A.; Lee, J. Detección de eventos en grandes redes sociales mediante análisis temporal. En Actas del 7º Taller y Conferencia Anual de Computación y Comunicación
(CCWC) del IEEE de 2017, Las Vegas, NV, EE. UU., 9 al 11 de enero de 2017; IEEE: Piscataway, Nueva Jersey, EE. UU., 2017; págs. 1 a 6. [Referencia cruzada]
34. Li, Q.; Nourbakhsh, A.; Sha, S.; Liu, X. Detección de eventos novedosos en tiempo real de las redes sociales. En Actas de la 33.ª Conferencia internacional sobre
ingeniería de datos (ICDE) del IEEE de 2017, San Diego, CA, EE. UU., 19 al 22 de abril de 2017; IEEE: Piscataway, Nueva Jersey, EE. UU., 2017; págs. 1129–
1139. [Referencia cruzada]
35. Kannan, J.; Shanavas, AM; Swaminathan, S. Sportsbuzzer: Detección de eventos en tiempo real en twiÿer mediante agrupamiento incremental.
Trans. Mach. Aprender. Artefacto Intel. 2018, 6, 1.
36. Feng, X.; Zhang, S.; Liang, W.; Liu, J. Detección eficiente de eventos basada en la ubicación en flujos de texto social. En Actas de la Conferencia Internacional sobre
Ciencia Inteligente e Ingeniería de Big Data, Suzhou, China, 14–16 de junio de 2015; Springer: Cham, Suiza, 2015; págs. 213–222. [Referencia cruzada]
37. Arachie, C.; Gaur, M.; Anzaroot, S.; Arboledas, W.; Zhang, K.; Jaimes, A. Detección no supervisada de subeventos en desastres de gran escala. En Actas de la
Conferencia AAAI sobre Inteligencia Artificial, Nueva York, NY, EE. UU., 7–12 de febrero de 2020; Volumen 34, págs. 354–361. [Referencia cruzada]
38. Pekar, V.; Binner, J.; Najafi, H.; Sano, C.; Schmidt, V. Detección temprana de eventos heterogéneos de desastres utilizando las redes sociales. J. Asociado.
información ciencia Tecnología 2020, 71, 43–54. [Referencia cruzada]
39. Akbari, M.; Hu, X.; Liqiang, N.; Chua, TS De los tweets al bienestar: Detección de eventos de bienestar a partir de transmisiones de Twitter. En Actas de la Conferencia AAAI sobre
Inteligencia Artificial, Phoenix, AZ, EE. UU., 12–17 de febrero de 2016; Volumen 30.
40. Panagiotou, N.; Katakis, I.; Gunopulos, D. Detección de eventos en redes sociales online: Definiciones, tendencias y desafíos. En la resolución de tareas de aprendizaje a gran
escala. Desafíos y Algoritmos; Springer: Cham, Suiza, 2016; págs. 42–84. [Referencia cruzada]
41. Kolya, Alaska; Ekbal, A.; Bandyopadhyay, S. Un enfoque simple para el sistema de seguimiento de eventos monolingües en bengalí. En Actas del Octavo Simposio Internacional
sobre Procesamiento del Lenguaje Natural de 2009, Bangkok, Tailandia, 20–22 de octubre de 2009; IEEE: Piscataway, NJ, EE. UU., 2009; págs. 48–53. [Referencia cruzada]
42. Zhao, S.; Gao, Y.; Ding, G.; Chua, TS Detección de eventos sociales multimedia en tiempo real en microblog. Trans. IEEE. cibernético 2017, 48,
3218–3231. [Referencia cruzada] [PubMed]
43. Shi, L.; Wu, Y.; Liu, L.; Sol, X.; Jiang, L. Detección de eventos e identificación de difusores influyentes en flujos de datos de redes sociales.
Mín. de datos grandes Anal. 2018, 1, 34–46. [Referencia cruzada]
44. Nurwidyantoro, A.; Winarko, E. Detección de eventos en redes sociales: una encuesta. En Actas de la Conferencia Internacional sobre TIC para una Sociedad Inteligente, Yakarta,
Indonesia, 13 y 14 de junio de 2013; IEEE: Piscaaway, Nueva Jersey, EE. UU., 2013; págs. 1 a 5. [Referencia cruzada]
45. Zarrinkalam, F.; Bagheri, E. Identificación de eventos en redes sociales. Encic. semántico computar Robot. Intel. 2017, 1,
1630002. [Referencia cruzada]
46. Dou, W.; Wang, X.; Ribarsky, W.; Zhou, M. Detección de eventos en datos de redes sociales. En Actas del taller VisWeek de IEEE sobre análisis de texto visual interactivo: análisis
basado en tareas de contenido de redes sociales, Seaÿle, WA, EE. UU., 14 al 19 de octubre de 2012; IEEE: Piscataway, NJ, EE. UU., 2012; págs. 971–980.
47. Dijo, N.; Ahmed, K.; Riegler, M.; Pogorélov, K.; Hassan, L.; Ahmed, N.; Conci, N. Detección de desastres naturales en redes sociales
e imágenes satelitales: una encuesta. multimed. Aplicación de herramientas 2019, 78, 31267–31302. [Referencia cruzada]
48. Said, Z.; Abbasi, RA; Maqbool, O.; Sadaf, A.; Razzak, I.; Daud, A.; Aljohani, NR; Xu, G. ¿Qué está pasando en el mundo?
Una encuesta y un marco sobre técnicas de detección de eventos en twiÿer. J. Cómputo de cuadrícula. 2019, 17, 279–312. [Referencia cruzada]
49. Yu, M.; Bambacus, M.; Cervone, G.; Clarke, K.; Duffy, D.; Huang, Q.; Li, J.; Li, W.; Li, Z.; Liu, Q.; et al. Evento espaciotemporal
detección: una revisión. En t. J. Dígito. Tierra 2020, 13, 1339–1365. [Referencia cruzada]
50. Zhou, D.; Huang, J.; Schölkopf, B. Aprendizaje con hipergrafías: agrupamiento, clasificación e incrustación. Adv. Información neuronal
Proceso. sist. 2006, 19, 1601–1608.
51. Akaike, H. Teoría de la información y una extensión del principio de máxima verosimilitud. En Documentos seleccionados de Hirotugu Akaike;
Springer: Nueva York, NY, EE. UU., 1998; págs. 199–213.
52. Pipi. Disponible en línea: https://pypi.org/project/langdetect/?fbclid=IwAR17pzcUCVFUaWi7PMLHOiD7pqjYhX7rew_DTxSLXX FBKJdGmes6V3qooyU (consultado el 2 de enero de
2021).
53. Huÿo, C.; Gilbert, E. Vader: un modelo parsimonioso basado en reglas para el análisis de sentimientos del texto de las redes sociales. En Proceedings of the International AAAI
Conference on Web and Social Media, Ann Arbor, MI, EE. UU., 1 al 4 de junio de 2014; IEEE: Piscataway, Nueva Jersey, EE. UU., 2014; Volumen 8.
Machine Translated by Google