Está en la página 1de 11

Machine Translated by Google

Neurocomputación 502 (2022) 148–158

Listas de contenidos disponibles en ScienceDirect

neurocomputación
página de inicio de la revista: www.elsevier.com/locate/neucom

Minería de eventos de video de medios cruzados basada en el aprendizaje de la estructura del gráfico
de atención

a a C
chengde zhang , yu lei , Xia Xiaob ,ÿ , Xinzhong Chen
a
Escuela de Ingeniería de Seguridad e Información, Universidad de Economía y Derecho de Zhongnan, Wuhan, China
b
Escuela de Administración Pública, Universidad Agrícola de Huazhong, Wuhan, China
C
Instituto de Ciencias de la Educación, Universidad de Wuhan, Wuhan, China

información del artículo resumen

Historial del artículo: La minería de asociaciones de medios cruzados basada en una red de información heterogénea (HIN) ha recibido una
Recibido el 13 de febrero de 2022 amplia atención. Sin embargo, el video se describe con solo unas pocas palabras, lo que lleva a la falta de asociación
Revisado el 22 de mayo de 2022 entre la información visual y la textual. Como resultado, el gráfico heterogéneo es inevitablemente incompleto, lo que
Aceptado el 6 de junio de 2022
trae grandes desafíos para la minería de eventos. Afortunadamente, las relaciones topológicas pueden inferir
Disponible en línea el 8 de junio de 2022
correlaciones entre nodos similares. En vista de esto, se propone un marco novedoso de minería de eventos de video
Comunicado por Zidong Wang
web basado en el aprendizaje de estructuras de gráficos de atención para generar una nueva matriz de adyacencia, que
reconstruye la asociación entre nodos. Primero, se construye una nueva red heterogénea, mientras que cada subgrafo
Palabras clave:
multimedia
de relación se produce por separado. Luego, en cada subgráfico relacional, se generan gráficos de características por
similitud de características, que pueden capturar relaciones potenciales entre nodos. Simultáneamente, el gráfico
Graficar redes neuronales (GNN)
Atención semántico también se crea mediante el aprendizaje de estructuras semánticas para describir interacciones heterogéneas
Aprendizaje de estructura gráfica complejas entre la semántica de los nodos. A continuación, estos gráficos se fusionan mediante la atención del canal
para reconstruir la correlación entre los nodos. Finalmente, la red convolucional de gráficos (GCN) se aplica para la minería de evento
Los experimentos en videos web de YouTube demuestran que nuestro método propuesto es más efectivo que los
métodos más avanzados con una mejora significativa.
2022 Publicado por Elsevier BV

1. Introducción tipos Se puede dividir en dos categorías principales: métodos tradicionales


y redes heterogéneas. (1) Los métodos tradicionales aprenden la matriz de
Con el rápido desarrollo de Internet y la tecnología multimedia, los datos mapeo lineal a través del análisis estadístico, entre los cuales el más
se han expandido desde un texto simple a una forma multimodal dominada representativo es el análisis de correlación canónica (CCA) [4]. Este método
por el video. Según las estadísticas de Gartner, las imágenes y los videos optimiza la matriz de mapeo al maximizar la correlación entre los datos de los
representan más del 90 % del big data [1]. Tomando YouTube como ejemplo, medios. Basados en el análisis de correlación canónica, otros trabajos
tiene más de 2 mil millones de usuarios activos cada mes. Las personas intentan introducir otra información para mejorar su desempeño, como la
generan 720 000 h de nuevos videos de YouTube cada día mientras miran información de categorías semánticas [5]. (2) Con el progreso de las redes
más de 1000 millones de horas de videos [2]. La minería de eventos de video heterogéneas en los campos de clasificación de nodos, predicción de enlaces
de medios cruzados es crucial para que miles de millones de usuarios y recomendación [6], los investigadores han intentado analizar la compleja
accedan a la información de manera eficiente. Por lo general, la información asociación entre datos de diferentes tipos de medios a través de redes de
visual y textual se incluye en los videos. Sin embargo, la información textual grafos.
en los videos se describe brevemente. Como se muestra en la Fig. 1, el video LGRec [7] integra información de interacción directa de los nodos e
se describe con solo unas pocas palabras, lo que resulta en poca asociación información de interacción generalizada basada en meta-caminos. HueRec
entre video y texto. Como resultado, presenta grandes desafíos para la [8] asume que los nodos tienen características comunes bajo diferentes
correlación entre medios de la mina. meta-caminos para aprender la asociación entre nodos. Estos métodos
Apuntando a este problema, ha habido algunos trabajos [3] que intentan capturan la relación entre nodos por meta-caminos. Sin embargo, estas
mejorar la correlación entre diferentes medios asociaciones no se utilizan para reconstruir conexiones debido a que se
ignoran las dependencias vecinales entre los nodos. Debido a que un gráfico
heterogéneo consta de múltiples relaciones, cada una de las cuales refleja un
ÿ Autor de correspondencia.
aspecto del gráfico heterogéneo. Por lo tanto,
Dirección de correo electrónico: xiaxiaoqc@163.com (X. Xiao).

https://doi.org/10.1016/j.neucom.2022.06.028 0925-2312/ 2022


Publicado por Elsevier BV
Machine Translated by Google

C. Zhang, Y. Lei, X. Xiao et al. Neurocomputación 502 (2022) 148–158

2. Trabajo relacionado

2.1. Detección y seguimiento de temas

La tarea de detección y seguimiento de temas (TDT) [9] desafía a los investigadores


a organizar la colección de medios noticiosos en grupos de historias relacionadas con los
mismos eventos del mundo real y lograr la organización de estos eventos en temas [10].

Con el rápido crecimiento de los datos de texto y la mejora continua del aprendizaje
automático, se han propuesto muchos métodos potenciales de detección y seguimiento
de temas. Para mejorar la universalidad del modelo, se han propuesto LDA en línea [11]
y HDP dinámico en línea [12] para integrar información de tiempo en LDA y HDP para
resolver el problema de detección y seguimiento de sujetos. Aunque estos métodos han
logrado algunos efectos, no son adecuados para texto disperso. Para resolver este
problema, recientemente los métodos TDT han investigado características escasas e
intensas. Un método de agrupación en línea [13] que representa documentos con
Fig. 1. Un ejemplo de información textual escasa. características TF-IDF muestra un alto rendimiento en la base de datos del nuevo tema.

Sobre la base de obtener asociaciones directas a través de rutas semánticas, aprendemos


Sobre esta base, la métrica BCubed aplicada para la evaluación compara la función TF-
las correlaciones por separado de las características de los nodos heterogéneos y las
IDF escasa con la representación densa de Doc2Vec [14], lo que muestra una mejora
estructuras gráficas generaron gráficos de similitud de características y gráficos de
significativa con respecto al conjunto de datos estándar.
propagación de características, obteniendo relaciones faltantes entre los NDK y los
Sin embargo, estos métodos son principalmente para información textual, las
términos.
asociaciones entre medios se descuidan. Hay coherencia entre los datos de diferentes
Este artículo intenta predecir la matriz de adyacencia a través de la topología entre
medios que describen el mismo evento, lo que puede extraer información más completa.
nodos, para reconstruir las aristas faltantes.
La correlación entre el contenido visual y la semántica se captura mediante la
En primer lugar, se establece una nueva red heterogénea que consta de fotogramas
incorporación de la exploración de estructuras locales en el proceso de selección de
clave casi duplicados (NDK), términos y videos, que se divide en dos subgráficos
características conjuntas, lo que produjo mejoras significativas en el reconocimiento
relacionales, es decir, subgráfico de término NDK y subgráfico de video NDK. En segundo
semántico de video [15]. Un modelo de atención convolucional recurrente semisupervisado
lugar, en cada subgráfico de relación generado, el gráfico de características se genera
expande las relaciones en múltiples vistas mediante algoritmos de coentrenamiento [16].
por la similitud de características considerada, mientras que el gráfico semántico se
La información temporal y la información espacial se combinan para mejorar la conexión
produce mediante semántica compleja aplicada. Luego, estos gráficos se fusionan aún
en escenarios de sujetos cruzados y multiclase, lo que logró ciertos resultados [17]. Un
más mediante la atención del canal para generar un gráfico heterogéneo. Finalmente, la
método multimodal fusiona información textual y visual mediante la red neuronal
minería de eventos se realiza con GCN.
convolucional (CNN) y la optimización de enjambre de partículas binarias (BPSO) para
clasificar las publicaciones en las redes sociales en diferentes clases [18]. Además, con
Implementamos una estructura de gráfico de atención basada en un marco de
la amplia aplicación de los NDK en la realidad [19], la similitud entre los NDK y los
aprendizaje para abordar la escasez de texto en la minería de eventos de medios
eventos se calcula combinando la coocurrencia y la trayectoria visual de características
cruzados. Para resolver la conexión que falta en los NDK, los términos y los videos, este
casi duplicadas inducida por los NDK [20]. Posteriormente, se aplican segmentos casi
documento explora las relaciones por separado en el aprendizaje de estructuras gráficas.
duplicados (NDS) para inferir las relaciones de contenido latente entre eventos [21].
Para combinar la información semántica con la información de la estructura del gráfico,
los gráficos candidatos y el gráfico original se fusionan mediante el mecanismo de
atención del canal. Nuestro enfoque logra un mejor rendimiento en comparación con
otros métodos de minería de eventos de video web. Las principales innovaciones y
contribuciones de este trabajo se pueden resumir de la siguiente manera:
Estos métodos promueven efectivamente el rendimiento de la agrupación de temas,
pero la brecha heterogénea entre los datos de medios cruzados se ha convertido en un
problema difícil en la detección de temas. HIN [6] es un método general para fusionar
Se propone un marco novedoso para enriquecer la información textual dispersa,
datos multimedia. En particular, al tratar el video de medios cruzados como una red de
que adopta similitudes de características y metarutas para aprender la asociación
información heterogénea compuesta por diferentes tipos de datos e interacción, podemos
entre los NDK y los términos. Según nuestro mejor conocimiento, hacemos el primer
modelar la compleja relación de interacción entre el NDK, el término y el video, e integrar
intento de aprender simultáneamente la estructura del gráfico mientras preservamos
de manera efectiva funciones y diversa información auxiliar.
la información semántica en los gráficos.
Se diseña un nuevo método de aprendizaje de estructuras de gráficos para aprender
asociaciones de NDK, términos y videos, donde se generan tres tipos de estructuras
de gráficos (gráfico de similitud de características, gráfico de propagación de 2.2. NO
características, gráfico semántico), para encontrar los bordes faltantes de los NDK,
términos y videos.
HIN ha sido ampliamente utilizado en varias tareas de minería de datos y logró
Se propone un nuevo método de fusión de la atención para aprender conjuntamente
buenos resultados. La medición de la similitud y el aprendizaje de la representación de la
la semán tica y la estructura de grafos. Fusiona el gráfico original, el gráfico de
red son su trabajo representativo [6].
características y el gráfico semántico para capturar asociaciones ocultas de datos
En la etapa inicial, el algoritmo de medición de similitud definía solo redes de
multimodales, que pueden reconstruir la correlación entre NDK, términos y videos.
información homogéneas. PageRank [22] evaluó la probabilidad del objeto de origen al
objeto de destino reiniciando la caminata aleatoria. PathSim [23] se aplica para evaluar
la similitud entre objetos pares del mismo tipo en función de la ruta simétrica y mide la
El resto de este documento está organizado de la siguiente manera. La Sección 2
similitud de los objetos. Sin embargo, estos métodos están dirigidos a tipos de objetos
revisa el trabajo relacionado. La Sección 3 presenta el marco general y presenta nuestro
simétricos. De hecho, los datos del mundo real generalmente se representan como
modelo en detalle. Los resultados experimentales y el análisis se muestran en la Sección
gráficos heterogéneos. Asociaciones
4. Además, la Sección 5 concluye este documento.

149
Machine Translated by Google

C. Zhang, Y. Lei, X. Xiao et al. Neurocomputación 502 (2022) 148–158

entre diferentes tipos de objetos también son muy significativas. heteros ing la importancia de cada gráfico de características y gráfico semántico mientras
[24] expresa la red de información heterogénea como una pluralidad de matrices de reducir el ruido en el proceso de aprendizaje de la estructura gráfica.
transformación, mientras que cada matriz de transformación
Corresponde a la relación de un objeto con otro.
3. Marco propuesto
Con el auge del aprendizaje de representación de redes, muchos métodos de
incorporación de redes aplican tecnología de aprendizaje de representación de redes
La figura 2 ilustra el marco de nuestro método propuesto. Consta de las siguientes
heterogéneas para obtener la representación de características. cuatro partes básicas:
Concretamente, HERec [25] genera una secuencia de nodos basada en
meta-caminos para aprender la representación incrustada, que la integra en el marco Build HIN: Tomando NDK(N), Term(T), Video(V) como nodos, mientras que
de descomposición matricial para productos básicos
tomando NDK-Term, Term-Video, NDK-Video como bordes, genera dos subgrafos
recomendación. NeuACF [26] aplica una red neuronal profunda a relacionales Bh1; Bh2, y vectores de características para
aprender las características potenciales de los diferentes aspectos de los nodos, cada nodo.
que obtiene la representación final mediante la fusión del mecanismo de atención. Gráficos de candidatos: (1) Gráficos de características: captura de relaciones
HeteLearn [27] aprende los pesos de los enlaces en función de Bayesian personalizado
potenciales que surgen de NDK, término, características de video a través de
tecnología de clasificación para realizar modelos personalizados de las preferencias proyección de características heterogéneas y aprendizaje métrico. Para cada
de los usuarios. RW-GCN aplica un paseo aleatorio sesgado para generar el nodo sub-relación hay dos tipos de nodos, información visual y textual. (2) Gráficos
pares para establecer una matriz simétrica, que entrena vectores de representación semánticos: Generación de gráficos semánticos
potencial a través de skip-gram [28]. IMHE [29] fusiona vistas múltiples incompletas, estructuras gráficas aprendiendo diferentes meta-caminos.
que reconstruye vistas incompletas Actualizar HIN: actualice el gráfico heterogéneo original fusionando
agregando vecinos en otras vistas. el gráfico de características, el gráfico semántico y la matriz de adyacencia original
Estos métodos se basan en una suposición básica: el gráfico heterogéneo a través del canal de atención.
construido es óptimo. Sin embargo, heterogénea Minería de eventos: optimización de estructuras gráficas heterogéneas
Los gráficos generalmente se extraen de los complejos sistemas interactivos. GCN y regularización para clasificación de eventos.
a través de reglas predefinidas. La escasa información textual del video
hace que el gráfico heterogéneo sea inevitablemente incompleto. Por lo tanto 3.1. Construir HIN
es muy importante aprender la estructura de grafos en grafos heterogéneos
en lugar de confiar en la estructura gráfica original.
Primero, se forma una matriz métrica para cada tema después de eliminar
palabras desactivadas irrelevantes, con cada NDK como una fila y cada
2.3. GCN
palabra como una columna. Específicamente, las características de distribución de
se calcula cada palabra en todos los NDK, mientras que se usa la última columna
Los GNN son modelos de aprendizaje profundo que apuntan a abordar gráficos
para marcar a qué evento pertenece realmente cada NDK. TF-IDF fue
tareas relacionadas [30]. Entre varios tipos de GNN, GCN [31] simplifica la red de
adoptado para calcular las características de distribución de los términos en
convolución espectral anterior al limitar el filtro
NDK. La matriz de índice generada se puede expresar como una tabla bidimensional,
para trabajar en un barrio de un solo salto. Ha atraído mucha atención por su
en la que la definición de cada elemento es como
simplicidad y alto rendimiento. sigue:
En el problema semisupervisado de grafos, una convolución bidireccional
[32] se propone debido a la interferencia de la clasificación de vértices tfi; j norte

NTij ¼ iniciar ð1Þ


aplicando la información topológica dada. Del mismo modo, un aprendizaje Nueva Jersey
sesión

estructura gráfica [33] (matriz de Laplace) aprende la mejor estructura gráfica mientras
completa la clasificación de gráficos. donde tfi;j denota la frecuencia de ti en NDKj;Nj es el número total
Para mejorar el rendimiento o la escalabilidad, la convolución generalizada basada de términos en NDKj; dfi contiene el número total de NDK con ti, y
en convolución espectral [34]35, atención de vecindad N es el número total de NDK. De manera similar, las características de
Se estudian los mecanismos [36]37, el submuestreo [38] y la representación inductiva distribución de Video en el NDK se pueden calcular para generar la matriz
de gráficos grandes [39] . C-GCN [40] exhaustivamente
de indicadores.
considera la correlación de videos intraclase e interclase para En segundo lugar, el término NDK y el video NDK correspondientes a los valores
aprendizaje de características y fusión de información. PS-GNN [41] directamente con TF-IDF mayor que 0 se filtran del indicador.
modela todas las relaciones entre categoría-atributo, categoría categoría y atributo- matriz.

atributo, brecha heterogénea aliviada Finalmente, tomando NDK(N), Term(T), Video(V) como nodo Q, NDK-Term,
efectivamente. Para la red de atención de gráficos, la red neuronal de gráficos Term-Video, NDK-Video como borde E, el gráfico heterogéneo
heterogéneos (HAN) [42] introduce el mecanismo de atención en G ¼ ð Q; MI; Se
el crea F. En la red heterogénea construida,
red neuronal de grafos heterogéneos por primera vez. HetGNN la subrelación contiene h1:NDK-Term y h2:NDK-Video, la
[43] puede considerar la información de estructura de redes heterogéneas y la matriz de adyacencia generada por el subgrafo de la relación es
información de contenido heterogéneo de cada nodo en denotado como Bh1, y el meta-camino se denota como
al mismo tiempo. En la actualidad, la mayoría de los métodos de aprendizaje de representación
V ! T! N ! T! v

basado en la meta-ruta, solo considere el nodo de inicio y el nodo final, lo que resulta
en la pérdida de información. Para solucionar este problema, 3.2. gráfico de características

MAGNN [44] en primer lugar asigna información de atributos de nodos de redes


heterogéneas al espacio vectorial de la misma capa oculta. Simultáneamente, BGCN Dado que el gráfico heterogéneo construido puede no ser óptimo
[45] combina información gráfica incierta a través de para las tareas posteriores, una solución es mejorar la estructura del gráfico original
modelo de gráfico aleatorio paramétrico, que resuelve los problemas existentes en haciendo pleno uso de la rica información de los nodos heterogéneos.
GCN al tratar con la incertidumbre de la estructura del gráfico. Por lo general, hay dos factores que afectan la formación de una estructura gráfica
Debido a la inevitable existencia de información inútil en eventos de video de basada en características. Una es la similitud entre las características de los nodos,
medios cruzados, el ruido también aparecerá en el gráfico heterogéneo de video de otra es la relación entre las características de los nodos y la topología
medios cruzados construido. Sin embargo, el mecanismo de atención [46]. Como se muestra en la Fig. 3, se propone generar un gráfico de similitud de
pretende potenciar la información de interés y reducir la inútil características que capture las posibles relaciones generadas
información. Podemos obtener la estructura gráfica óptima por modelo por características de nodo a través de la proyección de características heterogéneas y

150
Machine Translated by Google

C. Zhang, Y. Lei, X. Xiao et al. Neurocomputación 502 (2022) 148–158

Fig. 2. Descripción general de la minería de eventos de video de medios cruzados basada en el aprendizaje de la estructura del gráfico de atención, que incluye cuatro partes: (1) Se construye la red heterogénea,
subgrafos de relaciones generados y vectores propios de cada nodo. (2) El gráfico de características se genera de acuerdo con la similitud entre los nodos. El gráfico semántico es
generado de acuerdo a diferentes meta-caminos. (3) La información se extrae del subgrafo de relación original, el gráfico de características y el gráfico semántico como entrada para generar un
nuevo subgrafo de relación. (4) Ingrese el gráfico aprendido en GNN para la minería de eventos.

Gráfico de propagación de características: Un gráfico de propagación de características es el


estructura gráfica subyacente en la que las características de los nodos interactúan con
la topología El hallazgo clave es que dos nodos con características similares pueden tener
vecinos similares. Por lo tanto, el proceso de generar un gráfico de propagación de características
consta de dos pasos: en primer lugar, generar
un gráfico de similitud de características, es decir, encontrar nodos similares; en segundo lugar,
propagar el gráfico de similitud de características a través de la topología
y generar nuevos bordes, es decir, encontrar vecinos de características similares
nodos.

Para cada relación h, supongamos que hay dos tipos de nodos Q/n hð Þ

y Q/t hð Þ con topología Bh 2 RjQ/n hð ÞjjQ/t hð Þj entre ellos. Para


nodos qi; qj 2 Q/n hð Þ del mismo tipo /n hð Þ, se obtiene la similitud característica:

Fig. 3. Gráfico de características.

h CZN h_
KZN e0 e0
yo ; j
ð4Þ

aprendizaje métrico. Consta de dos partes: gráfico de similitud de características


donde el umbral ZG controla la escasez del gráfico de similitud de características
y gráfico de propagación de características. Estos gráficos se agregan en
el gráfico de características final a través de la atención del canal.
KZN h, que luego se puede modelar usando KZN H ; Bh para la cabeza

Gráfico de similitud de características: el gráfico de similitud de características KZG característica de propagación KZUN
h 2 RjQ/n hð ÞjjQ/t hð Þj :
h
determina la probabilidad de la existencia de una arista de tipo KZUN ¼ KZN
h h bh ð5Þ
h 2 H entre dos nodos. Específicamente, para cada nodo Qi de tipo
donde KZNh es el gráfico de similitud de características y Bh es la matriz de
particular
Þ con
/ Qielðvector
ular para
de características
mapear la característica
ei 2 R1d/ Qi
común
ð Þ, ei
sede
usa
dimensión
una capade
deCC
mapeo
de de un tipo
adyacencia inicial de la relación h. Como se muestra en la Fig. 3, la similitud de características es
característica e0 2 R1cc : se propaga a través de la topología del gráfico original y genera además una
i
estructura de gráfico de propagación de características potencial. Para nodos V/t hð Þ
e0i ð2Þ del mismo tipo /t hð Þ, el gráfico de similitud de características correspondiente
¼ r ei V/ Qi ð Þ þ p/ Qi ð Þ
KZT
h se puede obtener con el parámetro GZT H. _ Así, el correspondiente
donde rð Þ es la función de activación no lineal y Vs 2 Rd/ Qi ð Þdc característica de propagación KZUT
h
Puede ser obtenido:

y ps 2 R1dc son la matriz de mapeo y el vector de desviación de tipo KZUT


h ¼ BhKZN
h ð6Þ
/ Qi ð Þ. Luego, el aprendizaje de métricas se realiza sobre las características comunes.

h 2 RjQ/n hð ÞjjQ/t hð Þj ,
para obtener el gráfico de similitud de características aprendidas KZG donde KZTh es el gráfico de similitud de características y Bh es la matriz de
donde los bordes entre los nodos qi y qj son: y
adyacencia inicial de la relación h. Un gráfico de similitud de característicash KZG
ZG dos gráficos de propagación de características KZUN
H; KZUT
h ahora han sido generales
CZG
h e0 e0j ;
yo ;
CZG
h e0 e0j yo ;
PAGS

KZG
h
¼
ð3Þ ado Al fusionar estos gráficos a través de la capa de atención del canal,
( 0; de lo contrario se puede obtener el gráfico de características general de la relación, denotado
KNTV
h 2 RjQ/n hð ÞjjQ/t hð Þj :
donde ZG 2 ½ 0; 1 es el umbral que controla la escasez de la
ZG
gráfico de similitud de características y un gráfico de implica una fe más escasa KNTV
h ¼ WNTV
h KZG
H ; KZUN
H; KZUT
h i ð7Þ
h
similitud de características más grande.

151
Machine Translated by Google

C. Zhang, Y. Lei, X. Xiao et al. Neurocomputación 502 (2022) 148–158

donde KZG KZUN KZUT


estructura gráfica original para obtener la estructura gráfica general generada
H; H; h
h i 2 RjQ/n hð ÞjjQ/t hð Þj3 es la matriz de apilamiento de Relación B0 :
gráfico de candidato a característica, WNTV
h denota la capa de atención del canal,
y parámetro GNTV 2 R113 denota la entrada softmax en un 1 1 B0h ¼ Wh KNTV H ; KSM
H ; bh ð10Þ
w;h h i
convolución GNTV W; h . De esta manera, el modelo equilibra la importancia
donde KNTV H ; KSM
H ; bh
de cada gráfico de característica candidata para cada relación aprendiendo h i denota la matriz de apilamiento del candidato
diferentes pesos gráficos Wh denota la capa de atención del canal con peso

GW;h 2 R113, que indica la importancia de fusionar el subgrafo relacional general B0


H. Una nueva matriz de adyacencia relacional B0 se usa
3.3. Gráfico semántico h
para que cada relación h genere una nueva estructura gráfica heterogénea, es decir,
B0 ¼ B0 h2Hh ; .
En grafos heterogéneos, las diferentes relaciones semánticas de alto orden
están determinadas por diferentes meta-caminos. En vista de esto,
proponemos aprender estructura semántica a partir de diferentes semánticas. 3.4. Minería de eventos
Dado un metacamino M con correspondencia h1 h2 hl a
El enfoque directo para generar un gráfico semántico es fusionar la matriz de Aprendiendo la estructura del gráfico B0 , podemos obtener el evento final
adyacencia, Bh1 Ah2 Bhl [47]. Sin embargo, este enfoque no sólo clasificación. El modelo se puede aplicar a otros homogéneos o
consume una gran cantidad de memoria y requiere el cálculo de múltiples capas métodos GNN heterogéneos y otras tareas. Un GCN de dos capas
de matrices de adyacencia, pero también descarta con parámetros h ¼ ð Þ W1; W2 en una estructura gráfica lineal puede ser
nodos intermedios, lo que resulta en pérdida de información [44]. Como resultado, descrito como:
se propuso un generador de grafos semánticos, como se muestra en la Fig. 4. El b b

generador de gráfico semántico genera gráfico semántico potencial F h X; B0 ¼ softmax hermano


BXW1 W2 ð11Þ
estructuras por aprendizaje métrico de nodo basado en metaruta entrenado
T
incrustaciones Para el conjunto de metapaths de interés donde X es la matriz de características del nodo original, es decir, ;X¼i½: f yo , provisto
m1;Nm2;
M ¼ f hay m3; ... ; mN
meta-caminos. ,
el modelo es gramo
que todas las características sean del mismo tamaño; de lo contrario, las características
0T
incrustado usando el MP2Vec entrenado [48], denotado como: comunes se utilizan para construir X, es decir, X i½ ; ¼ : f i , y la adyacencia
... ; wmN un
W ¼ wm1 ; wm2 ; , generando 2 RjQjd
grafo semántico. la matriz B0 se construye a partir del gráfico heterogéneo aprendido mediante
b

Dado que el proceso de entrenamiento de la incorporación semántica está fuera tratando todos los nodos como un tipo, Deii ¼ 1 B ¼ De 1=2 B0 þ I De 1=2, donde
de línea, el costo computacional y la complejidad del modelo se reducen
þP j B0 ij, y por lo tanto la función de pérdida de clasificación de la
considerablemente. Además, la información de los nodos intermedios se conserva debido a
GNN en el gráfico aprendido, es decir, LGNN:
mecanismo de gráfico de salto heterogéneo. Después de obtener las incrustaciones
semán ticas W, para cada metacamino Mn, una semántica candidata
LGNN ¼ X ' f h X; B0 i ; yi ð12Þ
matriz de relevancia de subgrafo KV 2 RjQ/n hð ÞjjQ/t hð Þj se genera, donde vi2vl

h;n cada elemento se calcula como:


donde f h X; B0 es la etiqueta predicha del nodo vi 2 VL; 'ðÞ; es un
medida de la diferencia entre el valor predicho y el verdadero
KV ¼ CV wnyo ; wn ð8Þ
r; n h; n j
valor, y yi es la etiqueta verdadera, como la entropía cruzada. Dado que el gráfico
Los métodos de aprendizaje estructurado dan a las GNN originales una mayor capacidad
donde zn
i denota la i-ésima fila de ZMn y CV h; n
es una métrica de aprendizaje
para adaptarse a las tareas posteriores, es más probable que estén sobreadaptados.
función con parámetros GV Una relación h generará M candi h;n. Por lo tanto, el término de regularización se aplica al gráfico de aprendizaje.
subgrafos semánticos de fecha, de modo que el subgrafo semántico general de como sigue:
la relación KSM se puede obtener al agregarlos:
h
Lreg ¼ a B0 1 ð13Þ

KSM
h ¼ WV
r SV SV ; SV ð9Þ Esto hace que el gráfico aprendido sea escaso y la pérdida total puede ser
h h;1; h;2; ... h;n i
obtenido por:
donde SV SV ; SV
h;1; h;2; ... h;n i es una matriz de apilamiento de M candidato seman L ¼ cg LGNN þ crLreg ð14Þ
gráficos de tic h. VIRGINIA OCCIDENTAL
r es una capa de atención de canal con pesos
donde cg y cr son valores de peso. Un modelo de clasificación de nodos es
Maestro 2 R11N que indica la importancia de diferentes gráficos de candidatos de metaruta.
W; r capacitados para obtener un mejor rendimiento de minería de eventos al minimizar L.
Después de obtener el grafo semántico agregado KSM h,

el gráfico semántico del gráfico de características aprendidas se agrega con


4. Experimentos

4.1. conjunto de datos

Para verificar la efectividad del método propuesto, realizamos


experimentos en conjuntos de datos del mundo real [20], incluidos 19; 972 vídeos,
72; 883 NDK, 76; 401 términos y 180 eventos. Los detalles de la
conjunto de datos se muestran en la Tabla 1. En especial, cada tema por lo general consiste
de múltiples eventos. Por ejemplo, el tema 21 "Gripe porcina" contiene 19
eventos, incluyendo ''Prevención e introducción de la gripe porcina'', ''Porcina
noticias sobre brotes de gripe”, ''Investigación sobre la gripe”, ''Noticias sobre
números de infectados y muertos”, ''Reacción gubernamental”, etc. Estos temas no
solo incluyen temas políticos, económicos, militares, sociales y otros,
pero también muchos eventos se superpondrán con el tiempo, lo que trae
Fig. 4. Gráfico semántico. dificultades para la minería de eventos. Por lo tanto, los datos seleccionados al azar en este

152
Machine Translated by Google

C. Zhang, Y. Lei, X. Xiao et al. Neurocomputación 502 (2022) 148–158

tabla 1
Información del conjunto de datos.

IDENTIFICACIÓN
Tema #Videos #NDK #Términos #Eventos

Colapso económico 1.025 7.692 3,946 dieciséis

1 elección de presidente de estados unidos 737 1.826 3,327 13


2 Juegos Olímpicos de Pekín 1.098 5.467 4,861 17
34 Ataque terrorista en Bombay 423 1.741 1,569 5
5 Rusia - Guerra de Geogia 749 2.823 2,316 7
6 piratas somalíes 410 1.405 2,178 5
7 tiro técnico de viginia 683 1.865 1,621 2
8 israel ataca gaza 802 3.087 3,546 4
9 Relevo de la antorcha olímpica de Pekín 652 2.448 1,949 12
10 Melamina 783 1.730 4,670 9
11 terremoto de sichuan 1.458 5.782 4,806 5
12 incendios forestales de california 426 1.631 3,025 6
13 ataque terrorista en londres 784 6.090 4,232 5
14 Precio del petróleo 759 2.486 3,814 5
15 ciclón de myanmar 613 2.698 1,624 4
16 Independencia de Kosovo 524 969 1,593 5
17 elección de presidente de rusia 1.335 3.930 4,684 6
18 Irán armas nucleares 1.056 4.561 3,969 5
19 Israel Palestina paz 586 3.184 2,275 9
20 crisis de corea 1.060 2.401 3,971 13
21 La gripe porcina 1.153 3.684 5,768 19
22 michael jackson muerto 2.850 5.383 8

Total 19,972 72,883 76,401 180

experimento son representativos, lo que ilustra plenamente la universalidad y eficacia de Pmacro Rmacro
F1macro ¼ 2 ð23Þ
este experimento. Pmacro þ Rmacro

donde TPi representa el número de cantidades positivas previstas y negativas reales


4.2. Indicadores de evaluación y métodos de comparación
en la categoría i; FPi es el número de positivos previstos
y las cantidades negativas reales, y FNi es el número de predicho
En este documento, usamos precisión estándar (P), recuperación (R) y F1
cantidades positivas negativas y reales. F1micro y F1macro consideran
valor para evaluar la efectividad del método propuesto para video web
el equilibrio entre la tasa de recuperación y la precisión, que se eligen como
Minería de eventos. Como el número de distribución de videos en cada
principal indicador para evaluar el efecto experimental. Estos dos métodos
evento es diferente. Por lo tanto, es obviamente irrazonable simplemente
puede producir resultados completamente diferentes, especialmente si diferentes
utilice la media aritmética para calcular estos tres indicadores. Este
categorías tienen una generalidad muy diferente. En este caso, el F1macro
paper elige F1micro y F1macro como evaluación de desempeño
El método enfatizará la capacidad del clasificador para desempeñarse bien.
[49]. Los promedios de F1micro y F1macro se calculan para cada experimento, F1micro
en categorías de baja universalidad, mientras que el método F1micro enfatizará la
es un mejor indicador del desequilibrio de varias clases. F1macro
capacidad del clasificador para desempeñarse bien en categorías de baja universalidad
evita el sesgo de categorías menores en datos desequilibrados asociados
categorías.
con promedios F1micro . Los dos valores son adecuados en este caso. los
fórmula es la siguiente:
4.3. Configuraciones experimentales
TPi
P¼ ð15Þ
Tpi FPi Para todos los modelos relacionados con GNN, el número de capas se establece en 2. El
característica dimensión dc en el espacio común y la incrustación
TPi la dimensión d para todos los métodos se establece en 16 y 64 respectivamente.
R¼ ð16Þ
TPi + FNi Elegimos metaruta para incrustar. En el modelo propuesto, el
función de similitud de coseno de dos cabezas, es decir, K ¼ 2. fijamos la tasa de
relaciones públicas
aprendizaje y el decaimiento del peso en 0:01 y 0:0005 [42].
F1 ¼ 2 ð17Þ
P+R
4.4. Líneas base
P.n.i¼1 TPi
micro ¼ norte 18Þ
PAGS i¼1TPi + Pn i¼1FPi Comparamos nuestro método con los siguientes siete web clásicos
Métodos de minería de eventos de video:
P.n.i¼1 TPi
Rmicro ¼ 19Þ
T þ V [50]: Es un método que combina la co-ocurrencia del texto y la trayectoria de
norte

PAGS i¼1TPi + Pn i¼1FNi


las características. Minería de la descripción del evento del texto del
Pmicro Rmicro análisis de co-ocurrencia de características de texto, luego realizando ráfaga
F1micro ¼ 2 ð20Þ detección a través de NDK visual para encontrar eventos importantes.
Pmicro þ Rmicro
THMS [20]: utiliza análisis de correspondencias múltiples (MCA)
1 TPi explorar la correlación entre eventos con la ayuda de
Pmacro ¼ Xn ð21Þ información visual. La trayectoria de la característica de co-ocurrencia y
norte
i¼1 Tpi FPi
la trayectoria visual de la característica de repetición cercana en NDK se combinan
para la minería de eventos.
1 TPI
Rmacro ¼ MCA [20]: extrae correlaciones entre NDK y eventos por
ð22Þ
n Xn TPi + FNi
i¼1 distribución textual generada. No sólo considera la co

153
Machine Translated by Google

C. Zhang, Y. Lei, X. Xiao et al. Neurocomputación 502 (2022) 148–158

ocurrencia de términos de alta frecuencia, sino que también toma los términos se puede obtener de las características visuales, a fin de proporcionar
de baja frecuencia. orientación para la minería de eventos.
MP2vec [48]: Este método adquiere los dominios heterogéneos THMS emplea información de vecindad visual para obtener términos
de NDK y términos que emplean paseo aleatorio basado en metaruta. grupos y mejorar la correlación entre NDK y sus eventos.
Luego adopta un skip-gram extendido para procesar el anterior Comparado con T + V; El valor P y el valor R de este método son
dominios de vértices adquiridos. Finalmente, aprende la representación de mejorado. El valor promedio de F1 es 0.50, pero aún no es lo suficientemente bueno.
incrustación de red para cada tipo diferente de vértice para enriquecer La razón principal de este fenómeno es que los videos pueden ser
el texto escaso. descritos por diferentes textos, lo que dificulta la extracción de la correlación entre la
DeepWalk [51]: Aplica la relación de co-ocurrencia información visual y textual. Esto nos inspira a
entre NDK y términos para aprender la representación vectorial de proponer una nueva solución para enriquecer texto disperso, que debería considerar
nodos. Después de obtener un número suficiente de nodos de acceso varios caminos semánticos.
secuencias, el aprendizaje de vectores se realiza utilizando el skip-gram MCA intenta capturar la correspondencia entre eventos
modelo. Luego se aplica el vector incrustado para enriquecer la escasa a través de las características de distribución de los términos en cada NDK.
información textual. El valor R se mejora en comparación con los dos primeros métodos,
Social FD [52]: Enriquece la distribución textual en NDKs al El rendimiento general de la F1 sigue siendo muy pobre. Aunque establece
modelo de descomposición de factores de conexión y aprendizaje de medición la asociación de texto a través de información visual, inexacta
de distancia, qué métricas de distancia hacen NDK similares la detección de similitud visual y el texto escaso afectaron el efecto de
y términos más juntos. MCA. Indica que aunque MCA puede reducir la pérdida semántica,
CUNE MF [53]: Refleja la correlación de NDKs y términos inevitablemente introducirá más ruido.
a través de la frecuencia de co-ocurrencia. Cada paseo aleatorio no MP2vec refleja la relación entre los NDK y los términos mediante la selección de
solo crea correlaciones entre nodos vecinos, sino también diferentes metarutas. Como se puede ver en las Tablas 2–4, R y F1
considera correlaciones transitivas entre nodos no vecinos, los valores son más altos que T þ V, más bajos que THMS. Como puede encontrar términos
que puede enriquecer la escasa información textual. con la misma semántica a través de NDK. No obstante, la diferencia
en el ángulo de grabación de video y la luz es el problema que enfrentó. en iluminado
4.5. Resultados experimentales y análisis. de esto, el aprendizaje de relevancia cruzada debe considerar no solo
similitud semántica, pero también similitud visual.
Comparamos P; valores de R y F1 en las tablas 2 a 4 respectivamente, en DeepWalk puede utilizar efectivamente las relaciones directas entre
los cuales los mejores resultados se destacan en negrita. De estas tablas, NDK y términos. la P; Los valores R y F1 no funcionan tan bien
podemos extraer las siguientes observaciones y análisis: como MP2vec. La razón principal es que este método solo busca la
T þ V integra la aproximación visual de la función de cuadro clave texto directamente relacionado e información visual, aunque le resulte difícil encontrar
característica de trayectoria y co-ocurrencia de texto para minar videos web la correlación indirecta, lo que resulta en el efecto de algunos temas es pobre.
eventos. Tiene un buen rendimiento en P con el mejor valor es 0:83. Sin embargo, De ahí que nos ilumine para establecer relaciones entre lo visual
las características visuales son inexactas e inestables debido al video. información e información textual por medios directos e indirectos
conexiones
edición, iluminación y otras razones, lo que resulta en una detección inexacta
de NDK. Además, aunque este método utiliza la ocurrencia simultánea de texto para Social FD combina el aprendizaje de medidas a distancia basado en
factorización matricial para enriquecer la información de distribución del texto en
compensar la información de contacto entre
información, la información textual todavía tiene ruido. Como consecuencia, este NDK. De la Tabla 2, el mejor valor de P es 0:93 y el peor es solo
método pierde mucha información visual de baja frecuencia al establecer la conexión 0:05 El rendimiento general de este método es pobre. Desde que
visual, lo que resulta en un recuerdo deficiente. ignora la distribución de palabras de alta y baja frecuencia, inevitablemente trae ruido
Velocidad. Debido al bajo nivel de ruido de la información visual, es importante mientras enriquece el texto
recopilar fotogramas clave visuales enriquecidos de diferentes escenas. Información valiosa información. Por lo tanto, esto nos estimula a explorar un nuevo método.

Tabla 2
Comparación del valor de P (El mejor efecto ha sido negrita).

Tema T+V THM ACM MP2vec Paseo Profundo Social_FD CUNE_MF Nuestro Método

1 0,59 0,53 0,32 0,35 0,07 0,19 0,11 0.71


2 0,57 0,38 0,11 0,18 0,01 0,62 0,18 0.83
3 0,64 0,54 0,27 0,45 0,52 0,08 0,06 0.91
4 0,49 0,34 0,12 0,37 0,41 0,30 0,41 0.90
5 0,72 0,60 0,37 0,36 0,21 0,30 0,37 0,66
6 0,48 0,40 0,28 0,35 0,42 0,36 0,20 0.74
7 0,73 0,70 0,36 0,59 0,35 0,57 0,57 0.79
8 0,54 0,34 0,21 0,43 0,22 0,32 0,39 0,66
9 0,52 0,54 0,10 0,34 0,25 0,15 0,13 0.77
10 0,42 0,32 0,24 0,21 0,13 0,11 0,11 0.85
11 0,76 0,75 0,55 0,48 0,36 0,34 0,40 0.82
12 0,68 0,75 0,23 0,21 0,30 0,33 0,25 0.88
13 0,49 0,36 0,30 0,46 0,14 0,35 0,24 0.70
14 0,58 0,62 0,04 0,41 0,21 0,26 0,58 0.86
15 0,68 0,66 0.22 0.40 0.41 0.25 0.47 0,68
16 0,78 0,92 0,37 0,23 0,18 0,93 0,33 0,95
17 0,61 0,68 0,04 0,36 0,42 0,25 0,41 0.93
18 0,83 0,82 0,13 0,42 0,16 0,27 0,37 0.72
19 0,51 0,55 0,20 0,26 0,21 0,27 0,25 0,65
20 0,46 0,47 0,24 0,21 0,18 0,21 0,41 0,68
21 0,25 0,45 0,15 0,17 0,14 0,05 0,23 0,63
22 0.83 0.80 0.86 0.43 0.24 0.23 0.33 0.81

Promedio 0.59 0.57 0.26 0.35 0.25 0.31 0.31 0.78

154
Machine Translated by Google

C. Zhang, Y. Lei, X. Xiao et al. Neurocomputación 502 (2022) 148–158

Tabla 3
Comparación del valor R (El mejor efecto ha sido negrita).

Tema T+V THM ACM MP2vec Paseo Profundo Social_FD CUNE_MF Nuestro Método

0,16 0,37 0,38 0,15 0,09 0,18 0,05 0.42


1 0,35 0,68 0,72 0,16 0,08 0,09 0,13 0.78
2 0,18 0,53 0,28 0,31 0,45 0,08 0,02 0.80
34 0,19 0,59 0,24 0,37 0,26 0,29 0,47 0.51
5 0,15 0,77 0,17 0,26 0,15 0,26 0,35 0.72
6 0,25 0,66 0,25 0,36 0,32 0,41 0,08 0.54
7 0.33 0.59 0.40 0,55 0.50 0.58 0.57 0.77
8 0,16 0,83 0,24 0,38 0,32 0,42 0,42 0,62
9 0,20 0,30 0,14 0,31 0,28 0,09 0,09 0.75
10 0,28 0,52 0,48 0,26 0,15 0,01 0,02 0.57
11 0,47 0,50 0,37 0,27 0,24 0,36 0,34 0,65
12 0,18 0,31 0,24 0,21 0,32 0,33 0,32 0.92
13 0,25 0,52 0,48 0,40 0,25 0,24 0,24 0,67
14 0.13 0.52 0.20 0.31 0.30 0.26 0.49 0.81
15 0,34 0,42 0,27 0,32 0,32 0,27 0,47 0.59
16 0,09 0,36 0,15 0,25 0,20 0,88 0,25 0.88
17 0,14 0,58 0,13 0,33 0,20 0,31 0,56 0.74
18 0,10 0,38 0,17 0,29 0,20 0,21 0,34 0,67
19 0,16 0,31 0,83 0,22 0,17 0,20 0,36 0.58
20 0,24 0,59 0,52 0,21 0,15 0,15 0,30 0.50
21 0.22 0.30 0.38 0.19 0.12 0.01 0.36 0,60
22 0.11 0.29 0.20 0.24 0.20 0.15 0,45 0.74

Promedio 0.21 0.50 0.33 0.29 0.24 0.26 0.30 0,67

Tabla 4
Comparación del valor F1 (El mejor efecto ha sido negrita).

Tema T+V THM ACM MP2vec Paseo Profundo Social_FD CUNE_MF Nuestro Método

0,26 0,44 0,34 0,21 0,08 0,19 0,07 0.53


1 0,44 0,49 0,18 0,17 0,02 0,16 0,15 0.80
2 0,28 0,53 0,28 0,37 0,48 0,08 0,03 0.85
34 0,28 0,43 0,14 0,37 0,32 0,30 0,44 0,65
5 0.25 0,67 0.24 0.30 0.18 0.28 0.36 0,69
6 0,33 0,50 0,27 0,35 0,36 0,38 0,11 0,62
7 0,46 0,65 0,38 0,57 0,44 0,57 0,57 0.78
0,25 0,49 0,23 0,40 0,26 0,36 0,40 0,64
8 0,29 0,39 0,12 0,32 0,26 0,11 0,11 0.76
9 0,34 0,40 0,32 0,23 0,14 0,02 0,03 0,68
10 11 0,58 0,60 0,44 0,35 0,29 0,35 0,37 0,69
12 0.29 0.44 0.24 0.21 0.31 0.33 0.28 0.90
13 0,33 0,43 0,37 0,43 0,18 0,28 0,24 0,68
14 0,22 0,56 0,07 0,35 0,25 0,26 0,53 0.83
15 0,46 0,52 0,25 0,36 0,36 0,26 0,47 0,63
16 0,17 0,52 0,22 0,24 0,19 0,90 0,28 0.91
17 0,23 0,63 0,07 0,34 0,27 0,28 0,47 0.82
18 0,18 0,52 0,15 0,35 0,18 0,24 0,35 0,69
19 0,25 0,39 0,32 0,24 0,19 0,23 0,29 0,61
20 0,32 0,53 0,32 0,21 0,16 0,17 0,35 0.58
21 0.24 0.36 0.21 0.18 0.13 0.02 0.28 0,61
22 0.20 0.42 0.32 0.31 0.22 0.18 0.38 0.77

Promedio 0.30 0.50 0.25 0.31 0.24 0.27 0.30 0.72

para enriquecer la distribución del texto en los NDK al considerar el vocabulario de alta mejora en gran medida. La razón de esto es que respectivamente
frecuencia y el vocabulario de baja frecuencia al mismo tiempo aprende la estructura gráfica de NDK-terms y NDKs-videos para
tiempo. enriquecer la distribución del texto, extraer más información de la relación limitada. Para
CUNE MF adopta la frecuencia de co-ocurrencia para establecer correlaciones combinar información semántica y gráfica.
entre NDKs y términos. Comparado con Social FD, este estructura, este artículo complementa la correlación prestando atención a
El método tiene ventajas en los valores R y F1. Se puede encontrar que la F1 promedio fusionar el gráfico original con la estructura del gráfico aprendido. Por lo tanto, el método
ha mejorado un 42% en nuestro método. Esto se debe a la diferencia de los hábitos propuesto evita el problema de la escasez de vocabulario y
personales de expresión del lenguaje, el video puede ser reduce el ruido del texto al mismo tiempo, lo que resulta del filtrado exitoso de la
descrito por diferentes palabras, lo que conduce a la misma semántica información de interferencia por canal
no se puede relacionar. En consecuencia, nos anima a resolver los método de fusión de la atención.
problema de la escasez de texto a través de la relación entre medios El F1micro y F1macro se informan en la Tabla 5, donde las victorias se destacan
aprendizaje. en negrita. De la tabla, podemos obtener las siguientes observaciones:
Para nuestro método, integramos meta-caminos y estructura gráfica.
información para expandir la asociación de medios cruzados para el evento de video web
minería. Nuestro método ha conseguido mejores resultados con la P media 1) CUNE MF muestra el peor desempeño entre los otros
llegando a 0:78 y R promedio llegando a 0:67. El valor total de F1 métodos. Como la diferencia en los hábitos lingüísticos personales, culturales

155
Machine Translated by Google

C. Zhang, Y. Lei, X. Xiao et al. Neurocomputación 502 (2022) 148–158

Tabla 5
Comparación de Mi F1 y Ma F1 (El mejor efecto ha sido negrita).

Tema ACM MP2vec Paseo Profundo Social_FD CUNE_MF nuestro método

Mi-F1 Ma-F1 Mi-F1 Ma-F1 Mi-F1 Ma-F1 Mi-F1 Ma-F1 Mi-F1 Ma-F1 Mi-F1 Ma-F1

0,26 0,15 0,54 0,18 0,58 0,14 0,15 0,11 0,06 0,04 0,61 0.29
1 0,44 0,43 0,22 0,14 0,31 0,16 0,12 0,07 0,21 0,10 0,67 0,61
23 0,29 0,06 0,44 0,35 0,82 0,53 0,29 0,05 0,31 0,09 0,85 0,69
4 0,67 0.39 0.58 0.24 0.75 0.29 0.57 0.29 0.51 0.40 0.75 0.54
5 0,44 0,41 0,85 0,23 0,85 0,30 0,76 0,26 0,76 0,30 0,87 0.48
6 0,47 0,46 0,42 0,35 0,56 0,44 0,41 0,32 0,41 0,12 0,66 0,56
7 0,62 0,60 0,68 0,53 0,66 0,47 0,67 0,57 0,76 0,59 0,82 0.51
8 0,33 0,26 0,47 0,12 0,48 0,45 0,46 0,28 0,31 0,32 0,60 0.57
9 0,25 0,09 0,39 0,32 0,57 0,48 0,22 0,08 0,21 0,07 0,76 0,66
10 0,02 0,06 0,37 0,44 0,55 0,25 0,02 0,01 0,02 0,01 0,65 0.52
11 0.02 0.08 0,63 0.37 0.73 0.34 0.53 0.22 0.49 0.29 0.80 0.50
12 0,26 0,16 0,49 0,21 0,86 0,41 0,78 0,33 0,56 0,27 0,87 0,45
13 0,87 0,80 0,53 0,42 0,42 0,22 0,55 0,27 0,26 0,19 0,88 0.82
14 0,37 0,32 0,56 0,25 0,65 0,49 0,31 0,20 0,59 0,49 0,82 0.78
15 0,51 0,30 0,52 0,31 0,69 0,64 0,42 0,23 0,53 0,42 0,77 0,62
16 0,72 0,33 0,82 0,24 0,77 0,19 0,80 0,30 0,68 0,18 0,84 0.33
17 0,57 0,32 0,57 0,07 0,65 0,27 0,57 0,21 0,50 0,35 0,87 0.77
18 0.25 0.22 0,62 0.15 0,64 0.20 0.20 0.12 0.21 0.20 0.79 0,64
19 0,27 0,25 0,40 0,32 0,49 0,28 0,21 0,13 0,26 0,24 0,66 0,62
20 0,47 0,25 0,43 0,32 0,69 0,22 0,38 0,14 0,52 0,29 0,80 0,45
21 0,33 0,32 0,20 0,21 0,39 0,30 0,07 0,01 0,27 0,19 0,58 0.48
22 0,10 0,21 0,54 0,32 0,66 0,41 0,63 0,70 0,43 0,31 0,72 0,63

Promedio 0.39 0.29 0.51 0.28 0,63 0.34 0.42 0.22 0.40 0.25 0.76 0.57

nivel y perspectiva cognitiva, dando lugar a diversas descripciones aplicado a la minería de eventos. Comparación experimental con el
de vídeos En vista de esto, es muy necesario explorar métodos de última generación en videos web de YouTube valida
la información complementaria de semántica y topología. la eficacia del marco propuesto.
2) Para cada método, la escasez de texto afectará su rendimiento. Nuestro próximo trabajo intentará expandir el marco existente
Debido a la falta de descripción textual y el ruido en textual y extraer la asociación implícita local entre datos de medios cruzados
información, es difícil encontrar una asociación entre medios. a diferentes escalas, a fin de realizar inteligente integral
Por lo tanto, es imperativo resolver el contenido de ruido mientras razonamiento.
enriquecer la información semántica y la información visual para el evento
minería. Declaración de contribución de autoría CRediT
3) Aunque DeepWalk logra mejores resultados que MP2vec ,
pierde la conexión indirecta. Como resultado, es esencial para Chengde Zhang: Metodología, Redacción – borrador original Yu Lei:
heredar la relación directa y encontrar la conexión indirecta. Curación de datos. Xia Xiao: Investigación, Redacción – revisión y edición.
4) Debido a la distribución desequilibrada de video en cada evento, Xinzhong Chen: Redacción: revisión y edición.
F1micro tiene un mejor rendimiento general, mientras que F1macro es mucho
afectado por extrema Pmacro y Rmacro, por lo que el rendimiento general Declaración de interés en competencia
No es suficientemente bueno.
5) El rendimiento del método propuesto es mejor que otros, Los autores declaran que no tienen intereses financieros en competencia
con un promedio F1micro mejorado en un 13% a 37% y F1macro conocidos ni relaciones personales que pudieran haber aparecido
mejorado en un 20% a 32%, lo que indica que puede efectivamente para influir en el trabajo informado en este documento.
enriquecer el texto disperso para la minería de eventos de medios cruzados en comparación con
los resultados de otros métodos. Nos enfocamos no solo en la relación entre Reconocimiento
medios cruzados, sino también en la interacción topológica, que puede extraer
la asociación directa e indirecta. aaa
entre los NDK y los términos.

Referencias
Del experimento, se puede encontrar que nuestro método obtiene
más asociaciones de medios cruzados y compensa la escasez de texto. [1] Y. Peng, J. Qi, X. Huang, Estado actual de la investigación y perspectivas sobre multimedia
comprensión del contenido, J. Comput. Res. Desarrollar. 56 (1) (2019) 183.
Obviamente, el método propuesto logra un buen desempeño en
[2] http://www.youtube.com/yt/press/statistics.html, [En línea] (2021).
experimento, mostró más efecto en la minería de eventos de video web. [3] C. Kang, S. Xiang, S. Liao, C. Xu, C. Pan, Función consistente de aprendizaje
representación para la recuperación multimedia multimodal, IEEE Trans. Multimedia
17 (3) (2015) 370–381.
[4] A. Haldorai, A. Ramu, análisis de correlación canónica basado en hiperbase
5. Conclusión
clasificación de redes neuronales feedforward para la sostenibilidad urbana, Neural
Proceso. Letón. 53 (4) (2021) 2385–2401.
En vista de la escasa información textual del video web, una novela [5] V. Ranjan, N. Rasiwasia, C. Jawahar, Recuperación multimodal de etiquetas múltiples, en:
Actas de la conferencia internacional IEEE sobre visión artificial, 2015, págs.
Se propone un marco de trabajo de minería de eventos basado en el aprendizaje de
4094–4102.
estructuras de grafos de atención. Primero, después de construir un gráfico heterogéneo, cada [6] C. Shi, Y. Li, J. Zhang, Y. Sun, SY Philip, Una encuesta de información heterogénea
el subgrafo de relación se genera por separado. En segundo lugar, en cada análisis de red, IEEE Trans. Saber Ing. de datos 29 (1) (2016) 17–37.
[7] B. Hu, C. Shi, WX Zhao, T. Yang, Fusión de información local y global para top-n
subgrafo de relación, se genera un gráfico de características y un gráfico semántico para
recomendación en red de información heterogénea, en: Proceedings of
minar la relación entre nodos. A continuación, canalizar la atención la 27ª Conferencia Internacional ACM sobre Información y Conocimiento
fusiona estos gráficos para enriquecer la información textual. Finalmente, GCN es Gestión, 2018, págs. 1683–1686.

156
Machine Translated by Google

C. Zhang, Y. Lei, X. Xiao et al. Neurocomputación 502 (2022) 148–158

[8] Z. Wang, H. Liu, Y. Du, Z. Wu, X. Zhang, Modelo integrado unificado sobre una red de información [38] J. Chen, J. Zhu, L. Song, Entrenamiento estocástico de redes convolucionales de grafos con
heterogénea para recomendaciones personalizadas, en: Actas de la 28.ª Conferencia Internacional reducción de varianza, versión preliminar de arXiv arXiv:1710.10568.
Conjunta sobre Inteligencia Artificial, 2019, págs. 3813–3819. [39] WL Hamilton, R. Ying, J. Leskovec, Aprendizaje de representación inductiva en gráficos grandes,
en: Actas de la 31.ª Conferencia internacional sobre sistemas de procesamiento de información
[9] F. Atefeh, W. Khreich, Una encuesta de técnicas para la detección de eventos en Twitter, neuronal, 2017, págs. 1025–1035.
Cuenta Intel. 31 (1) (2015) 132–164. [40] W. Nie, M. Ren, J. Nie, S. Zhao, C-gcn: red convolucional de gráficos basada en correlación para
[10] D. Beeferman, H. Jiang, mapas de calor de tiempo de tema para la detección y el seguimiento de el reconocimiento de emociones de audio y video, IEEE Trans. Multimedia 23 (2020) 3793–3804.
temas humanos en el circuito, preimpresión de arXiv arXiv: 2110.07337.
[11] L. AlSumait, D. Barbará, C. Domeniconi, On-line lda: Modelos de temas adaptativos para extraer [41] J. Gao, T. Zhang, C. Xu, Aprendiendo a modelar relaciones para la clasificación de video de
flujos de texto con aplicaciones para la detección y seguimiento de temas, en: 2008 octava disparo cero , IEEE Trans. Patrón Anal. Mach. Intel. 43 (10) (2020) 3476– 3491.
conferencia internacional IEEE sobre minería de datos, IEEE, 2008, págs. 3–12.
[12] X. Fu, J. Li, K. Yang, L. Cui, L. Yang, Modelo hdp dinámico en línea para descubrir temas evolutivos [42] X. Wang, H. Ji, C. Shi, B. Wang, Y. Ye, P. Cui, PS Yu, Red de atención de gráficos heterogéneos,
de los textos sociales chinos, Neurocomputing 171 (2016) 412–424. The World Wide Web Conference (2019) 2022–2032.
[43] C. Zhang, D. Song, C. Huang, A. Swami, NV Chawla, Red neuronal de gráficos heterogéneos, en:
[13] S. Miranda, A. Znotins, SB Cohen, G. Barzdins, Multilingual clustering of streaming news, en: Actas Actas de la 25.ª Conferencia internacional ACM SIGKDD sobre descubrimiento de conocimientos
de la Conferencia de 2018 sobre métodos empíricos en el procesamiento del lenguaje natural, y minería de datos, 2019, págs. 793– 803.
2018, págs. 4535–4544. [44] X. Fu, J. Zhang, Z. Meng, I. King, Magnn: Red neuronal de gráficos agregados de Metapath para
[14] T. Staykovski, A. Barron-Cedeno, G. Da San Martino, P. Nakov, Dense vs . representaciones incrustación de gráficos heterogéneos, en: Actas de The Web Conference 2020, 2020, págs.
dispersas para la agrupación de flujos de noticias, Text2Story@ ECIR (2019) 47–52. 2331–2341.
[15] M. Luo, X. Chang, L. Nie, Y. Yang, AG Hauptmann, Q. Zheng, Un análisis de características [45] Y. Zhang, S. Pal, M. Coates, D. Ustebay, redes neuronales convolucionales de gráficos bayesianos
semisupervisado adaptativo para el reconocimiento semántico de video, IEEE Trans. para clasificación semisupervisada, en: Actas de la Conferencia AAAI sobre Inteligencia Artificial,
cibernético 48 (2) (2017) 648–660. vol. 33, 2019, págs. 5829–5836.
[16] K. Chen, L. Yao, D. Zhang, X. Wang, X. Chang, F. Nie, Un modelo de atención convolucional [46] X. Wang, M. Zhu, D. Bo, P. Cui, C. Shi, J. Pei, Am-gcn: Redes convolucionales de gráficos
recurrente semisupervisado para el reconocimiento de la actividad humana, IEEE Trans. multicanal adaptables , en: Actas de la 26.ª conferencia internacional ACM SIGKDD sobre
Aprender Redes Neuronales. sist. 31 (5) (2019) 1747–1756. descubrimiento de conocimientos y extracción de datos, 2020, págs. 1243–1253.
[17] D. Zhang, L. Yao, K. Chen, S. Wang, X. Chang, Y. Liu, Dar sentido a las representaciones de
conservación del espacio temporal para el reconocimiento de la intención humana basado en [47] S. Yun, M. Jeong, R. Kim, J. Kang, HJ Kim, Redes de transformadores gráficos, Avances en
eeg, IEEE Trans. cibernético 50 (7) (2019) 3033–3044. sistemas de procesamiento de información neuronal 32 (2019) 11983–11993.
[18] K. Kumari, JP Singh, YK Dwivedi, NP Rana, Identificación de agresión multimodal mediante red [48] Y. Dong, NV Chawla, A. Swami, metapath2vec: Aprendizaje de representación escalable para
neuronal convolucional y optimización de enjambre de partículas binarias, Future Gener. redes heterogéneas, en: Actas de la 23.ª conferencia internacional ACM SIGKDD sobre
computar sist. 118 (2021) 187–197. descubrimiento de conocimiento y minería de datos, 2017, págs. 135–144.
[19] K. Thyagharajan, G. Kalaiarasi, Una revisión sobre la detección casi duplicada de imágenes
utilizando técnicas de visión por computadora, Arch. computar Métodos Ing. 28 (3) (2021) 897– [49] L. Bencke, C. Cechinel, R. Munoz, Clasificación automatizada de mensajes de redes sociales en
916. dimensiones de ciudades inteligentes, Future Gener. computar sist. 109 (2020) 218–237.
[20] C. Zhang, X. Wu, M.-L. Shyu, Q. Peng, Integración de información temporal visual e información
de distribución textual para la minería de eventos de video web de noticias, IEEE Trans. Humano- [50] X. Wu, Y.-J. Lu, Q. Peng, C.-W. Ngo, Minería de estructuras de eventos a partir de videos web,
Mach. sist. 46 (1) (2015) 124–135. IEEE MultiMedia 18 (1) (2011) 38–51.
[21] C. Zhang, D. Liu, X. Wu, G. Zhao, M.-L. Shyu, Q. Peng, Minería de eventos de video web de [51] B. Perozzi, R. Al-Rfou, S. Skiena, Deepwalk: Aprendizaje en línea de representaciones sociales,
noticias basada en segmentos casi duplicados, Signal Process. 120 (2016) 26–35. en: Actas de la 20.ª conferencia internacional ACM SIGKDD sobre descubrimiento de
[22] G. Jeh, J. Widom, Escalado de la búsqueda web personalizada, en: Actas de la 12.ª conferencia conocimiento y minería de datos, 2014, págs. 701–710.
internacional sobre la World Wide Web, 2003, págs. 271–279. [52] J. Yu, M. Gao, Y. Song, Z. Zhao, W. Rong, Q. Xiong, Factorización de conexión y aprendizaje de
[23] Y. Sun, J. Han, X. Yan, PS Yu, T. Wu, Pathsim: Búsqueda de similitud top-k basada en metaruta métricas a distancia para recomendaciones sociales, en: Conferencia internacional sobre ciencia,
en redes de información heterogéneas, Procedimientos de la Fundación VLDB 4 (11) (2011) ingeniería y gestión del conocimiento, Springer , 2017, págs. 389–396.
992-1003.
[24] T.-AN Pham, X. Li, G. Cong, Z. Zhang, Un modelo de recomendación general para redes [53] C. Zhang, L. Yu, Y. Wang, C. Shah, X. Zhang, Incrustación de red de usuarios colaborativos
heterogéneas, IEEE Trans. Saber Ing. de datos 28 (12) (2016) 3140– 3153. para sistemas de recomendación social, en: Actas de la conferencia internacional SIAM
2017 sobre minería de datos, SIAM, 2017, págs. 381–389.
[25] C. Shi, B. Hu, WX Zhao, SY Philip, Incrustación de red de información heterogénea para
recomendación, IEEE Trans. Saber Ing. de datos 31 (2) (2018) 357–370.

Chengde Zhang recibió la maestría en tecnología y aplicaciones


[26] X. Han, C. Shi, S. Wang, SY Philip, L. Song, Filtrado colaborativo profundo a nivel de
aspecto a través de redes de información heterogéneas, IJCAI (2018) 3393–3399. informáticas de la Universidad de Xihua, Chengdu, China, en 2009,
[27] Z. Jiang, H. Liu, B. Fu, Z. Wu, T. Zhang, Recomendación en redes de información y el Ph.D. Licenciado en Southwest Jiaotong University, Chengdu,
heterogéneas basadas en el modelo de paseo aleatorio generalizado y la clasificación China, en 2015. De 2012 a 2013 fue profesor invitado en el
personalizada bayesiana, en: Actas de la Undécima Conferencia Internacional ACM Departamento de Ingeniería Eléctrica e Informática (ECE), Universidad
sobre Web Búsqueda y minería de datos, 2018, págs. 288–296. de Miami (UM), EE. UU. Actualmente es profesor asociado en la
[28] Y. Li, Z. Ban, Rw-gcn: redes de convolución de gráficos de entrenamiento con paseo aleatorio Escuela de Ingeniería de Seguridad e Información de la Universidad
sesgado para clasificación semisupervisada, en: Pacific-Asia Conference on Knowledge de Economía y Derecho de Zhongnan, Wuhan, China. Sus intereses
Discovery and Data Mining, Springer, 2021, págs. 67– 76. de investigación incluyen la recuperación de información multimedia,
[29] S. Zheng, W. Yuan, D. Guan, Incrustación de red de información heterogénea con fusión la minería de datos, el procesamiento de imágenes y el reconocimiento
incompleta de vistas múltiples, Frente. computar ciencia 16 (5) (2022) 1–3. de patrones.
[30] H. Taguchi, X. Liu, T. Murata, Redes convolucionales de gráficos para gráficos que
contienen características faltantes, Future Gener. computar sist. 117 (2021) 155–168.
[31] TN Kipf, M. Welling, Clasificación semisupervisada con gráfico convolucional
redes, preimpresión de arXiv arXiv:1609.02907.
[32] C. Zhuang, Q. Ma, Redes convolucionales de gráficos duales para la clasificación
semisupervisada basada en gráficos, en: Actas de la Conferencia World Wide Web de Yu Lei recibió la licenciatura en administración de la Universidad
2018, 2018, págs. 499–508. China Three Gorges, Yichang, China, en 2020.
[33] R. Li, S. Wang, F. Zhu, J. Huang, Redes neuronales convolucionales de gráficos adaptables, en: Actualmente está cursando la maestría en la Escuela de Ingeniería
Actas de la Conferencia AAAI sobre Inteligencia Artificial, vol. 32, 2018. de Seguridad e Información de la Universidad de Economía y Derecho
[34] MM Bronstein, J. Bruna, Y. LeCun, A. Szlam, P. Vandergheynst, Aprendizaje profundo de Zhongnan, Wuhan, China. Sus intereses de investigación incluyen
geométrico : ir más allá de los datos euclidianos, IEEE Signal Process. revista 34 (4) (2017) la recuperación de información multimedia, la minería de datos y el
18–42.
procesamiento y reconocimiento de imágenes.
[35] F. Monti, D. Boscaini, J. Masci, E. Rodola, J. Svoboda, MM Bronstein, Geometric deep
learning on graphs and manifolds using mix model cnns, in: Proceedings of the IEEE
conference on computer vision and pattern reconocimiento, 2017, págs. 5115–5124.

[36] Z. Liu, C. Chen, L. Li, J. Zhou, X. Li, L. Song, Y. Qi, Geniepath: redes neuronales gráficas con
rutas receptivas adaptativas, en: Actas de la Conferencia AAAI sobre Inteligencia, vol. 33, 2019,
págs. 4424–4431.
[37] P. Velicÿkovic´, G. Cucurull, A. Casanova, A. Romero, P. Lio, Y. Bengio, Graph
redes de atención, arXiv preprint arXiv:1710.10903.

157
Machine Translated by Google

C. Zhang, Y. Lei, X. Xiao et al. Neurocomputación 502 (2022) 148–158

Xia Xiao recibió la maestría de Bubei Xinzhong Chen es profesor titular en el Instituto de
Universidad, Wuhan, China, en 2013. De 2013 a 2018, Ciencias de la Educación, Universidad de Wuhan, Wuhan China.
ella era asistente de laboratorio, Wuhan Institude of Virology, Recibió la maestría en el instituto de educación superior de la
CAS, Wuhan, China. Actualmente es doctora. estudiante en Universidad Agrícola de Huazhong, Wuhan.
Escuela de Administración Pública, Huazhong Agricultural China en 2007, y el doctorado en educación de la Universidad
Universidad, Wuhan, China. Sus intereses de investigación actuales Normal de China Central, Wuhan,
incluyen procesamiento de imágenes y minería de datos. China en 2010. Sus intereses de investigación incluyen diversión
educativa y equidad social, economía educativa
y gestión universitaria y recomendación personalizada.

158

También podría gustarte