Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Artículo 08 - Es
Artículo 08 - Es
neurocomputación
página de inicio de la revista: www.elsevier.com/locate/neucom
Minería de eventos de video de medios cruzados basada en el aprendizaje de la estructura del gráfico
de atención
a a C
chengde zhang , yu lei , Xia Xiaob ,ÿ , Xinzhong Chen
a
Escuela de Ingeniería de Seguridad e Información, Universidad de Economía y Derecho de Zhongnan, Wuhan, China
b
Escuela de Administración Pública, Universidad Agrícola de Huazhong, Wuhan, China
C
Instituto de Ciencias de la Educación, Universidad de Wuhan, Wuhan, China
Historial del artículo: La minería de asociaciones de medios cruzados basada en una red de información heterogénea (HIN) ha recibido una
Recibido el 13 de febrero de 2022 amplia atención. Sin embargo, el video se describe con solo unas pocas palabras, lo que lleva a la falta de asociación
Revisado el 22 de mayo de 2022 entre la información visual y la textual. Como resultado, el gráfico heterogéneo es inevitablemente incompleto, lo que
Aceptado el 6 de junio de 2022
trae grandes desafíos para la minería de eventos. Afortunadamente, las relaciones topológicas pueden inferir
Disponible en línea el 8 de junio de 2022
correlaciones entre nodos similares. En vista de esto, se propone un marco novedoso de minería de eventos de video
Comunicado por Zidong Wang
web basado en el aprendizaje de estructuras de gráficos de atención para generar una nueva matriz de adyacencia, que
reconstruye la asociación entre nodos. Primero, se construye una nueva red heterogénea, mientras que cada subgrafo
Palabras clave:
multimedia
de relación se produce por separado. Luego, en cada subgráfico relacional, se generan gráficos de características por
similitud de características, que pueden capturar relaciones potenciales entre nodos. Simultáneamente, el gráfico
Graficar redes neuronales (GNN)
Atención semántico también se crea mediante el aprendizaje de estructuras semánticas para describir interacciones heterogéneas
Aprendizaje de estructura gráfica complejas entre la semántica de los nodos. A continuación, estos gráficos se fusionan mediante la atención del canal
para reconstruir la correlación entre los nodos. Finalmente, la red convolucional de gráficos (GCN) se aplica para la minería de evento
Los experimentos en videos web de YouTube demuestran que nuestro método propuesto es más efectivo que los
métodos más avanzados con una mejora significativa.
2022 Publicado por Elsevier BV
2. Trabajo relacionado
Con el rápido crecimiento de los datos de texto y la mejora continua del aprendizaje
automático, se han propuesto muchos métodos potenciales de detección y seguimiento
de temas. Para mejorar la universalidad del modelo, se han propuesto LDA en línea [11]
y HDP dinámico en línea [12] para integrar información de tiempo en LDA y HDP para
resolver el problema de detección y seguimiento de sujetos. Aunque estos métodos han
logrado algunos efectos, no son adecuados para texto disperso. Para resolver este
problema, recientemente los métodos TDT han investigado características escasas e
intensas. Un método de agrupación en línea [13] que representa documentos con
Fig. 1. Un ejemplo de información textual escasa. características TF-IDF muestra un alto rendimiento en la base de datos del nuevo tema.
149
Machine Translated by Google
entre diferentes tipos de objetos también son muy significativas. heteros ing la importancia de cada gráfico de características y gráfico semántico mientras
[24] expresa la red de información heterogénea como una pluralidad de matrices de reducir el ruido en el proceso de aprendizaje de la estructura gráfica.
transformación, mientras que cada matriz de transformación
Corresponde a la relación de un objeto con otro.
3. Marco propuesto
Con el auge del aprendizaje de representación de redes, muchos métodos de
incorporación de redes aplican tecnología de aprendizaje de representación de redes
La figura 2 ilustra el marco de nuestro método propuesto. Consta de las siguientes
heterogéneas para obtener la representación de características. cuatro partes básicas:
Concretamente, HERec [25] genera una secuencia de nodos basada en
meta-caminos para aprender la representación incrustada, que la integra en el marco Build HIN: Tomando NDK(N), Term(T), Video(V) como nodos, mientras que
de descomposición matricial para productos básicos
tomando NDK-Term, Term-Video, NDK-Video como bordes, genera dos subgrafos
recomendación. NeuACF [26] aplica una red neuronal profunda a relacionales Bh1; Bh2, y vectores de características para
aprender las características potenciales de los diferentes aspectos de los nodos, cada nodo.
que obtiene la representación final mediante la fusión del mecanismo de atención. Gráficos de candidatos: (1) Gráficos de características: captura de relaciones
HeteLearn [27] aprende los pesos de los enlaces en función de Bayesian personalizado
potenciales que surgen de NDK, término, características de video a través de
tecnología de clasificación para realizar modelos personalizados de las preferencias proyección de características heterogéneas y aprendizaje métrico. Para cada
de los usuarios. RW-GCN aplica un paseo aleatorio sesgado para generar el nodo sub-relación hay dos tipos de nodos, información visual y textual. (2) Gráficos
pares para establecer una matriz simétrica, que entrena vectores de representación semánticos: Generación de gráficos semánticos
potencial a través de skip-gram [28]. IMHE [29] fusiona vistas múltiples incompletas, estructuras gráficas aprendiendo diferentes meta-caminos.
que reconstruye vistas incompletas Actualizar HIN: actualice el gráfico heterogéneo original fusionando
agregando vecinos en otras vistas. el gráfico de características, el gráfico semántico y la matriz de adyacencia original
Estos métodos se basan en una suposición básica: el gráfico heterogéneo a través del canal de atención.
construido es óptimo. Sin embargo, heterogénea Minería de eventos: optimización de estructuras gráficas heterogéneas
Los gráficos generalmente se extraen de los complejos sistemas interactivos. GCN y regularización para clasificación de eventos.
a través de reglas predefinidas. La escasa información textual del video
hace que el gráfico heterogéneo sea inevitablemente incompleto. Por lo tanto 3.1. Construir HIN
es muy importante aprender la estructura de grafos en grafos heterogéneos
en lugar de confiar en la estructura gráfica original.
Primero, se forma una matriz métrica para cada tema después de eliminar
palabras desactivadas irrelevantes, con cada NDK como una fila y cada
2.3. GCN
palabra como una columna. Específicamente, las características de distribución de
se calcula cada palabra en todos los NDK, mientras que se usa la última columna
Los GNN son modelos de aprendizaje profundo que apuntan a abordar gráficos
para marcar a qué evento pertenece realmente cada NDK. TF-IDF fue
tareas relacionadas [30]. Entre varios tipos de GNN, GCN [31] simplifica la red de
adoptado para calcular las características de distribución de los términos en
convolución espectral anterior al limitar el filtro
NDK. La matriz de índice generada se puede expresar como una tabla bidimensional,
para trabajar en un barrio de un solo salto. Ha atraído mucha atención por su
en la que la definición de cada elemento es como
simplicidad y alto rendimiento. sigue:
En el problema semisupervisado de grafos, una convolución bidireccional
[32] se propone debido a la interferencia de la clasificación de vértices tfi; j norte
estructura gráfica [33] (matriz de Laplace) aprende la mejor estructura gráfica mientras
completa la clasificación de gráficos. donde tfi;j denota la frecuencia de ti en NDKj;Nj es el número total
Para mejorar el rendimiento o la escalabilidad, la convolución generalizada basada de términos en NDKj; dfi contiene el número total de NDK con ti, y
en convolución espectral [34]35, atención de vecindad N es el número total de NDK. De manera similar, las características de
Se estudian los mecanismos [36]37, el submuestreo [38] y la representación inductiva distribución de Video en el NDK se pueden calcular para generar la matriz
de gráficos grandes [39] . C-GCN [40] exhaustivamente
de indicadores.
considera la correlación de videos intraclase e interclase para En segundo lugar, el término NDK y el video NDK correspondientes a los valores
aprendizaje de características y fusión de información. PS-GNN [41] directamente con TF-IDF mayor que 0 se filtran del indicador.
modela todas las relaciones entre categoría-atributo, categoría categoría y atributo- matriz.
atributo, brecha heterogénea aliviada Finalmente, tomando NDK(N), Term(T), Video(V) como nodo Q, NDK-Term,
efectivamente. Para la red de atención de gráficos, la red neuronal de gráficos Term-Video, NDK-Video como borde E, el gráfico heterogéneo
heterogéneos (HAN) [42] introduce el mecanismo de atención en G ¼ ð Q; MI; Se
el crea F. En la red heterogénea construida,
red neuronal de grafos heterogéneos por primera vez. HetGNN la subrelación contiene h1:NDK-Term y h2:NDK-Video, la
[43] puede considerar la información de estructura de redes heterogéneas y la matriz de adyacencia generada por el subgrafo de la relación es
información de contenido heterogéneo de cada nodo en denotado como Bh1, y el meta-camino se denota como
al mismo tiempo. En la actualidad, la mayoría de los métodos de aprendizaje de representación
V ! T! N ! T! v
basado en la meta-ruta, solo considere el nodo de inicio y el nodo final, lo que resulta
en la pérdida de información. Para solucionar este problema, 3.2. gráfico de características
150
Machine Translated by Google
Fig. 2. Descripción general de la minería de eventos de video de medios cruzados basada en el aprendizaje de la estructura del gráfico de atención, que incluye cuatro partes: (1) Se construye la red heterogénea,
subgrafos de relaciones generados y vectores propios de cada nodo. (2) El gráfico de características se genera de acuerdo con la similitud entre los nodos. El gráfico semántico es
generado de acuerdo a diferentes meta-caminos. (3) La información se extrae del subgrafo de relación original, el gráfico de características y el gráfico semántico como entrada para generar un
nuevo subgrafo de relación. (4) Ingrese el gráfico aprendido en GNN para la minería de eventos.
Para cada relación h, supongamos que hay dos tipos de nodos Q/n hð Þ
h CZN h_
KZN e0 e0
yo ; j
ð4Þ
Gráfico de similitud de características: el gráfico de similitud de características KZG característica de propagación KZUN
h 2 RjQ/n hð ÞjjQ/t hð Þj :
h
determina la probabilidad de la existencia de una arista de tipo KZUN ¼ KZN
h h bh ð5Þ
h 2 H entre dos nodos. Específicamente, para cada nodo Qi de tipo
donde KZNh es el gráfico de similitud de características y Bh es la matriz de
particular
Þ con
/ Qielðvector
ular para
de características
mapear la característica
ei 2 R1d/ Qi
común
ð Þ, ei
sede
usa
dimensión
una capade
deCC
mapeo
de de un tipo
adyacencia inicial de la relación h. Como se muestra en la Fig. 3, la similitud de características es
característica e0 2 R1cc : se propaga a través de la topología del gráfico original y genera además una
i
estructura de gráfico de propagación de características potencial. Para nodos V/t hð Þ
e0i ð2Þ del mismo tipo /t hð Þ, el gráfico de similitud de características correspondiente
¼ r ei V/ Qi ð Þ þ p/ Qi ð Þ
KZT
h se puede obtener con el parámetro GZT H. _ Así, el correspondiente
donde rð Þ es la función de activación no lineal y Vs 2 Rd/ Qi ð Þdc característica de propagación KZUT
h
Puede ser obtenido:
h 2 RjQ/n hð ÞjjQ/t hð Þj ,
para obtener el gráfico de similitud de características aprendidas KZG donde KZTh es el gráfico de similitud de características y Bh es la matriz de
donde los bordes entre los nodos qi y qj son: y
adyacencia inicial de la relación h. Un gráfico de similitud de característicash KZG
ZG dos gráficos de propagación de características KZUN
H; KZUT
h ahora han sido generales
CZG
h e0 e0j ;
yo ;
CZG
h e0 e0j yo ;
PAGS
KZG
h
¼
ð3Þ ado Al fusionar estos gráficos a través de la capa de atención del canal,
( 0; de lo contrario se puede obtener el gráfico de características general de la relación, denotado
KNTV
h 2 RjQ/n hð ÞjjQ/t hð Þj :
donde ZG 2 ½ 0; 1 es el umbral que controla la escasez de la
ZG
gráfico de similitud de características y un gráfico de implica una fe más escasa KNTV
h ¼ WNTV
h KZG
H ; KZUN
H; KZUT
h i ð7Þ
h
similitud de características más grande.
151
Machine Translated by Google
Dado que el proceso de entrenamiento de la incorporación semántica está fuera tratando todos los nodos como un tipo, Deii ¼ 1 B ¼ De 1=2 B0 þ I De 1=2, donde
de línea, el costo computacional y la complejidad del modelo se reducen
þP j B0 ij, y por lo tanto la función de pérdida de clasificación de la
considerablemente. Además, la información de los nodos intermedios se conserva debido a
GNN en el gráfico aprendido, es decir, LGNN:
mecanismo de gráfico de salto heterogéneo. Después de obtener las incrustaciones
semán ticas W, para cada metacamino Mn, una semántica candidata
LGNN ¼ X ' f h X; B0 i ; yi ð12Þ
matriz de relevancia de subgrafo KV 2 RjQ/n hð ÞjjQ/t hð Þj se genera, donde vi2vl
KSM
h ¼ WV
r SV SV ; SV ð9Þ Esto hace que el gráfico aprendido sea escaso y la pérdida total puede ser
h h;1; h;2; ... h;n i
obtenido por:
donde SV SV ; SV
h;1; h;2; ... h;n i es una matriz de apilamiento de M candidato seman L ¼ cg LGNN þ crLreg ð14Þ
gráficos de tic h. VIRGINIA OCCIDENTAL
r es una capa de atención de canal con pesos
donde cg y cr son valores de peso. Un modelo de clasificación de nodos es
Maestro 2 R11N que indica la importancia de diferentes gráficos de candidatos de metaruta.
W; r capacitados para obtener un mejor rendimiento de minería de eventos al minimizar L.
Después de obtener el grafo semántico agregado KSM h,
152
Machine Translated by Google
tabla 1
Información del conjunto de datos.
IDENTIFICACIÓN
Tema #Videos #NDK #Términos #Eventos
experimento son representativos, lo que ilustra plenamente la universalidad y eficacia de Pmacro Rmacro
F1macro ¼ 2 ð23Þ
este experimento. Pmacro þ Rmacro
153
Machine Translated by Google
ocurrencia de términos de alta frecuencia, sino que también toma los términos se puede obtener de las características visuales, a fin de proporcionar
de baja frecuencia. orientación para la minería de eventos.
MP2vec [48]: Este método adquiere los dominios heterogéneos THMS emplea información de vecindad visual para obtener términos
de NDK y términos que emplean paseo aleatorio basado en metaruta. grupos y mejorar la correlación entre NDK y sus eventos.
Luego adopta un skip-gram extendido para procesar el anterior Comparado con T + V; El valor P y el valor R de este método son
dominios de vértices adquiridos. Finalmente, aprende la representación de mejorado. El valor promedio de F1 es 0.50, pero aún no es lo suficientemente bueno.
incrustación de red para cada tipo diferente de vértice para enriquecer La razón principal de este fenómeno es que los videos pueden ser
el texto escaso. descritos por diferentes textos, lo que dificulta la extracción de la correlación entre la
DeepWalk [51]: Aplica la relación de co-ocurrencia información visual y textual. Esto nos inspira a
entre NDK y términos para aprender la representación vectorial de proponer una nueva solución para enriquecer texto disperso, que debería considerar
nodos. Después de obtener un número suficiente de nodos de acceso varios caminos semánticos.
secuencias, el aprendizaje de vectores se realiza utilizando el skip-gram MCA intenta capturar la correspondencia entre eventos
modelo. Luego se aplica el vector incrustado para enriquecer la escasa a través de las características de distribución de los términos en cada NDK.
información textual. El valor R se mejora en comparación con los dos primeros métodos,
Social FD [52]: Enriquece la distribución textual en NDKs al El rendimiento general de la F1 sigue siendo muy pobre. Aunque establece
modelo de descomposición de factores de conexión y aprendizaje de medición la asociación de texto a través de información visual, inexacta
de distancia, qué métricas de distancia hacen NDK similares la detección de similitud visual y el texto escaso afectaron el efecto de
y términos más juntos. MCA. Indica que aunque MCA puede reducir la pérdida semántica,
CUNE MF [53]: Refleja la correlación de NDKs y términos inevitablemente introducirá más ruido.
a través de la frecuencia de co-ocurrencia. Cada paseo aleatorio no MP2vec refleja la relación entre los NDK y los términos mediante la selección de
solo crea correlaciones entre nodos vecinos, sino también diferentes metarutas. Como se puede ver en las Tablas 2–4, R y F1
considera correlaciones transitivas entre nodos no vecinos, los valores son más altos que T þ V, más bajos que THMS. Como puede encontrar términos
que puede enriquecer la escasa información textual. con la misma semántica a través de NDK. No obstante, la diferencia
en el ángulo de grabación de video y la luz es el problema que enfrentó. en iluminado
4.5. Resultados experimentales y análisis. de esto, el aprendizaje de relevancia cruzada debe considerar no solo
similitud semántica, pero también similitud visual.
Comparamos P; valores de R y F1 en las tablas 2 a 4 respectivamente, en DeepWalk puede utilizar efectivamente las relaciones directas entre
los cuales los mejores resultados se destacan en negrita. De estas tablas, NDK y términos. la P; Los valores R y F1 no funcionan tan bien
podemos extraer las siguientes observaciones y análisis: como MP2vec. La razón principal es que este método solo busca la
T þ V integra la aproximación visual de la función de cuadro clave texto directamente relacionado e información visual, aunque le resulte difícil encontrar
característica de trayectoria y co-ocurrencia de texto para minar videos web la correlación indirecta, lo que resulta en el efecto de algunos temas es pobre.
eventos. Tiene un buen rendimiento en P con el mejor valor es 0:83. Sin embargo, De ahí que nos ilumine para establecer relaciones entre lo visual
las características visuales son inexactas e inestables debido al video. información e información textual por medios directos e indirectos
conexiones
edición, iluminación y otras razones, lo que resulta en una detección inexacta
de NDK. Además, aunque este método utiliza la ocurrencia simultánea de texto para Social FD combina el aprendizaje de medidas a distancia basado en
factorización matricial para enriquecer la información de distribución del texto en
compensar la información de contacto entre
información, la información textual todavía tiene ruido. Como consecuencia, este NDK. De la Tabla 2, el mejor valor de P es 0:93 y el peor es solo
método pierde mucha información visual de baja frecuencia al establecer la conexión 0:05 El rendimiento general de este método es pobre. Desde que
visual, lo que resulta en un recuerdo deficiente. ignora la distribución de palabras de alta y baja frecuencia, inevitablemente trae ruido
Velocidad. Debido al bajo nivel de ruido de la información visual, es importante mientras enriquece el texto
recopilar fotogramas clave visuales enriquecidos de diferentes escenas. Información valiosa información. Por lo tanto, esto nos estimula a explorar un nuevo método.
Tabla 2
Comparación del valor de P (El mejor efecto ha sido negrita).
Tema T+V THM ACM MP2vec Paseo Profundo Social_FD CUNE_MF Nuestro Método
154
Machine Translated by Google
Tabla 3
Comparación del valor R (El mejor efecto ha sido negrita).
Tema T+V THM ACM MP2vec Paseo Profundo Social_FD CUNE_MF Nuestro Método
Tabla 4
Comparación del valor F1 (El mejor efecto ha sido negrita).
Tema T+V THM ACM MP2vec Paseo Profundo Social_FD CUNE_MF Nuestro Método
para enriquecer la distribución del texto en los NDK al considerar el vocabulario de alta mejora en gran medida. La razón de esto es que respectivamente
frecuencia y el vocabulario de baja frecuencia al mismo tiempo aprende la estructura gráfica de NDK-terms y NDKs-videos para
tiempo. enriquecer la distribución del texto, extraer más información de la relación limitada. Para
CUNE MF adopta la frecuencia de co-ocurrencia para establecer correlaciones combinar información semántica y gráfica.
entre NDKs y términos. Comparado con Social FD, este estructura, este artículo complementa la correlación prestando atención a
El método tiene ventajas en los valores R y F1. Se puede encontrar que la F1 promedio fusionar el gráfico original con la estructura del gráfico aprendido. Por lo tanto, el método
ha mejorado un 42% en nuestro método. Esto se debe a la diferencia de los hábitos propuesto evita el problema de la escasez de vocabulario y
personales de expresión del lenguaje, el video puede ser reduce el ruido del texto al mismo tiempo, lo que resulta del filtrado exitoso de la
descrito por diferentes palabras, lo que conduce a la misma semántica información de interferencia por canal
no se puede relacionar. En consecuencia, nos anima a resolver los método de fusión de la atención.
problema de la escasez de texto a través de la relación entre medios El F1micro y F1macro se informan en la Tabla 5, donde las victorias se destacan
aprendizaje. en negrita. De la tabla, podemos obtener las siguientes observaciones:
Para nuestro método, integramos meta-caminos y estructura gráfica.
información para expandir la asociación de medios cruzados para el evento de video web
minería. Nuestro método ha conseguido mejores resultados con la P media 1) CUNE MF muestra el peor desempeño entre los otros
llegando a 0:78 y R promedio llegando a 0:67. El valor total de F1 métodos. Como la diferencia en los hábitos lingüísticos personales, culturales
155
Machine Translated by Google
Tabla 5
Comparación de Mi F1 y Ma F1 (El mejor efecto ha sido negrita).
Mi-F1 Ma-F1 Mi-F1 Ma-F1 Mi-F1 Ma-F1 Mi-F1 Ma-F1 Mi-F1 Ma-F1 Mi-F1 Ma-F1
0,26 0,15 0,54 0,18 0,58 0,14 0,15 0,11 0,06 0,04 0,61 0.29
1 0,44 0,43 0,22 0,14 0,31 0,16 0,12 0,07 0,21 0,10 0,67 0,61
23 0,29 0,06 0,44 0,35 0,82 0,53 0,29 0,05 0,31 0,09 0,85 0,69
4 0,67 0.39 0.58 0.24 0.75 0.29 0.57 0.29 0.51 0.40 0.75 0.54
5 0,44 0,41 0,85 0,23 0,85 0,30 0,76 0,26 0,76 0,30 0,87 0.48
6 0,47 0,46 0,42 0,35 0,56 0,44 0,41 0,32 0,41 0,12 0,66 0,56
7 0,62 0,60 0,68 0,53 0,66 0,47 0,67 0,57 0,76 0,59 0,82 0.51
8 0,33 0,26 0,47 0,12 0,48 0,45 0,46 0,28 0,31 0,32 0,60 0.57
9 0,25 0,09 0,39 0,32 0,57 0,48 0,22 0,08 0,21 0,07 0,76 0,66
10 0,02 0,06 0,37 0,44 0,55 0,25 0,02 0,01 0,02 0,01 0,65 0.52
11 0.02 0.08 0,63 0.37 0.73 0.34 0.53 0.22 0.49 0.29 0.80 0.50
12 0,26 0,16 0,49 0,21 0,86 0,41 0,78 0,33 0,56 0,27 0,87 0,45
13 0,87 0,80 0,53 0,42 0,42 0,22 0,55 0,27 0,26 0,19 0,88 0.82
14 0,37 0,32 0,56 0,25 0,65 0,49 0,31 0,20 0,59 0,49 0,82 0.78
15 0,51 0,30 0,52 0,31 0,69 0,64 0,42 0,23 0,53 0,42 0,77 0,62
16 0,72 0,33 0,82 0,24 0,77 0,19 0,80 0,30 0,68 0,18 0,84 0.33
17 0,57 0,32 0,57 0,07 0,65 0,27 0,57 0,21 0,50 0,35 0,87 0.77
18 0.25 0.22 0,62 0.15 0,64 0.20 0.20 0.12 0.21 0.20 0.79 0,64
19 0,27 0,25 0,40 0,32 0,49 0,28 0,21 0,13 0,26 0,24 0,66 0,62
20 0,47 0,25 0,43 0,32 0,69 0,22 0,38 0,14 0,52 0,29 0,80 0,45
21 0,33 0,32 0,20 0,21 0,39 0,30 0,07 0,01 0,27 0,19 0,58 0.48
22 0,10 0,21 0,54 0,32 0,66 0,41 0,63 0,70 0,43 0,31 0,72 0,63
Promedio 0.39 0.29 0.51 0.28 0,63 0.34 0.42 0.22 0.40 0.25 0.76 0.57
nivel y perspectiva cognitiva, dando lugar a diversas descripciones aplicado a la minería de eventos. Comparación experimental con el
de vídeos En vista de esto, es muy necesario explorar métodos de última generación en videos web de YouTube valida
la información complementaria de semántica y topología. la eficacia del marco propuesto.
2) Para cada método, la escasez de texto afectará su rendimiento. Nuestro próximo trabajo intentará expandir el marco existente
Debido a la falta de descripción textual y el ruido en textual y extraer la asociación implícita local entre datos de medios cruzados
información, es difícil encontrar una asociación entre medios. a diferentes escalas, a fin de realizar inteligente integral
Por lo tanto, es imperativo resolver el contenido de ruido mientras razonamiento.
enriquecer la información semántica y la información visual para el evento
minería. Declaración de contribución de autoría CRediT
3) Aunque DeepWalk logra mejores resultados que MP2vec ,
pierde la conexión indirecta. Como resultado, es esencial para Chengde Zhang: Metodología, Redacción – borrador original Yu Lei:
heredar la relación directa y encontrar la conexión indirecta. Curación de datos. Xia Xiao: Investigación, Redacción – revisión y edición.
4) Debido a la distribución desequilibrada de video en cada evento, Xinzhong Chen: Redacción: revisión y edición.
F1micro tiene un mejor rendimiento general, mientras que F1macro es mucho
afectado por extrema Pmacro y Rmacro, por lo que el rendimiento general Declaración de interés en competencia
No es suficientemente bueno.
5) El rendimiento del método propuesto es mejor que otros, Los autores declaran que no tienen intereses financieros en competencia
con un promedio F1micro mejorado en un 13% a 37% y F1macro conocidos ni relaciones personales que pudieran haber aparecido
mejorado en un 20% a 32%, lo que indica que puede efectivamente para influir en el trabajo informado en este documento.
enriquecer el texto disperso para la minería de eventos de medios cruzados en comparación con
los resultados de otros métodos. Nos enfocamos no solo en la relación entre Reconocimiento
medios cruzados, sino también en la interacción topológica, que puede extraer
la asociación directa e indirecta. aaa
entre los NDK y los términos.
Referencias
Del experimento, se puede encontrar que nuestro método obtiene
más asociaciones de medios cruzados y compensa la escasez de texto. [1] Y. Peng, J. Qi, X. Huang, Estado actual de la investigación y perspectivas sobre multimedia
comprensión del contenido, J. Comput. Res. Desarrollar. 56 (1) (2019) 183.
Obviamente, el método propuesto logra un buen desempeño en
[2] http://www.youtube.com/yt/press/statistics.html, [En línea] (2021).
experimento, mostró más efecto en la minería de eventos de video web. [3] C. Kang, S. Xiang, S. Liao, C. Xu, C. Pan, Función consistente de aprendizaje
representación para la recuperación multimedia multimodal, IEEE Trans. Multimedia
17 (3) (2015) 370–381.
[4] A. Haldorai, A. Ramu, análisis de correlación canónica basado en hiperbase
5. Conclusión
clasificación de redes neuronales feedforward para la sostenibilidad urbana, Neural
Proceso. Letón. 53 (4) (2021) 2385–2401.
En vista de la escasa información textual del video web, una novela [5] V. Ranjan, N. Rasiwasia, C. Jawahar, Recuperación multimodal de etiquetas múltiples, en:
Actas de la conferencia internacional IEEE sobre visión artificial, 2015, págs.
Se propone un marco de trabajo de minería de eventos basado en el aprendizaje de
4094–4102.
estructuras de grafos de atención. Primero, después de construir un gráfico heterogéneo, cada [6] C. Shi, Y. Li, J. Zhang, Y. Sun, SY Philip, Una encuesta de información heterogénea
el subgrafo de relación se genera por separado. En segundo lugar, en cada análisis de red, IEEE Trans. Saber Ing. de datos 29 (1) (2016) 17–37.
[7] B. Hu, C. Shi, WX Zhao, T. Yang, Fusión de información local y global para top-n
subgrafo de relación, se genera un gráfico de características y un gráfico semántico para
recomendación en red de información heterogénea, en: Proceedings of
minar la relación entre nodos. A continuación, canalizar la atención la 27ª Conferencia Internacional ACM sobre Información y Conocimiento
fusiona estos gráficos para enriquecer la información textual. Finalmente, GCN es Gestión, 2018, págs. 1683–1686.
156
Machine Translated by Google
[8] Z. Wang, H. Liu, Y. Du, Z. Wu, X. Zhang, Modelo integrado unificado sobre una red de información [38] J. Chen, J. Zhu, L. Song, Entrenamiento estocástico de redes convolucionales de grafos con
heterogénea para recomendaciones personalizadas, en: Actas de la 28.ª Conferencia Internacional reducción de varianza, versión preliminar de arXiv arXiv:1710.10568.
Conjunta sobre Inteligencia Artificial, 2019, págs. 3813–3819. [39] WL Hamilton, R. Ying, J. Leskovec, Aprendizaje de representación inductiva en gráficos grandes,
en: Actas de la 31.ª Conferencia internacional sobre sistemas de procesamiento de información
[9] F. Atefeh, W. Khreich, Una encuesta de técnicas para la detección de eventos en Twitter, neuronal, 2017, págs. 1025–1035.
Cuenta Intel. 31 (1) (2015) 132–164. [40] W. Nie, M. Ren, J. Nie, S. Zhao, C-gcn: red convolucional de gráficos basada en correlación para
[10] D. Beeferman, H. Jiang, mapas de calor de tiempo de tema para la detección y el seguimiento de el reconocimiento de emociones de audio y video, IEEE Trans. Multimedia 23 (2020) 3793–3804.
temas humanos en el circuito, preimpresión de arXiv arXiv: 2110.07337.
[11] L. AlSumait, D. Barbará, C. Domeniconi, On-line lda: Modelos de temas adaptativos para extraer [41] J. Gao, T. Zhang, C. Xu, Aprendiendo a modelar relaciones para la clasificación de video de
flujos de texto con aplicaciones para la detección y seguimiento de temas, en: 2008 octava disparo cero , IEEE Trans. Patrón Anal. Mach. Intel. 43 (10) (2020) 3476– 3491.
conferencia internacional IEEE sobre minería de datos, IEEE, 2008, págs. 3–12.
[12] X. Fu, J. Li, K. Yang, L. Cui, L. Yang, Modelo hdp dinámico en línea para descubrir temas evolutivos [42] X. Wang, H. Ji, C. Shi, B. Wang, Y. Ye, P. Cui, PS Yu, Red de atención de gráficos heterogéneos,
de los textos sociales chinos, Neurocomputing 171 (2016) 412–424. The World Wide Web Conference (2019) 2022–2032.
[43] C. Zhang, D. Song, C. Huang, A. Swami, NV Chawla, Red neuronal de gráficos heterogéneos, en:
[13] S. Miranda, A. Znotins, SB Cohen, G. Barzdins, Multilingual clustering of streaming news, en: Actas Actas de la 25.ª Conferencia internacional ACM SIGKDD sobre descubrimiento de conocimientos
de la Conferencia de 2018 sobre métodos empíricos en el procesamiento del lenguaje natural, y minería de datos, 2019, págs. 793– 803.
2018, págs. 4535–4544. [44] X. Fu, J. Zhang, Z. Meng, I. King, Magnn: Red neuronal de gráficos agregados de Metapath para
[14] T. Staykovski, A. Barron-Cedeno, G. Da San Martino, P. Nakov, Dense vs . representaciones incrustación de gráficos heterogéneos, en: Actas de The Web Conference 2020, 2020, págs.
dispersas para la agrupación de flujos de noticias, Text2Story@ ECIR (2019) 47–52. 2331–2341.
[15] M. Luo, X. Chang, L. Nie, Y. Yang, AG Hauptmann, Q. Zheng, Un análisis de características [45] Y. Zhang, S. Pal, M. Coates, D. Ustebay, redes neuronales convolucionales de gráficos bayesianos
semisupervisado adaptativo para el reconocimiento semántico de video, IEEE Trans. para clasificación semisupervisada, en: Actas de la Conferencia AAAI sobre Inteligencia Artificial,
cibernético 48 (2) (2017) 648–660. vol. 33, 2019, págs. 5829–5836.
[16] K. Chen, L. Yao, D. Zhang, X. Wang, X. Chang, F. Nie, Un modelo de atención convolucional [46] X. Wang, M. Zhu, D. Bo, P. Cui, C. Shi, J. Pei, Am-gcn: Redes convolucionales de gráficos
recurrente semisupervisado para el reconocimiento de la actividad humana, IEEE Trans. multicanal adaptables , en: Actas de la 26.ª conferencia internacional ACM SIGKDD sobre
Aprender Redes Neuronales. sist. 31 (5) (2019) 1747–1756. descubrimiento de conocimientos y extracción de datos, 2020, págs. 1243–1253.
[17] D. Zhang, L. Yao, K. Chen, S. Wang, X. Chang, Y. Liu, Dar sentido a las representaciones de
conservación del espacio temporal para el reconocimiento de la intención humana basado en [47] S. Yun, M. Jeong, R. Kim, J. Kang, HJ Kim, Redes de transformadores gráficos, Avances en
eeg, IEEE Trans. cibernético 50 (7) (2019) 3033–3044. sistemas de procesamiento de información neuronal 32 (2019) 11983–11993.
[18] K. Kumari, JP Singh, YK Dwivedi, NP Rana, Identificación de agresión multimodal mediante red [48] Y. Dong, NV Chawla, A. Swami, metapath2vec: Aprendizaje de representación escalable para
neuronal convolucional y optimización de enjambre de partículas binarias, Future Gener. redes heterogéneas, en: Actas de la 23.ª conferencia internacional ACM SIGKDD sobre
computar sist. 118 (2021) 187–197. descubrimiento de conocimiento y minería de datos, 2017, págs. 135–144.
[19] K. Thyagharajan, G. Kalaiarasi, Una revisión sobre la detección casi duplicada de imágenes
utilizando técnicas de visión por computadora, Arch. computar Métodos Ing. 28 (3) (2021) 897– [49] L. Bencke, C. Cechinel, R. Munoz, Clasificación automatizada de mensajes de redes sociales en
916. dimensiones de ciudades inteligentes, Future Gener. computar sist. 109 (2020) 218–237.
[20] C. Zhang, X. Wu, M.-L. Shyu, Q. Peng, Integración de información temporal visual e información
de distribución textual para la minería de eventos de video web de noticias, IEEE Trans. Humano- [50] X. Wu, Y.-J. Lu, Q. Peng, C.-W. Ngo, Minería de estructuras de eventos a partir de videos web,
Mach. sist. 46 (1) (2015) 124–135. IEEE MultiMedia 18 (1) (2011) 38–51.
[21] C. Zhang, D. Liu, X. Wu, G. Zhao, M.-L. Shyu, Q. Peng, Minería de eventos de video web de [51] B. Perozzi, R. Al-Rfou, S. Skiena, Deepwalk: Aprendizaje en línea de representaciones sociales,
noticias basada en segmentos casi duplicados, Signal Process. 120 (2016) 26–35. en: Actas de la 20.ª conferencia internacional ACM SIGKDD sobre descubrimiento de
[22] G. Jeh, J. Widom, Escalado de la búsqueda web personalizada, en: Actas de la 12.ª conferencia conocimiento y minería de datos, 2014, págs. 701–710.
internacional sobre la World Wide Web, 2003, págs. 271–279. [52] J. Yu, M. Gao, Y. Song, Z. Zhao, W. Rong, Q. Xiong, Factorización de conexión y aprendizaje de
[23] Y. Sun, J. Han, X. Yan, PS Yu, T. Wu, Pathsim: Búsqueda de similitud top-k basada en metaruta métricas a distancia para recomendaciones sociales, en: Conferencia internacional sobre ciencia,
en redes de información heterogéneas, Procedimientos de la Fundación VLDB 4 (11) (2011) ingeniería y gestión del conocimiento, Springer , 2017, págs. 389–396.
992-1003.
[24] T.-AN Pham, X. Li, G. Cong, Z. Zhang, Un modelo de recomendación general para redes [53] C. Zhang, L. Yu, Y. Wang, C. Shah, X. Zhang, Incrustación de red de usuarios colaborativos
heterogéneas, IEEE Trans. Saber Ing. de datos 28 (12) (2016) 3140– 3153. para sistemas de recomendación social, en: Actas de la conferencia internacional SIAM
2017 sobre minería de datos, SIAM, 2017, págs. 381–389.
[25] C. Shi, B. Hu, WX Zhao, SY Philip, Incrustación de red de información heterogénea para
recomendación, IEEE Trans. Saber Ing. de datos 31 (2) (2018) 357–370.
[36] Z. Liu, C. Chen, L. Li, J. Zhou, X. Li, L. Song, Y. Qi, Geniepath: redes neuronales gráficas con
rutas receptivas adaptativas, en: Actas de la Conferencia AAAI sobre Inteligencia, vol. 33, 2019,
págs. 4424–4431.
[37] P. Velicÿkovic´, G. Cucurull, A. Casanova, A. Romero, P. Lio, Y. Bengio, Graph
redes de atención, arXiv preprint arXiv:1710.10903.
157
Machine Translated by Google
Xia Xiao recibió la maestría de Bubei Xinzhong Chen es profesor titular en el Instituto de
Universidad, Wuhan, China, en 2013. De 2013 a 2018, Ciencias de la Educación, Universidad de Wuhan, Wuhan China.
ella era asistente de laboratorio, Wuhan Institude of Virology, Recibió la maestría en el instituto de educación superior de la
CAS, Wuhan, China. Actualmente es doctora. estudiante en Universidad Agrícola de Huazhong, Wuhan.
Escuela de Administración Pública, Huazhong Agricultural China en 2007, y el doctorado en educación de la Universidad
Universidad, Wuhan, China. Sus intereses de investigación actuales Normal de China Central, Wuhan,
incluyen procesamiento de imágenes y minería de datos. China en 2010. Sus intereses de investigación incluyen diversión
educativa y equidad social, economía educativa
y gestión universitaria y recomendación personalizada.
158