Resumen de vídeo no supervisado guiado semánticamente

Resumen: El resumen de vídeo es una técnica crucial para la comprensión social, que permite la navegación eficiente de contenido multimedia masivo y la extracción de información clave de las plataformas sociales. La mayoría de los métodos de resumen no supervisados existentes se basan en redes generativas adversarias (GAN) para mejorar la selección de fotogramas clave y generar resúmenes en video coherentes a través del entrenamiento adversario. Sin embargo, estos enfoques explotan principalmente características unimodales, pasando por alto el papel rector de la información semántica en la selección de fotogramas clave y, a menudo, sufren de un entrenamiento inestable. Para abordar estas limitaciones, proponemos un novedoso método de resumen de vídeo no supervisado guiado semánticamente. Específicamente, diseñamos un novedoso mecanismo de atención de alineación semántica a nivel de fotograma y lo integramos en un selector de fotogramas clave, que guía al generador basado en Transformer dentro del marco adversario para reconstruir mejor los videos. Además, adoptamos una estrategia de entrenamiento incremental para actualizar progresivamente los componentes del modelo, mitigando efectivamente la inestabilidad del entrenamiento GAN. Los resultados experimentales demuestran que nuestro enfoque logra un rendimiento superior en múltiples conjuntos de datos de referencia.

Publicado originalmente en export.arxiv.org el 21 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Esta prueba podría revelar la salud de tu sistema inmunológico

El secreto detrás del éxito de Porr y Rosenberger Telematics: 10 años de datos en red

LF Descentralized Trust agrega al Banco de Corea como décimo miembro del banco central; Anuncia Paladin, un nuevo marco de privacidad programable, como último proyecto

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido