En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Resumen de vídeo no supervisado guiado semánticamente

Resumen de vídeo no supervisado guiado semánticamente

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El resumen de vídeo es una técnica crucial para la comprensión social, que permite la navegación eficiente de contenido multimedia masivo y la extracción de información clave de las plataformas sociales. La mayoría de los métodos de resumen no supervisados ​​existentes se basan en redes generativas adversarias (GAN) para mejorar la selección de fotogramas clave y generar resúmenes en video coherentes a través del entrenamiento adversario. Sin embargo, estos enfoques explotan principalmente características unimodales, pasando por alto el papel rector de la información semántica en la selección de fotogramas clave y, a menudo, sufren de un entrenamiento inestable. Para abordar estas limitaciones, proponemos un novedoso método de resumen de vídeo no supervisado guiado semánticamente. Específicamente, diseñamos un novedoso mecanismo de atención de alineación semántica a nivel de fotograma y lo integramos en un selector de fotogramas clave, que guía al generador basado en Transformer dentro del marco adversario para reconstruir mejor los videos. Además, adoptamos una estrategia de entrenamiento incremental para actualizar progresivamente los componentes del modelo, mitigando efectivamente la inestabilidad del entrenamiento GAN. Los resultados experimentales demuestran que nuestro enfoque logra un rendimiento superior en múltiples conjuntos de datos de referencia.

Publicado originalmente en export.arxiv.org el 21 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web