En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->StoryTR: Recuperación temporal de vídeos centrada en la narrativa con teoría del razonamiento mental

StoryTR: Recuperación temporal de vídeos centrada en la narrativa con teoría del razonamiento mental

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La recuperación de momentos de vídeo actuales sobresale en tareas centradas en la acción, pero tiene dificultades con el contenido narrativo. Los modelos pueden ver textit{lo que está sucediendo} pero no logran razonar textit{por qué es importante}. Esta brecha semántica surge de la falta de textbf{Teoría de la Mente (ToM)}: la capacidad cognitiva para inferir intenciones implícitas, estados mentales y causalidad narrativa a partir de observaciones a nivel superficial. Presentamos textbf{StoryTR}, el primer punto de referencia de recuperación de momentos de video que requiere razonamiento ToM, que comprende 8.1k muestras de videos narrativos de formato corto (cortos/reels). Estos vídeos presentan un banco de pruebas ideal. Su alta densidad de información codifica el significado a través de sutiles señales multimodales. Por ejemplo, una mirada combinada con un suspiro conlleva una semántica completamente diferente a la de la mirada sola. Sin embargo, la percepción multimodal por sí sola es insuficiente; Se requiere ToM para decodificar que un personaje “sonriente” en realidad puede estar “ocultando hostilidad”. Para enseñar a los modelos esta capacidad de razonamiento, proponemos un textbf{Agentic Data Pipeline} que genera datos de entrenamiento con cadenas ToM explícitas de tres niveles (decodificación de intención, razonamiento narrativo, localización de límites). Los experimentos revelan la gravedad de la brecha de razonamiento: Gemini-3.0-Pro logra solo 0,53 IoU promedio en StoryTR. Sin embargo, nuestro modelo 7B textbf{Shorts-Moment}, entrenado con datos guiados por ToM, mejora un +15,1% de IoU relativo con respecto a las líneas de base, lo que demuestra que la textit{capacidad de razonamiento narrativo importa más que la escala de parámetros}.

Publicado originalmente en export.arxiv.org el 27 de abril de 2026.
Ver fuente original

admin

Usuario de administración del sitio web