Resumen: La recuperación de momentos de vídeo actuales sobresale en tareas centradas en la acción, pero tiene dificultades con el contenido narrativo. Los modelos pueden ver textit{lo que está sucediendo} pero no logran razonar textit{por qué es importante}. Esta brecha semántica surge de la falta de textbf{Teoría de la Mente (ToM)}: la capacidad cognitiva para inferir intenciones implícitas, estados mentales y causalidad narrativa a partir de observaciones a nivel superficial. Presentamos textbf{StoryTR}, el primer punto de referencia de recuperación de momentos de video que requiere razonamiento ToM, que comprende 8.1k muestras de videos narrativos de formato corto (cortos/reels). Estos vídeos presentan un banco de pruebas ideal. Su alta densidad de información codifica el significado a través de sutiles señales multimodales. Por ejemplo, una mirada combinada con un suspiro conlleva una semántica completamente diferente a la de la mirada sola. Sin embargo, la percepción multimodal por sí sola es insuficiente; Se requiere ToM para decodificar que un personaje “sonriente” en realidad puede estar “ocultando hostilidad”. Para enseñar a los modelos esta capacidad de razonamiento, proponemos un textbf{Agentic Data Pipeline} que genera datos de entrenamiento con cadenas ToM explícitas de tres niveles (decodificación de intención, razonamiento narrativo, localización de límites). Los experimentos revelan la gravedad de la brecha de razonamiento: Gemini-3.0-Pro logra solo 0,53 IoU promedio en StoryTR. Sin embargo, nuestro modelo 7B textbf{Shorts-Moment}, entrenado con datos guiados por ToM, mejora un +15,1% de IoU relativo con respecto a las líneas de base, lo que demuestra que la textit{capacidad de razonamiento narrativo importa más que la escala de parámetros}.
Publicado originalmente en export.arxiv.org el 27 de abril de 2026.
Ver fuente original
