Resumen: Los agentes de traducción basados en LLM han logrado resultados de traducción altamente humanos y son capaces de manejar contextos más largos y más complejos con mayor eficiencia. Sin embargo, generalmente se limitan a entradas solo de texto. En este documento, presentamos Vidove, un sistema de agente de traducción diseñado para entrada multimodal. Inspirado en el flujo de trabajo de los traductores humanos, Vidove aprovecha la información de fondo visual y contextual para mejorar el proceso de traducción. Además, integramos un sistema de memoria multimodal y módulos de memoria de términos a largo plazo enriquecidos con conocimiento específico de dominio, lo que permite que el agente funcione de manera más precisa y adaptativa en escenarios del mundo real. Como resultado, Vidove logra una calidad de traducción significativamente mayor en las tareas de generación de subtítulos y de traducción general, con una mejora del 28% en las puntuaciones de BLU y una mejora del 15% en suber en comparación con las líneas de base de estado anteriores. Además, presentamos Dovebench, un nuevo punto de referencia para la subtitulación y traducción de videos automáticos de forma larga, con 17 horas de datos anotados por humanos de alta calidad. Nuestro código está disponible aquí: esta URL HTTPS
Publicado Originalme en export.arxiv.org El 10 de julio de 2025.
Ver Fuente Original