Resumen: Para satisfacer esta necesidad crítica, presentamos Multi-Rag, un sistema de generación de recuperación multimodal diseñado para proporcionar asistencia adaptativa a los humanos en circunstancias intensivas en información. Nuestro sistema tiene como objetivo mejorar la comprensión situacional y reducir la carga cognitiva mediante la integración y el razonamiento sobre transmisiones de información de múltiples fuentes, incluidos videos, audio y texto. Como un paso habilitador hacia las asociaciones de robot humanos a largo plazo, Multi-Rag explora cómo la comprensión de la información multimodal puede servir como base para la asistencia robótica adaptativa en situaciones dinámicas centradas en el ser humano. Para evaluar su capacidad en una tarea de proxy realista de asistencia humana, comparamos múltiples en el conjunto de datos MMBench-Video, un desafío de referencia de referencia multimodal de comprensión de video. Nuestro sistema logra un rendimiento superior en comparación con los modelos de lenguaje grande de código abierto existentes (Video-LLM) y grandes modelos de lenguaje de visión (LVLM), al tiempo que utilizan menos recursos y menos datos de entrada. Los resultados demuestran el potencial de Multi-Rag como una base práctica y eficiente para los futuros sistemas de asistencia adaptativa humana-robot en contextos dinámicos del mundo real.
Publicado Originalme en rss.arxiv.org El 1 de junio de 2025.
Ver Fuente Original