Resumen: Para satisfacer esta necesidad crítica, presentamos Multi-Rag, un sistema de generación de recuperación multimodal diseñado para proporcionar asistencia adaptativa a los humanos en circunstancias intensivas en información. Nuestro sistema tiene como objetivo mejorar la comprensión situacional y reducir la carga cognitiva mediante la integración y el razonamiento sobre transmisiones de información de múltiples fuentes, incluidos videos, audio y texto. Como un paso habilitador hacia las asociaciones de robot humanos a largo plazo, Multi-Rag explora cómo la comprensión de la información multimodal puede servir como base para la asistencia robótica adaptativa en situaciones dinámicas centradas en el ser humano. Para evaluar su capacidad en una tarea de proxy realista de asistencia humana, comparamos múltiples en el conjunto de datos MMBench-Video, un desafío de referencia de referencia multimodal de comprensión de video. Nuestro sistema logra un rendimiento superior en comparación con los modelos de lenguaje grande de código abierto existentes (Video-LLM) y grandes modelos de lenguaje de visión (LVLM), al tiempo que utilizan menos recursos y menos datos de entrada. Los resultados demuestran el potencial de Multi-Rag como una base práctica y eficiente para los futuros sistemas de asistencia adaptativa humana-robot en contextos dinámicos del mundo real.

Publicado Originalme en rss.arxiv.org El 1 de junio de 2025.
Ver Fuente Original

Multi-Rag: un sistema de generación de recuperación multimodal para la comprensión de video adaptativo

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: camiones EV asequibles y el último bloque de Internet de Rusia

Linux Foundation y ATIS socio para avanzar en el desarrollo e integración de código abierto, Open Ran Technologies

Gestión de flujos de trabajo de análisis de fallas complejas con agentes de razonamiento y actuación basados ​​en LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

Gestión de flujos de trabajo de análisis de fallas complejas con agentes de razonamiento y actuación basados en LLM