Resumen:Recientemente, los modelos de lenguajes grandes (LLM) han demostrado notables capacidades de resolución de problemas al integrarse de forma autónoma con herramientas externas para el razonamiento colaborativo. Sin embargo, debido a la naturaleza inherentemente compleja y diversa de la información multimodal, permitir que los modelos de lenguajes grandes multimodales (MLLM) utilicen de manera flexible y eficiente herramientas externas durante el razonamiento sigue siendo un desafío poco explorado. En este trabajo, presentamos ToolScope, un marco agente diseñado para unificar la planificación global con la percepción multimodal local, adoptando una herramienta Perceive especializada para mitigar la degradación del contexto visual en tareas VQA de largo horizonte. ToolScope consta de tres componentes principales: el Navegador global, el Ejecutor agente y el Sintetizador de respuesta. El Navegador Global funciona como un “telescopio” que ofrece orientación estratégica de alto nivel. Agentic Executor opera de forma iterativa para aumentar MLLM con percepción local a través de la integración de herramientas externas: Búsqueda, Código y Percepción. Finalmente, el Sintetizador de Respuesta consolida y organiza el proceso de razonamiento en un resultado coherente y fácil de usar. Evaluamos ToolScope en cuatro puntos de referencia VQA en diversos dominios, incluidos VQA 2.0, ScienceQA, MAT-Search y MathVista. Demuestra sólidas capacidades de generalización, logrando una mejora promedio del rendimiento de hasta +6,69 % en todos los conjuntos de datos.
Publicado originalmente en export.arxiv.org el 2 de noviembre de 2025.
Ver fuente original
