M3-Bench: punto de referencia del agente MLLM multimodal, multisalto y multiproceso

Resumen:Presentamos M^3-Bench, el primer punto de referencia para evaluar el uso de herramientas multimodales bajo el Protocolo de Contexto Modelo. El punto de referencia apunta a flujos de trabajo realistas, de múltiples saltos y subprocesos que requieren una base visual y razonamiento textual, dependencias entre herramientas y persistencia de recursos intermedios en todos los pasos. Introducimos una alineación basada en similitudes que serializa cada llamada a la herramienta, incorpora firmas con un codificador de oraciones y realiza coincidencias húngaras basadas en similitudes para obtener correspondencias uno a uno auditables. Además de esta alineación, informamos métricas interpretables que desvinculan la fidelidad semántica de la coherencia del flujo de trabajo. El punto de referencia abarca 28 servidores con 231 herramientas y proporciona trayectorias estandarizadas seleccionadas a través de un proceso de Ejecutor y Juez con verificación humana; un conjunto auxiliar de cuatro modelos de lenguaje grande (LLM) que juzga los informes sobre la finalización de la tarea final y la base de información. Las evaluaciones de LLM multimodales (MLLM) representativos de última generación revelan brechas persistentes en el uso de herramientas MCP multimodales, particularmente en la fidelidad de los argumentos y la coherencia de la estructura, lo que subraya la necesidad de métodos que razonen conjuntamente sobre imágenes, texto y gráficos de herramientas. El repositorio anónimo de nuestro Benchmark se encuentra en esta URL https

Publicado originalmente en export.arxiv.org el 25 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El módulo de política de IA: Desarrollo de la competencia de los estudiantes de ciencias de la computación en ética y política de IA

Diagnóstico de fallas cognitivas en sistemas expertos de múltiples agentes utilizando protocolos de evaluación dinámica y la posterior mutación del contexto de procesamiento

No solo un ayudante, sino también un maestro: Interactive LLM Cascade

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido