Resumen:Presentamos M^3-Bench, el primer punto de referencia para evaluar el uso de herramientas multimodales bajo el Protocolo de Contexto Modelo. El punto de referencia apunta a flujos de trabajo realistas, de múltiples saltos y subprocesos que requieren una base visual y razonamiento textual, dependencias entre herramientas y persistencia de recursos intermedios en todos los pasos. Introducimos una alineación basada en similitudes que serializa cada llamada a la herramienta, incorpora firmas con un codificador de oraciones y realiza coincidencias húngaras basadas en similitudes para obtener correspondencias uno a uno auditables. Además de esta alineación, informamos métricas interpretables que desvinculan la fidelidad semántica de la coherencia del flujo de trabajo. El punto de referencia abarca 28 servidores con 231 herramientas y proporciona trayectorias estandarizadas seleccionadas a través de un proceso de Ejecutor y Juez con verificación humana; un conjunto auxiliar de cuatro modelos de lenguaje grande (LLM) que juzga los informes sobre la finalización de la tarea final y la base de información. Las evaluaciones de LLM multimodales (MLLM) representativos de última generación revelan brechas persistentes en el uso de herramientas MCP multimodales, particularmente en la fidelidad de los argumentos y la coherencia de la estructura, lo que subraya la necesidad de métodos que razonen conjuntamente sobre imágenes, texto y gráficos de herramientas. El repositorio anónimo de nuestro Benchmark se encuentra en esta URL https
Publicado originalmente en export.arxiv.org el 25 de noviembre de 2025.
Ver fuente original
