En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->MSC-Bench: un punto de referencia riguroso para la orquestación de herramientas multiservidor

MSC-Bench: un punto de referencia riguroso para la orquestación de herramientas multiservidor

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Presentamos MSC-Bench, un punto de referencia a gran escala para evaluar la orquestación de herramientas de extremo a extremo de múltiples saltos por parte de agentes LLM en un ecosistema jerárquico de protocolo modelo-contexto (MCP). Los puntos de referencia existentes a menudo evalúan las herramientas de forma aislada, ignorando desafíos como la superposición funcional y la orquestación entre servidores, lo que lleva a evaluaciones demasiado optimistas. MSC-Bench aborda estas brechas mediante la construcción de datos reales a través de “conjuntos de funciones iguales”, lo que permite métricas objetivas como la puntuación F1 y reduce la dependencia de la evaluación de un LLM como juez. Organizado como un plan de estudios de cinco niveles, prueba sistemáticamente las capacidades de los agentes, desde la orquestación con una sola herramienta hasta la planificación compleja entre servidores y la solidez ante solicitudes fuera de alcance. Los experimentos revelan que las jerarquías rígidas pueden obstaculizar el desempeño sin estrategias codiseñadas, e incluso los agentes más modernos exhiben debilidades sistémicas en cuanto a robustez. MSC-Bench proporciona un marco de diagnóstico para exponer estas limitaciones y guiar el desarrollo de agentes que utilicen herramientas más capaces y eficientes. El punto de referencia y los recursos están disponibles públicamente en esta URL https.

Publicado originalmente en export.arxiv.org el 22 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web