En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->MCP-Universe: Benchmarking Modelos de idiomas grandes con servidores de protocolo de contexto del modelo de mundo real

MCP-Universe: Benchmarking Modelos de idiomas grandes con servidores de protocolo de contexto del modelo de mundo real

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El protocolo del contexto del modelo se ha convertido en un estándar transformador para conectar modelos de idiomas grandes con fuentes y herramientas de datos externas, ganando rápidamente la adopción en las principales proveedores de IA y plataformas de desarrollo. Sin embargo, los puntos de referencia existentes son demasiado simplistas y no logran capturar desafíos de aplicaciones reales, como el razonamiento de horizonte largo y los espacios de herramientas grandes y desconocidos. Para abordar esta brecha crítica, presentamos MCP-Universe, el primer punto de referencia integral diseñado específicamente para evaluar las LLM en tareas realistas y difíciles a través de la interacción con los servidores MCP del mundo real. Nuestro punto de referencia abarca 6 dominios principales que abarcan 11 servidores MCP diferentes: navegación de ubicación, gestión de repositorio, análisis financiero, diseño 3D, automatización de navegadores y búsqueda web. Para garantizar una evaluación rigurosa, implementamos evaluadores basados ​​en la ejecución, incluidos los evaluadores de formatos para el cumplimiento del formato de agente, los evaluadores estáticos para la coincidencia de contenido invariante del tiempo y los evaluadores dinámicos que recuperan automáticamente la verdad en tiempo real para tareas temporalmente sensibles. A través de una evaluación extensa de los LLM principales, encontramos que incluso los modelos SOTA como GPT-5 (43.72%), GROK-4 (33.33%) y Claude-4.0-Sonnet (29.44%) exhiben limitaciones de rendimiento significativas. Además, nuestro punto de referencia plantea un desafío significativo de contexto largo para los agentes de LLM, ya que el número de tokens de entrada aumenta rápidamente con el número de pasos de interacción. Además, introduce un desafío de herramientas desconocidas, ya que los agentes de LLM a menudo carecen de familiaridad con el uso preciso de los servidores MCP. En particular, los agentes de nivel empresarial como el cursor no pueden lograr un mejor rendimiento que los marcos React estándar. Más allá de la evaluación, de código abierto nuestro marco de evaluación extensible con el apoyo de la interfaz de usuario, lo que permite a los investigadores y profesionales integrar a la perfección nuevos agentes y servidores MCP al tiempo que fomentan la innovación en el ecosistema de MCP en rápida evolución.

Publicado Originalme en export.arxiv.org El 20 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web