Resumen: El protocolo del contexto del modelo se ha convertido en un estándar transformador para conectar modelos de idiomas grandes con fuentes y herramientas de datos externas, ganando rápidamente la adopción en las principales proveedores de IA y plataformas de desarrollo. Sin embargo, los puntos de referencia existentes son demasiado simplistas y no logran capturar desafíos de aplicaciones reales, como el razonamiento de horizonte largo y los espacios de herramientas grandes y desconocidos. Para abordar esta brecha crítica, presentamos MCP-Universe, el primer punto de referencia integral diseñado específicamente para evaluar las LLM en tareas realistas y difíciles a través de la interacción con los servidores MCP del mundo real. Nuestro punto de referencia abarca 6 dominios principales que abarcan 11 servidores MCP diferentes: navegación de ubicación, gestión de repositorio, análisis financiero, diseño 3D, automatización de navegadores y búsqueda web. Para garantizar una evaluación rigurosa, implementamos evaluadores basados en la ejecución, incluidos los evaluadores de formatos para el cumplimiento del formato de agente, los evaluadores estáticos para la coincidencia de contenido invariante del tiempo y los evaluadores dinámicos que recuperan automáticamente la verdad en tiempo real para tareas temporalmente sensibles. A través de una evaluación extensa de los LLM principales, encontramos que incluso los modelos SOTA como GPT-5 (43.72%), GROK-4 (33.33%) y Claude-4.0-Sonnet (29.44%) exhiben limitaciones de rendimiento significativas. Además, nuestro punto de referencia plantea un desafío significativo de contexto largo para los agentes de LLM, ya que el número de tokens de entrada aumenta rápidamente con el número de pasos de interacción. Además, introduce un desafío de herramientas desconocidas, ya que los agentes de LLM a menudo carecen de familiaridad con el uso preciso de los servidores MCP. En particular, los agentes de nivel empresarial como el cursor no pueden lograr un mejor rendimiento que los marcos React estándar. Más allá de la evaluación, de código abierto nuestro marco de evaluación extensible con el apoyo de la interfaz de usuario, lo que permite a los investigadores y profesionales integrar a la perfección nuevos agentes y servidores MCP al tiempo que fomentan la innovación en el ecosistema de MCP en rápida evolución.

Publicado Originalme en export.arxiv.org El 20 de agosto de 2025.
Ver Fuente Original

MCP-Universe: Benchmarking Modelos de idiomas grandes con servidores de protocolo de contexto del modelo de mundo real

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Conoce al empresario etíope que reinventa la producción de amoníaco

Pro-V: un sistema de agente múltiple de generación de programas eficiente para la verificación automática de RTL

Una comparación formal entre la cadena de pensamiento y el pensamiento latente

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido