AgencyBench: Evaluación comparativa de las fronteras de los agentes autónomos en contextos del mundo real de 1 millón de tokens

Resumen: Los agentes autónomos basados en Large Language Models (LLM) demuestran capacidades multifacéticas para contribuir sustancialmente a la producción económica. Sin embargo, los puntos de referencia existentes siguen centrados en la capacidad de una sola agencia y no logran capturar escenarios del mundo real a largo plazo. Además, la dependencia de la retroalimentación humana para tareas realistas crea un cuello de botella en la escalabilidad, lo que dificulta la recopilación y evaluación de implementaciones automatizadas. Para cerrar esta brecha, presentamos AgencyBench, un punto de referencia integral derivado del uso diario de la IA, que evalúa 6 capacidades agentes centrales en 32 escenarios del mundo real, que comprende 138 tareas con consultas, entregables y rúbricas específicas. Estos escenarios requieren un promedio de 90 llamadas a herramientas, 1 millón de tokens y horas de ejecución para resolverse. Para permitir la evaluación automatizada, empleamos un agente de simulación de usuario para proporcionar comentarios iterativos y un entorno de pruebas Docker para realizar una evaluación visual y funcional basada en rúbricas. Los experimentos revelan que los modelos de código cerrado superan significativamente a los modelos de código abierto (48,4% frente a 32,1%). Un análisis más detallado revela disparidades significativas entre los modelos en cuanto a eficiencia de recursos, autocorrección basada en retroalimentación y preferencias específicas de uso de herramientas. Finalmente, investigamos el impacto de los andamios agentes, observando que los modelos propietarios demuestran un rendimiento superior dentro de sus ecosistemas nativos (por ejemplo, Claude-4.5-Opus a través de Claude-Agent-SDK), mientras que los modelos de código abierto exhiben distintos picos de rendimiento, lo que sugiere una optimización potencial para marcos de ejecución específicos. AgencyBench sirve como un banco de pruebas crítico para los agentes de próxima generación, destacando la necesidad de cooptimizar la arquitectura del modelo con marcos de agentes. Creemos que este trabajo arroja luz sobre la dirección futura de los agentes autónomos y publicamos el conjunto completo de herramientas de evaluación y referencia en esta URL https.

Publicado originalmente en export.arxiv.org el 18 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Taller del Consejo de IOT sobre ecosistema de dispositivos 6G

La descarga: los planes de OpenAI para la ciencia y la verificación de la edad del chatbot

Aprendizaje seguro y eficiente en contexto a través del control de riesgos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido