Resumen: Los agentes autónomos basados en Large Language Models (LLM) demuestran capacidades multifacéticas para contribuir sustancialmente a la producción económica. Sin embargo, los puntos de referencia existentes siguen centrados en la capacidad de una sola agencia y no logran capturar escenarios del mundo real a largo plazo. Además, la dependencia de la retroalimentación humana para tareas realistas crea un cuello de botella en la escalabilidad, lo que dificulta la recopilación y evaluación de implementaciones automatizadas. Para cerrar esta brecha, presentamos AgencyBench, un punto de referencia integral derivado del uso diario de la IA, que evalúa 6 capacidades agentes centrales en 32 escenarios del mundo real, que comprende 138 tareas con consultas, entregables y rúbricas específicas. Estos escenarios requieren un promedio de 90 llamadas a herramientas, 1 millón de tokens y horas de ejecución para resolverse. Para permitir la evaluación automatizada, empleamos un agente de simulación de usuario para proporcionar comentarios iterativos y un entorno de pruebas Docker para realizar una evaluación visual y funcional basada en rúbricas. Los experimentos revelan que los modelos de código cerrado superan significativamente a los modelos de código abierto (48,4% frente a 32,1%). Un análisis más detallado revela disparidades significativas entre los modelos en cuanto a eficiencia de recursos, autocorrección basada en retroalimentación y preferencias específicas de uso de herramientas. Finalmente, investigamos el impacto de los andamios agentes, observando que los modelos propietarios demuestran un rendimiento superior dentro de sus ecosistemas nativos (por ejemplo, Claude-4.5-Opus a través de Claude-Agent-SDK), mientras que los modelos de código abierto exhiben distintos picos de rendimiento, lo que sugiere una optimización potencial para marcos de ejecución específicos. AgencyBench sirve como un banco de pruebas crítico para los agentes de próxima generación, destacando la necesidad de cooptimizar la arquitectura del modelo con marcos de agentes. Creemos que este trabajo arroja luz sobre la dirección futura de los agentes autónomos y publicamos el conjunto completo de herramientas de evaluación y referencia en esta URL https.
Publicado originalmente en export.arxiv.org el 18 de enero de 2026.
Ver fuente original
