Resumen: Los agentes de modelo de lenguaje grande (LLM) se implementan cada vez más para automatizar tareas de productividad (por ejemplo, correo electrónico, programación, gestión de documentos), pero evaluarlos en servicios en vivo es arriesgado debido a cambios potencialmente irreversibles. Los puntos de referencia existentes se basan en entornos simplificados y no logran capturar flujos de trabajo multiservicio realistas y con estado. Presentamos ClawsBench, un punto de referencia para evaluar y mejorar los agentes LLM en entornos de productividad realistas. Incluye cinco servicios simulados de alta fidelidad (Gmail, Slack, Google Calendar, Google Docs, Google Drive) con administración de estado completa e instantánea/restauración determinista, junto con 44 tareas estructuradas que cubren escenarios de servicio único, servicios cruzados y críticos para la seguridad. Descomponemos el andamiaje de los agentes en dos palancas independientes (habilidades de dominio que inyectan conocimiento de API a través de la divulgación progresiva y un metaindicador que coordina el comportamiento entre los servicios) y variamos ambas para medir sus efectos separados y combinados. Los experimentos en 6 modelos, 4 arneses de agentes y 33 condiciones muestran que con un andamiaje completo, los agentes logran tasas de éxito en las tareas del 39 al 64 %, pero exhiben tasas de acciones inseguras del 7 al 33 %. En OpenClaw, los cinco modelos principales se encuentran dentro de una banda de 10 puntos porcentuales en cuanto a éxito de tareas (53-63%), con tasas de acciones inseguras del 7% al 23% y sin un orden consistente entre las dos métricas. Identificamos ocho patrones recurrentes de comportamiento inseguro, incluida la escalada de varios pasos en el sandbox y la modificación silenciosa del contrato.
Publicado originalmente en export.arxiv.org el 7 de abril de 2026.
Ver fuente original
