ClawsBench: Evaluación de la capacidad y seguridad de los agentes de productividad LLM en espacios de trabajo simulados

Resumen: Los agentes de modelo de lenguaje grande (LLM) se implementan cada vez más para automatizar tareas de productividad (por ejemplo, correo electrónico, programación, gestión de documentos), pero evaluarlos en servicios en vivo es arriesgado debido a cambios potencialmente irreversibles. Los puntos de referencia existentes se basan en entornos simplificados y no logran capturar flujos de trabajo multiservicio realistas y con estado. Presentamos ClawsBench, un punto de referencia para evaluar y mejorar los agentes LLM en entornos de productividad realistas. Incluye cinco servicios simulados de alta fidelidad (Gmail, Slack, Google Calendar, Google Docs, Google Drive) con administración de estado completa e instantánea/restauración determinista, junto con 44 tareas estructuradas que cubren escenarios de servicio único, servicios cruzados y críticos para la seguridad. Descomponemos el andamiaje de los agentes en dos palancas independientes (habilidades de dominio que inyectan conocimiento de API a través de la divulgación progresiva y un metaindicador que coordina el comportamiento entre los servicios) y variamos ambas para medir sus efectos separados y combinados. Los experimentos en 6 modelos, 4 arneses de agentes y 33 condiciones muestran que con un andamiaje completo, los agentes logran tasas de éxito en las tareas del 39 al 64 %, pero exhiben tasas de acciones inseguras del 7 al 33 %. En OpenClaw, los cinco modelos principales se encuentran dentro de una banda de 10 puntos porcentuales en cuanto a éxito de tareas (53-63%), con tasas de acciones inseguras del 7% al 23% y sin un orden consistente entre las dos métricas. Identificamos ocho patrones recurrentes de comportamiento inseguro, incluida la escalada de varios pasos en el sandbox y la modificación silenciosa del contrato.

Publicado originalmente en export.arxiv.org el 7 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Descarga de cálculo conjunto y asignación de recursos para la MEC marítima incierta a través de la cooperación de UAV y embarcaciones

Perfil de riesgos y modulación para LLMS

Desde la conexión a tierra hasta la skolemización: una arquitectura simbólica vectorial limitada por la lógica para la respuesta de consulta compleja

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido