ClawsBench: Evaluación de la capacidad y seguridad de los agentes de productividad LLM en espacios de trabajo simulados
Resumen: Los agentes de modelo de lenguaje grande (LLM) se implementan cada vez más para automatizar tareas de productividad (por ejemplo, correo electrónico, programación, gestión de documentos), pero evaluarlos en servicios en vivo es arriesgado debido a cambios potencialmente irreversibles.
Leer más →