WorkflowPerturb: pruebas de estrés calibradas para evaluar métricas de flujo de trabajo de múltiples agentes
Resumen: Los sistemas basados en LLM generan cada vez más flujos de trabajo estructurados para tareas complejas. En la práctica, la evaluación automática de estos flujos de trabajo es difícil porque las puntuaciones de las métricas a menudo no están calibradas y los cambios en las puntuaciones no comunican directamente la gravedad de la degradación del flujo de trabajo.
Leer más →