En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->WorkflowPerturb: pruebas de estrés calibradas para evaluar métricas de flujo de trabajo de múltiples agentes

WorkflowPerturb: pruebas de estrés calibradas para evaluar métricas de flujo de trabajo de múltiples agentes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los sistemas basados ​​en LLM generan cada vez más flujos de trabajo estructurados para tareas complejas. En la práctica, la evaluación automática de estos flujos de trabajo es difícil porque las puntuaciones de las métricas a menudo no están calibradas y los cambios en las puntuaciones no comunican directamente la gravedad de la degradación del flujo de trabajo. Presentamos WorkflowPerturb, un punto de referencia controlado para estudiar métricas de evaluación del flujo de trabajo. Funciona aplicando perturbaciones realistas y controladas a flujos de trabajo dorados. WorkflowPerturb contiene 4973 flujos de trabajo dorados y 44 757 variantes perturbadas en tres tipos de perturbación (pasos faltantes, pasos comprimidos y cambios de descripción), cada uno de los cuales se aplica con niveles de gravedad del 10 %, 30 % y 50 %. Comparamos múltiples familias de métricas y analizamos su sensibilidad y calibración utilizando trayectorias y residuos de puntuación esperados. Nuestros resultados caracterizan diferencias sistemáticas entre familias de métricas y respaldan la interpretación consciente de la gravedad de las puntuaciones de evaluación del flujo de trabajo. Nuestro conjunto de datos se publicará tras su aceptación.

Publicado originalmente en export.arxiv.org el 22 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web