En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->AgentComPass: Hacia la evaluación confiable de flujos de trabajo de agente en la producción

AgentComPass: Hacia la evaluación confiable de flujos de trabajo de agente en la producción

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: con la creciente adopción de modelos de idiomas grandes (LLM) en la automatización de flujos de trabajo complejos de múltiples agentes, las organizaciones enfrentan riesgos de montaje de errores, comportamientos emergentes y fallas sistémicas que los métodos de evaluación actuales no pueden capturar. Presentamos AgentComPass, el primer marco de evaluación diseñado específicamente para el monitoreo y la depuración de flujos de trabajo de agentes. AgentComPass modela el proceso de razonamiento de los debuggentes expertos a través de una tubería analítica estructurada de varias etapas: identificación y categorización de errores, agrupación temática, puntuación cuantitativa y resumen estratégico. El marco se mejora aún más con un sistema de memoria dual-episódico y semántico, que permite el aprendizaje continuo en todas las ejecuciones. A través de colaboraciones con Partners de diseño, demostramos la utilidad práctica del marco sobre las implementaciones del mundo real, antes de establecer su eficacia contra el punto de referencia del sendero disponible públicamente. AgentComPass logra resultados de última generación en métricas clave, al tiempo que descubre problemas críticos perdidos en las anotaciones humanas, lo que subraya su papel como una herramienta robusta y centrada en el desarrollador para un monitoreo y mejora confiables de los sistemas de agente en la producción.

Publicado Originalme en export.arxiv.org El 18 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web