En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->CORE: Evaluación de ruta completa de los agentes de LLM más allá del estado final

CORE: Evaluación de ruta completa de los agentes de LLM más allá del estado final

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La evaluación de los agentes de IA que resuelven tareas del mundo real a través de secuencias de llamadas de funciones sigue siendo un desafío abierto. Los puntos de referencia agentes existentes a menudo reducen la evaluación a un juicio binario del estado final, pasando por alto aspectos críticos como la seguridad, la eficiencia y la corrección intermedia. Proponemos un marco basado en autómatas finitos deterministas (DFA) que codifica tareas como conjuntos de rutas de uso de herramientas válidas, lo que permite la evaluación de principios del comportamiento de los agentes en diversos modelos mundiales. Sobre la base de esta base, presentamos Core, un conjunto de cinco métricas, a saber, la corrección de la ruta, la corrección de la ruta: el compuesto tau de Kendall, la criticidad del prefijo, la tasa de llamas dañinas y la eficiencia, que cuantifican la alineación con los patrones de ejecución esperados. En diversos mundos, nuestro método revela importantes diferencias de rendimiento entre los agentes que de otro modo parecerían equivalentes bajo los esquemas de evaluación de estado final tradicional.

Publicado Originalme en export.arxiv.org El 25 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web