CORE: Evaluación de ruta completa de los agentes de LLM más allá del estado final

Resumen: La evaluación de los agentes de IA que resuelven tareas del mundo real a través de secuencias de llamadas de funciones sigue siendo un desafío abierto. Los puntos de referencia agentes existentes a menudo reducen la evaluación a un juicio binario del estado final, pasando por alto aspectos críticos como la seguridad, la eficiencia y la corrección intermedia. Proponemos un marco basado en autómatas finitos deterministas (DFA) que codifica tareas como conjuntos de rutas de uso de herramientas válidas, lo que permite la evaluación de principios del comportamiento de los agentes en diversos modelos mundiales. Sobre la base de esta base, presentamos Core, un conjunto de cinco métricas, a saber, la corrección de la ruta, la corrección de la ruta: el compuesto tau de Kendall, la criticidad del prefijo, la tasa de llamas dañinas y la eficiencia, que cuantifican la alineación con los patrones de ejecución esperados. En diversos mundos, nuestro método revela importantes diferencias de rendimiento entre los agentes que de otro modo parecerían equivalentes bajo los esquemas de evaluación de estado final tradicional.

Publicado Originalme en export.arxiv.org El 25 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Exploración a través de la generación: aplicación de GFlowNets a la búsqueda estructurada

Pozos de gravedad semántica: por qué las restricciones negativas resultan contraproducentes

Conozca al hombre que construye un kit de inicio para la civilización

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido