¿Cuál es el GPA de su agente? Un marco para evaluar la alineación entre objetivos, planes y acciones del agente

Resumen: Presentamos el marco Agent GPA (Objetivo-Plan-Acción): un paradigma de evaluación basado en el ciclo operativo de un agente para establecer objetivos, diseñar planes y ejecutar acciones. El marco incluye cinco métricas de evaluación: cumplimiento de objetivos, coherencia lógica, eficiencia de ejecución, calidad del plan y cumplimiento del plan. La coherencia lógica comprueba que las acciones de un agente sean coherentes con sus acciones anteriores. La eficiencia de ejecución verifica si el agente se ejecuta de la manera más eficiente para lograr su objetivo. Plan Quality verifica si los planes de un agente están alineados con sus objetivos; La adherencia al plan verifica si las acciones de un agente están alineadas con su plan; y el cumplimiento de objetivos comprueba que los resultados finales del agente coincidan con los objetivos establecidos. Nuestros resultados experimentales en dos conjuntos de datos de referencia (el conjunto de datos público de TRAIL/GAIA y un conjunto de datos interno para un agente de datos de nivel de producción) muestran que este marco (a) proporciona una forma sistemática de cubrir una amplia gama de fallas del agente, incluidos todos los errores del agente en el conjunto de datos de referencia de TRAIL/GAIA; (b) apoya a los jueces de LLM que muestran un fuerte acuerdo con la anotación humana, cubriendo entre el 80% y más del 95% de errores; y (c) localiza errores con un 86% de acuerdo para permitir una mejora específica del desempeño del agente.

Publicado originalmente en export.arxiv.org el 12 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Desmirar la inversión en agentes de IA

Agentes centinela para AI de agente segura y confiable en sistemas de múltiples agentes

Prune4Web: Programación de poda de árbol DOM para agente web

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido