Resumen: Aunque los puntos de referencia recientes acuáticos de herramientas incorporan solicitudes de usuarios complejas y herramientas diversas, los métodos de evaluación para la mayoría de ellos siguen limitados a la correspondencia de respuesta. Sin embargo, a medida que aumenta el número de pasos necesarios para resolver una solicitud de usuario, una evaluación adecuada del rendimiento de un agente debe ir más allá de la respuesta final para evaluar también la trayectoria de resolución de problemas, incluidos aspectos previamente ignorados como la eficiencia, la alucinación y la adaptación. El método más directo para evaluar estos aspectos es comparar la trayectoria de un agente con la trayectoria de la verdad en tierra, pero este enfoque es fundamentalmente limitado ya que la anotación de todas las trayectorias válidas de verdad terrestre es prohibitivamente costoso. Sin embargo, un simple evaluador basado en LLM lucha por evaluar las trayectorias en detalle sin la verdad terrestre. Para evaluar de manera efectiva a los agentes de esta manera, presentamos Trace, un marco para la evaluación multidimensional del rendimiento del agente LLM acuático. Al incorporar un banco de evidencia, que acumula el conocimiento reunido de los pasos de razonamiento anteriores, Trace permite un análisis y evaluación multifacética de la trayectoria de razonamiento de un agente de manera efectiva. Para validar nuestro marco, desarrollamos un nuevo conjunto de datos de metaevaluación al aumentar los puntos de referencia existentes con trayectorias diversas y defectuosas, cada una etiquetada con puntajes de rendimiento multifacético. Nuestros resultados confirman que Trace evalúa con precisión estos comportamientos complejos de una manera escalable y rentable, incluso con pequeñas LLM de código abierto. Además, aplicamos nuestro método para evaluar las trayectorias que producen los agentes al resolver tareas acuáticas acuáticas, presentando observaciones previamente no reportadas y sus ideas correspondientes.
Publicado Originalme en export.arxiv.org El 5 de octubre de 2025.
Ver Fuente Original