Resumen: Los agentes interactivos de modelo de lenguaje grande (LLM) que operan a través de diálogos de múltiples turnos y llamadas de herramientas de múltiples pasos se utilizan cada vez más en producción. Los puntos de referencia para estos agentes deben comparar modelos de manera confiable y generar datos de capacitación sobre políticas. Los puntos de referencia agentes anteriores (por ejemplo, tau-bench, tau2-bench, AppWorld) se basan en backends totalmente deterministas, que son costosos de construir e iterar. Proponemos una evaluación basada en el estado proxy, un marco de simulación basado en LLM que preserva la evaluación final basada en el estado sin una base de datos determinista. Específicamente, un escenario especifica el objetivo del usuario, los hechos del usuario/sistema, el estado final esperado y el comportamiento esperado del agente, y un rastreador de estado LLM infiere un estado de proxy estructurado a partir del seguimiento de interacción completo. Luego, los jueces de LLM verifican la consecución del objetivo y detectan alucinaciones de herramientas/usuarios frente a las limitaciones del escenario. Empíricamente, nuestro punto de referencia produce clasificaciones estables que diferencian modelos entre familias y esfuerzos de razonamiento en tiempo de inferencia, y sus implementaciones dentro y fuera de políticas brindan supervisión que se transfiere a escenarios invisibles. Una cuidadosa especificación del escenario produce tasas de alucinaciones en el simulador cercanas a cero, según lo respaldan los estudios de ablación. El marco también admite análisis de sensibilidad sobre las personas de los usuarios. El acuerdo entre jueces humanos y LLM supera el 90%, lo que indica una evaluación automatizada confiable. En general, la evaluación proxy basada en el estado ofrece una alternativa práctica y escalable a los puntos de referencia agentes deterministas para agentes industriales de LLM.
Publicado originalmente en export.arxiv.org el 18 de febrero de 2026.
Ver fuente original
