AgentChangeBench: un marco de evaluación multidimensional para la solidez del cambio de objetivos en la IA conversacional

Resumen: Los cambios de objetivos son una característica definitoria de las interacciones de múltiples turnos en el mundo real, sin embargo, los puntos de referencia actuales de los agentes evalúan principalmente objetivos estáticos o el uso de herramientas de un solo uso. Presentamos AgentChangeBench, un punto de referencia diseñado explícitamente para medir cómo los agentes del modelo de lenguaje aumentado con herramientas se adaptan a los cambios de objetivos a mitad del diálogo en tres dominios empresariales. Nuestro marco formaliza la evaluación a través de cuatro métricas complementarias: Tasa de éxito de tareas (TSR) para efectividad, Eficiencia en el uso de herramientas (TUE) para confiabilidad, Tasa de redundancia de llamadas de herramientas (TCRR) para esfuerzo desperdiciado y Tiempo de recuperación de cambio de objetivos (GSRT) para latencia de adaptación. AgentChangeBench consta de 2835 secuencias de tareas y cinco perfiles de usuario, cada uno de los cuales está diseñado para desencadenar puntos de cambio realistas en los flujos de trabajo en curso. Utilizando esta configuración, evaluamos varios modelos de frontera y descubrimos marcados contrastes oscurecidos por las puntuaciones tradicionales $text{pass}@k$: por ejemplo, GPT-4o alcanza una recuperación de $92,2%$ en los turnos de reserva de aerolíneas, mientras que Gemini colapsa a $48,6%$, y las tareas minoristas muestran una validez de parámetros casi perfecta pero tasas de redundancia superiores a $80%$, lo que revela importantes ineficiencias. Estos hallazgos demuestran que una alta precisión bruta no implica solidez bajo objetivos dinámicos, y que la medición explícita del tiempo de recuperación y la redundancia es esencial. AgentChangeBench establece un banco de pruebas reproducible para diagnosticar y mejorar la resiliencia de los agentes en entornos empresariales realistas.

Publicado originalmente en export.arxiv.org el 21 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El efecto de las creencias y la mentalidad abierta en la persuasión

Ampliación de los combustibles y productos químicos renovables para una industria europea resiliente: de la creatividad científica a la innovación

Hacia una coherencia limitada para la restricción de no superposición mediante el uso de MDD

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido