En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->AgentChangeBench: un marco de evaluación multidimensional para la solidez del cambio de objetivos en la IA conversacional

AgentChangeBench: un marco de evaluación multidimensional para la solidez del cambio de objetivos en la IA conversacional

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los cambios de objetivos son una característica definitoria de las interacciones de múltiples turnos en el mundo real, sin embargo, los puntos de referencia actuales de los agentes evalúan principalmente objetivos estáticos o el uso de herramientas de un solo uso. Presentamos AgentChangeBench, un punto de referencia diseñado explícitamente para medir cómo los agentes del modelo de lenguaje aumentado con herramientas se adaptan a los cambios de objetivos a mitad del diálogo en tres dominios empresariales. Nuestro marco formaliza la evaluación a través de cuatro métricas complementarias: Tasa de éxito de tareas (TSR) para efectividad, Eficiencia en el uso de herramientas (TUE) para confiabilidad, Tasa de redundancia de llamadas de herramientas (TCRR) para esfuerzo desperdiciado y Tiempo de recuperación de cambio de objetivos (GSRT) para latencia de adaptación. AgentChangeBench consta de 2835 secuencias de tareas y cinco perfiles de usuario, cada uno de los cuales está diseñado para desencadenar puntos de cambio realistas en los flujos de trabajo en curso. Utilizando esta configuración, evaluamos varios modelos de frontera y descubrimos marcados contrastes oscurecidos por las puntuaciones tradicionales $text{pass}@k$: por ejemplo, GPT-4o alcanza una recuperación de $92,2%$ en los turnos de reserva de aerolíneas, mientras que Gemini colapsa a $48,6%$, y las tareas minoristas muestran una validez de parámetros casi perfecta pero tasas de redundancia superiores a $80%$, lo que revela importantes ineficiencias. Estos hallazgos demuestran que una alta precisión bruta no implica solidez bajo objetivos dinámicos, y que la medición explícita del tiempo de recuperación y la redundancia es esencial. AgentChangeBench establece un banco de pruebas reproducible para diagnosticar y mejorar la resiliencia de los agentes en entornos empresariales realistas.

Publicado originalmente en export.arxiv.org el 21 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web