En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Señales: muestreo de trayectoria y clasificación para interacciones agentes

Señales: muestreo de trayectoria y clasificación para interacciones agentes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las aplicaciones agentes basadas en grandes modelos de lenguaje dependen cada vez más de bucles de interacción de varios pasos que involucran planificación, ejecución de acciones y retroalimentación del entorno. Si bien estos sistemas ahora se implementan a gran escala, mejorarlos después de su implementación sigue siendo un desafío. Las trayectorias de los agentes son voluminosas y no deterministas, y revisar cada una, ya sea mediante revisión humana o LLM auxiliares, es lento y tiene un costo prohibitivo. Proponemos un marco liviano basado en señales para clasificar trayectorias de interacción agente. Nuestro enfoque calcula señales económicas y de amplia aplicación a partir de interacciones en vivo y las adjunta como atributos estructurados para la clasificación de trayectorias, identificando interacciones que probablemente sean informativas sin afectar el comportamiento de los agentes en línea. Organizamos las señales en una taxonomía general que abarca la interacción (desalineación, estancamiento, desconexión, satisfacción), la ejecución (fracaso, bucle) y el entorno (agotamiento), diseñada para el cálculo sin llamadas a modelos. En un estudio de anotación controlada en $tau$-bench, un punto de referencia ampliamente utilizado para la evaluación de agentes aumentada por herramientas, mostramos que el muestreo basado en señales logra una tasa de informatividad del 82% en comparación con el 74% para el filtrado heurístico y el 54% para el muestreo aleatorio, con una ganancia de eficiencia de 1,52x por trayectoria informativa. La ventaja es sólida en todos los estratos de recompensa y dominios de tareas, lo que confirma que las señales proporcionan ganancias genuinas de informatividad por trayectoria en lugar de simplemente sobremuestrear fallas obvias. Estos resultados muestran que las señales ligeras pueden servir como infraestructura de muestreo práctica para sistemas agentes y sugieren un camino hacia la construcción de datos de preferencias y la optimización posterior a la implementación.

Publicado originalmente en export.arxiv.org el 1 de abril de 2026.
Ver fuente original

admin

Usuario de administración del sitio web