Señales: muestreo de trayectoria y clasificación para interacciones agentes

Resumen: Las aplicaciones agentes basadas en grandes modelos de lenguaje dependen cada vez más de bucles de interacción de varios pasos que involucran planificación, ejecución de acciones y retroalimentación del entorno. Si bien estos sistemas ahora se implementan a gran escala, mejorarlos después de su implementación sigue siendo un desafío. Las trayectorias de los agentes son voluminosas y no deterministas, y revisar cada una, ya sea mediante revisión humana o LLM auxiliares, es lento y tiene un costo prohibitivo. Proponemos un marco liviano basado en señales para clasificar trayectorias de interacción agente. Nuestro enfoque calcula señales económicas y de amplia aplicación a partir de interacciones en vivo y las adjunta como atributos estructurados para la clasificación de trayectorias, identificando interacciones que probablemente sean informativas sin afectar el comportamiento de los agentes en línea. Organizamos las señales en una taxonomía general que abarca la interacción (desalineación, estancamiento, desconexión, satisfacción), la ejecución (fracaso, bucle) y el entorno (agotamiento), diseñada para el cálculo sin llamadas a modelos. En un estudio de anotación controlada en $tau$-bench, un punto de referencia ampliamente utilizado para la evaluación de agentes aumentada por herramientas, mostramos que el muestreo basado en señales logra una tasa de informatividad del 82% en comparación con el 74% para el filtrado heurístico y el 54% para el muestreo aleatorio, con una ganancia de eficiencia de 1,52x por trayectoria informativa. La ventaja es sólida en todos los estratos de recompensa y dominios de tareas, lo que confirma que las señales proporcionan ganancias genuinas de informatividad por trayectoria en lugar de simplemente sobremuestrear fallas obvias. Estos resultados muestran que las señales ligeras pueden servir como infraestructura de muestreo práctica para sistemas agentes y sugieren un camino hacia la construcción de datos de preferencias y la optimización posterior a la implementación.

Publicado originalmente en export.arxiv.org el 1 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Dyna-pensamiento: sinergizando razonamiento, actuación y simulación de modelos mundiales en agentes de IA

Descripción del diseño de la perspectiva informática de la sabiduría

L2M-AID: Defensa ciberfísica autónoma mediante la fusión del razonamiento semántico de modelos de lenguaje grandes con aprendizaje por refuerzo de múltiples agentes (preimpresión)

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido