En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Generación de memoria basada en trayectorias para sistemas de agentes de mejora automática

Generación de memoria basada en trayectorias para sistemas de agentes de mejora automática

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los agentes impulsados ​​por LLM enfrentan un desafío persistente: aprender de sus experiencias de ejecución para mejorar el desempeño futuro. Si bien los agentes pueden completar con éxito muchas tareas, a menudo repiten patrones ineficientes, no logran recuperarse de errores similares y pierden oportunidades de aplicar estrategias exitosas de ejecuciones pasadas. Presentamos un marco novedoso para extraer automáticamente aprendizajes procesables de las trayectorias de ejecución de los agentes y utilizarlos para mejorar el rendimiento futuro a través de la recuperación de memoria contextual. Nuestro enfoque consta de cuatro componentes: (1) un Extractor de Inteligencia de Trayectoria que realiza un análisis semántico de los patrones de razonamiento de los agentes, (2) un Analizador de Atribución de Decisiones que identifica qué decisiones y pasos de razonamiento condujeron a fallas, recuperaciones o ineficiencias, (3) un Generador de Aprendizaje Contextual que produce tres tipos de orientación: sugerencias estratégicas de patrones exitosos, sugerencias de recuperación del manejo de fallas y sugerencias de optimización de ejecuciones ineficientes pero exitosas, y (4) un Sistema de Recuperación de Memoria Adaptable que inyecta aprendizajes relevantes en indicaciones de agentes basadas en similitudes multidimensionales. A diferencia de los sistemas de memoria existentes que almacenan hechos conversacionales genéricos, nuestro marco comprende patrones de ejecución, extrae aprendizajes estructurados con procedencia y recupera orientación adaptada a contextos de tareas específicos. La evaluación en el benchmark AppWorld demuestra mejoras consistentes, con ganancias de hasta 14,3 puntos porcentuales en la consecución de objetivos de escenario en tareas pendientes y beneficios particularmente fuertes en tareas complejas (mejora de objetivos de escenario de 28,5~pp, un aumento relativo del 149%).

Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web