Resumen: Los agentes impulsados por LLM enfrentan un desafío persistente: aprender de sus experiencias de ejecución para mejorar el desempeño futuro. Si bien los agentes pueden completar con éxito muchas tareas, a menudo repiten patrones ineficientes, no logran recuperarse de errores similares y pierden oportunidades de aplicar estrategias exitosas de ejecuciones pasadas. Presentamos un marco novedoso para extraer automáticamente aprendizajes procesables de las trayectorias de ejecución de los agentes y utilizarlos para mejorar el rendimiento futuro a través de la recuperación de memoria contextual. Nuestro enfoque consta de cuatro componentes: (1) un Extractor de Inteligencia de Trayectoria que realiza un análisis semántico de los patrones de razonamiento de los agentes, (2) un Analizador de Atribución de Decisiones que identifica qué decisiones y pasos de razonamiento condujeron a fallas, recuperaciones o ineficiencias, (3) un Generador de Aprendizaje Contextual que produce tres tipos de orientación: sugerencias estratégicas de patrones exitosos, sugerencias de recuperación del manejo de fallas y sugerencias de optimización de ejecuciones ineficientes pero exitosas, y (4) un Sistema de Recuperación de Memoria Adaptable que inyecta aprendizajes relevantes en indicaciones de agentes basadas en similitudes multidimensionales. A diferencia de los sistemas de memoria existentes que almacenan hechos conversacionales genéricos, nuestro marco comprende patrones de ejecución, extrae aprendizajes estructurados con procedencia y recupera orientación adaptada a contextos de tareas específicos. La evaluación en el benchmark AppWorld demuestra mejoras consistentes, con ganancias de hasta 14,3 puntos porcentuales en la consecución de objetivos de escenario en tareas pendientes y beneficios particularmente fuertes en tareas complejas (mejora de objetivos de escenario de 28,5~pp, un aumento relativo del 149%).
Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original
