Resumen: Los agentes encarnados en un mundo abierto deben resolver tareas de largo plazo donde el principal cuello de botella no es la calidad de la planificación de un solo paso, sino cómo se organiza y evoluciona la experiencia de interacción. Con este fin, presentamos Steve-Evolving, un marco de trabajo no paramétrico de autoevolución que combina estrechamente el diagnóstico de ejecución detallado con la destilación de conocimiento de doble vía en un circuito cerrado. El método sigue tres fases: anclaje de la experiencia, destilación de la experiencia y control de circuito cerrado basado en el conocimiento. En detalle, Experience Anchoring solidifica cada intento de subobjetivo en una tupla de experiencia estructurada con un esquema fijo (pre-estado, acción, diagnóstico-resultado y post-estado) y lo organiza en un espacio de experiencia de tres niveles con índices multidimensionales (p. ej., firmas de condición, hash espacial y etiquetas semánticas) además de un resumen continuo para una recuperación eficiente y auditable. Para garantizar una densidad de información suficiente para la atribución, la capa de ejecución proporciona señales de diagnóstico compositivo más allá de los resultados binarios, incluidos resúmenes de diferencias de estado, causas de falla enumeradas, indicadores continuos y detección de estancamiento/bucle. Además, las trayectorias exitosas de destilación de experiencias se generalizan en habilidades reutilizables con condiciones previas y criterios de verificación explícitos, mientras que los fracasos se resumen en barreras de seguridad ejecutables que capturan las causas fundamentales y prohíben operaciones riesgosas tanto en la granularidad de los subobjetivos como de las tareas. Además, las habilidades y barreras de seguridad recuperadas del control de circuito cerrado basado en el conocimiento se inyectan en un planificador de LLM, y la replanificación local activada por diagnóstico actualiza las restricciones activas en línea, formando un proceso de evolución continua sin actualizaciones de parámetros del modelo. Los experimentos en el conjunto de largo horizonte de Minecraft MCU demuestran mejoras consistentes con respecto a las líneas base de recuperación estática.
Publicado originalmente en export.arxiv.org el 15 de marzo de 2026.
Ver fuente original
