Resumen: Los agentes del modelo de lenguaje grande (LLM) desplegados para tareas de varios pasos frecuentemente fallan de manera predecible: intento de acciones con condiciones previas no satisfechas, emitir comandos redundantes o limitaciones del entorno de mal manejo. Si bien la generación acuática (RAG) de recuperación puede mejorar el rendimiento al proporcionar orientación en tiempo de ejecución, requiere mantener bases de datos de conocimiento externos y agrega gastos generales computacionales en cada implementación. Proponemos una tubería simple que convierte la recuperación de la inferencia en competencia aprendida a través de la destilación. Nuestro enfoque: (1) extrae sugerencias compactas y reutilizables de las fallas de los agentes, (2) utiliza estas sugerencias para generar trayectorias de maestros mejoradas a través de una recuperación de una sola vez en el inicio del episodio, y (3) capacita a los modelos de estudiantes en estas trayectorias con cadenas de pistas eliminadas, forzando la internalización en lugar de la memorización. En dos puntos de referencia interactivos, Alfworld (tareas domésticas) y webshop (compras en línea), los estudiantes destilados superan constantemente a los agentes de línea de base, alcanzan hasta un 91% de éxito en Alfworld (vs. 79% para las líneas basales) y mejorando los puntajes web de la web a 72 (61 para las baselas), al tiempo que usan 10-60% de los pocos payas de recuperación. ambiente. El enfoque se generaliza a través de escalas de modelo (parámetros 7b/14b) y arquitecturas de agentes (React/StateAct), lo que demuestra que los beneficios de recuperación pueden internalizarse efectivamente a través de ajuste fino dirigido sin dependencias de tiempo de ejecución permanentes.
Publicado Originalme en export.arxiv.org El 2 de octubre de 2025.
Ver Fuente Original
