Ajuste fino con trapo para mejorar el aprendizaje de las nuevas habilidades

Resumen: Los agentes del modelo de lenguaje grande (LLM) desplegados para tareas de varios pasos frecuentemente fallan de manera predecible: intento de acciones con condiciones previas no satisfechas, emitir comandos redundantes o limitaciones del entorno de mal manejo. Si bien la generación acuática (RAG) de recuperación puede mejorar el rendimiento al proporcionar orientación en tiempo de ejecución, requiere mantener bases de datos de conocimiento externos y agrega gastos generales computacionales en cada implementación. Proponemos una tubería simple que convierte la recuperación de la inferencia en competencia aprendida a través de la destilación. Nuestro enfoque: (1) extrae sugerencias compactas y reutilizables de las fallas de los agentes, (2) utiliza estas sugerencias para generar trayectorias de maestros mejoradas a través de una recuperación de una sola vez en el inicio del episodio, y (3) capacita a los modelos de estudiantes en estas trayectorias con cadenas de pistas eliminadas, forzando la internalización en lugar de la memorización. En dos puntos de referencia interactivos, Alfworld (tareas domésticas) y webshop (compras en línea), los estudiantes destilados superan constantemente a los agentes de línea de base, alcanzan hasta un 91% de éxito en Alfworld (vs. 79% para las líneas basales) y mejorando los puntajes web de la web a 72 (61 para las baselas), al tiempo que usan 10-60% de los pocos payas de recuperación. ambiente. El enfoque se generaliza a través de escalas de modelo (parámetros 7b/14b) y arquitecturas de agentes (React/StateAct), lo que demuestra que los beneficios de recuperación pueden internalizarse efectivamente a través de ajuste fino dirigido sin dependencias de tiempo de ejecución permanentes.

Publicado Originalme en export.arxiv.org El 2 de octubre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Lo que la neurociencia puede enseñar a la IA sobre el aprendizaje en entornos que cambia continuamente

Más allá de las preferencias ordinales: por qué la alineación necesita retroalimentación humana cardinal

Los transistores 2D podrían venir antes de lo esperado

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido