No se limite a ajustar el agente, ajuste el entorno

Resumen: Los agentes del modelo de lenguaje grande (LLM) son muy prometedores para tareas complejas de uso de herramientas de múltiples turnos, pero su desarrollo a menudo se ve obstaculizado por la extrema escasez de datos de entrenamiento de alta calidad. El ajuste fino supervisado (SFT) de datos sintéticos conduce a un sobreajuste, mientras que el aprendizaje por refuerzo estándar (RL) lucha con un problema crítico de arranque en frío y la inestabilidad del entrenamiento. Para abordar estos desafíos, presentamos $textbf{Environment Tuning}$, un nuevo paradigma de capacitación que permite a los agentes aprender comportamientos complejos directamente de instancias de problemas sin depender de trayectorias de expertos recopiladas previamente. $textbf{Environment Tuning}$ organiza este proceso de aprendizaje a través de un plan de estudios estructurado, un aumento del entorno procesable que proporciona retroalimentación correctiva y recompensas de progreso detalladas para garantizar una exploración estable y eficiente. Utilizando solo 400 instancias de problemas del punto de referencia Berkeley Function-Calling Leaderboard (BFCL), nuestro método no solo logra un rendimiento competitivo en la distribución frente a líneas de base sólidas, sino que también demuestra una generalización superior fuera de la distribución, superando el colapso del rendimiento común a los enfoques basados en SFT. Nuestro trabajo presenta un cambio de paradigma desde un ajuste supervisado en trayectorias estáticas a una exploración dinámica basada en el entorno, allanando el camino para entrenar agentes más robustos y eficientes en datos.

Publicado originalmente en export.arxiv.org el 13 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Estados Unidos está listo para cancelar la financiación para dos principales plantas de captura de aire directo

Estudio de reproducibilidad de “Cooperar o colapsar: aparición de cooperación sostenible en una sociedad de agentes LLM”

IoT y Edge Computing Funded Projects Onrscape Report R4

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido