Resumen: Los agentes del modelo de lenguaje grande (LLM) son muy prometedores para tareas complejas de uso de herramientas de múltiples turnos, pero su desarrollo a menudo se ve obstaculizado por la extrema escasez de datos de entrenamiento de alta calidad. El ajuste fino supervisado (SFT) de datos sintéticos conduce a un sobreajuste, mientras que el aprendizaje por refuerzo estándar (RL) lucha con un problema crítico de arranque en frío y la inestabilidad del entrenamiento. Para abordar estos desafíos, presentamos $textbf{Environment Tuning}$, un nuevo paradigma de capacitación que permite a los agentes aprender comportamientos complejos directamente de instancias de problemas sin depender de trayectorias de expertos recopiladas previamente. $textbf{Environment Tuning}$ organiza este proceso de aprendizaje a través de un plan de estudios estructurado, un aumento del entorno procesable que proporciona retroalimentación correctiva y recompensas de progreso detalladas para garantizar una exploración estable y eficiente. Utilizando solo 400 instancias de problemas del punto de referencia Berkeley Function-Calling Leaderboard (BFCL), nuestro método no solo logra un rendimiento competitivo en la distribución frente a líneas de base sólidas, sino que también demuestra una generalización superior fuera de la distribución, superando el colapso del rendimiento común a los enfoques basados en SFT. Nuestro trabajo presenta un cambio de paradigma desde un ajuste supervisado en trayectorias estáticas a una exploración dinámica basada en el entorno, allanando el camino para entrenar agentes más robustos y eficientes en datos.
Publicado originalmente en export.arxiv.org el 13 de octubre de 2025.
Ver fuente original