En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->AutoTool: Escalado automático de capacidades de uso de herramientas en RL mediante restricciones de entropía desacopladas

AutoTool: Escalado automático de capacidades de uso de herramientas en RL mediante restricciones de entropía desacopladas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:El uso de herramientas representa una capacidad crítica para los agentes de IA, y los avances recientes se centran en aprovechar el aprendizaje por refuerzo (RL) para ampliar el proceso de razonamiento explícito y lograr un mejor rendimiento. Sin embargo, existen algunos desafíos clave para el uso de herramientas en los enfoques actuales de escalamiento basados ​​en RL: (a) la capacitación directa en RL a menudo tiene dificultades para ampliar la duración del pensamiento lo suficiente como para resolver problemas complejos, y (b) los modelos ampliados tienden a pensar demasiado en problemas más simples, lo que resulta en una ineficiencia simbólica sustancial. Para abordar estos desafíos, proponemos un paradigma de entrenamiento novedoso que primero emplea un ajuste fino supervisado por calentamiento para ayudar a los modelos a distinguir entre problemas simples y complejos, seguido de RL que permite a los modelos determinar automáticamente trayectorias de razonamiento apropiadas. Además, para abordar el problema del escalamiento automático de la longitud del pensamiento, descubrimos que los objetivos de optimización basados ​​en entropía mantienen efectivamente la diversidad del modelo al tiempo que desbloquean con éxito las capacidades de escalamiento del modelo. Con base en esta idea, presentamos una estrategia de RL de fusión de razonamiento largo-corto basada en entropía. Nuestros experimentos en tres puntos de referencia demuestran que el modelo logra con éxito el escalado automático para un uso eficiente de la herramienta, logrando mejoras significativas en la precisión del 9,8% y al mismo tiempo reduciendo la sobrecarga computacional en un textasciitilde81%.

Publicado originalmente en export.arxiv.org el 16 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web