AutoTool: Escalado automático de capacidades de uso de herramientas en RL mediante restricciones de entropía desacopladas

Resumen:El uso de herramientas representa una capacidad crítica para los agentes de IA, y los avances recientes se centran en aprovechar el aprendizaje por refuerzo (RL) para ampliar el proceso de razonamiento explícito y lograr un mejor rendimiento. Sin embargo, existen algunos desafíos clave para el uso de herramientas en los enfoques actuales de escalamiento basados en RL: (a) la capacitación directa en RL a menudo tiene dificultades para ampliar la duración del pensamiento lo suficiente como para resolver problemas complejos, y (b) los modelos ampliados tienden a pensar demasiado en problemas más simples, lo que resulta en una ineficiencia simbólica sustancial. Para abordar estos desafíos, proponemos un paradigma de entrenamiento novedoso que primero emplea un ajuste fino supervisado por calentamiento para ayudar a los modelos a distinguir entre problemas simples y complejos, seguido de RL que permite a los modelos determinar automáticamente trayectorias de razonamiento apropiadas. Además, para abordar el problema del escalamiento automático de la longitud del pensamiento, descubrimos que los objetivos de optimización basados en entropía mantienen efectivamente la diversidad del modelo al tiempo que desbloquean con éxito las capacidades de escalamiento del modelo. Con base en esta idea, presentamos una estrategia de RL de fusión de razonamiento largo-corto basada en entropía. Nuestros experimentos en tres puntos de referencia demuestran que el modelo logra con éxito el escalado automático para un uso eficiente de la herramienta, logrando mejoras significativas en la precisión del 9,8% y al mismo tiempo reduciendo la sobrecarga computacional en un textasciitilde81%.

Publicado originalmente en export.arxiv.org el 16 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

MobileWorldBench: hacia el modelado del mundo semántico para agentes móviles

El estado de la IA: ¿Está China a punto de ganar la carrera?

Hacia una ciencia de la confiabilidad de los agentes de IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido