Thor: Optimización jerárquica integrada en herramientas a través de RL para el razonamiento matemático

Resumen: Grandes modelos de idiomas (LLM) han hecho un progreso notable en el razonamiento matemático, pero aún continúan luchando con tareas de alta precisión como el cálculo numérico y la manipulación simbólica formal. La integración de herramientas externas ha surgido como un enfoque prometedor para cerrar esta brecha. A pesar de los avances recientes, los métodos existentes luchan con tres desafíos clave: construir datos de razonamiento integrados en herramientas, realizar una optimización de grano fino y mejorar la inferencia. Para superar estas limitaciones, proponemos Thor (optimización jerárquica integrada en herramientas a través de RL). Primero, presentamos Tirgen, una tubería basada en el actor crítico de múltiples agentes para construir conjuntos de datos de alta calidad de rutas de razonamiento integradas en herramientas, alinearse con la política y generalizar bien en diversos modelos. En segundo lugar, para realizar una optimización jerárquica de grano fino, presentamos una estrategia RL que optimiza conjuntamente tanto para la resolución de problemas a nivel de trayectoria como para la generación de código a nivel de paso. Esto está motivado por nuestra idea clave de que el éxito de una llamada de herramienta intermedia es un fuerte predictor de la corrección de la respuesta final. Finalmente, Thor incorpora un mecanismo de autocorrección que aprovecha la retroalimentación inmediata de la herramienta para revisar dinámicamente las rutas de razonamiento erróneas durante la inferencia. Nuestro enfoque demuestra una fuerte generalización en diversos modelos, funcionando de manera efectiva tanto en los modelos de razonamiento como en los modelos no de condición. Además, logra un rendimiento de última generación para modelos de una escala similar en múltiples puntos de referencia matemáticos, al tiempo que ofrece mejoras consistentes en los puntos de referencia de código. Nuestro código estará disponible públicamente en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

De reparador de televisores a experto en compatibilidad electromagnética

Aprendizaje personalizado impulsado por IA: predecir el rendimiento académico a través de rasgos de personalidad de liderazgo

Comunicación semántica impulsada por el usuario a través de una comprensión profunda adaptativa

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido