En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Thor: Optimización jerárquica integrada en herramientas a través de RL para el razonamiento matemático

Thor: Optimización jerárquica integrada en herramientas a través de RL para el razonamiento matemático

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Grandes modelos de idiomas (LLM) han hecho un progreso notable en el razonamiento matemático, pero aún continúan luchando con tareas de alta precisión como el cálculo numérico y la manipulación simbólica formal. La integración de herramientas externas ha surgido como un enfoque prometedor para cerrar esta brecha. A pesar de los avances recientes, los métodos existentes luchan con tres desafíos clave: construir datos de razonamiento integrados en herramientas, realizar una optimización de grano fino y mejorar la inferencia. Para superar estas limitaciones, proponemos Thor (optimización jerárquica integrada en herramientas a través de RL). Primero, presentamos Tirgen, una tubería basada en el actor crítico de múltiples agentes para construir conjuntos de datos de alta calidad de rutas de razonamiento integradas en herramientas, alinearse con la política y generalizar bien en diversos modelos. En segundo lugar, para realizar una optimización jerárquica de grano fino, presentamos una estrategia RL que optimiza conjuntamente tanto para la resolución de problemas a nivel de trayectoria como para la generación de código a nivel de paso. Esto está motivado por nuestra idea clave de que el éxito de una llamada de herramienta intermedia es un fuerte predictor de la corrección de la respuesta final. Finalmente, Thor incorpora un mecanismo de autocorrección que aprovecha la retroalimentación inmediata de la herramienta para revisar dinámicamente las rutas de razonamiento erróneas durante la inferencia. Nuestro enfoque demuestra una fuerte generalización en diversos modelos, funcionando de manera efectiva tanto en los modelos de razonamiento como en los modelos no de condición. Además, logra un rendimiento de última generación para modelos de una escala similar en múltiples puntos de referencia matemáticos, al tiempo que ofrece mejoras consistentes en los puntos de referencia de código. Nuestro código estará disponible públicamente en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web