Resumen: Los modelos de lenguaje grande (LLM) se utilizan cada vez más en varios dominios, lo que muestra un potencial impresionante en diferentes tareas. Recientemente, se han propuesto LLM de razonamiento para mejorar las capacidades textit {razonamiento} o textit {pensamiento} de LLM para resolver problemas complejos. A pesar de los resultados prometedores de LLM de razonamiento, mejorar las capacidades de razonamiento de varios pasos de LLM sigue siendo un desafío significativo. Si bien los métodos de optimización existentes han avanzado las capacidades de razonamiento de LLM, a menudo tratan las trayectorias de razonamiento en su conjunto, sin considerar los pasos críticos subyacentes dentro de la trayectoria. En este documento, presentamos textbf {g} Uided textbf {p} ivotal textbf {o} ptimization (GPO), una nueva estrategia de ajuste fino que se sumerge en el proceso de razonamiento para permitir mejoras más efectivas. GPO primero identifica el ‘paso crítico’ dentro de una trayectoria de razonamiento, un punto que el modelo debe proceder cuidadosamente a tener éxito en el problema. Localamos el paso crítico al estimar la función de ventaja. GPO luego restablece la política al paso crítico, muestra el nuevo despliegue y prioriza el proceso de aprendizaje en esos despliegue. Este enfoque permite que el modelo aprenda de manera más efectiva de los momentos fundamentales dentro del proceso de razonamiento para mejorar el rendimiento del razonamiento. Demostramos que GPO es una estrategia general que puede integrarse con varios métodos de optimización para mejorar el rendimiento del razonamiento. Además del análisis teórico, nuestros experimentos en puntos de referencia de razonamiento desafiantes muestran que GPO puede mejorar de manera consistente y significativa el rendimiento de los métodos de optimización existentes, mostrando su efectividad y generalización en la mejora del razonamiento de LLM concentrándose en los momentos fundamentales dentro del proceso de generación.
Publicado Originalme en export.arxiv.org El 22 de septiembre de 2025.
Ver Fuente Original