Resumen: Introducimos a Astro, el “razonador autorregresivo enseñado de búsqueda”, un marco para capacitar modelos de lenguaje para razonar, como algoritmos de búsqueda, aprovechando explícitamente la autorreflexión, el retroceso y la exploración en sus salidas. Recientemente, la capacitación de grandes modelos de idiomas (LLM) a través de Refforing Learning (RL) ha llevado al advenimiento de modelos de razonamiento con capacidades de razonamiento muy mejoradas. Replicaciones de código abierto de modelos de razonamiento, aunque exitosos, se basan en modelos que ya exhiben fuertes capacidades de razonamiento junto con el comportamiento de búsqueda observado incluso antes de RL. Como resultado, aún no está claro cómo aumentar las capacidades de razonamiento de otros modelos que no son de condensador, incluidos Llama 3. Astro enseña a dichos modelos para internalizar el comportamiento de búsqueda estructurado a través de un conjunto de datos sintético derivado de la búsqueda de árboles de Monte Carlo (MCTS) sobre las trayectorias de resolución de problemas matemáticos. Al convertir las trazas de búsqueda en la cadena de pensamientos del lenguaje natural que capturan tanto los éxitos como las recuperaciones del fracaso, Astro Bootstraps modelos con un rico anterior para la exploración durante RL. Finetizamos nuestros modelos en estos trazas derivadas de la búsqueda y mejoramos aún más el rendimiento a través de RL con recompensas verificables. Aplicamos Astro a la familia de modelos Llama 3 y logramos ganancias de rendimiento absolutas de 16.0% en Math-500, 26.9% en AMC 2023 y 20.0% en AIME 2024, especialmente mejorando problemas desafiantes que requieren corrección iterativa. Nuestros resultados demuestran que la capacitación inspirada en la búsqueda ofrece una forma de principios de inculcar capacidades de razonamiento robustas en LLM abiertos.
Publicado Originalme en export.arxiv.org El 1 de julio de 2025.
Ver Fuente Original