¿Cuánto retroceso es suficiente? Explorando la interacción de SFT y RL para mejorar el razonamiento de LLM

Resumen: Los avances recientes en los modelos de lenguaje grande (LLM) han mejorado efectivamente sus habilidades de razonamiento, particularmente en problemas matemáticos y lógicos que tienen respuestas verificables, a través de técnicas como Finetuning supervisado (SFT) y aprendizaje de refuerzo (RL). Investigaciones anteriores indican que RL internaliza efectivamente las estrategias de búsqueda, lo que permite el razonamiento largo de la cadena de pensamiento (COT), con un retroceso emergente naturalmente como una capacidad aprendida. Sin embargo, los beneficios precisos de retroceso, específicamente, cuán significativamente contribuye a las mejoras de razonamiento y el alcance óptimo de su uso, siguen siendo poco conocidos. En este trabajo, investigamos sistemáticamente la dinámica entre SFT y RL en ocho tareas de razonamiento: cuenta regresiva, sudoku, arco 1d, geometría, rotación de cubos de color, funciones de listas, rompecabezas de cebra y autosuficiencia. Nuestros hallazgos destacan que las secuencias de cuna cortas utilizadas en SFT como calentamiento tienen una contribución moderada al entrenamiento de RL, en comparación con RL de inicio frío; Sin embargo, dicha contribución disminuye cuando las tareas se vuelven cada vez más difíciles. Motivado por esta observación, construimos conjuntos de datos sintéticos que varían sistemáticamente en el número de pasos de retroceso y realizamos experimentos controlados para aislar la influencia de la corrección (contenido) o la estructura (es decir, la frecuencia de retroceso). Encontramos que (1) la cuna más larga con retroceso generalmente induce un entrenamiento RL mejor y más estable, (2) problemas más desafiantes con un espacio de búsqueda más grande tienden a necesitar un mayor número de retroceso durante la etapa SFT. Además, demostramos a través de experimentos en datos destilados que el entrenamiento RL no se ve afectado en gran medida por la corrección de secuencias de cuna largas, lo que sugiere que RL prioriza los patrones estructurales sobre la corrección del contenido. Colectivamente, nuestros resultados ofrecen ideas prácticas sobre el diseño de estrategias de capacitación óptimas para escalar efectivamente el razonamiento en LLM.

Publicado Originalme en rss.arxiv.org El 1 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Linux Foundation anuncia el Proyecto de Administrador de paquetes justos para la estabilidad del sistema de gestión de contenido de código abierto

Modelo de la elección del gráfico del trapo humano: construir un agente de movilidad basado en datos con cadena de preferencias

Probé el nuevo navegador Atlas de OpenAI pero todavía no sé para qué sirve

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido