En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->¿Cuánto retroceso es suficiente? Explorando la interacción de SFT y RL para mejorar el razonamiento de LLM

¿Cuánto retroceso es suficiente? Explorando la interacción de SFT y RL para mejorar el razonamiento de LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los avances recientes en los modelos de lenguaje grande (LLM) han mejorado efectivamente sus habilidades de razonamiento, particularmente en problemas matemáticos y lógicos que tienen respuestas verificables, a través de técnicas como Finetuning supervisado (SFT) y aprendizaje de refuerzo (RL). Investigaciones anteriores indican que RL internaliza efectivamente las estrategias de búsqueda, lo que permite el razonamiento largo de la cadena de pensamiento (COT), con un retroceso emergente naturalmente como una capacidad aprendida. Sin embargo, los beneficios precisos de retroceso, específicamente, cuán significativamente contribuye a las mejoras de razonamiento y el alcance óptimo de su uso, siguen siendo poco conocidos. En este trabajo, investigamos sistemáticamente la dinámica entre SFT y RL en ocho tareas de razonamiento: cuenta regresiva, sudoku, arco 1d, geometría, rotación de cubos de color, funciones de listas, rompecabezas de cebra y autosuficiencia. Nuestros hallazgos destacan que las secuencias de cuna cortas utilizadas en SFT como calentamiento tienen una contribución moderada al entrenamiento de RL, en comparación con RL de inicio frío; Sin embargo, dicha contribución disminuye cuando las tareas se vuelven cada vez más difíciles. Motivado por esta observación, construimos conjuntos de datos sintéticos que varían sistemáticamente en el número de pasos de retroceso y realizamos experimentos controlados para aislar la influencia de la corrección (contenido) o la estructura (es decir, la frecuencia de retroceso). Encontramos que (1) la cuna más larga con retroceso generalmente induce un entrenamiento RL mejor y más estable, (2) problemas más desafiantes con un espacio de búsqueda más grande tienden a necesitar un mayor número de retroceso durante la etapa SFT. Además, demostramos a través de experimentos en datos destilados que el entrenamiento RL no se ve afectado en gran medida por la corrección de secuencias de cuna largas, lo que sugiere que RL prioriza los patrones estructurales sobre la corrección del contenido. Colectivamente, nuestros resultados ofrecen ideas prácticas sobre el diseño de estrategias de capacitación óptimas para escalar efectivamente el razonamiento en LLM.

Publicado Originalme en rss.arxiv.org El 1 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web