En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Currículo de auto evolución para el razonamiento de LLM

Currículo de auto evolución para el razonamiento de LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El aprendizaje de refuerzo (RL) ha demostrado ser efectivo para ajustar los modelos de idiomas grandes (LLM), mejorando significativamente sus habilidades de razonamiento en dominios como las matemáticas y la generación de códigos. Un factor crucial que influye en el éxito de ajuste fino de RL es el plan de estudios de entrenamiento: el orden en el que se presentan los problemas de entrenamiento. Mientras que los planes de estudio aleatorios sirven como líneas de base comunes, permanecen subóptimas; Los planes de estudio diseñados manualmente a menudo dependen en gran medida de la heurística, y los métodos de filtrado en línea pueden ser computacionalmente prohibitivos. Para abordar estas limitaciones, proponemos el plan de estudios de auto evolución (SEC), un método de aprendizaje del plan de estudios automático que aprende una política del plan de estudios al mismo tiempo con el proceso de ajuste fino RL. Nuestro enfoque formula la selección del plan de estudios como un problema de bandidos múltiples no estacionarios, tratando cada categoría de problemas (por ejemplo, nivel de dificultad o tipo de problema) como un brazo individual. Aprovechamos la ventaja absoluta de los métodos de gradiente de políticas como una medida proxy para obtener ganancias de aprendizaje inmediato. En cada paso de capacitación, la política del plan de estudios selecciona categorías para maximizar esta señal de recompensa y se actualiza utilizando el método TD (0). En tres dominios de razonamiento distintos: planificación, razonamiento inductivo y matemáticas, nuestros experimentos demuestran que la SEC mejora significativamente las capacidades de razonamiento de los modelos, lo que permite una mejor generalización a problemas de pruebas más difíciles de distribución. Además, nuestro enfoque logra un mejor equilibrio de habilidades al ajustar simultáneamente en múltiples dominios de razonamiento. Estos hallazgos destacan a SEC como una estrategia prometedora para el ajuste de RL de LLM.

Publicado Originalme en rss.arxiv.org El 21 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web