Currículo de auto evolución para el razonamiento de LLM

Resumen: El aprendizaje de refuerzo (RL) ha demostrado ser efectivo para ajustar los modelos de idiomas grandes (LLM), mejorando significativamente sus habilidades de razonamiento en dominios como las matemáticas y la generación de códigos. Un factor crucial que influye en el éxito de ajuste fino de RL es el plan de estudios de entrenamiento: el orden en el que se presentan los problemas de entrenamiento. Mientras que los planes de estudio aleatorios sirven como líneas de base comunes, permanecen subóptimas; Los planes de estudio diseñados manualmente a menudo dependen en gran medida de la heurística, y los métodos de filtrado en línea pueden ser computacionalmente prohibitivos. Para abordar estas limitaciones, proponemos el plan de estudios de auto evolución (SEC), un método de aprendizaje del plan de estudios automático que aprende una política del plan de estudios al mismo tiempo con el proceso de ajuste fino RL. Nuestro enfoque formula la selección del plan de estudios como un problema de bandidos múltiples no estacionarios, tratando cada categoría de problemas (por ejemplo, nivel de dificultad o tipo de problema) como un brazo individual. Aprovechamos la ventaja absoluta de los métodos de gradiente de políticas como una medida proxy para obtener ganancias de aprendizaje inmediato. En cada paso de capacitación, la política del plan de estudios selecciona categorías para maximizar esta señal de recompensa y se actualiza utilizando el método TD (0). En tres dominios de razonamiento distintos: planificación, razonamiento inductivo y matemáticas, nuestros experimentos demuestran que la SEC mejora significativamente las capacidades de razonamiento de los modelos, lo que permite una mejor generalización a problemas de pruebas más difíciles de distribución. Además, nuestro enfoque logra un mejor equilibrio de habilidades al ajustar simultáneamente en múltiples dominios de razonamiento. Estos hallazgos destacan a SEC como una estrategia prometedora para el ajuste de RL de LLM.

Publicado Originalme en rss.arxiv.org El 21 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Refuerzo profundo Estrategia de control longitudinal basada en el aprendizaje para vehículos automatizados en intersecciones señalizadas

El patrón espacio-temporal asistido por la topología se desenreda para la marga escalable en control de tráfico autónomo a gran escala

Chemrxivquest: una base de datos de preguntas de química curada extraída de preimpresiones Chemrxiv

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido