Resumen: El diseño de LLM con capacidad de razonamiento efectiva generalmente requiere capacitación utilizando el aprendizaje de refuerzo con recompensas verificables (RLVR) o destilación con una larga cadena de pensamientos cuidadosamente curada (COT), las cuales dependen en gran medida de los datos de entrenamiento extensos. Esto crea un desafío importante cuando la cantidad de datos de capacitación de calidad es escasa. Proponemos una estrategia de capacitación de dos etapas y eficiente en la muestra para desarrollar LLM de razonamiento bajo supervisión limitada. En la primera etapa, “calentamos” el modelo destilando cunas largas de un dominio de juguete, a saber, los rompecabezas lógicos de Knights & Knaves (K & K) para adquirir habilidades de razonamiento general. En la segunda etapa, aplicamos RLVR al modelo calentado utilizando un conjunto limitado de ejemplos de dominio objetivo. Nuestros experimentos demuestran que este enfoque de dos fases ofrece varios beneficios: $ (i) $ La fase de calentamiento por sí sola facilita el razonamiento generalizado, lo que lleva a mejoras de rendimiento en una variedad de tareas, incluidas las matemáticas, el humanal $^{+} $ y MMLU-Pro. $ (ii) $ Cuando tanto el modelo base como el modelo calentado están entrenados RLVR en el mismo conjunto de datos pequeño ($ leq100 $ ejemplos), el modelo calentado supera constantemente el modelo base; $ (iii) $ calentamiento antes del entrenamiento RLVR permite que un modelo mantenga la generalización de dominio cruzado incluso después del entrenamiento en un dominio específico; $ (iv) $ Introducción de calentamiento en la tubería mejora no solo la precisión sino también la eficiencia general de la muestra durante el entrenamiento RLVR. Los resultados en este documento destacan la promesa de calentamiento para construir LLM de razonamiento robusto en entornos de escasez de datos.
Publicado Originalme en rss.arxiv.org El 20 de mayo de 2025.
Ver Fuente Original