Resumen: El aprendizaje por refuerzo (RL) puede generar un razonamiento sólido en modelos de lenguaje grandes (LLM), sin embargo, la mayoría de los esfuerzos abiertos se centran en las matemáticas y el código. Proponemos el Currículo de Razonamiento, un currículo simple de dos etapas que primero genera habilidades de razonamiento en dominios alineados con el entrenamiento previo, como las matemáticas, y luego adapta y refina estas habilidades en otros dominios a través de RL conjunto. La etapa 1 realiza un breve inicio en frío y luego RL solo de matemáticas con recompensas verificables para desarrollar habilidades de razonamiento. La etapa 2 ejecuta RL conjunta sobre datos de dominio mixto para transferir y consolidar estas habilidades. El plan de estudios es mínimo e independiente de la columna vertebral, y no requiere modelos de recompensa especializados más allá de las comprobaciones de verificabilidad estándar. Evaluado en Qwen3-4B y Llama-3.1-8B en una suite multidominio, el plan de estudios de razonamiento produce ganancias consistentes. Las ablaciones y un análisis de habilidades cognitivas indican que ambas etapas son necesarias y que la obtención de matemáticas primero aumenta los comportamientos cognitivos importantes para resolver problemas complejos. Reasoning Curriculum proporciona una receta compacta y fácil de adoptar para el razonamiento general.
Publicado originalmente en export.arxiv.org el 30 de octubre de 2025.
Ver fuente original
