Resumen: Destilar el razonamiento en cadena de pensamiento (CdT) de grandes modelos lingüísticos a modelos compactos de estudiantes presenta un desafío fundamental: los fundamentos de los docentes suelen ser demasiado detallados para que los modelos más pequeños los reproduzcan fielmente. Los enfoques existentes comprimen el razonamiento en un solo paso, perdiendo la interpretabilidad que hace que CoT sea valioso. Presentamos un marco de aprendizaje curricular de tres etapas que aborda este desajuste de capacidades mediante la adquisición progresiva de habilidades. En primer lugar, establecemos una comprensión estructural mediante una reconstrucción barajada enmascarada. En segundo lugar, aplicamos la optimización de políticas relativas al grupo (GRPO) en tareas de finalización enmascaradas, lo que permite que el modelo descubra su propio equilibrio entre precisión y brevedad. En tercer lugar, identificamos casos de fracaso persistentes y guiamos al estudiante para que internalice el conocimiento del docente a través de una reescritura específica, nuevamente optimizada con GRPO. Los experimentos en GSM8K demuestran que nuestro enfoque permite que Qwen2.5-3B-Base logre una mejora de precisión del 11,29 por ciento al tiempo que reduce la longitud de salida en un 27,4 por ciento, superando tanto las variantes ajustadas por instrucciones como los métodos de destilación anteriores.
Publicado originalmente en export.arxiv.org el 22 de febrero de 2026.
Ver fuente original
