Aprendizaje curricular para una destilación eficiente de la cadena de pensamiento mediante enmascaramiento consciente de la estructura y GRPO

Resumen: Destilar el razonamiento en cadena de pensamiento (CdT) de grandes modelos lingüísticos a modelos compactos de estudiantes presenta un desafío fundamental: los fundamentos de los docentes suelen ser demasiado detallados para que los modelos más pequeños los reproduzcan fielmente. Los enfoques existentes comprimen el razonamiento en un solo paso, perdiendo la interpretabilidad que hace que CoT sea valioso. Presentamos un marco de aprendizaje curricular de tres etapas que aborda este desajuste de capacidades mediante la adquisición progresiva de habilidades. En primer lugar, establecemos una comprensión estructural mediante una reconstrucción barajada enmascarada. En segundo lugar, aplicamos la optimización de políticas relativas al grupo (GRPO) en tareas de finalización enmascaradas, lo que permite que el modelo descubra su propio equilibrio entre precisión y brevedad. En tercer lugar, identificamos casos de fracaso persistentes y guiamos al estudiante para que internalice el conocimiento del docente a través de una reescritura específica, nuevamente optimizada con GRPO. Los experimentos en GSM8K demuestran que nuestro enfoque permite que Qwen2.5-3B-Base logre una mejora de precisión del 11,29 por ciento al tiempo que reduce la longitud de salida en un 27,4 por ciento, superando tanto las variantes ajustadas por instrucciones como los métodos de destilación anteriores.

Publicado originalmente en export.arxiv.org el 22 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Ajuste de condiciones semánticas: fusión del contexto de gráficos con modelos de lenguaje grandes para completar gráficos de conocimiento

UDA: Alineación de debiaes sin supervisión para pares de LLM-as-a-Judge

CONSEJERO DE GRÁFICOS: Exploración de gráficos adaptativos a través de la sinergia de múltiples agentes para mejorar el razonamiento de LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido