Resumen: El impulso para comprimir e impartir la competencia de los modelos de idiomas grandes (LLM) en modelos de lenguaje pequeño más desplegables y eficientes (SLMS) se ha beneficiado de las mejoras en las técnicas de destilación de conocimiento (KD). Estas técnicas permiten que un modelo de estudiante más pequeño aprenda de las respuestas de un modelo de maestro más capaz y más grande. Sin embargo, la destilación a menudo gira en torno al modelo de estudiante que simplemente copia las respuestas en distribución del maestro, lo que limita su generalización. Esta limitación se amplifica en las tareas de razonamiento y puede ser computacionalmente costosa. En este estudio, proponemos AdvDistill, un marco de destilación del conjunto de datos guiado por recompensas. Utilizamos múltiples generaciones (respuestas) de un maestro para cada aviso y asignamos recompensas basadas en verificadores basados en reglas. Estas recompensas variables y normalmente distribuidas sirven como pesas al capacitar a los modelos de estudiantes. Nuestros métodos y su posterior análisis de comportamiento demuestran una mejora significativa en el rendimiento del modelo de estudiante para tareas de razonamiento matemático y complejo, mostrando la eficacia y los beneficios de incorporar un mecanismo gratificante en los procesos de destilación de conjuntos de datos.
Publicado Originalme en export.arxiv.org El 1 de julio de 2025.
Ver Fuente Original