Mejora de las capacidades de razonamiento en SLM con destilación del conjunto de datos guiados por recompensa

Resumen: El impulso para comprimir e impartir la competencia de los modelos de idiomas grandes (LLM) en modelos de lenguaje pequeño más desplegables y eficientes (SLMS) se ha beneficiado de las mejoras en las técnicas de destilación de conocimiento (KD). Estas técnicas permiten que un modelo de estudiante más pequeño aprenda de las respuestas de un modelo de maestro más capaz y más grande. Sin embargo, la destilación a menudo gira en torno al modelo de estudiante que simplemente copia las respuestas en distribución del maestro, lo que limita su generalización. Esta limitación se amplifica en las tareas de razonamiento y puede ser computacionalmente costosa. En este estudio, proponemos AdvDistill, un marco de destilación del conjunto de datos guiado por recompensas. Utilizamos múltiples generaciones (respuestas) de un maestro para cada aviso y asignamos recompensas basadas en verificadores basados en reglas. Estas recompensas variables y normalmente distribuidas sirven como pesas al capacitar a los modelos de estudiantes. Nuestros métodos y su posterior análisis de comportamiento demuestran una mejora significativa en el rendimiento del modelo de estudiante para tareas de razonamiento matemático y complejo, mostrando la eficacia y los beneficios de incorporar un mecanismo gratificante en los procesos de destilación de conjuntos de datos.

Publicado Originalme en export.arxiv.org El 1 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El punto de referencia MUSE: sondeo de la percepción musical y el razonamiento relacional auditivo en audio LLMS

Aprendizaje de refuerzo de generación a nivel de procedimiento alineado por humanos a través de la representación compartida

BGO Montaje y Logistik y Rosenberger Telematics – Eficiencia y seguridad en la transformación digital

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido