En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->PACED: Destilación en la frontera de la competencia estudiantil

PACED: Destilación en la frontera de la competencia estudiantil

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los desechos de destilación estándar de LLM se calculan en dos frentes: problemas que el estudiante ya domina (gradientes cercanos a cero) y problemas que están mucho más allá de su alcance (gradientes incoherentes que erosionan las capacidades existentes). Mostramos que este desperdicio no es meramente intuitivo sino estructuralmente inevitable: la relación señal-ruido del gradiente en la destilación probablemente desaparece en ambos extremos de la tasa de aprobación. Esta observación teórica conduce a Paced, un marco que concentra la destilación en la zona de desarrollo próximo (la frontera de la competencia de un modelo de estudiante) a través de una ponderación de tasa de aprobación basada en principios $w(p) = p^alpha(1 – p)^beta$ derivada de la estructura de gradientes de destilación que desaparecen los límites. Resultados clave: (1) Teoría: Probamos que el núcleo Beta $w(p) = p^alpha(1-p)^beta$ es una familia de pesos de orden principal que surge de la estructura SNR de la destilación, y que es minimax-robusto; bajo especificación errónea multiplicativa acotada, la pérdida de eficiencia en el peor de los casos es solo $O(delta^2)$. (2) Destilación: al destilar de un modelo de maestro más grande a un modelo de estudiante más pequeño con KL directo, Paced logra una ganancia significativa sobre el modelo base, mientras mantiene el olvido de referencia en un nivel bajo. (3) Autodestilación: en los modelos ajustados por instrucciones con KL inverso, las ganancias también superan las líneas de base. (4) Sinergia de dos etapas: un cronograma KL directo y luego KL inverso produce los resultados más sólidos en nuestro entorno, alcanzando mejoras sustanciales en los puntos de referencia de razonamiento estándar, lo que respalda una interpretación del proceso de destilación de cobertura de modo y luego consolidación. Todas las configuraciones requieren solo implementaciones de estudiantes para estimar las tasas de aprobación, no necesitan cambios arquitectónicos y son compatibles con cualquier dirección de KL.

Publicado originalmente en export.arxiv.org el 12 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web