En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Destilación de conocimientos para tareas específicas mediante sondas intermedias

Destilación de conocimientos para tareas específicas mediante sondas intermedias

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Presentamos method{}, un marco de destilación que evita este cuello de botella entrenando sondas livianas en estados congelados ocultos de los maestros y utilizando las predicciones de la sonda, en lugar de logits de salida, como supervisión para la capacitación de los estudiantes. Este simple cambio produce mejoras consistentes en cuatro puntos de referencia de razonamiento (AQuA-RAT, ARC Easy/Challenge y MMLU), con ganancias más pronunciadas con datos limitados.
Las sondas entrenadas en representaciones intermedias proporcionan etiquetas más limpias que las propias salidas del profesor, eliminando efectivamente el ruido de la señal de destilación. method{} no requiere cambios de arquitectura para el estudiante o el profesor, es independiente de la arquitectura y agrega una computación mínima ya que el entrenamiento de la sonda es barato y las representaciones de los profesores se pueden almacenar en caché. Al explotar las representaciones internas, method{} permite a los profesionales extraer más valor de grandes modelos docentes sin datos de capacitación adicionales ni complejidad arquitectónica.

Publicado originalmente en export.arxiv.org el 15 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web