Resumen:Presentamos method{}, un marco de destilación que evita este cuello de botella entrenando sondas livianas en estados congelados ocultos de los maestros y utilizando las predicciones de la sonda, en lugar de logits de salida, como supervisión para la capacitación de los estudiantes. Este simple cambio produce mejoras consistentes en cuatro puntos de referencia de razonamiento (AQuA-RAT, ARC Easy/Challenge y MMLU), con ganancias más pronunciadas con datos limitados.
Las sondas entrenadas en representaciones intermedias proporcionan etiquetas más limpias que las propias salidas del profesor, eliminando efectivamente el ruido de la señal de destilación. method{} no requiere cambios de arquitectura para el estudiante o el profesor, es independiente de la arquitectura y agrega una computación mínima ya que el entrenamiento de la sonda es barato y las representaciones de los profesores se pueden almacenar en caché. Al explotar las representaciones internas, method{} permite a los profesionales extraer más valor de grandes modelos docentes sin datos de capacitación adicionales ni complejidad arquitectónica.
Publicado originalmente en export.arxiv.org el 15 de marzo de 2026.
Ver fuente original
