Destilación de conocimientos para tareas específicas mediante sondas intermedias

Resumen:Presentamos method{}, un marco de destilación que evita este cuello de botella entrenando sondas livianas en estados congelados ocultos de los maestros y utilizando las predicciones de la sonda, en lugar de logits de salida, como supervisión para la capacitación de los estudiantes. Este simple cambio produce mejoras consistentes en cuatro puntos de referencia de razonamiento (AQuA-RAT, ARC Easy/Challenge y MMLU), con ganancias más pronunciadas con datos limitados.
Las sondas entrenadas en representaciones intermedias proporcionan etiquetas más limpias que las propias salidas del profesor, eliminando efectivamente el ruido de la señal de destilación. method{} no requiere cambios de arquitectura para el estudiante o el profesor, es independiente de la arquitectura y agrega una computación mínima ya que el entrenamiento de la sonda es barato y las representaciones de los profesores se pueden almacenar en caché. Al explotar las representaciones internas, method{} permite a los profesionales extraer más valor de grandes modelos docentes sin datos de capacitación adicionales ni complejidad arquitectónica.

Publicado originalmente en export.arxiv.org el 15 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Entregando un sexto sentido digital con redes de próxima generación

Aprendizaje por refuerzo para tareas desordenadas a largo plazo: de máquinas de recompensa booleanas a acopladas

Clicksight: Interpretación de Clickstreams de los estudiantes para revelar ideas sobre estrategias de aprendizaje a través de LLMS

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido