HEAL: Aprendizaje asistido por entropía en retrospectiva para la destilación del razonamiento
Resumen: Destilar las capacidades de razonamiento de los grandes modelos de razonamiento (LRM) en modelos más pequeños suele estar limitado por la limitación del muestreo de rechazo.
Leer más →
Comentarios desactivados en HEAL: Aprendizaje asistido por entropía en retrospectiva para la destilación del razonamiento
11 marzo, 2026
