HEAL: Aprendizaje asistido por entropía en retrospectiva para la destilación del razonamiento

Resumen: Destilar las capacidades de razonamiento de los grandes modelos de razonamiento (LRM) en modelos más pequeños suele estar limitado por la limitación del muestreo de rechazo. Los métodos estándar tratan al profesor como un filtro estático, descartando problemas complejos de “caso de esquina” en los que el profesor no logra explorar soluciones válidas de forma independiente, creando así un “techo del profesor” artificial para el estudiante. En este trabajo, proponemos el aprendizaje asistido por entropía retrospectiva (HEAL), un marco sin RL diseñado para cerrar esta brecha de razonamiento. Basándose en la teoría educativa de la Zona de Desarrollo Próximo (ZPD), HEAL combina tres módulos principales: (1) Reparación guiada asistida por entropía (GEAR), un mecanismo de intervención activa que detecta puntos críticos de razonamiento a través de dinámicas de entropía e inyecta sugerencias retrospectivas específicas para reparar trayectorias rotas; (2) Estimador de la relación de perplejidad-incertidumbre (PURE), un riguroso protocolo de filtrado que desacopla los avances cognitivos genuinos de los atajos espurios; y (3) Evolución curricular progresiva guiada por respuestas (PACE), una estrategia de destilación de tres etapas que organiza la capacitación desde la alineación fundamental hasta el avance de fronteras. Amplios experimentos en múltiples puntos de referencia demuestran que HEAL supera significativamente a la destilación SFT tradicional y otras líneas de base.

Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Las líneas de base simples son competitivas con la evolución del código

La navegación cuántica podría resolver el problema de interferencia del GPS del ejército

Invertir en la promesa de la cuántica

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido