Resumen: Destilar las capacidades de razonamiento de los grandes modelos de razonamiento (LRM) en modelos más pequeños suele estar limitado por la limitación del muestreo de rechazo. Los métodos estándar tratan al profesor como un filtro estático, descartando problemas complejos de “caso de esquina” en los que el profesor no logra explorar soluciones válidas de forma independiente, creando así un “techo del profesor” artificial para el estudiante. En este trabajo, proponemos el aprendizaje asistido por entropía retrospectiva (HEAL), un marco sin RL diseñado para cerrar esta brecha de razonamiento. Basándose en la teoría educativa de la Zona de Desarrollo Próximo (ZPD), HEAL combina tres módulos principales: (1) Reparación guiada asistida por entropía (GEAR), un mecanismo de intervención activa que detecta puntos críticos de razonamiento a través de dinámicas de entropía e inyecta sugerencias retrospectivas específicas para reparar trayectorias rotas; (2) Estimador de la relación de perplejidad-incertidumbre (PURE), un riguroso protocolo de filtrado que desacopla los avances cognitivos genuinos de los atajos espurios; y (3) Evolución curricular progresiva guiada por respuestas (PACE), una estrategia de destilación de tres etapas que organiza la capacitación desde la alineación fundamental hasta el avance de fronteras. Amplios experimentos en múltiples puntos de referencia demuestran que HEAL supera significativamente a la destilación SFT tradicional y otras líneas de base.
Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original
