Resumen:Learning Path Recommendation (LPR) tiene como objetivo generar secuencias personalizadas de elementos de aprendizaje que maximicen el efecto de aprendizaje a largo plazo respetando los principios pedagógicos y las limitaciones operativas. Aunque los modelos de lenguaje grande (LLM) ofrecen una rica comprensión semántica para recomendaciones de forma libre, aplicarlos a LPR de largo plazo es un desafío debido a (i) la desalineación con objetivos pedagógicos como la Zona de Desarrollo Próximo (ZPD) bajo retroalimentación escasa y retrasada, (ii) demostraciones de expertos escasas y costosas, y (iii) interacciones multiobjetivo entre el efecto del aprendizaje, la dificultad de programación, la controlabilidad de la duración y la diversidad de trayectorias. Para abordar estos problemas, proponemos IB-GRPO (Optimización de políticas relativas de grupo basada en indicadores), un enfoque de alineación guiado por indicadores para LPR basado en LLM. Para mitigar la escasez de datos, construimos demostraciones híbridas de expertos a través de búsqueda de algoritmos genéticos y agentes de RL docentes y ponemos en marcha el LLM con ajustes supervisados. Sobre la base de este comienzo en caliente, diseñamos una puntuación de alineación ZPD dentro de la sesión para las dificultades de programación. Luego, IB-GRPO utiliza el indicador de dominancia $I_{epsilon+}$ para calcular las ventajas relativas del grupo sobre múltiples objetivos, evitando la escalarización manual y mejorando las compensaciones de Pareto. Los experimentos en ASSIST09 y Junyi utilizando el simulador KES con una red troncal Qwen2.5-7B muestran mejoras consistentes con respecto a las líneas de base representativas de RL y LLM.
Publicado originalmente en export.arxiv.org el 21 de enero de 2026.
Ver fuente original
