IB-GRPO: Alinear la recomendación de la ruta de aprendizaje basada en LLM con los objetivos educativos a través de la optimización de políticas relativas al grupo basada en indicadores

Resumen:Learning Path Recommendation (LPR) tiene como objetivo generar secuencias personalizadas de elementos de aprendizaje que maximicen el efecto de aprendizaje a largo plazo respetando los principios pedagógicos y las limitaciones operativas. Aunque los modelos de lenguaje grande (LLM) ofrecen una rica comprensión semántica para recomendaciones de forma libre, aplicarlos a LPR de largo plazo es un desafío debido a (i) la desalineación con objetivos pedagógicos como la Zona de Desarrollo Próximo (ZPD) bajo retroalimentación escasa y retrasada, (ii) demostraciones de expertos escasas y costosas, y (iii) interacciones multiobjetivo entre el efecto del aprendizaje, la dificultad de programación, la controlabilidad de la duración y la diversidad de trayectorias. Para abordar estos problemas, proponemos IB-GRPO (Optimización de políticas relativas de grupo basada en indicadores), un enfoque de alineación guiado por indicadores para LPR basado en LLM. Para mitigar la escasez de datos, construimos demostraciones híbridas de expertos a través de búsqueda de algoritmos genéticos y agentes de RL docentes y ponemos en marcha el LLM con ajustes supervisados. Sobre la base de este comienzo en caliente, diseñamos una puntuación de alineación ZPD dentro de la sesión para las dificultades de programación. Luego, IB-GRPO utiliza el indicador de dominancia $I_{epsilon+}$ para calcular las ventajas relativas del grupo sobre múltiples objetivos, evitando la escalarización manual y mejorando las compensaciones de Pareto. Los experimentos en ASSIST09 y Junyi utilizando el simulador KES con una red troncal Qwen2.5-7B muestran mejoras consistentes con respecto a las líneas de base representativas de RL y LLM.

Publicado originalmente en export.arxiv.org el 21 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Maestro: Optimización de gráficos y configuración conjuntos para agentes de IA confiables

Amazon pone a prueba un nuevo vehículo de reparto eléctrico asistido por pedaleo

¿Conócete a ti mismo? Sobre la incapacidad y las implicaciones del autorreconocimiento de la IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido