Benchmarking Modelos de idiomas grandes para orientación personalizada en el aprendizaje mejorado por AI

Resumen: mientras que los modelos de idiomas grandes (LLM) se imaginan cada vez más como asistentes inteligentes para el aprendizaje personalizado, las evaluaciones sistemáticas de cabeza a cabeza dentro de escenarios de aprendizaje auténticos siguen siendo limitadas. Este estudio lleva a cabo una comparación empírica de tres LLM de última generación en una tarea de tutoría que simula un entorno de aprendizaje realista. Utilizando un conjunto de datos que comprende las respuestas de un estudiante a diez preguntas de formatos mixtos con etiquetas de corrección, cada LLM debe (i) analizar el cuestionario para identificar componentes de conocimiento subyacentes, (ii) inferir el perfil de dominio del estudiante y (iii) generar una guía específica para mejorar. Para mitigar la subjetividad y el sesgo del evaluador, empleamos a Gemini como juez virtual para realizar comparaciones por pares a lo largo de varias dimensiones: precisión, claridad, acción y adecuación. Los resultados analizados a través del modelo Bradley-Terry indican que generalmente se prefiere GPT-4O, produciendo retroalimentación que es más informativa y mejor estructurada que sus contrapartes, mientras que Deepseek-V3 y GLM-4.5 demuestran fuerzas intermitentes pero una consistencia más baja. Estos hallazgos destacan la viabilidad de implementar LLM como asistentes de enseñanza avanzados para el apoyo individualizado y brindan orientación metodológica para futuras investigaciones empíricas sobre el aprendizaje personalizado impulsado por LLM.

Publicado Originalme en export.arxiv.org El 8 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

MCU: Mejora de la conectividad del modo de desaprendizaje de la máquina

Un punto de referencia para generalizar en diversas estrategias de equipo en competitivo Pok ‘Emon

SynllM: un análisis comparativo de modelos de lenguaje grande para la generación de datos sintéticos tabulares médicos a través de ingeniería rápida

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido