Resumen: mientras que los modelos de idiomas grandes (LLM) se imaginan cada vez más como asistentes inteligentes para el aprendizaje personalizado, las evaluaciones sistemáticas de cabeza a cabeza dentro de escenarios de aprendizaje auténticos siguen siendo limitadas. Este estudio lleva a cabo una comparación empírica de tres LLM de última generación en una tarea de tutoría que simula un entorno de aprendizaje realista. Utilizando un conjunto de datos que comprende las respuestas de un estudiante a diez preguntas de formatos mixtos con etiquetas de corrección, cada LLM debe (i) analizar el cuestionario para identificar componentes de conocimiento subyacentes, (ii) inferir el perfil de dominio del estudiante y (iii) generar una guía específica para mejorar. Para mitigar la subjetividad y el sesgo del evaluador, empleamos a Gemini como juez virtual para realizar comparaciones por pares a lo largo de varias dimensiones: precisión, claridad, acción y adecuación. Los resultados analizados a través del modelo Bradley-Terry indican que generalmente se prefiere GPT-4O, produciendo retroalimentación que es más informativa y mejor estructurada que sus contrapartes, mientras que Deepseek-V3 y GLM-4.5 demuestran fuerzas intermitentes pero una consistencia más baja. Estos hallazgos destacan la viabilidad de implementar LLM como asistentes de enseñanza avanzados para el apoyo individualizado y brindan orientación metodológica para futuras investigaciones empíricas sobre el aprendizaje personalizado impulsado por LLM.
Publicado Originalme en export.arxiv.org El 8 de septiembre de 2025.
Ver Fuente Original