Resumen:Este trabajo presenta EduEVAL-DB, un conjunto de datos basado en roles docentes diseñado para apoyar la evaluación y capacitación de evaluadores pedagógicos automáticos y tutores de IA para explicaciones instructivas. El conjunto de datos comprende 854 explicaciones correspondientes a 139 preguntas de un subconjunto seleccionado del punto de referencia ScienceQA, que abarca ciencias, lenguaje y ciencias sociales en los niveles de grado K-12. Para cada pregunta, se proporciona una explicación de profesor humano y seis se generan mediante roles de profesor simulados por LLM. Estos roles se inspiran en estilos de instrucción y deficiencias observadas en la práctica educativa real y se ejemplifican mediante ingeniería rápida. Además, proponemos una rúbrica de riesgo pedagógico alineada con los estándares educativos establecidos, operacionalizando cinco dimensiones de riesgo complementarias: corrección fáctica, profundidad e integridad explicativa, enfoque y relevancia, idoneidad a nivel de estudiante y sesgo ideológico. Todas las explicaciones están anotadas con etiquetas de riesgo binarias mediante un proceso semiautomático con revisión de profesores expertos. Finalmente, presentamos experimentos de validación preliminares para evaluar la idoneidad de EduEVAL-DB para la evaluación. Comparamos un modelo orientado a la educación de última generación (Gemini 2.5 Pro) con un modelo local liviano Llama 3.1 8B y examinamos si el ajuste supervisado en EduEVAL-DB admite la detección de riesgos pedagógicos utilizando modelos implementables en hardware de consumo.
Publicado originalmente en export.arxiv.org el 17 de febrero de 2026.
Ver fuente original
