Resumen:El rápido aumento de los grandes modelos lingüísticos (LLM) está remodelando el panorama de la evaluación automática en la educación. Si bien estos sistemas demuestran ventajas sustanciales en cuanto a adaptabilidad a diversos tipos de preguntas y flexibilidad en los formatos de resultados, también introducen nuevos desafíos relacionados con la incertidumbre de los resultados, derivados de la naturaleza inherentemente probabilística de los LLM. La incertidumbre en el resultado es un desafío ineludible en la evaluación automática, ya que los resultados de la evaluación a menudo desempeñan un papel fundamental a la hora de informar acciones pedagógicas posteriores, como proporcionar retroalimentación a los estudiantes o guiar las decisiones de instrucción. Las estimaciones de incertidumbre poco fiables o mal calibradas pueden dar lugar a intervenciones posteriores inestables, lo que podría alterar los procesos de aprendizaje de los estudiantes y provocar consecuencias negativas no deseadas. Para comprender sistemáticamente este desafío e informar investigaciones futuras, comparamos una amplia gama de métodos de cuantificación de la incertidumbre en el contexto de la evaluación automática basada en LLM. Aunque la eficacia de estos métodos se ha demostrado en muchas tareas en otros dominios, su aplicabilidad y confiabilidad en entornos educativos, particularmente para la calificación automática, aún no se han explorado lo suficiente. A través de análisis integrales de comportamientos de incertidumbre en múltiples conjuntos de datos de evaluación, familias de LLM y entornos de control de generación, caracterizamos los patrones de incertidumbre exhibidos por los LLM en escenarios de calificación. Con base en estos hallazgos, evaluamos las fortalezas y limitaciones de diferentes métricas de incertidumbre y analizamos la influencia de factores clave, incluidas familias de modelos, tareas de evaluación y estrategias de decodificación, en las estimaciones de incertidumbre. Nuestro estudio proporciona información práctica sobre las características de la incertidumbre en la evaluación automática basada en LLM y sienta las bases para desarrollar sistemas de calificación más confiables y efectivos que tengan en cuenta la incertidumbre en el futuro.
Publicado originalmente en export.arxiv.org el 18 de febrero de 2026.
Ver fuente original
