En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Los LLM no califican ensayos como los humanos

Los LLM no califican ensayos como los humanos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Recientemente se han propuesto modelos de lenguaje grandes como herramientas para la calificación automatizada de ensayos, pero su concordancia con la calificación humana aún no está clara. En este trabajo, evaluamos cómo se comparan las puntuaciones generadas por LLM con las calificaciones humanas y analizamos el comportamiento de calificación de varios modelos de las familias GPT y Llama en un entorno listo para usar, sin capacitación específica para tareas. Nuestros resultados muestran que la concordancia entre las puntuaciones de LLM y humanas sigue siendo relativamente débil y varía según las características del ensayo. En particular, en comparación con los evaluadores humanos, los LLM tienden a asignar puntuaciones más altas a ensayos cortos o poco desarrollados, mientras que asignan puntuaciones más bajas a ensayos más largos que contienen errores gramaticales u ortográficos menores. También encontramos que las puntuaciones generadas por los LLM son generalmente consistentes con la retroalimentación que generan: los ensayos que reciben más elogios tienden a recibir puntuaciones más altas, mientras que los ensayos que reciben más críticas tienden a recibir puntuaciones más bajas. Estos resultados sugieren que las puntuaciones y la retroalimentación generadas por el LLM siguen patrones coherentes, pero se basan en señales que difieren de las utilizadas por los evaluadores humanos, lo que resulta en una alineación limitada con las prácticas de calificación humanas. Sin embargo, nuestro trabajo muestra que los LLM producen comentarios que son consistentes con su calificación y que pueden usarse de manera confiable para respaldar la calificación de los ensayos.

Publicado originalmente en export.arxiv.org el 25 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web