Los LLM no califican ensayos como los humanos

Resumen: Recientemente se han propuesto modelos de lenguaje grandes como herramientas para la calificación automatizada de ensayos, pero su concordancia con la calificación humana aún no está clara. En este trabajo, evaluamos cómo se comparan las puntuaciones generadas por LLM con las calificaciones humanas y analizamos el comportamiento de calificación de varios modelos de las familias GPT y Llama en un entorno listo para usar, sin capacitación específica para tareas. Nuestros resultados muestran que la concordancia entre las puntuaciones de LLM y humanas sigue siendo relativamente débil y varía según las características del ensayo. En particular, en comparación con los evaluadores humanos, los LLM tienden a asignar puntuaciones más altas a ensayos cortos o poco desarrollados, mientras que asignan puntuaciones más bajas a ensayos más largos que contienen errores gramaticales u ortográficos menores. También encontramos que las puntuaciones generadas por los LLM son generalmente consistentes con la retroalimentación que generan: los ensayos que reciben más elogios tienden a recibir puntuaciones más altas, mientras que los ensayos que reciben más críticas tienden a recibir puntuaciones más bajas. Estos resultados sugieren que las puntuaciones y la retroalimentación generadas por el LLM siguen patrones coherentes, pero se basan en señales que difieren de las utilizadas por los evaluadores humanos, lo que resulta en una alineación limitada con las prácticas de calificación humanas. Sin embargo, nuestro trabajo muestra que los LLM producen comentarios que son consistentes con su calificación y que pueden usarse de manera confiable para respaldar la calificación de los ensayos.

Publicado originalmente en export.arxiv.org el 25 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Fluid Grey 2: ¿Qué tan bien aprende Generative Adversarial Network una estructura topológica más profunda en una arquitectura que coincide con imágenes?

Desde feromonas hasta políticas: aprendizaje de refuerzo para enjambres biológicos de ingeniería

SCC-Recusividad en argumentación infinita (versión extendida)

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido