RefGrader: Calificación automatizada de pruebas de competencia matemática utilizando flujos de trabajo agentes

Resumen: Los LLM de última generación (SOTA) han pasado de luchar con problemas de las Olimpiadas basados en pruebas a resolver la mayoría de los problemas de la OMI 2025, y, según se informa, los sistemas líderes manejan 5 de 6 problemas. Dado este progreso, evaluamos qué tan bien estos modelos pueden calificar las pruebas: detectando errores, juzgando su gravedad y asignando puntuaciones justas más allá de la corrección binaria. Estudiamos las capacidades de análisis de pruebas utilizando un corpus de 90 soluciones generadas por Gemini 2.5 Pro que calificamos en una escala de 1 a 4 con anotaciones de error detalladas, y en conjuntos de soluciones MathArena para IMO/USAMO 2025 calificadas en una escala de 0 a 7. Nuestro análisis muestra que los modelos pueden señalar de manera confiable soluciones incorrectas (incluso sutilmente incorrectas), pero exhiben brechas de calibración en cómo se asigna el crédito parcial. Para abordar esto, presentamos flujos de trabajo agentes que extraen y analizan soluciones de referencia y derivan automáticamente rúbricas específicas de problemas para un proceso de calificación de varios pasos. Creamos instancias y comparamos diferentes opciones de diseño para los flujos de trabajo de calificación y evaluamos sus compensaciones. En nuestro corpus anotado y MathArena, nuestros flujos de trabajo propuestos logran una mayor concordancia con las calificaciones humanas y un manejo más consistente del crédito parcial en todas las métricas. Publicamos todo el código, los datos y las indicaciones/registros para facilitar futuras investigaciones.

Publicado originalmente en export.arxiv.org el 12 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Trump está presionando a Leucovorin como un nuevo tratamiento para el autismo. ¿Qué es?

Techex Europe 2025, se lleva a cabo del 24 al 25 de septiembre en Rai Amsterdam.

Brechas de implementación interna en la regulación de la IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido