En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->RefGrader: Calificación automatizada de pruebas de competencia matemática utilizando flujos de trabajo agentes

RefGrader: Calificación automatizada de pruebas de competencia matemática utilizando flujos de trabajo agentes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los LLM de última generación (SOTA) han pasado de luchar con problemas de las Olimpiadas basados ​​en pruebas a resolver la mayoría de los problemas de la OMI 2025, y, según se informa, los sistemas líderes manejan 5 de 6 problemas. Dado este progreso, evaluamos qué tan bien estos modelos pueden calificar las pruebas: detectando errores, juzgando su gravedad y asignando puntuaciones justas más allá de la corrección binaria. Estudiamos las capacidades de análisis de pruebas utilizando un corpus de 90 soluciones generadas por Gemini 2.5 Pro que calificamos en una escala de 1 a 4 con anotaciones de error detalladas, y en conjuntos de soluciones MathArena para IMO/USAMO 2025 calificadas en una escala de 0 a 7. Nuestro análisis muestra que los modelos pueden señalar de manera confiable soluciones incorrectas (incluso sutilmente incorrectas), pero exhiben brechas de calibración en cómo se asigna el crédito parcial. Para abordar esto, presentamos flujos de trabajo agentes que extraen y analizan soluciones de referencia y derivan automáticamente rúbricas específicas de problemas para un proceso de calificación de varios pasos. Creamos instancias y comparamos diferentes opciones de diseño para los flujos de trabajo de calificación y evaluamos sus compensaciones. En nuestro corpus anotado y MathArena, nuestros flujos de trabajo propuestos logran una mayor concordancia con las calificaciones humanas y un manejo más consistente del crédito parcial en todas las métricas. Publicamos todo el código, los datos y las indicaciones/registros para facilitar futuras investigaciones.

Publicado originalmente en export.arxiv.org el 12 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web