En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Evaluación de LLM de Frontier sobre razonamiento matemático a nivel de doctorado: un punto de referencia en un libro de texto en informática teórica sobre algoritmos aleatorios

Evaluación de LLM de Frontier sobre razonamiento matemático a nivel de doctorado: un punto de referencia en un libro de texto en informática teórica sobre algoritmos aleatorios

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Asignamos a cada modelo la tarea de generar pruebas formales en LaTeX para una serie de lemas y ejercicios que abarcan el libro de texto. Descubrimos que, si bien los modelos de primer nivel (Gemini y Claude) logran una alta tasa de precisión (aproximadamente 66%), lo que demuestra una sólida comprensión del método probabilístico y la lógica formal, otros modelos tienen un retraso significativo en consistencia (aproximadamente 40%). Proporcionamos un análisis cualitativo de las pruebas generadas, destacando diferencias en concisión, tasas de alucinaciones y estructura lógica. Nuestros resultados sugieren que, si bien los modelos de frontera han alcanzado un umbral de competencia adecuado para la asistencia y formalización pedagógica a nivel de posgrado, existe una variación significativa en su confiabilidad para la derivación matemática rigurosa. El código y el conjunto completo de respuestas generadas por LLM son de código abierto y están disponibles públicamente en esta URL https.

Publicado originalmente en export.arxiv.org el 16 de diciembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web