Resumen:Asignamos a cada modelo la tarea de generar pruebas formales en LaTeX para una serie de lemas y ejercicios que abarcan el libro de texto. Descubrimos que, si bien los modelos de primer nivel (Gemini y Claude) logran una alta tasa de precisión (aproximadamente 66%), lo que demuestra una sólida comprensión del método probabilístico y la lógica formal, otros modelos tienen un retraso significativo en consistencia (aproximadamente 40%). Proporcionamos un análisis cualitativo de las pruebas generadas, destacando diferencias en concisión, tasas de alucinaciones y estructura lógica. Nuestros resultados sugieren que, si bien los modelos de frontera han alcanzado un umbral de competencia adecuado para la asistencia y formalización pedagógica a nivel de posgrado, existe una variación significativa en su confiabilidad para la derivación matemática rigurosa. El código y el conjunto completo de respuestas generadas por LLM son de código abierto y están disponibles públicamente en esta URL https.
Publicado originalmente en export.arxiv.org el 16 de diciembre de 2025.
Ver fuente original
