FormalProofBench: ¿Pueden los modelos escribir pruebas matemáticas de nivel de posgrado que estén verificadas formalmente?
Resumen:Presentamos FormalProofBench, un punto de referencia privado diseñado para evaluar si los modelos de IA pueden producir pruebas matemáticas formalmente verificadas a nivel de posgrado. Cada tarea combina un problema de lenguaje natural con una declaración formal de Lean~4, y un modelo debe generar una prueba de Lean aceptada por el verificador de Lean 4.
Leer más →