Resumen: El razonamiento matemático se encuentra en el corazón de la inteligencia artificial, las aplicaciones subterráneas de educación, la verificación de programas y el descubrimiento matemático a nivel de investigación. Las competiciones matemáticas, en particular, presentan dos tipos de problemas desafiantes: a través del teorema, que requieren pruebas rigurosas de conclusiones establecidas y construcción de respuestas, que implica la hipótesis y la verificación formal de los objetos matemáticos. Los modelos de idiomas grandes (LLM) generan efectivamente respuestas de candidato creativo pero luchan con la verificación formal, mientras que los también los depover simbólicos aseguran el rigor pero no pueden manejar eficientemente la generación de conjeturas creativas. Introducimos el marco de Enumerate-Conjecture-Profun (ECP), un método neurombólico modular que integra la enumeración basada en LLM y la conjetura impulsada por patrones con una prueba de teorema formal. Presentamos ConstructiveBench, un conjunto de datos de 3,431 problemas de construcción de respuestas en diversas competiciones de matemáticas con formalizaciones de Lean verificadas. En el conjunto de datos ConstructiveBench, ECP mejora la precisión de la construcción de respuestas de la línea de base de la cadena de pensamiento (COT) de 14.54% a 45.06% con el modelo GPT-4.1-Mini. Además, combinando con las respuestas construidas de ECP, el modelo de última generación de DeepSeek-Prover-V2-7B genera pruebas correctas para 858 de los 3.431 problemas constructivos en Lean, logro de precisión del 25.01%, en comparación con el 9.86% para los basílaos solo simbólicos. Nuestro código y conjunto de datos están disponibles públicamente en Github y Huggingface, respectivamente.
Publicado Originalme en rss.arxiv.org El 26 de mayo de 2025.
Ver Fuente Original