En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Hilbert: construyendo recursivamente pruebas formales con razonamiento informal

Hilbert: construyendo recursivamente pruebas formales con razonamiento informal

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Grandes modelos de idiomas (LLM) demuestran impresionantes habilidades de razonamiento matemático, pero sus soluciones con frecuencia contienen errores que no se pueden verificar automáticamente. Los sistemas de prueba del teorema formal, como Lean 4, ofrecen una verificación automatizada con precisión completa, motivando esfuerzos recientes para construir proverglms especializados que generen pruebas verificables en lenguajes formales. Sin embargo, queda una brecha significativa: los LLM actuales resuelven sustancialmente menos problemas que los LLM de uso general que operan en lenguaje natural. Introducimos a Hilbert, un marco de agente que une esta brecha al combinar las fortalezas complementarias del razonamiento informal y la verificación formal. Nuestro sistema orquesta cuatro componentes: un LLM informal que se destaca en el razonamiento matemático, un prover LLM especializado optimizado para tácticas Lean 4, un verificador formal y un teorema semántico. Dado un problema que el Prover no puede resolver, Hilbert emplea la descomposición recursiva para dividir el problema en subggoal que resuelve con el Prover o el razonador LLM. Aprovecha la retroalimentación del verificador para refinar pruebas incorrectas según sea necesario. Los resultados experimentales demuestran que Hilbert supera sustancialmente los enfoques existentes en puntos de referencia clave, logrando el 99.2% en Minif2F, 6.6% puntos por encima del método mejor disponible públicamente. Hilbert logra el resultado más conocido en Putnambench. Resuelve 462/660 problemas (70.0%), superan los enfoques propietarios como SEEDPROVER (50.4%) y logrando una mejora del 422%sobre la mejor línea de base disponible en público. Por lo tanto, Hilbert reduce efectivamente la brecha entre el razonamiento informal y la generación de pruebas formales.

Publicado Originalme en export.arxiv.org El 29 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web