Resumen: El modelado de optimización es fundamental para la toma de decisiones en diversos esta url http El progreso en la automatización de la formulación de optimización a partir de descripciones de lenguaje natural, modelos de lenguaje grande (LLM) a menudo luchan por generar modelos formalmente correctos y utilizables debido a alucinaciones, lo que plantea un desafío para la automatización confiable. Inspirado en el éxito del aprendizaje de refuerzo (RL) en la mejora de grandes modelos de razonamiento, presentamos el aprendizaje de refuerzo informado por el solucionador (SIRL). Este nuevo marco aprovecha los solucionadores de optimización externos como mecanismos de recompensa verificables para mejorar significativamente la autenticidad de las LLM para la optimización para la optimización esta url http Como verificadores precisos, estos solucionadores evalúan automáticamente el código ejecutable y el modelo matemático a nivel de instancia representado por el archivo LP asociado, produciendo señales de retroalimentación precisas e integrales, incluida la sintaxis, la viabilidad y la calidad de la solución que informan directamente el proceso RL. Este proceso de verificación automatizado, impulsado por solucionadores de optimización clásicos, también sustenta nuestro método de autoconsistencia mejorada por instancias para sintetizar datos de entrenamiento de alta calidad. Experimentos extensos en diversos puntos de referencia públicos demuestran que SIRL logra el rendimiento de última generación, superando sustancialmente los métodos existentes para generar modelos de optimización precisos y ejecutables.
Publicado Originalme en rss.arxiv.org El 19 de mayo de 2025.
Ver Fuente Original