RL informado por el solucionador: base en base a modelos de idiomas grandes para modelado de optimización auténtica

Resumen: El modelado de optimización es fundamental para la toma de decisiones en diversos esta url http El progreso en la automatización de la formulación de optimización a partir de descripciones de lenguaje natural, modelos de lenguaje grande (LLM) a menudo luchan por generar modelos formalmente correctos y utilizables debido a alucinaciones, lo que plantea un desafío para la automatización confiable. Inspirado en el éxito del aprendizaje de refuerzo (RL) en la mejora de grandes modelos de razonamiento, presentamos el aprendizaje de refuerzo informado por el solucionador (SIRL). Este nuevo marco aprovecha los solucionadores de optimización externos como mecanismos de recompensa verificables para mejorar significativamente la autenticidad de las LLM para la optimización para la optimización esta url http Como verificadores precisos, estos solucionadores evalúan automáticamente el código ejecutable y el modelo matemático a nivel de instancia representado por el archivo LP asociado, produciendo señales de retroalimentación precisas e integrales, incluida la sintaxis, la viabilidad y la calidad de la solución que informan directamente el proceso RL. Este proceso de verificación automatizado, impulsado por solucionadores de optimización clásicos, también sustenta nuestro método de autoconsistencia mejorada por instancias para sintetizar datos de entrenamiento de alta calidad. Experimentos extensos en diversos puntos de referencia públicos demuestran que SIRL logra el rendimiento de última generación, superando sustancialmente los métodos existentes para generar modelos de optimización precisos y ejecutables.

Publicado Originalme en rss.arxiv.org El 19 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿Qué es la traducción de la dirección del puerto (PAT)?

Repensar el papel de provocar estrategias en la escala de tiempo de prueba de LLM: una perspectiva de la teoría de la probabilidad

Descubra cómo GSMA SGP.32 está revolucionando la conectividad IoT en el ecosistema IoT en rápida expansión.

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido