Aprendizaje por refuerzo verificado por ejecución para modelado de optimización

Resumen: Automatizar el modelado de optimización con LLM es un camino prometedor hacia la inteligencia de decisiones escalable, pero los enfoques existentes se basan en procesos de agente creados en LLM de código cerrado con alta latencia de inferencia, o afinan LLM más pequeños utilizando una costosa supervisión de procesos que a menudo se adapta a una única API de resolución. Inspirándonos en el aprendizaje reforzado con recompensas verificables, proponemos el Modelado de optimización verificada por ejecución (EVOM), un marco de aprendizaje verificado por ejecución que trata a un solucionador de programación matemática como un verificador interactivo determinista. Dado un problema de lenguaje natural y un solucionador objetivo, EVOM genera código específico del solucionador, lo ejecuta en un entorno de pruebas y convierte los resultados de la ejecución en recompensas escalares, optimizadas con GRPO y DAPO en un proceso de ciclo cerrado de generación-ejecución-retroalimentación-actualización. Esta formulación de solo resultados elimina la necesidad de supervisión a nivel de proceso y permite la generalización entre solucionadores al cambiar el entorno de verificación en lugar de reconstruir conjuntos de datos específicos del solucionador. Los experimentos en NL4OPT, MAMO, IndustryOR y OptiBench en Gurobi, OR-Tools y COPT muestran que EVOM iguala o supera a SFT supervisado por procesos, admite la transferencia de solucionador de disparo cero y logra una adaptación eficaz del solucionador de bajo costo mediante la capacitación continua en el backend del solucionador de destino.

Publicado originalmente en export.arxiv.org el 1 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Comprender la naturaleza de la IA generativa como lógica de umbral en un espacio de alta dimensión

¿Pueden los modelos de idiomas grandes desarrollar un razonamiento estratégico? Insights posteriores al entrenamiento de Learning Chess

Los 8 peores fracasos tecnológicos de 2025

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido