Resumen: Los modelos de lenguajes grandes (LLM) han permitido el diseño heurístico automatizado (AHD) para problemas de optimización combinatoria (COP), pero la dependencia de los marcos existentes en reglas evolutivas fijas y plantillas estáticas a menudo conduce a una generación heurística miope, evaluaciones redundantes y razonamiento limitado sobre cómo se deben derivar nuevas heurísticas. Proponemos un novedoso marco de razonamiento multiagente, denominado Planificación a través del modelo mundial para diseño heurístico automatizado a través de LLM autoevolutivos (PathWise), que formula la generación heurística como un proceso de decisión secuencial sobre un gráfico de implicación que sirve como una memoria compacta y con estado de la trayectoria de búsqueda. Este enfoque permite que el sistema continúe con decisiones pasadas y reutilice o evite la derivación de información entre generaciones. Un agente de políticas planifica acciones evolutivas, un agente de modelo mundial genera implementaciones heurísticas condicionadas a esas acciones, y los agentes críticos brindan reflexiones encaminadas que resumen las lecciones de pasos anteriores, cambiando el AHD basado en LLM de una evolución de prueba y error hacia una planificación consciente del estado a través del razonamiento. Los experimentos en diversas COP muestran que PathWise converge más rápido para obtener mejores heurísticas, se generaliza en diferentes pilares de LLM y se escala a problemas de mayor tamaño.
Publicado originalmente en export.arxiv.org el 28 de enero de 2026.
Ver fuente original
