Resumen: En los últimos años, los métodos de aprendizaje de refuerzo (RL) han surgido como un enfoque prometedor para resolver problemas combinatorios. Entre los modelos basados en RL, POMO ha demostrado un fuerte rendimiento en una variedad de tareas, incluidas las variantes del problema de enrutamiento del vehículo (VRP). Sin embargo, hay margen de mejora para estas tareas. En este trabajo, mejoramos POMO, creando un método ( TextBF {POMO+}) que aprovecha los nodos iniciales para encontrar una solución de una manera más informada. Ejecutamos experimentos en nuestro nuevo modelo y observamos que nuestra solución converge más rápido y logra mejores resultados. Validamos nuestros modelos en el conjunto de datos CVRPLIB y notamos mejoras en instancias problemáticas con hasta 100 clientes. Esperamos que nuestra investigación en este proyecto pueda conducir a nuevos avances en el campo.
Publicado Originalme en export.arxiv.org El 12 de agosto de 2025.
Ver Fuente Original