Resumen:Este artículo propone un marco hiperheurístico de aprendizaje por refuerzo profundo basado en políticas para resolver el problema de programación del taller. El agente hiperheurístico aprende a cambiar dinámicamente las reglas de programación según el estado del sistema. Ampliamos el marco hiperheurístico con dos mecanismos clave. En primer lugar, el prefiltrado de acciones restringe la toma de decisiones a acciones factibles de bajo nivel, lo que permite evaluar heurísticas de bajo nivel independientemente de las restricciones ambientales y proporcionar una evaluación imparcial. En segundo lugar, un mecanismo de compromiso regula la frecuencia del cambio heurístico. Investigamos el impacto de diferentes estrategias de compromiso, desde el cambio gradual hasta el compromiso de episodio completo, tanto en el comportamiento de entrenamiento como en el makepan. Además, comparamos dos estrategias de selección de acciones a nivel de políticas: selección voraz determinista y muestreo estocástico. Los experimentos computacionales en puntos de referencia JSSP estándar demuestran que el enfoque propuesto supera a las heurísticas y metaheurísticas tradicionales y a los métodos recientes de programación basados en redes neuronales.
Publicado originalmente en export.arxiv.org el 18 de enero de 2026.
Ver fuente original
