Hiperheurísticas de aprendizaje por refuerzo profundo basadas en políticas para problemas de programación de talleres

Resumen:Este artículo propone un marco hiperheurístico de aprendizaje por refuerzo profundo basado en políticas para resolver el problema de programación del taller. El agente hiperheurístico aprende a cambiar dinámicamente las reglas de programación según el estado del sistema. Ampliamos el marco hiperheurístico con dos mecanismos clave. En primer lugar, el prefiltrado de acciones restringe la toma de decisiones a acciones factibles de bajo nivel, lo que permite evaluar heurísticas de bajo nivel independientemente de las restricciones ambientales y proporcionar una evaluación imparcial. En segundo lugar, un mecanismo de compromiso regula la frecuencia del cambio heurístico. Investigamos el impacto de diferentes estrategias de compromiso, desde el cambio gradual hasta el compromiso de episodio completo, tanto en el comportamiento de entrenamiento como en el makepan. Además, comparamos dos estrategias de selección de acciones a nivel de políticas: selección voraz determinista y muestreo estocástico. Los experimentos computacionales en puntos de referencia JSSP estándar demuestran que el enfoque propuesto supera a las heurísticas y metaheurísticas tradicionales y a los métodos recientes de programación basados en redes neuronales.

Publicado originalmente en export.arxiv.org el 18 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Aprendizaje de refuerzo guiado por LLM: abordar los cuellos de botella de capacitación a través de la modulación de políticas

Hacia una decodificación sólida de la intención basada en EEG durante el habla mal articulada en la afasia

Compilación de la programación del conjunto de respuestas temporales métricas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido