En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Planificación priorizada guiada por el aprendizaje para encontrar el camino de por vida de múltiples agentes en la automatización de almacenes

Planificación priorizada guiada por el aprendizaje para encontrar el camino de por vida de múltiples agentes en la automatización de almacenes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La búsqueda de rutas de múltiples agentes (MAPF) de por vida es fundamental para la automatización de almacenes moderna, que requiere múltiples robots para navegar continuamente por rutas libres de conflictos para optimizar el rendimiento general del sistema. Sin embargo, la complejidad de los entornos de almacén y la dinámica a largo plazo de MAPF de por vida a menudo exigen adaptaciones costosas a los solucionadores clásicos basados ​​en búsquedas. Si bien se han explorado métodos de aprendizaje automático, su superioridad sobre los métodos basados ​​en búsquedas sigue sin ser concluyente. En este artículo, presentamos la planificación priorizada por horizonte rodante (RL-RH-PP) guiada por el aprendizaje por refuerzo (RL), el primer marco que integra RL con la planificación basada en búsquedas para MAPF de por vida. Específicamente, aprovechamos la Planificación Priorizada (PP) clásica como columna vertebral por su simplicidad y flexibilidad para integrarse con una política de asignación de prioridades basada en el aprendizaje. Al formular la asignación dinámica de prioridades como un proceso de decisión de Markov parcialmente observable (POMDP), RL-RH-PP explota la naturaleza de toma de decisiones secuencial de la planificación permanente al tiempo que delega interacciones espacio-temporales complejas entre agentes al aprendizaje por refuerzo. Una red neuronal basada en la atención decodifica autorregresivamente las órdenes de prioridad sobre la marcha, lo que permite una planificación secuencial eficiente con un solo agente por parte del planificador de PP. Las evaluaciones en simulaciones de almacén realistas muestran que RL-RH-PP logra el rendimiento total más alto entre las líneas de base y se generaliza de manera efectiva entre densidades de agentes, horizontes de planificación y diseños de almacén. Nuestros análisis interpretativos revelan que RL-RH-PP prioriza proactivamente a los agentes congestionados y redirige estratégicamente a los agentes desde la congestión, facilitando el flujo de tráfico y aumentando el rendimiento. Estos hallazgos resaltan el potencial de los enfoques guiados por el aprendizaje para aumentar la heurística tradicional en la automatización de almacenes moderna.

Publicado originalmente en export.arxiv.org el 25 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web