Planificación priorizada guiada por el aprendizaje para encontrar el camino de por vida de múltiples agentes en la automatización de almacenes

Resumen: La búsqueda de rutas de múltiples agentes (MAPF) de por vida es fundamental para la automatización de almacenes moderna, que requiere múltiples robots para navegar continuamente por rutas libres de conflictos para optimizar el rendimiento general del sistema. Sin embargo, la complejidad de los entornos de almacén y la dinámica a largo plazo de MAPF de por vida a menudo exigen adaptaciones costosas a los solucionadores clásicos basados en búsquedas. Si bien se han explorado métodos de aprendizaje automático, su superioridad sobre los métodos basados en búsquedas sigue sin ser concluyente. En este artículo, presentamos la planificación priorizada por horizonte rodante (RL-RH-PP) guiada por el aprendizaje por refuerzo (RL), el primer marco que integra RL con la planificación basada en búsquedas para MAPF de por vida. Específicamente, aprovechamos la Planificación Priorizada (PP) clásica como columna vertebral por su simplicidad y flexibilidad para integrarse con una política de asignación de prioridades basada en el aprendizaje. Al formular la asignación dinámica de prioridades como un proceso de decisión de Markov parcialmente observable (POMDP), RL-RH-PP explota la naturaleza de toma de decisiones secuencial de la planificación permanente al tiempo que delega interacciones espacio-temporales complejas entre agentes al aprendizaje por refuerzo. Una red neuronal basada en la atención decodifica autorregresivamente las órdenes de prioridad sobre la marcha, lo que permite una planificación secuencial eficiente con un solo agente por parte del planificador de PP. Las evaluaciones en simulaciones de almacén realistas muestran que RL-RH-PP logra el rendimiento total más alto entre las líneas de base y se generaliza de manera efectiva entre densidades de agentes, horizontes de planificación y diseños de almacén. Nuestros análisis interpretativos revelan que RL-RH-PP prioriza proactivamente a los agentes congestionados y redirige estratégicamente a los agentes desde la congestión, facilitando el flujo de tráfico y aumentando el rendimiento. Estos hallazgos resaltan el potencial de los enfoques guiados por el aprendizaje para aumentar la heurística tradicional en la automatización de almacenes moderna.

Publicado originalmente en export.arxiv.org el 25 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Aprender a reescribir descripciones de herramientas para un uso confiable de la herramienta LLM-Agent

UGM2N: una red de movimiento de malla no supervisada y generalizable a través de la pérdida de M-uniforme

Razonamiento dialógico en arquitecturas de IA: un marco multimodelo para probar estrategias de alineación de IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido