Resumen: La planificación de la estiba de contenedores (CSPP) es un componente crítico del transporte marítimo y las operaciones terminales, afectando directamente la eficiencia de la cadena de suministro. Debido a su complejidad, CSPP se ha basado tradicionalmente en la experiencia humana. Si bien el aprendizaje de refuerzo (RL) se ha aplicado recientemente a CSPP, las comparaciones de referencia sistemáticas en diferentes algoritmos siguen siendo limitadas. Para abordar esta brecha, desarrollamos un entorno de gimnasio que captura las características fundamentales de CSPP y la ampliamos para incluir la programación de grúas en formulaciones de agentes múltiples y de un solo agente. Dentro de este marco, evaluamos cinco algoritmos RL: DQN, QR-DQN, A2C, PPO y TRPO en múltiples escenarios de complejidad variable. Los resultados revelan brechas de rendimiento distintas con un aumento de la complejidad, subrayando la importancia de la elección del algoritmo y la formulación del problema para CSPP. En general, este documento compara múltiples métodos RL para CSPP al tiempo que proporciona un entorno de gimnasio reutilizable con la programación de grúas, ofreciendo así una base para futuras investigaciones y implementación práctica en logística marítima.
Publicado Originalme en export.arxiv.org El 5 de octubre de 2025.
Ver Fuente Original