Un estudio de referencia de algoritmos de aprendizaje de refuerzo profundo para el problema de planificación de la estiba de contenedores

Resumen: La planificación de la estiba de contenedores (CSPP) es un componente crítico del transporte marítimo y las operaciones terminales, afectando directamente la eficiencia de la cadena de suministro. Debido a su complejidad, CSPP se ha basado tradicionalmente en la experiencia humana. Si bien el aprendizaje de refuerzo (RL) se ha aplicado recientemente a CSPP, las comparaciones de referencia sistemáticas en diferentes algoritmos siguen siendo limitadas. Para abordar esta brecha, desarrollamos un entorno de gimnasio que captura las características fundamentales de CSPP y la ampliamos para incluir la programación de grúas en formulaciones de agentes múltiples y de un solo agente. Dentro de este marco, evaluamos cinco algoritmos RL: DQN, QR-DQN, A2C, PPO y TRPO en múltiples escenarios de complejidad variable. Los resultados revelan brechas de rendimiento distintas con un aumento de la complejidad, subrayando la importancia de la elección del algoritmo y la formulación del problema para CSPP. En general, este documento compara múltiples métodos RL para CSPP al tiempo que proporciona un entorno de gimnasio reutilizable con la programación de grúas, ofreciendo así una base para futuras investigaciones y implementación práctica en logística marítima.

Publicado Originalme en export.arxiv.org El 5 de octubre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Entregando un sexto sentido digital con redes de próxima generación

EDITAR: Terminación temprana de la inferencia de difusión para dLLM basada en la dinámica de los gradientes de entrenamiento

La política militar de IA necesita supervisión democrática

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido