Aprendizaje de por vida con consolidación de comportamiento para enrutamiento de vehículos

Resumen: Los solucionadores neuronales recientes han demostrado un rendimiento prometedor en el aprendizaje para resolver problemas de enrutamiento. Sin embargo, los estudios existentes se basan principalmente en una capacitación única en uno o un conjunto de distribuciones y escalas de problemas predefinidos, es decir, tareas. Cuando surge una nueva tarea, generalmente dependen de la generalización de disparo cero, lo que puede ser pobre debido a las discrepancias entre la nueva tarea y las tareas de capacitación, o ajustar el solucionador previo al estado previo en la nueva tarea, lo que posiblemente conduce al olvido catastrófico del conocimiento adquirido de las tareas anteriores. Este artículo explora un nuevo paradigma de aprendizaje permanente para solucionadores de VRP neurales, donde múltiples tareas con diversas distribuciones y escalas surgen secuencialmente con el tiempo. Se requiere solucionadores para aprender de manera efectiva y eficiente a resolver nuevas tareas mientras mantienen su rendimiento en tareas aprendidas previamente. En consecuencia, se propone un marco novedoso llamado enrutador de aprendizaje permanente con consolidación de comportamiento (LLR-BC). LLR-BC consolida el conocimiento previo de manera efectiva al alinear los comportamientos del solucionador capacitado en una nueva tarea con los amortiguados de una manera de búsqueda de decisiones. Para fomentar un mayor enfoque en las experiencias cruciales, LLR-BC asigna mayores pesos consolidados a decisiones con menor confianza. Experimentos extensos sobre problemas de enrutamiento de vehículos capacitados y problemas de vendedor ambulante demuestran la efectividad de LLR-BC en la capacitación de solucionadores neuronales de alto rendimiento en un entorno de aprendizaje de por vida, abordando el problema de olvido catastrófico, mantener su plasticidad y mejorar la capacidad de generalización de disparos cero.

Publicado Originalme en export.arxiv.org El 28 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Integridad contextual en LLM a través del razonamiento y el aprendizaje de refuerzo

MHA-RAG: mejora de la eficiencia, la precisión y la coherencia mediante la codificación de ejemplos como indicaciones suaves

La trampa de la verificación de edad

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido