Resumen: El aprendizaje de refuerzo de objetivos múltiples (MORL) tiene como objetivo optimizar varios objetivos en conflicto para mejorar la flexibilidad y la confiabilidad de RL en tareas prácticas. Esto se puede lograr encontrando diversas políticas que sean óptimas para algunas preferencias objetivas y no dominadas por políticas óptimas para otras preferencias para que formen un frente de Pareto en el espacio de rendimiento de objetivos múltiples. La relación entre el espacio de rendimiento de objetivos múltiples y el espacio de parámetros que representa las políticas generalmente no es unique. Utilizando un esquema de entrenamiento que se basa en un mapa lineal localmente entre el espacio de parámetros y el espacio de rendimiento, mostramos que un frente de Pareto aproximado puede proporcionar una interpretación de los vectores de parámetros actuales en términos de los objetivos que permiten una búsqueda efectiva dentro de los dominios de la solución contigua. Los experimentos se realizan con y sin reentrenamiento en diferentes dominios, y la comparación con métodos anteriores demuestra la eficiencia de nuestro enfoque.
Publicado Originalme en rss.arxiv.org El 4 de junio de 2025.
Ver Fuente Original