En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Interpretabilidad por diseño para el aprendizaje eficiente de refuerzo de objetivos múltiples

Interpretabilidad por diseño para el aprendizaje eficiente de refuerzo de objetivos múltiples

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El aprendizaje de refuerzo de objetivos múltiples (MORL) tiene como objetivo optimizar varios objetivos en conflicto para mejorar la flexibilidad y la confiabilidad de RL en tareas prácticas. Esto se puede lograr encontrando diversas políticas que sean óptimas para algunas preferencias objetivas y no dominadas por políticas óptimas para otras preferencias para que formen un frente de Pareto en el espacio de rendimiento de objetivos múltiples. La relación entre el espacio de rendimiento de objetivos múltiples y el espacio de parámetros que representa las políticas generalmente no es unique. Utilizando un esquema de entrenamiento que se basa en un mapa lineal localmente entre el espacio de parámetros y el espacio de rendimiento, mostramos que un frente de Pareto aproximado puede proporcionar una interpretación de los vectores de parámetros actuales en términos de los objetivos que permiten una búsqueda efectiva dentro de los dominios de la solución contigua. Los experimentos se realizan con y sin reentrenamiento en diferentes dominios, y la comparación con métodos anteriores demuestra la eficiencia de nuestro enfoque.

Publicado Originalme en rss.arxiv.org El 4 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web