En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Aprendizaje de refuerzo de doble objetivo con nuevas formulaciones Hamilton-Jacobi-Bellman

Aprendizaje de refuerzo de doble objetivo con nuevas formulaciones Hamilton-Jacobi-Bellman

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Restricciones difíciles en el aprendizaje de refuerzo (RL), ya sea impuesto a través de la función de recompensa o la arquitectura del modelo, a menudo degradan el rendimiento de la política. Los métodos lagrangianos ofrecen una forma de combinar objetivos con limitaciones, pero a menudo requieren intrincados ingeniería de recompensas y ajuste de parámetros. En este trabajo, ampliamos los avances recientes que conectan las ecuaciones de Hamilton-Jacobi (HJ) con RL para proponer dos funciones de valor novedoso para la satisfacción de objetivos duales. A saber, abordamos: (1) El problema de evasión de alcance de alcance – de lograr distintos umbrales de recompensa y penalización, y (2) el problema de alcance de alcance – de lograr umbrales de dos recompensas distintas. En contraste con los enfoques lógicos temporales, que generalmente implican representar un autómata, derivamos formas explícitas y manejables de Bellman en este contexto al descomponer nuestro problema en alcance, evitar y alcanzar problemas para evitar, para aprovechar estos avances recientes mencionados antes mencionados. Desde una perspectiva matemática, los problemas de alcance y alcance de alcance y alcance son complementarios y fundamentalmente diferentes de los problemas estándar de la suma de los problemas y los problemas lógicos temporales, proporcionando una nueva perspectiva sobre la toma de decisiones restringidas. Aprovechamos nuestro análisis para proponer una variación de la optimización de la política proximal (DO-HJ-PPO), que resuelve estos problemas. En una variedad de tareas para el logro de seguridad de seguridad y de múltiples objetivos, demostramos que DO-HJ-PPO produce comportamientos cualitativamente distintos a partir de enfoques anteriores y supera a una serie de líneas de base en diversas métricas.

Publicado Originalme en export.arxiv.org El 22 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web