Resumen: Restricciones difíciles en el aprendizaje de refuerzo (RL), ya sea impuesto a través de la función de recompensa o la arquitectura del modelo, a menudo degradan el rendimiento de la política. Los métodos lagrangianos ofrecen una forma de combinar objetivos con limitaciones, pero a menudo requieren intrincados ingeniería de recompensas y ajuste de parámetros. En este trabajo, ampliamos los avances recientes que conectan las ecuaciones de Hamilton-Jacobi (HJ) con RL para proponer dos funciones de valor novedoso para la satisfacción de objetivos duales. A saber, abordamos: (1) El problema de evasión de alcance de alcance – de lograr distintos umbrales de recompensa y penalización, y (2) el problema de alcance de alcance – de lograr umbrales de dos recompensas distintas. En contraste con los enfoques lógicos temporales, que generalmente implican representar un autómata, derivamos formas explícitas y manejables de Bellman en este contexto al descomponer nuestro problema en alcance, evitar y alcanzar problemas para evitar, para aprovechar estos avances recientes mencionados antes mencionados. Desde una perspectiva matemática, los problemas de alcance y alcance de alcance y alcance son complementarios y fundamentalmente diferentes de los problemas estándar de la suma de los problemas y los problemas lógicos temporales, proporcionando una nueva perspectiva sobre la toma de decisiones restringidas. Aprovechamos nuestro análisis para proponer una variación de la optimización de la política proximal (DO-HJ-PPO), que resuelve estos problemas. En una variedad de tareas para el logro de seguridad de seguridad y de múltiples objetivos, demostramos que DO-HJ-PPO produce comportamientos cualitativamente distintos a partir de enfoques anteriores y supera a una serie de líneas de base en diversas métricas.
Publicado Originalme en export.arxiv.org El 22 de junio de 2025.
Ver Fuente Original