Aprendizaje de refuerzo de recompensa promedio para objetivos omega-regulares y de pago mezquino

Resumen: Para abordar los desafíos de las tareas continuas de Horizon Infinite, nos centramos en las especificaciones de la vida absoluta: una subclase de idiomas omega-regulares que no pueden ser violados por ningún prefijo de comportamiento finito, lo que las hace bien adecuadas para el entorno continuo. Presentamos el primer marco RL sin modelo que traduce las especificaciones absolutas de la vida a los objetivos promedio de recompensa. Nuestro enfoque permite el aprendizaje en la comunicación de MDP sin restablecimiento episódico. También presentamos una estructura de recompensa para la optimización de objetivos múltiples lexicográficos, con el objetivo de maximizar un objetivo de recompensa promedio externo entre las políticas que también maximizan la probabilidad de satisfacción de una especificación omega-regular dada. Nuestro método garantiza la convergencia en MDP comunicantes desconocidos y apoya las reducciones sobre la marcha que no requieren pleno conocimiento del entorno, lo que permite RL sin modelo. Los resultados empíricos muestran nuestro enfoque promedio de recompensa para continuar con la configuración superan a los métodos basados en descuentos en todos los puntos de referencia.

Publicado Originalme en rss.arxiv.org El 21 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Waymo podría hacer que tu próximo auto sea autónomo

La IA analógica de inicio promete energía para PCS

Formación de vigas conjuntas y asignación de recursos para la optimización de retrasos en los sistemas OFDM asistidos por RIS: un enfoque DRL

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido