En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Aprendizaje de refuerzo de recompensa promedio para objetivos omega-regulares y de pago mezquino

Aprendizaje de refuerzo de recompensa promedio para objetivos omega-regulares y de pago mezquino

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Para abordar los desafíos de las tareas continuas de Horizon Infinite, nos centramos en las especificaciones de la vida absoluta: una subclase de idiomas omega-regulares que no pueden ser violados por ningún prefijo de comportamiento finito, lo que las hace bien adecuadas para el entorno continuo. Presentamos el primer marco RL sin modelo que traduce las especificaciones absolutas de la vida a los objetivos promedio de recompensa. Nuestro enfoque permite el aprendizaje en la comunicación de MDP sin restablecimiento episódico. También presentamos una estructura de recompensa para la optimización de objetivos múltiples lexicográficos, con el objetivo de maximizar un objetivo de recompensa promedio externo entre las políticas que también maximizan la probabilidad de satisfacción de una especificación omega-regular dada. Nuestro método garantiza la convergencia en MDP comunicantes desconocidos y apoya las reducciones sobre la marcha que no requieren pleno conocimiento del entorno, lo que permite RL sin modelo. Los resultados empíricos muestran nuestro enfoque promedio de recompensa para continuar con la configuración superan a los métodos basados ​​en descuentos en todos los puntos de referencia.

Publicado Originalme en rss.arxiv.org El 21 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web