En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Modelos de flujo para el aprendizaje de refuerzo de distribución ilimitado y consciente de la geometría

Modelos de flujo para el aprendizaje de refuerzo de distribución ilimitado y consciente de la geometría

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Introducimos una nueva arquitectura para el aprendizaje de refuerzo de distribución (Distrl) que modela devolver distribuciones utilizando flujos de normalización. Este enfoque permite un soporte flexible e ilimitado para las distribuciones de retorno, en contraste con enfoques categóricos como C51 que se basan en representaciones fijas o limitadas. También ofrece una capacidad de modelado más rica para capturar el comportamiento multimodalidad, asimetría y cola que los enfoques basados ​​en cuantiles. Nuestro método es significativamente más eficiente de parámetros que los enfoques categóricos. Las métricas estándar utilizadas para entrenar modelos existentes como Divergencia de KL o la distancia de Wasserstein son insensibles a la escala o tienen gradientes de muestra sesgados, especialmente cuando los soportes de retorno no se superponen. Para abordar esto, proponemos un sustituto novedoso para la distancia de Cramèr, es decir, consciente de la geometría y computable directamente desde el PDF de la distribución de retorno, evitando el costoso cálculo de CDF. Probamos nuestro modelo en el sub-benchmark de ATARI-5 y mostramos que nuestro enfoque supera a los modelos basados ​​en PDF mientras permanece competitivo con los métodos basados ​​en cuantiles.

Publicado Originalme en rss.arxiv.org El 7 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web