Modelos de flujo para el aprendizaje de refuerzo de distribución ilimitado y consciente de la geometría

Resumen: Introducimos una nueva arquitectura para el aprendizaje de refuerzo de distribución (Distrl) que modela devolver distribuciones utilizando flujos de normalización. Este enfoque permite un soporte flexible e ilimitado para las distribuciones de retorno, en contraste con enfoques categóricos como C51 que se basan en representaciones fijas o limitadas. También ofrece una capacidad de modelado más rica para capturar el comportamiento multimodalidad, asimetría y cola que los enfoques basados en cuantiles. Nuestro método es significativamente más eficiente de parámetros que los enfoques categóricos. Las métricas estándar utilizadas para entrenar modelos existentes como Divergencia de KL o la distancia de Wasserstein son insensibles a la escala o tienen gradientes de muestra sesgados, especialmente cuando los soportes de retorno no se superponen. Para abordar esto, proponemos un sustituto novedoso para la distancia de Cramèr, es decir, consciente de la geometría y computable directamente desde el PDF de la distribución de retorno, evitando el costoso cálculo de CDF. Probamos nuestro modelo en el sub-benchmark de ATARI-5 y mostramos que nuestro enfoque supera a los modelos basados en PDF mientras permanece competitivo con los métodos basados en cuantiles.

Publicado Originalme en rss.arxiv.org El 7 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Linux Foundation and OpenSSF Release Cybersecurity Skills Marco para fortalecer la preparación empresarial

Normas Internacionales sobre Internet de las Cosas (IoT): IoT security standards

T3DM: modelado de cambio de distribución guiada por el tiempo de prueba para el razonamiento del gráfico de conocimiento temporal

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido