En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->HGFormer: un marco de transformador de gráficos jerárquicos para juegos de dos etapas del coronel Blotto a través del aprendizaje de refuerzo

HGFormer: un marco de transformador de gráficos jerárquicos para juegos de dos etapas del coronel Blotto a través del aprendizaje de refuerzo

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El Juego del Coronel Blotto de dos etapas representa un problema típico de asignación de recursos adversos, en el que dos agentes opuestos asignan secuencialmente recursos en una topología de red en dos fases: una implementación inicial de recursos seguido de múltiples rondas de ajustes de reasignación dinámica. La dependencia secuencial entre las etapas de juego y las complejas limitaciones impuestas por la topología del gráfico dificulta que los enfoques tradicionales alcancen una estrategia globalmente óptima. Para abordar estos desafíos, proponemos un marco de transformadores de gráficos jerárquicos llamado HGFormer. Al incorporar un codificador de transformador gráfico mejorado con sesgos estructurales y un modelo de decisión jerárquica de dos agentes, nuestro enfoque permite una generación de políticas eficiente en entornos adversos a gran escala. Además, diseñamos un algoritmo de aprendizaje de refuerzo de retroalimentación de capa por capa que alimenta los retornos a largo plazo de las decisiones de nivel inferior a la optimización de la estrategia de nivel superior, lo que supera la brecha de coordinación entre las dos etapas de toma de decisiones. Los resultados experimentales demuestran que, en comparación con la toma de decisiones jerárquicas existentes o los métodos de red neuronal gráfica, HGFormer mejora significativamente la eficiencia de la asignación de recursos y el pago adversario, logrando un rendimiento general superior en escenarios de juegos dinámicos complejos.

Publicado Originalme en rss.arxiv.org El 10 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web