Resumen: El Juego del Coronel Blotto de dos etapas representa un problema típico de asignación de recursos adversos, en el que dos agentes opuestos asignan secuencialmente recursos en una topología de red en dos fases: una implementación inicial de recursos seguido de múltiples rondas de ajustes de reasignación dinámica. La dependencia secuencial entre las etapas de juego y las complejas limitaciones impuestas por la topología del gráfico dificulta que los enfoques tradicionales alcancen una estrategia globalmente óptima. Para abordar estos desafíos, proponemos un marco de transformadores de gráficos jerárquicos llamado HGFormer. Al incorporar un codificador de transformador gráfico mejorado con sesgos estructurales y un modelo de decisión jerárquica de dos agentes, nuestro enfoque permite una generación de políticas eficiente en entornos adversos a gran escala. Además, diseñamos un algoritmo de aprendizaje de refuerzo de retroalimentación de capa por capa que alimenta los retornos a largo plazo de las decisiones de nivel inferior a la optimización de la estrategia de nivel superior, lo que supera la brecha de coordinación entre las dos etapas de toma de decisiones. Los resultados experimentales demuestran que, en comparación con la toma de decisiones jerárquicas existentes o los métodos de red neuronal gráfica, HGFormer mejora significativamente la eficiencia de la asignación de recursos y el pago adversario, logrando un rendimiento general superior en escenarios de juegos dinámicos complejos.
Publicado Originalme en rss.arxiv.org El 10 de junio de 2025.
Ver Fuente Original