Resumen: El aprendizaje de refuerzo de múltiples agentes (MARL) requiere actualizaciones de políticas coordinadas y estables entre los agentes que interactúan. La optimización de política de la región de fideicomiso heterogéneo-agente (HATRPO) hace cumplir las limitaciones de la región de confianza por agente utilizando la divergencia de Kullback-Leibbler (KL) para estabilizar la capacitación. Sin embargo, asignar a cada agente el mismo umbral de KL puede conducir a actualizaciones lentas y localmente óptimas, especialmente en la configuración heterogénea. Para abordar esta limitación, proponemos dos enfoques para asignar el umbral de divergencia de KL entre los agentes: HATRPO-W, un método basado en Karush-Kuhn-Tucker (basado en KKT) que optimiza la asignación de umbral bajo restricciones KL globales y HATRPO-G, un algor de algor en el que prioriza los agentes basados en la mejora a la relación de la mejora a la del divergencia. Al conectar la optimización de políticas secuenciales con una programación de umbral restringida, nuestro enfoque permite un aprendizaje más flexible y efectivo en entornos de agentes heterogéneos. Los resultados experimentales demuestran que nuestros métodos aumentan significativamente el rendimiento de HATRPO, logrando una convergencia más rápida y recompensas finales más altas en diversos puntos de referencia de margas. Específicamente, HATRPO-W y HATRPO-G logran mejoras comparables en el rendimiento final, cada uno superior a 22.5%. En particular, Hatrpo-W también demuestra una dinámica de aprendizaje más estable, como lo refleja su menor varianza.
Publicado Originalme en export.arxiv.org El 14 de agosto de 2025.
Ver Fuente Original