Optimización de la política de la región de fideicomiso múltiple: un enfoque de restricción conjunta

Resumen: El aprendizaje de refuerzo de múltiples agentes (MARL) requiere actualizaciones de políticas coordinadas y estables entre los agentes que interactúan. La optimización de política de la región de fideicomiso heterogéneo-agente (HATRPO) hace cumplir las limitaciones de la región de confianza por agente utilizando la divergencia de Kullback-Leibbler (KL) para estabilizar la capacitación. Sin embargo, asignar a cada agente el mismo umbral de KL puede conducir a actualizaciones lentas y localmente óptimas, especialmente en la configuración heterogénea. Para abordar esta limitación, proponemos dos enfoques para asignar el umbral de divergencia de KL entre los agentes: HATRPO-W, un método basado en Karush-Kuhn-Tucker (basado en KKT) que optimiza la asignación de umbral bajo restricciones KL globales y HATRPO-G, un algor de algor en el que prioriza los agentes basados en la mejora a la relación de la mejora a la del divergencia. Al conectar la optimización de políticas secuenciales con una programación de umbral restringida, nuestro enfoque permite un aprendizaje más flexible y efectivo en entornos de agentes heterogéneos. Los resultados experimentales demuestran que nuestros métodos aumentan significativamente el rendimiento de HATRPO, logrando una convergencia más rápida y recompensas finales más altas en diversos puntos de referencia de margas. Específicamente, HATRPO-W y HATRPO-G logran mejoras comparables en el rendimiento final, cada uno superior a 22.5%. En particular, Hatrpo-W también demuestra una dinámica de aprendizaje más estable, como lo refleja su menor varianza.

Publicado Originalme en export.arxiv.org El 14 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Desbloquear el máximo potencial de IA requiere excelencia operativa

Las explicaciones son un medio para un fin

ChatGPT produce más pensadores “perezosos”: evidencia de disminución de la participación cognitiva

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido