En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Optimización de la política de la región de fideicomiso múltiple: un enfoque de restricción conjunta

Optimización de la política de la región de fideicomiso múltiple: un enfoque de restricción conjunta

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El aprendizaje de refuerzo de múltiples agentes (MARL) requiere actualizaciones de políticas coordinadas y estables entre los agentes que interactúan. La optimización de política de la región de fideicomiso heterogéneo-agente (HATRPO) hace cumplir las limitaciones de la región de confianza por agente utilizando la divergencia de Kullback-Leibbler (KL) para estabilizar la capacitación. Sin embargo, asignar a cada agente el mismo umbral de KL puede conducir a actualizaciones lentas y localmente óptimas, especialmente en la configuración heterogénea. Para abordar esta limitación, proponemos dos enfoques para asignar el umbral de divergencia de KL entre los agentes: HATRPO-W, un método basado en Karush-Kuhn-Tucker (basado en KKT) que optimiza la asignación de umbral bajo restricciones KL globales y HATRPO-G, un algor de algor en el que prioriza los agentes basados en la mejora a la relación de la mejora a la del divergencia. Al conectar la optimización de políticas secuenciales con una programación de umbral restringida, nuestro enfoque permite un aprendizaje más flexible y efectivo en entornos de agentes heterogéneos. Los resultados experimentales demuestran que nuestros métodos aumentan significativamente el rendimiento de HATRPO, logrando una convergencia más rápida y recompensas finales más altas en diversos puntos de referencia de margas. Específicamente, HATRPO-W y HATRPO-G logran mejoras comparables en el rendimiento final, cada uno superior a 22.5%. En particular, Hatrpo-W también demuestra una dinámica de aprendizaje más estable, como lo refleja su menor varianza.

Publicado Originalme en export.arxiv.org El 14 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web