Resumen: El aprendizaje por refuerzo de múltiples agentes en línea (MARL) es un marco destacado para la coordinación eficiente de agentes. Fundamentalmente, mejorar la expresividad de las políticas es fundamental para lograr un desempeño superior. Los modelos generativos basados en difusión están bien posicionados para satisfacer esta demanda, habiendo demostrado una notable expresividad y representación multimodal en la generación de imágenes y entornos fuera de línea. Sin embargo, su potencial en MARL en línea sigue estando poco explorado. Un obstáculo importante es que las probabilidades intratables de los modelos de difusión impiden la exploración y coordinación basadas en la entropía. Para abordar este desafío, proponemos uno de los primeros marcos underline{MA}RL fuera de políticas underline{O}en línea que utilizan políticas de difusión underline{D} (textbf{OMAD}) para orquestar la coordinación. Nuestra innovación clave es un objetivo político relajado que maximiza la entropía conjunta escalada, facilitando una exploración efectiva sin depender de una probabilidad manejable. Complementando esto, dentro del paradigma de capacitación centralizada con ejecución descentralizada (CTDE), empleamos una función de valor distributivo conjunto para optimizar las políticas de difusión descentralizada. Aprovecha objetivos manejables con entropía aumentada para guiar las actualizaciones simultáneas de las políticas de difusión, garantizando así una coordinación estable. Las evaluaciones exhaustivas de MPE y MAMuJoCo establecen nuestro método como el nuevo estado del arte en tareas diversas de $10$, lo que demuestra una notable mejora de $2,5times$ a $5times$ en la eficiencia de la muestra.
Publicado originalmente en export.arxiv.org el 22 de febrero de 2026.
Ver fuente original
