Difundir para coordinar: políticas eficientes de difusión en línea entre múltiples agentes

Resumen: El aprendizaje por refuerzo de múltiples agentes en línea (MARL) es un marco destacado para la coordinación eficiente de agentes. Fundamentalmente, mejorar la expresividad de las políticas es fundamental para lograr un desempeño superior. Los modelos generativos basados en difusión están bien posicionados para satisfacer esta demanda, habiendo demostrado una notable expresividad y representación multimodal en la generación de imágenes y entornos fuera de línea. Sin embargo, su potencial en MARL en línea sigue estando poco explorado. Un obstáculo importante es que las probabilidades intratables de los modelos de difusión impiden la exploración y coordinación basadas en la entropía. Para abordar este desafío, proponemos uno de los primeros marcos underline{MA}RL fuera de políticas underline{O}en línea que utilizan políticas de difusión underline{D} (textbf{OMAD}) para orquestar la coordinación. Nuestra innovación clave es un objetivo político relajado que maximiza la entropía conjunta escalada, facilitando una exploración efectiva sin depender de una probabilidad manejable. Complementando esto, dentro del paradigma de capacitación centralizada con ejecución descentralizada (CTDE), empleamos una función de valor distributivo conjunto para optimizar las políticas de difusión descentralizada. Aprovecha objetivos manejables con entropía aumentada para guiar las actualizaciones simultáneas de las políticas de difusión, garantizando así una coordinación estable. Las evaluaciones exhaustivas de MPE y MAMuJoCo establecen nuestro método como el nuevo estado del arte en tareas diversas de $10$, lo que demuestra una notable mejora de $2,5times$ a $5times$ en la eficiencia de la muestra.

Publicado originalmente en export.arxiv.org el 22 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Synaptics presenta la familia First Vera-Fi 7 a medida para el IoT

Planificación personalizada de la ruta de aprendizaje con modelado del estado del alumno basado en objetivos

La descarga: Presentación de nuestros 35 innovadores en la lista de 35 para 2025

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido