Comida: un punto de referencia para el aprendizaje continuo de refuerzo de múltiples agentes

Resumen: Los puntos de referencia juegan un papel crucial en el desarrollo y el análisis de los algoritmos de aprendizaje de refuerzo (RL), con la disponibilidad del medio ambiente que impactan fuertemente la investigación. Una intersección particularmente subexplorada es el aprendizaje continuo (CL) en entornos cooperativos de múltiples agentes. Para remediar esto, presentamos la comida (entornos de múltiples agentes para el aprendizaje adaptativo), el primer punto de referencia adaptado para el aprendizaje continuo de refuerzo de múltiples agentes (CMARL). Los puntos de referencia CL existentes ejecutan entornos en la CPU, lo que lleva a cuellos de botella computacionales y limitando la longitud de las secuencias de tareas. La comida aprovecha a Jax para la aceleración de GPU, lo que permite el aprendizaje continuo en secuencias de 100 tareas en una PC de escritorio estándar en unas pocas horas. Mostramos que la combinación ingenua de métodos CL y margas populares produce un fuerte rendimiento en entornos simples, pero no puede escalar a entornos más complejos que requieren coordinación y adaptación sostenidas. Nuestro estudio de ablación identifica características arquitectónicas y algorítmicas críticas para CMARL en la comida.

Publicado Originalme en rss.arxiv.org El 18 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

VLM@School – Evaluación de la comprensión de la imagen de IA sobre el conocimiento alemán de la escuela secundaria

ToPolyAgent: Agentes de IA para simulaciones de polímeros topológicos de grano grueso

La descarga: Medición de retornos en I + D y el potencial creativo de AI

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido