En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Comida: un punto de referencia para el aprendizaje continuo de refuerzo de múltiples agentes

Comida: un punto de referencia para el aprendizaje continuo de refuerzo de múltiples agentes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los puntos de referencia juegan un papel crucial en el desarrollo y el análisis de los algoritmos de aprendizaje de refuerzo (RL), con la disponibilidad del medio ambiente que impactan fuertemente la investigación. Una intersección particularmente subexplorada es el aprendizaje continuo (CL) en entornos cooperativos de múltiples agentes. Para remediar esto, presentamos la comida (entornos de múltiples agentes para el aprendizaje adaptativo), el primer punto de referencia adaptado para el aprendizaje continuo de refuerzo de múltiples agentes (CMARL). Los puntos de referencia CL existentes ejecutan entornos en la CPU, lo que lleva a cuellos de botella computacionales y limitando la longitud de las secuencias de tareas. La comida aprovecha a Jax para la aceleración de GPU, lo que permite el aprendizaje continuo en secuencias de 100 tareas en una PC de escritorio estándar en unas pocas horas. Mostramos que la combinación ingenua de métodos CL y margas populares produce un fuerte rendimiento en entornos simples, pero no puede escalar a entornos más complejos que requieren coordinación y adaptación sostenidas. Nuestro estudio de ablación identifica características arquitectónicas y algorítmicas críticas para CMARL en la comida.

Publicado Originalme en rss.arxiv.org El 18 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web