En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Cooperación entre múltiples agentes a través de la inferencia de jugadores cooperativos en contexto

Cooperación entre múltiples agentes a través de la inferencia de jugadores cooperativos en contexto

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Lograr la cooperación entre agentes interesados ​​sigue siendo un desafío fundamental en el aprendizaje por refuerzo de múltiples agentes. Trabajos recientes demostraron que se puede inducir la cooperación mutua entre agentes “conscientes del aprendizaje” que explican y dan forma a la dinámica de aprendizaje de sus compañeros. Sin embargo, los enfoques existentes generalmente se basan en suposiciones codificadas, a menudo inconsistentes, sobre las reglas de aprendizaje de los jugadores compartidos o imponen una separación estricta entre los “aprendices ingenuos” que actualizan en escalas de tiempo rápidas y los “metaaprendices” que observan estas actualizaciones. Aquí, demostramos que las capacidades de aprendizaje en contexto de los modelos de secuencia permiten la conciencia del aprendizaje compartido sin requerir suposiciones codificadas o una separación explícita de escalas de tiempo. Mostramos que entrenar agentes del modelo de secuencia contra una distribución diversa de compañeros de juego induce naturalmente estrategias de mejor respuesta en contexto, funcionando efectivamente como algoritmos de aprendizaje en la rápida escala de tiempo intraepisodio. Encontramos que el mecanismo cooperativo identificado en trabajos anteriores -donde la vulnerabilidad a la extorsión impulsa la conformación mutua- emerge naturalmente en este escenario: la adaptación en contexto vuelve a los agentes vulnerables a la extorsión, y la presión mutua resultante para moldear la dinámica de aprendizaje en contexto del oponente se resuelve en el aprendizaje del comportamiento cooperativo. Nuestros resultados sugieren que el aprendizaje por refuerzo descentralizado estándar en modelos de secuencia combinado con diversidad de jugadores proporciona un camino escalable para aprender comportamientos cooperativos.

Publicado originalmente en export.arxiv.org el 18 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web