Cooperación entre múltiples agentes a través de la inferencia de jugadores cooperativos en contexto

Resumen: Lograr la cooperación entre agentes interesados sigue siendo un desafío fundamental en el aprendizaje por refuerzo de múltiples agentes. Trabajos recientes demostraron que se puede inducir la cooperación mutua entre agentes “conscientes del aprendizaje” que explican y dan forma a la dinámica de aprendizaje de sus compañeros. Sin embargo, los enfoques existentes generalmente se basan en suposiciones codificadas, a menudo inconsistentes, sobre las reglas de aprendizaje de los jugadores compartidos o imponen una separación estricta entre los “aprendices ingenuos” que actualizan en escalas de tiempo rápidas y los “metaaprendices” que observan estas actualizaciones. Aquí, demostramos que las capacidades de aprendizaje en contexto de los modelos de secuencia permiten la conciencia del aprendizaje compartido sin requerir suposiciones codificadas o una separación explícita de escalas de tiempo. Mostramos que entrenar agentes del modelo de secuencia contra una distribución diversa de compañeros de juego induce naturalmente estrategias de mejor respuesta en contexto, funcionando efectivamente como algoritmos de aprendizaje en la rápida escala de tiempo intraepisodio. Encontramos que el mecanismo cooperativo identificado en trabajos anteriores -donde la vulnerabilidad a la extorsión impulsa la conformación mutua- emerge naturalmente en este escenario: la adaptación en contexto vuelve a los agentes vulnerables a la extorsión, y la presión mutua resultante para moldear la dinámica de aprendizaje en contexto del oponente se resuelve en el aprendizaje del comportamiento cooperativo. Nuestros resultados sugieren que el aprendizaje por refuerzo descentralizado estándar en modelos de secuencia combinado con diversidad de jugadores proporciona un camino escalable para aprender comportamientos cooperativos.

Publicado originalmente en export.arxiv.org el 18 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Ser o no ser: ontologías vectoriales como un marco ontológico verdaderamente formal

ANÁLISIS WHIF if de los modelos de idiomas grandes: explore el mundo del juego utilizando el pensamiento proactivo

Ontologías y limitaciones ajustadas a las estructuras relacionales

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido