R2D-RL: un entorno de fútbol RoboCup 2D para el aprendizaje por refuerzo con múltiples agentes

Resumen: El fútbol robótico es un banco de pruebas desafiante para el aprendizaje reforzado con múltiples agentes porque combina observabilidad parcial, interacción cooperativa y adversaria, recompensas escasas y comportamiento táctico a largo plazo. RoboCup 2D Soccer Simulator (RCSS2D) proporciona una plataforma de fútbol robótica madura, pero su arquitectura de servidor-cliente orientada a la competencia es difícil de usar directamente con flujos de trabajo MARL modernos basados en Python. Presentamos R2D-RL, un entorno de aprendizaje por refuerzo que conecta clientes de reproductores basados en RCSS2D y HELIOS a una interfaz Python MARL a través de comunicación de memoria compartida y sincronización a nivel de ciclo. R2D-RL admite entrenamiento de campo completo y basado en escenarios con oponentes configurables, espacios de acción parametrizados híbridos y discretos básicos, máscaras de acción, configuración de recompensa basada en el valor de posesión esperado (EPV) y ejecución paralela. Proporcionamos escenarios de portería frontal y un punto de referencia de campo completo de 11 contra 11, junto con resultados de referencia.

Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La estrategia FABRIC para verificar los sistemas de retroalimentación neuronal

El único dato que realmente podría arrojar luz sobre su trabajo y la IA

Puesto: La crisis de revisión por pares de la conferencia de IA exige comentarios del autor y recompensas de revisores

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido