Resumen: El fútbol robótico es un banco de pruebas desafiante para el aprendizaje reforzado con múltiples agentes porque combina observabilidad parcial, interacción cooperativa y adversaria, recompensas escasas y comportamiento táctico a largo plazo. RoboCup 2D Soccer Simulator (RCSS2D) proporciona una plataforma de fútbol robótica madura, pero su arquitectura de servidor-cliente orientada a la competencia es difícil de usar directamente con flujos de trabajo MARL modernos basados en Python. Presentamos R2D-RL, un entorno de aprendizaje por refuerzo que conecta clientes de reproductores basados en RCSS2D y HELIOS a una interfaz Python MARL a través de comunicación de memoria compartida y sincronización a nivel de ciclo. R2D-RL admite entrenamiento de campo completo y basado en escenarios con oponentes configurables, espacios de acción parametrizados híbridos y discretos básicos, máscaras de acción, configuración de recompensa basada en el valor de posesión esperado (EPV) y ejecución paralela. Proporcionamos escenarios de portería frontal y un punto de referencia de campo completo de 11 contra 11, junto con resultados de referencia.
Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original
