Resumen: Desarrollar agentes de IA que puedan adaptarse de manera robusta a paisajes estratégicos dramáticamente diferentes sin capacitar es un desafío central para el aprendizaje de múltiples agentes. Pokémon Championships (VGC) es un dominio con un espacio extraordinariamente grande de posibles configuraciones de equipo de aproximadamente $ 10^{139} $ – mucho más grande que las de Dota o Starcraft. La naturaleza combinatoria altamente discreta de la construcción de equipos en Pokémon VGC hace que las estrategias óptimas cambien drásticamente dependiendo tanto del equipo y el equipo del oponente, lo que hace que la generalización sea única. Para avanzar en la investigación sobre este problema, introducimos VGC Bench: un punto de referencia que proporciona infraestructura crítica, estandariza los protocolos de evaluación y suministra conjuntos de datos de juego humano y una variedad de líneas de base, desde agentes de modelos de gran lenguaje y clonación de comportamiento hasta el aprendizaje de refuerzo y métodos de juegos empíricos-teoréticos como el juego autoplaz, el juego ficticio y el doble oracle. En la configuración restringida donde un agente está capacitado y evaluado en una configuración de un solo equipo, nuestros métodos pueden ganar contra un competidor profesional VGC. Evaluamos ampliamente todos los métodos de referencia sobre conjuntos de equipos progresivamente más grandes y encontramos que incluso el algoritmo de mejor rendimiento en la configuración de un solo equipo está en escala a medida que crece el tamaño del equipo. Por lo tanto, la generalización de políticas en diversas estrategias de equipo sigue siendo un desafío abierto para la comunidad. Nuestro código es de origen abierto en esta URL HTTPS.
Publicado Originalme en rss.arxiv.org El 12 de junio de 2025.
Ver Fuente Original