Resumen: Los modelos modernos de visión-lenguaje (VLM) a menudo luchan con el razonamiento estratégico, es decir, anticipar e influir en las acciones de otros agentes, en condiciones de incertidumbre en entornos competitivos y cooperativos. Los juegos de estrategia en tiempo real (RTS) pueden ser un banco de pruebas natural para diagnosticar esta limitación, ya que exigen coordinación con los aliados, adaptación a la estrategia de los oponentes y planificación a largo plazo bajo observabilidad parcial. Sin embargo, los puntos de referencia RTS existentes ofrecen un alcance de evaluación limitado, carecen de un diagnóstico sistemático de competencias y permanecen fijos en la cobertura del escenario prediseñado. Para abordar estas limitaciones, presentamos RTSGameBench, que se basa en Beyond All Reason, un juego de estrategia en tiempo real a gran escala con un campo de batalla ampliado que exige una diversidad de estrategias más amplia que los bancos de pruebas existentes. El punto de referencia propuesto proporciona evaluaciones a través de juegos diversos en varias estructuras de enfrentamientos, evaluación de diagnóstico a través de minijuegos, cada uno dirigido a una competencia estratégica individual, y cobertura extensible a través de un marco de generación autoevolutivo que convierte consultas de formato libre en nuevos minijuegos, mejorando a lo largo de ciclos sucesivos. Además, para que los VLM funcionen en juegos de estrategia en tiempo real a gran escala, proporcionamos RTSGameAgent que administra las unidades mediante un FSM con memoria agente. Validamos empíricamente que múltiples VLM de última generación no funcionan bien cuando los enfrentamientos exigen una coordinación más estrecha, una coordinación de múltiples agentes y cuando aumenta la escala de la tarea.
Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original
