RTSGameBench: un punto de referencia RTS para el razonamiento estratégico mediante modelos de visión-lenguaje

Resumen: Los modelos modernos de visión-lenguaje (VLM) a menudo luchan con el razonamiento estratégico, es decir, anticipar e influir en las acciones de otros agentes, en condiciones de incertidumbre en entornos competitivos y cooperativos. Los juegos de estrategia en tiempo real (RTS) pueden ser un banco de pruebas natural para diagnosticar esta limitación, ya que exigen coordinación con los aliados, adaptación a la estrategia de los oponentes y planificación a largo plazo bajo observabilidad parcial. Sin embargo, los puntos de referencia RTS existentes ofrecen un alcance de evaluación limitado, carecen de un diagnóstico sistemático de competencias y permanecen fijos en la cobertura del escenario prediseñado. Para abordar estas limitaciones, presentamos RTSGameBench, que se basa en Beyond All Reason, un juego de estrategia en tiempo real a gran escala con un campo de batalla ampliado que exige una diversidad de estrategias más amplia que los bancos de pruebas existentes. El punto de referencia propuesto proporciona evaluaciones a través de juegos diversos en varias estructuras de enfrentamientos, evaluación de diagnóstico a través de minijuegos, cada uno dirigido a una competencia estratégica individual, y cobertura extensible a través de un marco de generación autoevolutivo que convierte consultas de formato libre en nuevos minijuegos, mejorando a lo largo de ciclos sucesivos. Además, para que los VLM funcionen en juegos de estrategia en tiempo real a gran escala, proporcionamos RTSGameAgent que administra las unidades mediante un FSM con memoria agente. Validamos empíricamente que múltiples VLM de última generación no funcionan bien cuando los enfrentamientos exigen una coordinación más estrecha, una coordinación de múltiples agentes y cuando aumenta la escala de la tarea.

Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cómo un thriller tecnológico de 30 años predijo nuestro aislamiento digital

CharTool: razonamiento visual integrado en herramientas para la comprensión de gráficos

Una breve historia de la tecnología de gemelos digitales

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido