Resumen: Los avances recientes en modelos de idiomas grandes (LLM) han llevado a un salto cualitativo en el desempeño de la inteligencia artificial en tareas de razonamiento, particularmente demostrando capacidades notables en el razonamiento matemático, simbólico y de sentido común. Sin embargo, como un componente crítico de la cognición humana avanzada, el razonamiento estratégico, es decir, la capacidad de evaluar los comportamientos de múltiples agentes en entornos dinámicos, formular planes de acción y adaptar estrategias, aún no se ha evaluado o modelado sistemáticamente. Para abordar esta brecha, este documento presenta WGSR Bench, el primer punto de referencia de razonamiento de estrategia para LLM que usa WarGame como entorno de evaluación. WarGame, un escenario estratégico de alta complejidad por excelencia, integra la incertidumbre ambiental, la dinámica adversaria y las opciones estratégicas no únicas, lo que lo convierte en una prueba de prueba efectiva para evaluar las capacidades de LLM en la toma de decisiones múltiples, la inferencia de la intención y la razonamiento contrafactual. Los diseños de Bench WGSR prueban muestras de tres tareas centrales, es decir, conciencia de situación ambiental, modelado de riesgos de oponente y generación de políticas, que sirven como la arquitectura S-POE central, para evaluar sistemáticamente las habilidades principales del razonamiento estratégico. Finalmente, un agente de juego de guerra basado en LLM está diseñado para integrar estas partes para una evaluación de razonamiento de estrategia integral. Con WGSR-Bench, esperamos evaluar las fortalezas y limitaciones de los LLM de última generación en el razonamiento estratégico teórico del juego y avanzar en la investigación en una gran inteligencia estratégica basada en el modelo.
Publicado Originalme en rss.arxiv.org El 12 de junio de 2025.
Ver Fuente Original