Resumen: Gran Modelos de lenguaje (LLMS) ha demostrado recientemente impresionantes capacidades de predicción de secuencia de acción, pero a menudo luchan con tareas dinámicas de horizonte de larga duración, como los juegos estratégicos en tiempo real. En un juego como StarCraftii (SC2), los agentes necesitan administrar limitaciones de recursos y adaptarse a las situaciones en evolución del campo de batalla en un entorno parcialmente observable. Esto a menudo abruma los enfoques basados en LLM. Para abordar estos desafíos, proponemos un marco jerárquico de múltiples agentes que emplea agentes de aprendizaje de imitación especializados bajo un meta-controlador llamado Planificador Estratégico (SP). Por manifestaciones de expertos, cada agente especializado aprende una estrategia distintiva, como el apoyo aéreo o las maniobras defensivas, y produce secuencias de acción de varios pasos de múltiples pasos coherentes. Luego, el SP orquesta estas propuestas en un solo plan de adaptación ambiental que garantiza las decisiones locales que se alinean con estrategias a largo plazo. Llamamos a esto HIMA (imitación jerárquica múltiple agente). También presentamos TextScii-All, una prueba completa de SC2 que abarca todas las combinaciones de partidos de carrera en SC2. Nuestros resultados empíricos muestran que HIMA supera al estado de las artes en claridad estratégica, adaptabilidad y eficiencia computacional, subrayando el potencial de combinar módulos de imitación especializados con orquestación de nivel meta para desarrollar agentes de IA de uso general más robustos.
Publicado Originalme en export.arxiv.org El 10 de agosto de 2025.
Ver Fuente Original