Resumen: Los avances recientes en LLM han permitido su uso como agentes autónomos en una variedad de tareas, sin embargo, continúan luchando por formular y adherirse a estrategias coherentes a largo plazo. En este documento, investigamos si los agentes de LLM pueden mejorar cuando se colocan en entornos que desafían explícitamente sus habilidades de planificación estratégica. Utilizando los colonos del juego de mesa de Catan, a los que se accede a través del marco de Catanatron de código abierto, comparamos una progresión de los agentes basados en LLM, desde un agente simple de juego de juegos hasta sistemas capaces de reescribir de manera autónoma sus propias indicaciones y el código de su agente de jugadores. Introducimos una arquitectura de múltiples agentes en la que los roles especializados (analizador, investigador, codificador y jugador) colaboran para analizar iterativamente el juego, investigar nuevas estrategias y modificar la lógica o el aviso del agente. Al comparar los agentes elaborados manualmente con los evolucionados por completo por LLM, evaluamos cuán efectivamente pueden diagnosticar estos sistemas y adaptarse con el tiempo. Nuestros resultados muestran que los agentes auto evolucionados, particularmente cuando están alimentados por modelos como Claude 3.7 y GPT-4O, superan a las líneas de base estáticas al adoptar de forma autónoma sus estrategias, transmitir el comportamiento de la muestra a los agentes de juego de juegos y demostrar un razonamiento adaptativo sobre múltiples iteraciones.
Publicado Originalme en rss.arxiv.org El 5 de junio de 2025.
Ver Fuente Original