Agentes de cambio: agentes de LLM de autoevolución para la planificación estratégica

Resumen: Los avances recientes en LLM han permitido su uso como agentes autónomos en una variedad de tareas, sin embargo, continúan luchando por formular y adherirse a estrategias coherentes a largo plazo. En este documento, investigamos si los agentes de LLM pueden mejorar cuando se colocan en entornos que desafían explícitamente sus habilidades de planificación estratégica. Utilizando los colonos del juego de mesa de Catan, a los que se accede a través del marco de Catanatron de código abierto, comparamos una progresión de los agentes basados en LLM, desde un agente simple de juego de juegos hasta sistemas capaces de reescribir de manera autónoma sus propias indicaciones y el código de su agente de jugadores. Introducimos una arquitectura de múltiples agentes en la que los roles especializados (analizador, investigador, codificador y jugador) colaboran para analizar iterativamente el juego, investigar nuevas estrategias y modificar la lógica o el aviso del agente. Al comparar los agentes elaborados manualmente con los evolucionados por completo por LLM, evaluamos cuán efectivamente pueden diagnosticar estos sistemas y adaptarse con el tiempo. Nuestros resultados muestran que los agentes auto evolucionados, particularmente cuando están alimentados por modelos como Claude 3.7 y GPT-4O, superan a las líneas de base estáticas al adoptar de forma autónoma sus estrategias, transmitir el comportamiento de la muestra a los agentes de juego de juegos y demostrar un razonamiento adaptativo sobre múltiples iteraciones.

Publicado Originalme en rss.arxiv.org El 5 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

ScriptDoctor: Generación automática de juegos de Puzzlescript a través de modelos de idiomas grandes y búsqueda de árboles

Webinar conjunta One6g/AIOti “Robótica 6G Empowered”

Filtrado de creencias para el control epistémico en el espacio de estado lingüístico

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido