Resumen: Las evaluaciones de juegos LLM de múltiples turnos y múltiples agentes a menudo exhiben una variación sustancial entre ejecuciones. En las interacciones de largo horizonte, las pequeñas desviaciones tempranas se agravan a lo largo de los turnos y se amplifican mediante el acoplamiento de múltiples agentes. Esto sesga las estimaciones de la tasa de victorias y hace que las clasificaciones no sean confiables en torneos repetidos. La elección inmediata empeora aún más esta situación al producir diferentes políticas efectivas. Abordamos tanto la inestabilidad como el bajo rendimiento con MEMO (optimización del contexto del modelo aumentado en memoria), un marco de juego automático que optimiza el contexto del tiempo de inferencia mediante la combinación de retención y exploración. La retención mantiene un banco de memoria persistente que almacena conocimientos estructurados de las trayectorias de juego personal y los inyecta como antecedentes durante el juego posterior. La exploración ejecuta una evolución rápida al estilo de un torneo con selección consciente de la incertidumbre a través de TrueSkill y utiliza repetición priorizada para volver a visitar estados raros y decisivos. En cinco juegos basados en texto, MEMO aumenta la tasa media de ganancias del 25,1 % al 49,5 % para GPT-4o-mini y del 20,9 % al 44,3 % para Qwen-2.5-7B-Instruct, utilizando juegos de autojuego de 2.000 dólares por tarea. La variación entre ejecuciones también disminuye, lo que brinda clasificaciones más estables entre las variaciones de indicaciones. Estos resultados sugieren que el rendimiento y la solidez del juego LLM multiagente tienen un margen sustancial de mejora mediante la optimización del contexto. MEMO logra los mayores beneficios en negociaciones y juegos de información imperfecta, mientras que RL sigue siendo más eficaz en entornos de información perfecta.
Publicado originalmente en export.arxiv.org el 10 de marzo de 2026.
Ver fuente original
