Fusionarse y conquistar: optimización evolutiva de la IA para 2048

Resumen:La optimización de la inteligencia artificial (IA) para entornos dinámicos sigue siendo un desafío fundamental en la investigación del aprendizaje automático. En este artículo, examinamos métodos de entrenamiento evolutivo para optimizar la IA para resolver el juego 2048, un rompecabezas deslizante 2D. 2048, con su combinación de jugabilidad estratégica y elementos estocásticos, presenta un campo de juego ideal para estudiar la toma de decisiones, la planificación a largo plazo y la adaptación dinámica. Implementamos dos sistemas distintos: un sistema de metaprompting de dos agentes donde un agente “pensador” de modelo de lenguaje grande (LLM) refina las estrategias de juego para un agente LLM “ejecutor”, y un sistema de agente único basado en refinar una función de valor para una búsqueda de árbol de Monte Carlo limitada. También experimentamos con funciones de reversión para evitar la degradación del rendimiento. Nuestros resultados demuestran el potencial de las técnicas de refinamiento evolutivo para mejorar el rendimiento de la IA en entornos no deterministas. El sistema de agente único logró mejoras sustanciales, con un aumento promedio de 473,2 puntos por ciclo y con claras tendencias al alza (correlación $rho$=0,607) entre los ciclos de formación. La comprensión del juego por parte del LLM también creció, como lo demuestra el desarrollo de estrategias cada vez más avanzadas. Por el contrario, el sistema de dos agentes no obtuvo muchas mejoras, lo que pone de relieve los límites inherentes de la metaincitación.

Publicado originalmente en export.arxiv.org el 23 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Postergen: Generación de papel a costa de Aesthetic-consecuente a través de LLM de múltiples agentes

Una conjetura sobre una compensación fundamental entre certeza y alcance en la IA simbólica y generativa

Un nuevo informe de la Fundación Linux muestra que la contribución activa al código abierto ofrece un retorno de la inversión de entre 2 y 5 veces, mientras que el consumo pasivo aumenta la costosa deuda técnica

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido