Dominar el juego de Go con la repetición de la experiencia de juego autónomo

Resumen:El juego de Go ha servido durante mucho tiempo como punto de referencia para la inteligencia artificial, exigiendo un razonamiento estratégico sofisticado y una planificación a largo plazo. Los enfoques anteriores, como AlphaGo y sus sucesores, se han basado predominantemente en la búsqueda de árboles de Monte-Carlo (MCTS) basada en modelos. En este trabajo, presentamos QZero, un novedoso algoritmo de aprendizaje por refuerzo sin modelo que renuncia a la búsqueda durante el entrenamiento y aprende una política de equilibrio de Nash a través del autojuego y la repetición de experiencias fuera de la política. Basado en Q-learning regularizado por entropía, QZero utiliza una única red de valor Q para unificar la evaluación y mejora de políticas. Comenzando tabula rasa sin datos humanos y entrenado durante 5 meses con recursos informáticos modestos (7 GPU), QZero logró un nivel de rendimiento comparable al de AlphaGo. Esto demuestra, por primera vez, la eficiencia del uso del aprendizaje por refuerzo sin modelos para dominar el juego de Go, así como la viabilidad del aprendizaje por refuerzo fuera de políticas para resolver entornos complejos y a gran escala.

Publicado originalmente en export.arxiv.org el 7 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Verificación de la toma de decisiones secuencial sin memoria de modelos de lenguaje grandes

NL2LOGIC: Traducción guiada por AST de lenguaje natural a lógica de primer orden con modelos de lenguaje grandes

La descarga: juego con el futuro de la humanidad y la FDA bajo Trump

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido