En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Dominar el juego de Go con la repetición de la experiencia de juego autónomo

Dominar el juego de Go con la repetición de la experiencia de juego autónomo

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:El juego de Go ha servido durante mucho tiempo como punto de referencia para la inteligencia artificial, exigiendo un razonamiento estratégico sofisticado y una planificación a largo plazo. Los enfoques anteriores, como AlphaGo y sus sucesores, se han basado predominantemente en la búsqueda de árboles de Monte-Carlo (MCTS) basada en modelos. En este trabajo, presentamos QZero, un novedoso algoritmo de aprendizaje por refuerzo sin modelo que renuncia a la búsqueda durante el entrenamiento y aprende una política de equilibrio de Nash a través del autojuego y la repetición de experiencias fuera de la política. Basado en Q-learning regularizado por entropía, QZero utiliza una única red de valor Q para unificar la evaluación y mejora de políticas. Comenzando tabula rasa sin datos humanos y entrenado durante 5 meses con recursos informáticos modestos (7 GPU), QZero logró un nivel de rendimiento comparable al de AlphaGo. Esto demuestra, por primera vez, la eficiencia del uso del aprendizaje por refuerzo sin modelos para dominar el juego de Go, así como la viabilidad del aprendizaje por refuerzo fuera de políticas para resolver entornos complejos y a gran escala.

Publicado originalmente en export.arxiv.org el 7 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web