En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Resolver Pasur usando minimización de arrepentimiento contrafáctico acelerado por GPU

Resolver Pasur usando minimización de arrepentimiento contrafáctico acelerado por GPU

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Resolver Pasur presenta desafíos únicos debido a sus intrincadas reglas y al gran tamaño de su árbol de juego. Manejamos la complejidad de las reglas utilizando los tensores de Pytorch Cuda y para abordar la naturaleza intensiva en memoria del juego, descomponemos el árbol del juego en dos componentes clave: (1) estados del juego reales y (2) puntajes heredados de rondas anteriores. Construimos el árbol de juego completo emparejando los estados de tarjetas con puntajes acumulados en el proceso de desarrollo. Este diseño reduce la sobrecarga de la memoria al almacenar solo valores de estrategia esenciales y conexiones de nodos. Para gestionar aún más la complejidad computacional, aplicamos una estrategia de entrenamiento hacia atrás redondas por ronda, comenzando desde la ronda final y propagando recursivamente los servicios públicos promedio a etapas anteriores. Nuestro enfoque construye el árbol de juego completo, que en promedio consta de más de $ 10^9 $ nodos. Proporcionamos fragmentos de implementación detallados.
Después de calcular una estrategia de equilibrio cercana a la narración, entrenamos un modelo basado en árboles para predecir estas estrategias para su uso durante el juego. Luego estimamos el valor razonable de cada mazo a través de una autoestima a gran escala entre las estrategias de equilibrio simulando, por ejemplo, 10,000 juegos por enfrentamiento, ejecutados en paralelo utilizando la aceleración de la GPU.
Se pueden extender marcos similares a otros algoritmos de aprendizaje de refuerzo donde el árbol de acción se descompone naturalmente en múltiples rondas, como juegos de estrategia basados en turnos o decisiones comerciales secuenciales en los mercados financieros.

Publicado Originalme en export.arxiv.org El 11 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web