Resolver Pasur usando minimización de arrepentimiento contrafáctico acelerado por GPU

Resumen: Resolver Pasur presenta desafíos únicos debido a sus intrincadas reglas y al gran tamaño de su árbol de juego. Manejamos la complejidad de las reglas utilizando los tensores de Pytorch Cuda y para abordar la naturaleza intensiva en memoria del juego, descomponemos el árbol del juego en dos componentes clave: (1) estados del juego reales y (2) puntajes heredados de rondas anteriores. Construimos el árbol de juego completo emparejando los estados de tarjetas con puntajes acumulados en el proceso de desarrollo. Este diseño reduce la sobrecarga de la memoria al almacenar solo valores de estrategia esenciales y conexiones de nodos. Para gestionar aún más la complejidad computacional, aplicamos una estrategia de entrenamiento hacia atrás redondas por ronda, comenzando desde la ronda final y propagando recursivamente los servicios públicos promedio a etapas anteriores. Nuestro enfoque construye el árbol de juego completo, que en promedio consta de más de $ 10^9 $ nodos. Proporcionamos fragmentos de implementación detallados.
Después de calcular una estrategia de equilibrio cercana a la narración, entrenamos un modelo basado en árboles para predecir estas estrategias para su uso durante el juego. Luego estimamos el valor razonable de cada mazo a través de una autoestima a gran escala entre las estrategias de equilibrio simulando, por ejemplo, 10,000 juegos por enfrentamiento, ejecutados en paralelo utilizando la aceleración de la GPU.
Se pueden extender marcos similares a otros algoritmos de aprendizaje de refuerzo donde el árbol de acción se descompone naturalmente en múltiples rondas, como juegos de estrategia basados en turnos o decisiones comerciales secuenciales en los mercados financieros.

Publicado Originalme en export.arxiv.org El 11 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Capacitación de programadores de alto nivel con aprendizaje reforzado con retroalimentación de ejecución para la automatización de GUI a largo plazo

FRIT: Uso de la importancia causal para mejorar la fidelidad de la cadena de pensamiento

Fiabilidad por diseño: cuantificar y eliminar el riesgo de fabricación en LLM. De la IA generativa a la consultiva: un análisis comparativo en el ámbito jurídico y lecciones para bases de conocimiento de alto riesgo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido