Resumen: La recursividad en RMCTS se basa en calcular políticas posteriores optimizadas en cada estado del juego en el árbol de búsqueda, comenzando desde las hojas y volviendo a la raíz. Aquí utilizamos la política posterior explorada en “Búsqueda de árbol de Monte-Carlo como optimización de políticas regularizadas” (Grill, et al.). Su política posterior es la política única que maximiza la recompensa esperada dadas las recompensas de acción estimadas menos una penalización por divergir de la política anterior.
El árbol explorado por RMCTS no está definido de manera adaptativa, como lo está en MCTS-UCB. En cambio, el árbol RMCTS se define siguiendo políticas de red anteriores en cada nodo. Esto es una desventaja, pero la ventaja de la aceleración es más significativa y, en la práctica, encontramos que las redes entrenadas con RMCTS igualan la calidad de las redes entrenadas con MCTS-UCB en aproximadamente un tercio del tiempo de entrenamiento. Incluimos comparaciones de tiempo y calidad de RMCTS frente a MCTS-UCB para tres juegos: Connect-4, Dots-and-Boxes y Othello.
Publicado originalmente en export.arxiv.org el 5 de enero de 2026.
Ver fuente original
