Acelerar la búsqueda de árboles en Montecarlo con políticas posteriores optimizadas

Resumen: La recursividad en RMCTS se basa en calcular políticas posteriores optimizadas en cada estado del juego en el árbol de búsqueda, comenzando desde las hojas y volviendo a la raíz. Aquí utilizamos la política posterior explorada en “Búsqueda de árbol de Monte-Carlo como optimización de políticas regularizadas” (Grill, et al.). Su política posterior es la política única que maximiza la recompensa esperada dadas las recompensas de acción estimadas menos una penalización por divergir de la política anterior.
El árbol explorado por RMCTS no está definido de manera adaptativa, como lo está en MCTS-UCB. En cambio, el árbol RMCTS se define siguiendo políticas de red anteriores en cada nodo. Esto es una desventaja, pero la ventaja de la aceleración es más significativa y, en la práctica, encontramos que las redes entrenadas con RMCTS igualan la calidad de las redes entrenadas con MCTS-UCB en aproximadamente un tercio del tiempo de entrenamiento. Incluimos comparaciones de tiempo y calidad de RMCTS frente a MCTS-UCB para tres juegos: Connect-4, Dots-and-Boxes y Othello.

Publicado originalmente en export.arxiv.org el 5 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Generación de intención factorizada: desatar la diversidad en su modelo de idioma

Confuso aprendizaje robusto por refuerzo profundo: un enfoque causal

Recuperación aumentada (gráfico de conocimiento) y generación de matriz de estructura de diseño (DSM) basada en modelos de lenguaje grande de sistemas ciberfísicos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido