MCT bilevel para la selección de nodos amortizadas O (1) en la planificación clásica

Resumen: Estudiamos una implementación eficiente de la búsqueda de árboles de Monte-Carlo basada en Bandit (MCTS) basada en múltiples brazos (MAB) para la planificación clásica. Una debilidad de los MCT es que pasa un tiempo significativo decidiendo qué nodo expandirse a continuación. Si bien la selección de un nodo de una lista abierta con $ n $ nodos tiene $ O (1) $ complejidad de tiempo de ejecución con colas de prioridad basadas en matriz tradicionales para claves enteras densas, la lista abierta basada en árboles utilizada por MCTS requiere $ O ( log n) $, que corresponde aproximadamente a la profundidad de búsqueda $ D $. En la planificación clásica, $ D $ es arbitrariamente grande (por ejemplo, $ 2^K-1 $ en $ K $ -Disk Tower-of-Hanoi) y el tiempo de ejecución de la selección de nodos es significativo, a diferencia de la búsqueda en el árbol de juego, donde el costo es descuidado en comparación con la evaluación de nodos (despliegue) porque $ D $ está inherentemente limitado por el juego (por ejemplo, $ D LEQ 361 $ en Go). Para mejorar este cuello de botella, proponemos una modificación bilevel a MCTS que ejecuta una búsqueda mejor de cada nodo de hoja seleccionado con un presupuesto de expansión proporcional a $ D $, que logra un tiempo de ejecución de $ O (1) amortizado para la selección de nodos, equivalente a la lista abierta basada en la cola tradicional. Además, presentamos el colapso de los árboles, una mejora que reduce los pasos de selección de acción y mejora aún más el rendimiento.

Publicado Originalme en export.arxiv.org El 12 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Programa de Trabajo 2025 Horizonte Europa. Clúster 4: Digital E Industria

Oportunidadas de financieras a la Colaboración Internacional en i+D+I: Industria

LARC: Hacia la planificación de retrosínesis restringida a nivel humano a través de un marco de agente

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido