Agrupación de nodos con diferencias de valores conocidas: un algoritmo de abstracción basado en UCT sin pérdidas

Resumen:Un desafío central de Monte Carlo Tree Search (MCTS) es su eficiencia de muestra, que se puede mejorar agrupando pares estado-acción y utilizando sus estadísticas agregadas en lugar de estadísticas de un solo nodo. On the Go Abstracciones en límites de confianza superiores aplicados a árboles (OGA-UCT) es el algoritmo de abstracción MCTS de última generación para entornos deterministas que construye su abstracción utilizando el marco de abstracciones de pares estado-acción (ASAP), cuyo objetivo es detectar estados y pares estado-acción con el mismo valor en condiciones de juego óptimo mediante el análisis del gráfico de búsqueda. ASAP, sin embargo, requiere que dos pares estado-acción tengan la misma recompensa inmediata, lo cual es una condición rígida que limita el número de abstracciones que se pueden encontrar y, por lo tanto, la eficiencia de la muestra. En este artículo, rompemos con el paradigma de agrupar estados valor-equivalentes o pares estado-acción y, en cambio, agrupamos estados y pares estado-acción con valores posiblemente diferentes, siempre que se pueda inferir la diferencia entre sus valores. A este marco de abstracción lo llamamos Abstracciones de Diferencia de Valor Conocido (KVDA), que infiere las diferencias de valor mediante el análisis de las recompensas inmediatas y modifica OGA-UCT para utilizar este marco en su lugar. La modificación se llama KVDA-UCT, que detecta significativamente más abstracciones que OGA-UCT, no introduce ningún parámetro adicional y supera a OGA-UCT en una variedad de entornos deterministas y configuraciones de parámetros.

Publicado originalmente en export.arxiv.org el 29 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Ai Noter – Pinchar la brecha entre las leyes científicas derivadas por los sistemas de IA y el conocimiento canónico a través de la inferencia abductiva

Un enfoque para las evaluaciones del modelo de IA a base en criterios derivados de humanos

Redes para la IA: sentar las bases para la inteligencia en tiempo real

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido