En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Agrupación de nodos con diferencias de valores conocidas: un algoritmo de abstracción basado en UCT sin pérdidas

Agrupación de nodos con diferencias de valores conocidas: un algoritmo de abstracción basado en UCT sin pérdidas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Un desafío central de Monte Carlo Tree Search (MCTS) es su eficiencia de muestra, que se puede mejorar agrupando pares estado-acción y utilizando sus estadísticas agregadas en lugar de estadísticas de un solo nodo. On the Go Abstracciones en límites de confianza superiores aplicados a árboles (OGA-UCT) es el algoritmo de abstracción MCTS de última generación para entornos deterministas que construye su abstracción utilizando el marco de abstracciones de pares estado-acción (ASAP), cuyo objetivo es detectar estados y pares estado-acción con el mismo valor en condiciones de juego óptimo mediante el análisis del gráfico de búsqueda. ASAP, sin embargo, requiere que dos pares estado-acción tengan la misma recompensa inmediata, lo cual es una condición rígida que limita el número de abstracciones que se pueden encontrar y, por lo tanto, la eficiencia de la muestra. En este artículo, rompemos con el paradigma de agrupar estados valor-equivalentes o pares estado-acción y, en cambio, agrupamos estados y pares estado-acción con valores posiblemente diferentes, siempre que se pueda inferir la diferencia entre sus valores. A este marco de abstracción lo llamamos Abstracciones de Diferencia de Valor Conocido (KVDA), que infiere las diferencias de valor mediante el análisis de las recompensas inmediatas y modifica OGA-UCT para utilizar este marco en su lugar. La modificación se llama KVDA-UCT, que detecta significativamente más abstracciones que OGA-UCT, no introduce ningún parámetro adicional y supera a OGA-UCT en una variedad de entornos deterministas y configuraciones de parámetros.

Publicado originalmente en export.arxiv.org el 29 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web