En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Escala de investigación de estrategias de factores de exploración UCT independientes

Escala de investigación de estrategias de factores de exploración UCT independientes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El algoritmo de límites superiores de confianza para árboles (UCT) no es independiente de la escala de recompensa del juego al que se aplica. Para los juegos de suma cero con escasas recompensas de ${-1,0,1}$ al final del juego, esto no es un problema, pero muchos juegos a menudo presentan recompensas densas con escalas de recompensa cuidadosamente seleccionadas, lo que hace que el valor Q de un nodo abarque diferentes magnitudes en diferentes juegos. En este artículo, evaluamos varias estrategias para elegir de forma adaptativa la constante de exploración UCT $lambda$, denominadas $lambda$-estrategias, que son agnósticas a la escala de recompensas del juego. Estas estrategias $lambda$ incluyen las propuestas en la literatura, así como cinco estrategias nuevas. Dados nuestros resultados experimentales, recomendamos usar una de nuestras estrategias $lambda$ recientemente sugeridas, que es elegir $lambda$ como $2 cdot sigma$ donde $sigma$ es la desviación estándar empírica de los valores Q de todos los pares estado-acción del árbol de búsqueda. Este método supera las estrategias $lambda$ existentes en una amplia gama de tareas, tanto en términos de un valor de parámetro único como del rendimiento máximo obtenido al optimizar todos los parámetros disponibles.

Publicado originalmente en export.arxiv.org el 26 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web