Resumen: El algoritmo de límites superiores de confianza para árboles (UCT) no es independiente de la escala de recompensa del juego al que se aplica. Para los juegos de suma cero con escasas recompensas de ${-1,0,1}$ al final del juego, esto no es un problema, pero muchos juegos a menudo presentan recompensas densas con escalas de recompensa cuidadosamente seleccionadas, lo que hace que el valor Q de un nodo abarque diferentes magnitudes en diferentes juegos. En este artículo, evaluamos varias estrategias para elegir de forma adaptativa la constante de exploración UCT $lambda$, denominadas $lambda$-estrategias, que son agnósticas a la escala de recompensas del juego. Estas estrategias $lambda$ incluyen las propuestas en la literatura, así como cinco estrategias nuevas. Dados nuestros resultados experimentales, recomendamos usar una de nuestras estrategias $lambda$ recientemente sugeridas, que es elegir $lambda$ como $2 cdot sigma$ donde $sigma$ es la desviación estándar empírica de los valores Q de todos los pares estado-acción del árbol de búsqueda. Este método supera las estrategias $lambda$ existentes en una amplia gama de tareas, tanto en términos de un valor de parámetro único como del rendimiento máximo obtenido al optimizar todos los parámetros disponibles.
Publicado originalmente en export.arxiv.org el 26 de octubre de 2025.
Ver fuente original
