Escala de investigación de estrategias de factores de exploración UCT independientes

Resumen: El algoritmo de límites superiores de confianza para árboles (UCT) no es independiente de la escala de recompensa del juego al que se aplica. Para los juegos de suma cero con escasas recompensas de ${-1,0,1}$ al final del juego, esto no es un problema, pero muchos juegos a menudo presentan recompensas densas con escalas de recompensa cuidadosamente seleccionadas, lo que hace que el valor Q de un nodo abarque diferentes magnitudes en diferentes juegos. En este artículo, evaluamos varias estrategias para elegir de forma adaptativa la constante de exploración UCT $lambda$, denominadas $lambda$-estrategias, que son agnósticas a la escala de recompensas del juego. Estas estrategias $lambda$ incluyen las propuestas en la literatura, así como cinco estrategias nuevas. Dados nuestros resultados experimentales, recomendamos usar una de nuestras estrategias $lambda$ recientemente sugeridas, que es elegir $lambda$ como $2 cdot sigma$ donde $sigma$ es la desviación estándar empírica de los valores Q de todos los pares estado-acción del árbol de búsqueda. Este método supera las estrategias $lambda$ existentes en una amplia gama de tareas, tanto en términos de un valor de parámetro único como del rendimiento máximo obtenido al optimizar todos los parámetros disponibles.

Publicado originalmente en export.arxiv.org el 26 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Barcos eléctricos Drive Aquacultura de Nueva Inglaterra

Más allá de la puntuación alta: perfiles de habilidad prosocial de poblaciones de múltiples agentes

4 formas de conquistar el síndrome de impostor

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido