Reforzamiento profundo Aprendizaje del jugador xiangqi con búsqueda de árboles de Monte Carlo

Resumen: Este artículo presenta un sistema de aprendizaje de refuerzo profundo (DRL) para Xiangqi (ajedrez chino) que integra redes neuronales con la búsqueda de árboles de Monte Carlo (MCTS) para permitir la autoestima estratégica y la autoinforme. Abordar la complejidad subexplorada de Xiangqi, incluido su diseño único de la junta, limitaciones de movimiento de piezas y condiciones de victoria, nuestro enfoque combina redes de valor de políticas con MCT para simular consecuencias de movimiento y refinar la toma de decisiones. Al superar desafíos como el alto factor de ramificación de Xiangqi y la dinámica de la pieza asimétrica, nuestro trabajo avanza las capacidades de IA en juegos de estrategia culturalmente significativos al tiempo que proporciona información para adaptar marcos DRL-MCTS a los sistemas de reglas específicos de dominio.

Publicado Originalme en export.arxiv.org El 22 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

HealthSLM Bench: evaluación comparativa de modelos de lenguaje pequeño para monitoreo de atención médica móviles y portátiles

Comente sobre la ilusión del pensamiento: Comprender las fortalezas y limitaciones de los modelos de razonamiento a través de la lente de la complejidad de los problemas

CAC-COT: la cadena de pensamiento compacta con el conector para la síntesis de datos de razonamiento eficiente en las tareas cognitivas del sistema dual

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido