Resumen: Este artículo presenta un sistema de aprendizaje de refuerzo profundo (DRL) para Xiangqi (ajedrez chino) que integra redes neuronales con la búsqueda de árboles de Monte Carlo (MCTS) para permitir la autoestima estratégica y la autoinforme. Abordar la complejidad subexplorada de Xiangqi, incluido su diseño único de la junta, limitaciones de movimiento de piezas y condiciones de victoria, nuestro enfoque combina redes de valor de políticas con MCT para simular consecuencias de movimiento y refinar la toma de decisiones. Al superar desafíos como el alto factor de ramificación de Xiangqi y la dinámica de la pieza asimétrica, nuestro trabajo avanza las capacidades de IA en juegos de estrategia culturalmente significativos al tiempo que proporciona información para adaptar marcos DRL-MCTS a los sistemas de reglas específicos de dominio.
Publicado Originalme en export.arxiv.org El 22 de junio de 2025.
Ver Fuente Original