Versión bitboard de Tetris AI

Resumen: La eficiencia de los motores de juegos y los algoritmos de optimización de políticas es crucial para entrenar agentes de aprendizaje por refuerzo (RL) en tareas complejas de toma de decisiones secuenciales, como el Tetris. Las implementaciones existentes de Tetris adolecen de bajas velocidades de simulación, evaluación de estado subóptima y paradigmas de entrenamiento ineficientes, lo que limita su utilidad para la investigación de RL a gran escala. Para abordar estas limitaciones, este artículo propone un marco de Tetris AI de alto rendimiento basado en la optimización del bitboard y algoritmos RL mejorados. Primero, rediseñamos el tablero del juego Tetris y los tetrominós usando representaciones de tablero de bits, aprovechando las operaciones bit a bit para acelerar los procesos centrales (por ejemplo, detección de colisiones, limpieza de líneas y extracción de características Dellacherie-Thiery) y logramos una velocidad 53 veces mayor en comparación con OpenAI Gym-Tetris. En segundo lugar, presentamos una red de actores de evaluación posterior al estado que simplifica la estimación del valor del estado aprovechando la propiedad posterior al estado de Tetris, superando a las redes tradicionales de valor de acción con menos parámetros. En tercer lugar, proponemos un algoritmo de optimización de políticas próximas (PPO) optimizado para el buffer que equilibra la eficiencia de muestreo y actualización, logrando una puntuación promedio de 3829 en cuadrículas de 10×10 en 3 minutos. Además, desarrollamos una interfaz Python-Java que cumple con el estándar OpenAI Gym, lo que permite una integración perfecta con los marcos RL modernos. Los resultados experimentales demuestran que nuestro marco mejora la utilidad de Tetris como punto de referencia de RL al unir optimizaciones de bitboard de bajo nivel con estrategias de IA de alto nivel, proporcionando una solución computacionalmente liviana y eficiente en muestras para la investigación escalable de toma de decisiones secuencial.

Publicado originalmente en export.arxiv.org el 30 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Inyección de inmediato directa transferible mediante muestreo MCMC guiado por activación

Evaluación de la robustez de modelos de razonamiento en problemas lógicos parametrizados

¿La alineación de LLM realmente necesita diversidad? Un estudio empírico sobre la adaptación de métodos RLVR para el razonamiento moral

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido