Neuropal: Puntuado en cualquier momento aprendiendo con neuroevolución para la macromanemia en Starcraft: Brood War

Resumen: Starcraft: Brood War sigue siendo un punto de referencia desafiante para la investigación de inteligencia artificial, particularmente en el dominio de la macromanimentación, donde se requiere una planificación estratégica a largo plazo. Los enfoques tradicionales para la IA de Starcraft se basan en sistemas basados en reglas o un aprendizaje profundo supervisado, que enfrentan limitaciones en la adaptabilidad y la eficiencia computacional. En este trabajo, introducimos Neuropal, un marco neuroevolutivo que integra la neuroevolución del aumento de las topologías (ordenadas) con el aprendizaje en cualquier momento marcado (PAL) para mejorar la eficiencia del entrenamiento evolutivo. Al alternar entre el entrenamiento frecuente y de baja fidelidad y las evaluaciones periódicas de alta fidelidad, PAL mejora la eficiencia de la muestra de los agentes ordenados, lo que permite descubrir estrategias efectivas en menos iteraciones de capacitación. Evaluamos el neuropal en un escenario de una sola raza de mapa fija en Starcraft: Brood War y comparamos su rendimiento con el entrenamiento estándar basado en NEAT. Nuestros resultados muestran que PAL acelera significativamente el proceso de aprendizaje, lo que permite al agente alcanzar niveles competitivos de juego en aproximadamente la mitad del tiempo de entrenamiento requerido solo por NEAT. Además, los agentes evolucionados exhiben comportamientos emergentes, como la colocación de barracas proxy y la optimización de la construcción defensiva, estrategias comúnmente utilizadas por los actores humanos expertos. Estos hallazgos sugieren que los mecanismos de evaluación estructurados como PAL pueden mejorar la escalabilidad y la efectividad de la neuroevolución en entornos de estrategia en tiempo real complejos.

Publicado Originalme en rss.arxiv.org El 12 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Lecciones aprendidas: un marco de múltiples agentes para el código LLMS para aprender y mejorar

Un marco ampliado basado en la realidad para la formación de usuarios sobre riesgos en entornos urbanos construidos

RLHF-V generativo: principios de aprendizaje de preferencia humana multimodal

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido