Resumen: En este documento, abordamos el problema de aprender a jugar voleibol multicronos 3V3, una nueva tarea competitiva encarnada que requiere una coordinación estratégica de alto nivel y un control ágil de bajo nivel. La tarea se encuentra en el turno, múltiples agentes y físicamente fundamentados, que plantea desafíos significativos debido a sus dependencias de horizonte largo, un acoplamiento interingente apretado y la dinámica no activada de los cuadrotores. Para abordar esto, proponemos el juego de coe co-sello jerárquico (HCSP), un marco de aprendizaje de refuerzo jerárquico que separa la toma de decisiones estratégicas de alto nivel centralizadas del control de movimiento descentralizado de bajo nivel. Diseñamos una cartera de capacitación basada en la población de tres etapas para permitir que tanto la estrategia como la habilidad emerjan desde cero sin demostraciones de expertos: (i) capacitar diversas habilidades de bajo nivel, (ii) aprender una estrategia de alto nivel a través de una autoplaz con controladores de bajo nivel fijos y (iii) ajuste fino conjunto a través de co-sello. Los experimentos muestran que HCSP logra un rendimiento superior, superando a la autocompasión no jerárquica y las líneas de base jerárquicas basadas en reglas con una tasa de ganancia promedio de 82.9 % y una tasa de ganancia de 71.5 % contra la variante de dos etapas. Además, el juego co-sello conduce a comportamientos emergentes del equipo, como el cambio de roles y las formaciones coordinadas, demostrando la efectividad de nuestro esquema de diseño y capacitación jerárquico.
Publicado Originalme en rss.arxiv.org El 7 de mayo de 2025.
Ver Fuente Original