Aprendizaje por refuerzo fuera de línea entre realizaciones para conjuntos de datos de robots heterogéneos

Resumen:La capacitación previa en políticas de robots escalables se ha visto obstaculizada por el alto costo de recopilar demostraciones de alta calidad para cada plataforma. En este estudio, abordamos este problema uniendo el aprendizaje por refuerzo fuera de línea (RL fuera de línea) con el aprendizaje entre encarnaciones. Offline RL aprovecha tanto los datos expertos como los abundantes datos subóptimos, y el aprendizaje entre encarnaciones agrega trayectorias heterogéneas de robots en diversas morfologías para adquirir antecedentes de control universal. Realizamos un análisis sistemático de este paradigma de RL fuera de línea y de encarnación cruzada, proporcionando una comprensión basada en principios de sus fortalezas y limitaciones. Para evaluar este paradigma de RL fuera de línea y de encarnación cruzada, construimos un conjunto de conjuntos de datos de locomoción que abarcan 16 plataformas de robots distintas. Nuestros experimentos confirman que este enfoque combinado sobresale en el preentrenamiento con conjuntos de datos ricos en trayectorias subóptimas, superando la clonación de comportamiento puro. Sin embargo, a medida que aumenta la proporción de datos subóptimos y la cantidad de tipos de robots, observamos que los gradientes conflictivos entre morfologías comienzan a impedir el aprendizaje. Para mitigar esto, introducimos una estrategia de agrupación basada en la realización en la que los robots se agrupan por similitud morfológica y el modelo se actualiza con un gradiente de grupo. Esta agrupación simple y estática reduce sustancialmente los conflictos entre robots y supera los métodos de resolución de conflictos existentes.

Publicado originalmente en export.arxiv.org el 22 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Leangeo: Formalización de problemas de geometría de competencia en Lean

Internet de las cosas (IoT) y el metaverso

Atención de un beso: explorando mapas de atención en la difusión de video para xaixarts

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido