En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Aprendizaje por refuerzo fuera de línea entre realizaciones para conjuntos de datos de robots heterogéneos

Aprendizaje por refuerzo fuera de línea entre realizaciones para conjuntos de datos de robots heterogéneos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:La capacitación previa en políticas de robots escalables se ha visto obstaculizada por el alto costo de recopilar demostraciones de alta calidad para cada plataforma. En este estudio, abordamos este problema uniendo el aprendizaje por refuerzo fuera de línea (RL fuera de línea) con el aprendizaje entre encarnaciones. Offline RL aprovecha tanto los datos expertos como los abundantes datos subóptimos, y el aprendizaje entre encarnaciones agrega trayectorias heterogéneas de robots en diversas morfologías para adquirir antecedentes de control universal. Realizamos un análisis sistemático de este paradigma de RL fuera de línea y de encarnación cruzada, proporcionando una comprensión basada en principios de sus fortalezas y limitaciones. Para evaluar este paradigma de RL fuera de línea y de encarnación cruzada, construimos un conjunto de conjuntos de datos de locomoción que abarcan 16 plataformas de robots distintas. Nuestros experimentos confirman que este enfoque combinado sobresale en el preentrenamiento con conjuntos de datos ricos en trayectorias subóptimas, superando la clonación de comportamiento puro. Sin embargo, a medida que aumenta la proporción de datos subóptimos y la cantidad de tipos de robots, observamos que los gradientes conflictivos entre morfologías comienzan a impedir el aprendizaje. Para mitigar esto, introducimos una estrategia de agrupación basada en la realización en la que los robots se agrupan por similitud morfológica y el modelo se actualiza con un gradiente de grupo. Esta agrupación simple y estática reduce sustancialmente los conflictos entre robots y supera los métodos de resolución de conflictos existentes.

Publicado originalmente en export.arxiv.org el 22 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web