En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Mejorar el aprendizaje de políticas con el modelo de acción mundial

Mejorar el aprendizaje de políticas con el modelo de acción mundial

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Este artículo presenta el Modelo de Acción Mundial (WAM), un modelo mundial de acción regularizada que razona conjuntamente sobre observaciones visuales futuras y las acciones que impulsan las transiciones de estado. A diferencia de los modelos mundiales convencionales entrenados únicamente mediante predicción de imágenes, WAM incorpora un objetivo de dinámica inversa en DreamerV2 que predice acciones a partir de transiciones de estados latentes, fomentando que las representaciones aprendidas capturen estructuras relevantes para la acción que son críticas para el control posterior. Evaluamos WAM para mejorar el aprendizaje de políticas en ocho tareas de manipulación del punto de referencia CALVIN. Primero entrenamos previamente una política de difusión mediante la clonación de comportamientos en modelos latentes del mundo, luego la refinamos con PPO basada en modelos dentro del modelo del mundo congelado. Sin modificar la arquitectura de políticas ni el procedimiento de capacitación, WAM mejora el éxito promedio de la clonación conductual del 59,4 % al 71,2 % con respecto a las líneas de base de DreamerV2 y DiWA. Después del ajuste de PPO, WAM logra un éxito promedio del 92,8 % frente al 79,8 % de la línea base, con dos tareas que alcanzan el 100 %, utilizando 8,7 veces menos pasos de capacitación.

Publicado originalmente en export.arxiv.org el 31 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web