Mejorar el aprendizaje de políticas con el modelo de acción mundial

Resumen: Este artículo presenta el Modelo de Acción Mundial (WAM), un modelo mundial de acción regularizada que razona conjuntamente sobre observaciones visuales futuras y las acciones que impulsan las transiciones de estado. A diferencia de los modelos mundiales convencionales entrenados únicamente mediante predicción de imágenes, WAM incorpora un objetivo de dinámica inversa en DreamerV2 que predice acciones a partir de transiciones de estados latentes, fomentando que las representaciones aprendidas capturen estructuras relevantes para la acción que son críticas para el control posterior. Evaluamos WAM para mejorar el aprendizaje de políticas en ocho tareas de manipulación del punto de referencia CALVIN. Primero entrenamos previamente una política de difusión mediante la clonación de comportamientos en modelos latentes del mundo, luego la refinamos con PPO basada en modelos dentro del modelo del mundo congelado. Sin modificar la arquitectura de políticas ni el procedimiento de capacitación, WAM mejora el éxito promedio de la clonación conductual del 59,4 % al 71,2 % con respecto a las líneas de base de DreamerV2 y DiWA. Después del ajuste de PPO, WAM logra un éxito promedio del 92,8 % frente al 79,8 % de la línea base, con dos tareas que alcanzan el 100 %, utilizando 8,7 veces menos pasos de capacitación.

Publicado originalmente en export.arxiv.org el 31 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Dentro de la carrera para encontrar alternativas GPS

La descarga: virus diseñados por IA y malas noticias para la industria del hidrógeno

Video viernes: robot bípedo evita caer

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido