En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Modelos de mundo unificado: planificación y previsión con memoria aumentada para la navegación visual

Modelos de mundo unificado: planificación y previsión con memoria aumentada para la navegación visual

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Permitir que los agentes encarnados imaginen efectivamente estados futuros es fundamental para una navegación visual sólida y generalizable. Sin embargo, los enfoques actuales de última generación adoptan arquitecturas modulares que separan la planificación de la navegación del modelado visual del mundo, lo que lleva a una desalineación entre el estado y la acción y una adaptabilidad limitada en escenarios novedosos o dinámicos. Para superar esta limitación fundamental, proponemos UniWM, un modelo mundial unificado con memoria aumentada que integra la previsión y planificación visual egocéntrica dentro de una única columna vertebral autorregresiva multimodal. A diferencia de los marcos modulares, UniWM basa explícitamente las decisiones de acción en resultados visualmente imaginados, asegurando una estrecha alineación entre predicción y control. Un mecanismo de memoria jerárquico integra aún más señales perceptivas detalladas a corto plazo con un contexto de trayectoria a más largo plazo, lo que permite un razonamiento estable y coherente en horizontes extendidos. Amplios experimentos en cuatro desafiantes puntos de referencia (Go Stanford, ReCon, SCAND, HuRoN) demuestran que UniWM mejora sustancialmente las tasas de éxito de la navegación hasta en un 30 %, reduce significativamente los errores de trayectoria en comparación con líneas de base sólidas y exhibe una impresionante generalización de disparo cero en el conjunto de datos invisible de TartanDrive. Estos resultados destacan a UniWM como un paso de principios hacia una navegación incorporada unificada e impulsada por la imaginación.

Publicado originalmente en export.arxiv.org el 12 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web