En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Modelo de lenguaje de visión de creencia recursiva

Modelo de lenguaje de visión de creencia recursiva

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos actuales de visión-lenguaje-acción (VLA) luchan con la manipulación de horizontes largos bajo observabilidad parcial. La mayoría de los enfoques existentes siguen estando basados ​​en la observación, basándose en breves ventanas de contexto o consultas repetidas a modelos de visión y lenguaje (VLM). Esto conduce a la pérdida del progreso de la tarea, la repetición de acciones bajo alias de percepción y una alta latencia de inferencia. El razonamiento semántico por sí solo no es el principal obstáculo en la manipulación a largo plazo. En cambio, los VLA carecen de representaciones de estado persistentes y condicionadas por la acción y exhiben un razonamiento físico y temporal limitado, lo que los hace inadecuados para el control de múltiples etapas. Este artículo presenta RB-VLA, una arquitectura centrada en creencias entrenada con objetivos de modelo mundial autosupervisados ​​que mantiene un estado latente compacto que codifica la historia, la dinámica y las interacciones de objetos relevantes para las tareas. Consultado una vez para determinar la intención de alto nivel, el VLM proporciona la especificación de la tarea, mientras que la creencia rastrea el progreso de la tarea y permite un control basado causalmente y consciente de la fase bajo observabilidad parcial sin almacenar observaciones sin procesar ni escalar la memoria con el tiempo. La creencia y la intención condicionan conjuntamente una política de difusión para una ejecución sólida y de circuito cerrado. RB-VLA supera a los VLA anteriores en puntos de referencia a largo plazo, logrando un 52,5 % y un 37,5 % más de éxito en tareas de selección y colocación de varias etapas y apilamiento, respectivamente, en comparación con {pi}0. También reduce la latencia de inferencia hasta 5 veces en relación con las líneas de base y elimina el crecimiento de la memoria en los intervalos de tiempo observados en los VLA existentes. Las ablaciones muestran que el módulo de creencias es el principal impulsor del desempeño, aumentando las tasas de éxito del 32,5% al ​​77,5%. Estos resultados demuestran la eficacia de las representaciones estatales basadas en creencias para las políticas de VLA a largo plazo.

Publicado originalmente en export.arxiv.org el 24 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web