Modelo de lenguaje de visión de creencia recursiva

Resumen: Los modelos actuales de visión-lenguaje-acción (VLA) luchan con la manipulación de horizontes largos bajo observabilidad parcial. La mayoría de los enfoques existentes siguen estando basados en la observación, basándose en breves ventanas de contexto o consultas repetidas a modelos de visión y lenguaje (VLM). Esto conduce a la pérdida del progreso de la tarea, la repetición de acciones bajo alias de percepción y una alta latencia de inferencia. El razonamiento semántico por sí solo no es el principal obstáculo en la manipulación a largo plazo. En cambio, los VLA carecen de representaciones de estado persistentes y condicionadas por la acción y exhiben un razonamiento físico y temporal limitado, lo que los hace inadecuados para el control de múltiples etapas. Este artículo presenta RB-VLA, una arquitectura centrada en creencias entrenada con objetivos de modelo mundial autosupervisados que mantiene un estado latente compacto que codifica la historia, la dinámica y las interacciones de objetos relevantes para las tareas. Consultado una vez para determinar la intención de alto nivel, el VLM proporciona la especificación de la tarea, mientras que la creencia rastrea el progreso de la tarea y permite un control basado causalmente y consciente de la fase bajo observabilidad parcial sin almacenar observaciones sin procesar ni escalar la memoria con el tiempo. La creencia y la intención condicionan conjuntamente una política de difusión para una ejecución sólida y de circuito cerrado. RB-VLA supera a los VLA anteriores en puntos de referencia a largo plazo, logrando un 52,5 % y un 37,5 % más de éxito en tareas de selección y colocación de varias etapas y apilamiento, respectivamente, en comparación con {pi}0. También reduce la latencia de inferencia hasta 5 veces en relación con las líneas de base y elimina el crecimiento de la memoria en los intervalos de tiempo observados en los VLA existentes. Las ablaciones muestran que el módulo de creencias es el principal impulsor del desempeño, aumentando las tasas de éxito del 32,5% al 77,5%. Estos resultados demuestran la eficacia de las representaciones estatales basadas en creencias para las políticas de VLA a largo plazo.

Publicado originalmente en export.arxiv.org el 24 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Eduflow: avance de la competencia de resolución de problemas de MLLMS a través de una crítica multiperspectiva múltiple

ScriptDoctor: Generación automática de juegos de Puzzlescript a través de modelos de idiomas grandes y búsqueda de árboles

Sistemas de verificación legal de múltiples agentes para la planificación de la transferencia de datos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido