En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Conexión de la visión y el lenguaje a máscaras 3D para la reorganización de la caja en un horizonte largo

Conexión de la visión y el lenguaje a máscaras 3D para la reorganización de la caja en un horizonte largo

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Estudiamos la planificación a largo plazo en entornos 3D a partir de objetivos de lenguaje natural poco especificados utilizando únicamente observaciones visuales, centrándonos en tareas de reordenamiento de cajas 3D de varios pasos. Los enfoques existentes generalmente se basan en planificadores simbólicos con una frágil base relacional de estados y objetivos, o en la generación directa de secuencias de acción a partir de modelos de visión y lenguaje (VLM) 2D. Ambos enfoques luchan con el razonamiento sobre muchos objetos, la rica geometría 3D y las restricciones semánticas implícitas. Los avances recientes en VLM 3D demuestran una sólida base de los referentes del lenguaje natural en las máscaras de segmentación 3D, lo que sugiere el potencial para capacidades de planificación más generales. Ampliamos los modelos de conexión a tierra 3D existentes y proponemos el Planificador de máscaras de acción reactiva (RAMP-3D), que formula la planificación a largo plazo como una predicción reactiva secuencial de máscaras 3D emparejadas: una máscara de “qué objeto” que indica qué elegir y una máscara de “qué región objetivo” que especifica dónde colocarlo. El sistema resultante procesa observaciones RGB-D y especificaciones de tareas en lenguaje natural para generar reactivamente acciones de selección y colocación de varios pasos para la reorganización de cajas 3D. Realizamos experimentos en 11 variantes de tareas en entornos estilo almacén con entre 1 y 30 cajas y diversas restricciones de lenguaje natural. RAMP-3D logra una tasa de éxito del 79,5 % en tareas de reordenamiento a largo plazo y supera significativamente las líneas de base basadas en VLM 2D, estableciendo políticas reactivas basadas en máscaras como una alternativa prometedora a los canales simbólicos para la planificación a largo plazo.

Publicado originalmente en export.arxiv.org el 25 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web