Conexión de la visión y el lenguaje a máscaras 3D para la reorganización de la caja en un horizonte largo

Resumen:Estudiamos la planificación a largo plazo en entornos 3D a partir de objetivos de lenguaje natural poco especificados utilizando únicamente observaciones visuales, centrándonos en tareas de reordenamiento de cajas 3D de varios pasos. Los enfoques existentes generalmente se basan en planificadores simbólicos con una frágil base relacional de estados y objetivos, o en la generación directa de secuencias de acción a partir de modelos de visión y lenguaje (VLM) 2D. Ambos enfoques luchan con el razonamiento sobre muchos objetos, la rica geometría 3D y las restricciones semánticas implícitas. Los avances recientes en VLM 3D demuestran una sólida base de los referentes del lenguaje natural en las máscaras de segmentación 3D, lo que sugiere el potencial para capacidades de planificación más generales. Ampliamos los modelos de conexión a tierra 3D existentes y proponemos el Planificador de máscaras de acción reactiva (RAMP-3D), que formula la planificación a largo plazo como una predicción reactiva secuencial de máscaras 3D emparejadas: una máscara de “qué objeto” que indica qué elegir y una máscara de “qué región objetivo” que especifica dónde colocarlo. El sistema resultante procesa observaciones RGB-D y especificaciones de tareas en lenguaje natural para generar reactivamente acciones de selección y colocación de varios pasos para la reorganización de cajas 3D. Realizamos experimentos en 11 variantes de tareas en entornos estilo almacén con entre 1 y 30 cajas y diversas restricciones de lenguaje natural. RAMP-3D logra una tasa de éxito del 79,5 % en tareas de reordenamiento a largo plazo y supera significativamente las líneas de base basadas en VLM 2D, estableciendo políticas reactivas basadas en máscaras como una alternativa prometedora a los canales simbólicos para la planificación a largo plazo.

Publicado originalmente en export.arxiv.org el 25 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Sociedad 5.0: un concepto japonés para una sociedad superinteligente

DMA: Alineación RAG en línea con retroalimentación humana

Una investigación de la Fundación Linux encuentra que el código abierto es clave para impulsar el mercado de IA de la India

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido