RoboLayout: Generación de escenas 3D diferenciables para agentes incorporados

Resumen: Los avances recientes en los modelos de lenguaje de visión (VLM) han mostrado un gran potencial para el razonamiento espacial y la generación de diseños de escenas 3D a partir de instrucciones en lenguaje abierto. Sin embargo, generar diseños que no sólo sean semánticamente coherentes sino también viables para la interacción de agentes encarnados sigue siendo un desafío, particularmente en entornos interiores físicamente limitados. En este artículo, RoboLayout se presenta como una extensión de LayoutVLM que aumenta el marco original con razonamiento consciente del agente y estabilidad de optimización mejorada. RoboLayout integra restricciones explícitas de accesibilidad en un proceso de optimización de diseño diferenciable, lo que permite la generación de diseños que son navegables y procesables por agentes incorporados. Es importante destacar que la abstracción del agente no se limita a una plataforma robótica específica y puede representar diversas entidades con capacidades físicas distintas, como robots de servicio, robots de almacén, humanos de diferentes grupos de edad o animales, lo que permite que el diseño del entorno se adapte al agente previsto. Además, se propone una etapa de refinamiento local que reoptimiza selectivamente las ubicaciones de objetos problemáticos mientras mantiene fijo el resto de la escena, mejorando la eficiencia de la convergencia sin aumentar las iteraciones de optimización global. En general, RoboLayout preserva la fuerte alineación semántica y la plausibilidad física de LayoutVLM al tiempo que mejora la aplicabilidad a la generación de escenas interiores centrada en agentes, como lo demuestran los resultados experimentales en diversas configuraciones de escenas.

Publicado originalmente en export.arxiv.org el 8 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Ilusiones de reflexión: una tarea abierta revela fallas sistemáticas en el razonamiento reflexivo de los modelos de lenguaje grande

Trajevo: Diseño de Heuristics de predicción de trayectoria a través de la evolución dirigida por LLM

FST.ai 2.0: Un ecosistema de IA explicable para una toma de decisiones justa, rápida e inclusiva en el taekwondo olímpico y paralímpico

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido