Resumen: Los avances recientes en los modelos de lenguaje de visión (VLM) han mostrado un gran potencial para el razonamiento espacial y la generación de diseños de escenas 3D a partir de instrucciones en lenguaje abierto. Sin embargo, generar diseños que no sólo sean semánticamente coherentes sino también viables para la interacción de agentes encarnados sigue siendo un desafío, particularmente en entornos interiores físicamente limitados. En este artículo, RoboLayout se presenta como una extensión de LayoutVLM que aumenta el marco original con razonamiento consciente del agente y estabilidad de optimización mejorada. RoboLayout integra restricciones explícitas de accesibilidad en un proceso de optimización de diseño diferenciable, lo que permite la generación de diseños que son navegables y procesables por agentes incorporados. Es importante destacar que la abstracción del agente no se limita a una plataforma robótica específica y puede representar diversas entidades con capacidades físicas distintas, como robots de servicio, robots de almacén, humanos de diferentes grupos de edad o animales, lo que permite que el diseño del entorno se adapte al agente previsto. Además, se propone una etapa de refinamiento local que reoptimiza selectivamente las ubicaciones de objetos problemáticos mientras mantiene fijo el resto de la escena, mejorando la eficiencia de la convergencia sin aumentar las iteraciones de optimización global. En general, RoboLayout preserva la fuerte alineación semántica y la plausibilidad física de LayoutVLM al tiempo que mejora la aplicabilidad a la generación de escenas interiores centrada en agentes, como lo demuestran los resultados experimentales en diversas configuraciones de escenas.
Publicado originalmente en export.arxiv.org el 8 de marzo de 2026.
Ver fuente original
