Resumen: en el contexto del desarrollo digital de la arquitectura, la segmentación automática de las paredes y las ventanas es un paso clave para mejorar la eficiencia de los modelos de información de construcción y el diseño asistido por computadora. Este estudio propone un modelo de segmentación automática para construir paredes y ventanas de fachadas basadas en la guía semántica multimodal, llamada segmento cualquier fachada arquitectónica (SAAF). Primero, SAAF tiene un mecanismo de extracción de características colaborativas semánticas multimodales. Al combinar la tecnología de procesamiento del lenguaje natural, puede fusionar la información semántica en las descripciones de texto con características de imagen, mejorando la comprensión semántica de la construcción de componentes de fachadas. En segundo lugar, desarrollamos un marco de capacitación de extremo a extremo que permite al modelo aprender de forma autónoma la relación de mapeo desde las descripciones de texto hasta la segmentación de imágenes, reduciendo la influencia de la intervención manual en los resultados de la segmentación y mejorando la automatización y la robustez del modelo. Finalmente, realizamos experimentos extensos en múltiples conjuntos de datos de fachadas. Los resultados de segmentación de SAAF superaron a los métodos existentes en la métrica de Miou, lo que indica que el modelo SAAF puede mantener la capacidad de segmentación de alta precisión cuando se enfrenta a diversos conjuntos de datos. Nuestro modelo ha avanzado en la mejora de la capacidad de precisión y generalización de la tarea de segmentación de la pared y las ventanas. Se espera que proporcione una referencia para el desarrollo de la tecnología de visión por computadora arquitectónica y también explore nuevas ideas y rutas técnicas para la aplicación de aprendizaje multimodal en el campo arquitectónico.
Publicado Originalme en rss.arxiv.org El 11 de junio de 2025.
Ver Fuente Original