Información estructurada para mejorar las relaciones espaciales en la generación de texto a imagen

Resumen: La generación de texto a imagen (T2I) ha avanzado rápidamente, pero capturar fielmente las relaciones espaciales descritas en las indicaciones del lenguaje natural sigue siendo un gran desafío. Los esfuerzos anteriores han abordado este problema a través de la optimización inmediata, la generación espacialmente fundada y el refinamiento semántico. Este trabajo introduce un enfoque liviano que aumenta las indicaciones con información estructurada basada en tupla, utilizando un modelo de lenguaje ajustado para la conversión automática y la integración perfecta en tuberías T2I. Los resultados experimentales demuestran mejoras sustanciales en la precisión espacial, sin comprometer la calidad general de la imagen medida por la puntuación de inicio. Además, las tuplas generadas automáticamente exhiben una calidad comparable a las tuplas hechas por humanos. Esta información estructurada proporciona una solución práctica y portátil para mejorar las relaciones espaciales en la generación T2I, abordando una limitación clave de los sistemas generativos actuales a gran escala.

Publicado Originalme en export.arxiv.org El 21 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Deja de preocuparte por tu huella de IA. En su lugar, mire el panorama general.

¿Conócete a ti mismo? Sobre la incapacidad y las implicaciones del autorreconocimiento de la IA

Marco en tiempo real para el Internet de las cosas interoperable impulsado por la semántica en la agricultura inteligente

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido