Resumen: La generación de texto a imagen (T2I) ha avanzado rápidamente, pero capturar fielmente las relaciones espaciales descritas en las indicaciones del lenguaje natural sigue siendo un gran desafío. Los esfuerzos anteriores han abordado este problema a través de la optimización inmediata, la generación espacialmente fundada y el refinamiento semántico. Este trabajo introduce un enfoque liviano que aumenta las indicaciones con información estructurada basada en tupla, utilizando un modelo de lenguaje ajustado para la conversión automática y la integración perfecta en tuberías T2I. Los resultados experimentales demuestran mejoras sustanciales en la precisión espacial, sin comprometer la calidad general de la imagen medida por la puntuación de inicio. Además, las tuplas generadas automáticamente exhiben una calidad comparable a las tuplas hechas por humanos. Esta información estructurada proporciona una solución práctica y portátil para mejorar las relaciones espaciales en la generación T2I, abordando una limitación clave de los sistemas generativos actuales a gran escala.
Publicado Originalme en export.arxiv.org El 21 de septiembre de 2025.
Ver Fuente Original