Resumen: El diseño gráfico a menudo implica explorar diferentes direcciones estilísticas, lo que puede llevar mucho tiempo a los no expertos. Abordamos este problema de mejorar estilísticamente diseños basados en instrucciones en lenguaje natural. Si bien los VLM han demostrado un éxito inicial en el diseño gráfico, su conocimiento previo sobre estilos suele ser demasiado general y no está alineado con los datos de dominios específicos. Por ejemplo, los VLM pueden asociar el minimalismo con diseños abstractos, mientras que los diseñadores enfatizan las opciones de forma y color. Nuestra idea clave es aprovechar los datos de diseño (una colección de diseños del mundo real que capturan implícitamente los principios del diseñador) para aprender conocimientos de diseño y guiar la mejora estilística. Proponemos PRISM (Modificación estilística informada anteriormente) que construye y aplica una base de conocimientos de diseño a través de tres etapas: (1) agrupar diseños de alta variación para capturar la diversidad dentro de un estilo, (2) resumir cada grupo en conocimientos de diseño procesables y (3) recuperar conocimientos relevantes durante la inferencia para permitir una mejora consciente del estilo. Los experimentos con el conjunto de datos de Crello muestran que PRISM logra la clasificación promedio más alta de 1,49 (más cerca de 1 es mejor) sobre las líneas base en alineación de estilo. Los estudios de usuarios validan aún más estos resultados y muestran que los diseñadores prefieren constantemente PRISM.
Publicado originalmente en export.arxiv.org el 20 de enero de 2026.
Ver fuente original
