Resumen: Estudiamos la generación de boceto a diagrama: convertir bocetos de mano ásperos en diagramas precisos y compositivos. Los modelos de difusión sobresalen en el fotorrealismo pero luchan con la precisión espacial, la alineación y la estructura simbólica requerida para los diagramas de flujo. Presentamos verlo. Dígalo. Ordena., Un sistema de agente sin capacitación que combina un modelo de lenguaje de visión (VLM) con modelos de lenguaje grandes (LLM) para producir programas de gráficos vectoriales escalables editables (SVG). El sistema ejecuta un bucle iterativo en el que un crítico VLM propone un pequeño conjunto de ediciones cualitativas y relacionales; Múltiples LLM de candidatos sintetizan actualizaciones de SVG con diversas estrategias (conservador-> agresivo, alternativo, enfocado); Y un juez VLM selecciona al mejor candidato, asegurando una mejora estable. Este diseño prioriza el razonamiento cualitativo sobre las estimaciones numéricas frágiles, preserva las limitaciones globales (por ejemplo, alineación, conectividad) y naturalmente apoya las correcciones humanas del bucle. En 10 bocetos derivados de diagramas de flujo en artículos publicados, nuestro método reconstruye más fielmente el diseño y la estructura que dos LLM de generación de imágenes de código cerrado fronterizo (GPT-5 y Gemini-2.5-Pro), componiendo con precisión las primitivas (por ejemplo, flechas de varias cabezas) sin insertar texto injunto. Debido a que las salidas son SVG programáticas, el enfoque es fácilmente extensible para las herramientas de presentación (por ejemplo, PowerPoint) a través de API y puede especializarse con indicaciones mejoradas y herramientas específicas de tareas. La base de código es de código abierto en esta URL HTTPS.
Publicado Originalme en export.arxiv.org El 21 de agosto de 2025.
Ver Fuente Original