Resumen: Los modelos de lenguaje de visión (VLM) a menudo luchan con las tareas de comprensión de los gráficos, particularmente en una descripción precisa del gráfico y un razonamiento complejo. La generación de datos sintéticos es una solución prometedora, mientras que generalmente enfrenta el desafío de las etiquetas de ruido. Para abordar este desafío, primero introducimos una tubería de síntesis de gráfico que genera tripletes alineados de respuesta de gráfico y respuesta a través de la generación y ejecución de código, asegurando la fiabilidad de los datos sintéticos sin intervención humana. Además, inspirado en la escala de tiempo de prueba que aumenta el presupuesto de inferencia y, por lo tanto, mejora el rendimiento, diseñamos un proceso de respuesta condicionado por el candidato. El VLM primero genera múltiples respuestas por consulta y luego sintetiza la respuesta final contextualizando a estos candidatos. Los experimentos demuestran mejoras significativas, con una ganancia de precisión de hasta 15.50 puntos sobre el VLM inicial, en un paradigma de mejor momento autoinformado sin datos marcados con humanos ni modelos externos.
Publicado Originalme en export.arxiv.org El 18 de agosto de 2025.
Ver Fuente Original