Resumen: Los modelos multimodales de lenguaje grande (MLLM) se han convertido en herramientas poderosas para la comprensión de gráficos. Sin embargo, dependen en gran medida del contenido extraído mediante OCR, lo que provoca alucinaciones numéricas cuando las anotaciones textuales de los gráficos son escasas. Si bien los métodos existentes se centran en escalar instrucciones, no logran abordar el desafío fundamental, es decir, razonar con percepción visual. En este artículo, identificamos una observación crítica: los MLLM exhiben una base débil en los elementos del gráfico y las relaciones proporcionales, como lo demuestra su incapacidad para localizar posiciones clave que coincidan con su razonamiento. Para cerrar esta brecha, proponemos PointCoT, que integra la interacción reflexiva en el razonamiento de cadena de pensamiento en gráficos. Al solicitar a los MLLM que generen cuadros delimitadores y vuelvan a representar gráficos basados en anotaciones de ubicación, establecemos conexiones entre los pasos de razonamiento textual y las regiones de base visual. Además, presentamos un proceso automatizado para construir ChartPoint-SFT-62k, un conjunto de datos que presenta 19,2 000 muestras de gráficos de alta calidad con CoT paso a paso, cuadros delimitadores y visualizaciones renderizadas nuevamente. Aprovechando estos datos, desarrollamos dos modelos ajustados a instrucciones, ChartPointQ2 y ChartPointQ2.5, que superan a los de última generación en varios benchmarks gráficos, por ejemplo, +5,04% en ChartBench.
Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original
