Resumen: Los gráficos son omnipresentes en la literatura científica y financiera para presentar datos estructurados. Sin embargo, el razonamiento de gráficos sigue siendo un desafío para los modelos multimodales de lenguaje grande (MLLM) debido a la falta de datos de entrenamiento de alta calidad, así como a la necesidad de una base visual detallada y un cálculo numérico preciso. Para abordar estos desafíos, primero proponemos DuoChart, un canal de datos escalable de doble fuente que combina gráficos sintetizados con gráficos del mundo real para construir datos de entrenamiento de gráficos diversos y de alta calidad. Luego presentamos CharTool, que equipa a los MLLM con herramientas externas, incluido el recorte de imágenes para una percepción visual localizada y cálculo basado en código para un razonamiento numérico preciso. A través del aprendizaje por refuerzo agente en DuoChart, CharTool aprende razonamiento integrado en herramientas basado en el contenido del gráfico. Amplios experimentos en seis puntos de referencia de gráficos muestran que nuestro método mejora consistentemente con respecto a líneas de base sólidas de MLLM en todas las escalas de modelos. En particular, CharTool-7B supera al modelo base en un **+8,0%** en CharXiv (Reasoning) y un **+9,78%** en ChartQAPro, al tiempo que logra un rendimiento competitivo con modelos sustancialmente más grandes o propietarios. Además, CharTool demuestra una generalización positiva a puntos de referencia de razonamiento matemático visual fuera del dominio.
Publicado originalmente en export.arxiv.org el 5 de abril de 2026.
Ver fuente original
