CharTool: razonamiento visual integrado en herramientas para la comprensión de gráficos

Resumen: Los gráficos son omnipresentes en la literatura científica y financiera para presentar datos estructurados. Sin embargo, el razonamiento de gráficos sigue siendo un desafío para los modelos multimodales de lenguaje grande (MLLM) debido a la falta de datos de entrenamiento de alta calidad, así como a la necesidad de una base visual detallada y un cálculo numérico preciso. Para abordar estos desafíos, primero proponemos DuoChart, un canal de datos escalable de doble fuente que combina gráficos sintetizados con gráficos del mundo real para construir datos de entrenamiento de gráficos diversos y de alta calidad. Luego presentamos CharTool, que equipa a los MLLM con herramientas externas, incluido el recorte de imágenes para una percepción visual localizada y cálculo basado en código para un razonamiento numérico preciso. A través del aprendizaje por refuerzo agente en DuoChart, CharTool aprende razonamiento integrado en herramientas basado en el contenido del gráfico. Amplios experimentos en seis puntos de referencia de gráficos muestran que nuestro método mejora consistentemente con respecto a líneas de base sólidas de MLLM en todas las escalas de modelos. En particular, CharTool-7B supera al modelo base en un **+8,0%** en CharXiv (Reasoning) y un **+9,78%** en ChartQAPro, al tiempo que logra un rendimiento competitivo con modelos sustancialmente más grandes o propietarios. Además, CharTool demuestra una generalización positiva a puntos de referencia de razonamiento matemático visual fuera del dominio.

Publicado originalmente en export.arxiv.org el 5 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: rastreando los delirios impulsados ​​por la IA, y OpenAI admite los riesgos de Microsoft

El contexto es todo lo que necesita: hacia un diseño de procesos autónomo basado en modelos utilizando IA agente en simulaciones de diagramas de flujo

Implementación eficiente de modelos CNN en múltiples unidades informáticas en memoria

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

La descarga: rastreando los delirios impulsados por la IA, y OpenAI admite los riesgos de Microsoft