Resumen: Las visualizaciones de datos, como los gráficos, son herramientas fundamentales para el análisis cuantitativo y la toma de decisiones entre los campos, que requieren una interpretación precisa y un razonamiento matemático. La aparición de modelos de lenguaje grande (MLLMS) multimodales ofrece capacidades prometedoras para el análisis de datos visuales automatizados, como gráficos de procesamiento, respondiendo preguntas y generar resúmenes. Sin embargo, no proporcionan visibilidad sobre qué partes de los datos visuales informaron sus conclusiones; Esta naturaleza de caja negra plantea desafíos importantes para la confianza y la adopción del mundo real. En este artículo, damos el primer paso importante para evaluar y mejorar las capacidades de MLLM para atribuir su proceso de razonamiento destacando las regiones específicas en cuadros y gráficos que justifican las respuestas del modelo. Con este fin, contribuimos con Radar, un enfoque semiautomático para obtener un conjunto de datos de referencia que comprende 17,819 muestras diversas con gráficos, preguntas, pasos de razonamiento y anotaciones de atribución. También presentamos un método que proporciona una atribución para el razonamiento matemático basado en gráficos. Los resultados experimentales demuestran que nuestro enfoque guiado por el razonamiento mejora la precisión de la atribución en un 15% en comparación con los métodos de referencia, y las capacidades de atribución mejoradas se traducen en una generación de respuestas más fuerte, logrando un bertscore promedio de $ sim $ 0.90, lo que indica una alta alineación con respuestas de verdad en tierra. Este avance representa un paso significativo hacia sistemas de análisis de gráficos más interpretables y confiables, lo que permite a los usuarios verificar y comprender las decisiones del modelo a través del razonamiento y la atribución.
Publicado Originalme en export.arxiv.org El 25 de agosto de 2025.
Ver Fuente Original