Resumen: Los gráficos son fundamentales para el razonamiento analítico; sin embargo, los puntos de referencia existentes para la comprensión de los gráficos se centran casi exclusivamente en la interpretación de un solo gráfico en lugar del razonamiento comparativo entre múltiples gráficos. Para abordar esta brecha, presentamos ChartDiff, el primer punto de referencia a gran escala para el resumen comparativo entre gráficos. ChartDiff consta de 8541 pares de gráficos que abarcan diversas fuentes de datos, tipos de gráficos y estilos visuales, cada uno de los cuales está anotado con resúmenes generados por LLM y verificados por humanos que describen diferencias en tendencias, fluctuaciones y anomalías. Con ChartDiff, evaluamos modelos de propósito general, especializados en gráficos y basados en canalizaciones. Nuestros resultados muestran que los modelos fronterizos de propósito general logran la más alta calidad basada en GPT, mientras que los métodos especializados y basados en canalizaciones obtienen puntuaciones ROUGE más altas pero una evaluación alineada con humanos más baja, lo que revela una clara falta de coincidencia entre la superposición léxica y la calidad del resumen real. Además, encontramos que los gráficos de series múltiples siguen siendo desafiantes en todas las familias de modelos, mientras que los modelos sólidos de un extremo a otro son relativamente resistentes a las diferencias en las bibliotecas de trazado. En general, nuestros hallazgos demuestran que el razonamiento comparativo de gráficos sigue siendo un desafío importante para los modelos actuales de visión y lenguaje y posicionan a ChartDiff como un nuevo punto de referencia para avanzar en la investigación sobre la comprensión de múltiples gráficos.
Publicado originalmente en export.arxiv.org el 31 de marzo de 2026.
Ver fuente original
