ChartDiff: un punto de referencia a gran escala para comprender pares de gráficos

Resumen: Los gráficos son fundamentales para el razonamiento analítico; sin embargo, los puntos de referencia existentes para la comprensión de los gráficos se centran casi exclusivamente en la interpretación de un solo gráfico en lugar del razonamiento comparativo entre múltiples gráficos. Para abordar esta brecha, presentamos ChartDiff, el primer punto de referencia a gran escala para el resumen comparativo entre gráficos. ChartDiff consta de 8541 pares de gráficos que abarcan diversas fuentes de datos, tipos de gráficos y estilos visuales, cada uno de los cuales está anotado con resúmenes generados por LLM y verificados por humanos que describen diferencias en tendencias, fluctuaciones y anomalías. Con ChartDiff, evaluamos modelos de propósito general, especializados en gráficos y basados en canalizaciones. Nuestros resultados muestran que los modelos fronterizos de propósito general logran la más alta calidad basada en GPT, mientras que los métodos especializados y basados en canalizaciones obtienen puntuaciones ROUGE más altas pero una evaluación alineada con humanos más baja, lo que revela una clara falta de coincidencia entre la superposición léxica y la calidad del resumen real. Además, encontramos que los gráficos de series múltiples siguen siendo desafiantes en todas las familias de modelos, mientras que los modelos sólidos de un extremo a otro son relativamente resistentes a las diferencias en las bibliotecas de trazado. En general, nuestros hallazgos demuestran que el razonamiento comparativo de gráficos sigue siendo un desafío importante para los modelos actuales de visión y lenguaje y posicionan a ChartDiff como un nuevo punto de referencia para avanzar en la investigación sobre la comprensión de múltiples gráficos.

Publicado originalmente en export.arxiv.org el 31 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Aprendizaje centrado en la decisión mejorado por la ingeniería de características automatizadas para la optimización de almacenamiento de energía

Fiabilidad por diseño: cuantificar y eliminar el riesgo de fabricación en LLM. De la IA generativa a la consultiva: un análisis comparativo en el ámbito jurídico y lecciones para bases de conocimiento de alto riesgo

Cómo desbloquear una supervisión sólida: un estudio centrado en datos de métodos de preentrenamiento de audio de uso general

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido