En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Más allá de la descripción: un marco de agentes multimodal para un resumen detallado de gráficos

Más allá de la descripción: un marco de agentes multimodal para un resumen detallado de gráficos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:El resumen de gráficos es crucial para mejorar la accesibilidad de los datos y el consumo eficiente de información. Sin embargo, los métodos existentes, incluidos aquellos con modelos de lenguaje grande multimodal (MLLM), se centran principalmente en descripciones de datos de bajo nivel y, a menudo, no logran capturar los conocimientos más profundos que son el propósito fundamental de la visualización de datos. Para abordar este desafío, proponemos Chart Insight Agent Flow, un marco de múltiples agentes para planificar y ejecutar que aprovecha de manera efectiva las capacidades de percepción y razonamiento de los MLLM para descubrir conocimientos profundos directamente a partir de imágenes de gráficos. Además, para superar la falta de puntos de referencia adecuados, presentamos ChartSummInsights, un nuevo conjunto de datos que presenta una colección diversa de gráficos del mundo real junto con resúmenes reveladores y de alta calidad escritos por expertos en análisis de datos humanos. Los resultados experimentales demuestran que nuestro método mejora significativamente el rendimiento de los MLLM en la tarea de resumen de gráficos, produciendo resúmenes con conocimientos profundos y diversos.

Publicado originalmente en export.arxiv.org el 23 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web