En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->SciVisAgentBench: un punto de referencia para evaluar agentes de visualización y análisis de datos científicos

SciVisAgentBench: un punto de referencia para evaluar agentes de visualización y análisis de datos científicos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los avances recientes en modelos de lenguaje grande (LLM) han permitido sistemas agentes que traducen la intención del lenguaje natural en tareas ejecutables de visualización científica (SciVis). A pesar del rápido progreso, la comunidad carece de un punto de referencia reproducible y basado en principios para evaluar estos agentes SciVis emergentes en entornos de análisis realistas de varios pasos. Presentamos SciVisAgentBench, un punto de referencia completo y extensible para evaluar agentes de visualización y análisis de datos científicos. Nuestro punto de referencia se basa en una taxonomía estructurada que abarca cuatro dimensiones: dominio de aplicación, tipo de datos, nivel de complejidad y operación de visualización. Actualmente comprende 108 casos elaborados por expertos que cubren diversos escenarios de SciVis. Para permitir una evaluación confiable, presentamos un proceso de evaluación multimodal centrado en resultados que combina evaluaciones basadas en LLM con evaluadores deterministas, incluidas métricas basadas en imágenes, verificadores de códigos, verificadores basados ​​en reglas y evaluadores de casos específicos. También llevamos a cabo un estudio de validez con 12 expertos de SciVis para examinar la concordancia entre jueces humanos y LLM. Utilizando este marco, evaluamos agentes SciVis representativos y agentes de codificación de propósito general para establecer líneas de base iniciales y revelar brechas de capacidad. SciVisAgentBench está diseñado como un punto de referencia vivo para respaldar la comparación sistemática, diagnosticar modos de falla e impulsar el progreso en SciVis agente. El punto de referencia está disponible en esta URL https.

Publicado originalmente en export.arxiv.org el 31 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web