SciVisAgentBench: un punto de referencia para evaluar agentes de visualización y análisis de datos científicos

Resumen: Los avances recientes en modelos de lenguaje grande (LLM) han permitido sistemas agentes que traducen la intención del lenguaje natural en tareas ejecutables de visualización científica (SciVis). A pesar del rápido progreso, la comunidad carece de un punto de referencia reproducible y basado en principios para evaluar estos agentes SciVis emergentes en entornos de análisis realistas de varios pasos. Presentamos SciVisAgentBench, un punto de referencia completo y extensible para evaluar agentes de visualización y análisis de datos científicos. Nuestro punto de referencia se basa en una taxonomía estructurada que abarca cuatro dimensiones: dominio de aplicación, tipo de datos, nivel de complejidad y operación de visualización. Actualmente comprende 108 casos elaborados por expertos que cubren diversos escenarios de SciVis. Para permitir una evaluación confiable, presentamos un proceso de evaluación multimodal centrado en resultados que combina evaluaciones basadas en LLM con evaluadores deterministas, incluidas métricas basadas en imágenes, verificadores de códigos, verificadores basados en reglas y evaluadores de casos específicos. También llevamos a cabo un estudio de validez con 12 expertos de SciVis para examinar la concordancia entre jueces humanos y LLM. Utilizando este marco, evaluamos agentes SciVis representativos y agentes de codificación de propósito general para establecer líneas de base iniciales y revelar brechas de capacidad. SciVisAgentBench está diseñado como un punto de referencia vivo para respaldar la comparación sistemática, diagnosticar modos de falla e impulsar el progreso en SciVis agente. El punto de referencia está disponible en esta URL https.

Publicado originalmente en export.arxiv.org el 31 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

AraModernBERT: inicialización transtokenizada y modelado de codificador de contexto largo para árabe

Meetup: África, datos e Internet de las cosas (29 de enero a las 15:00 CET)

La política de diseño de alineación emocional

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido