Resumen: En muchos dominios (por ejemplo, IoT, observabilidad, telecomunicaciones, ciberseguridad), está surgiendo una adopción de agentes de análisis de datos conversacionales que permiten a los usuarios “hablar con sus datos” para extraer información. Estos agentes de análisis de datos operan en modelos de datos de series temporales; por ejemplo, mediciones de sensores o eventos que monitorean los clics y las acciones de los usuarios en el análisis de productos. Evaluamos 6 agentes de análisis de datos populares (tanto de código abierto como propietarios) en datos y tipos de consultas específicos del dominio, y descubrimos que fallan en consultas con estado y específicas de incidentes. Observamos dos brechas de expresividad clave en las evaluaciones existentes: conjuntos de datos personalizados por dominio y tipos de consultas específicas de dominio. Para permitir a los profesionales de dichos dominios generar evaluaciones personalizadas y expresivas para dichos agentes de datos de series temporales, presentamos AgentFuel. AgentFuel ayuda a los expertos en el dominio a crear rápidamente evaluaciones personalizadas para realizar pruebas funcionales de un extremo a otro. Mostramos que los puntos de referencia de AgentFuel exponen direcciones clave para mejorar los marcos de agentes de datos existentes. También presentamos evidencia anecdótica de que el uso de AgentFuel puede mejorar el rendimiento del agente (por ejemplo, con GEPA). Los puntos de referencia de AgentFuel están disponibles en esta URL https.
Publicado originalmente en export.arxiv.org el 15 de marzo de 2026.
Ver fuente original
