Resumen: A medida que las herramientas de procesamiento y comprensión de documentos impulsadas por IA se vuelven cada vez más frecuentes en las aplicaciones del mundo real, la necesidad de estándares de evaluación rigurosos se ha vuelto cada vez más urgente. Los puntos de referencia y evaluaciones existentes a menudo se centran en capacidades aisladas o escenarios simplificados, sin lograr capturar la efectividad de las tareas de un extremo a otro requerida en entornos prácticos. Para abordar esta brecha, presentamos AIDABench, un punto de referencia integral para evaluar sistemas de IA en tareas complejas de análisis de datos de un extremo a otro. AIDABench abarca más de 600 tareas diversas de análisis de documentos en tres dimensiones de capacidad principales: respuesta a preguntas, visualización de datos y generación de archivos. Estas tareas se basan en escenarios realistas que involucran tipos de datos heterogéneos, incluidas hojas de cálculo, bases de datos, informes financieros y registros operativos, y reflejan demandas analíticas en diversas industrias y funciones laborales. En particular, las tareas en AIDABench son lo suficientemente desafiantes como para que incluso los expertos humanos requieran entre 1 y 2 horas por pregunta cuando cuentan con la ayuda de herramientas de inteligencia artificial, lo que subraya la dificultad del punto de referencia y la complejidad del mundo real. Evaluamos 11 modelos de última generación en AIDABench, que abarcan familias tanto patentadas (por ejemplo, Claude Sonnet 4.5, Gemini 3 Pro Preview) como de código abierto (por ejemplo, Qwen3-Max-2026-01-23-Thinking). Nuestros resultados revelan que las tareas complejas de análisis de datos del mundo real siguen siendo un desafío importante para los sistemas de IA actuales, y el modelo de mejor rendimiento logra solo un 59,43 % de aprobación. Proporcionamos un análisis detallado de los modos de falla en cada dimensión de capacidad e identificamos desafíos clave para futuras investigaciones. AIDABench ofrece una referencia de principios para la adquisición empresarial, la selección de herramientas y la optimización de modelos, y está disponible públicamente en esta URL https.
Publicado originalmente en export.arxiv.org el 17 de marzo de 2026.
Ver fuente original
