Resumen: El AEC-Bench es un punto de referencia multimodal para evaluar sistemas agentes en tareas del mundo real en el dominio de Arquitectura, Ingeniería y Construcción (AEC). El punto de referencia cubre tareas que requieren comprensión de dibujos, razonamiento entre hojas y coordinación a nivel de proyecto de construcción. Este informe describe la motivación del punto de referencia, la taxonomía del conjunto de datos, el protocolo de evaluación y los resultados de referencia en varios arneses de modelos básicos de dominios específicos. Utilizamos AEC-Bench para identificar herramientas consistentes y técnicas de diseño de arneses que mejoran uniformemente el rendimiento en todos los modelos de cimentación en sus propios arneses básicos, como Claude Code y Codex. Publicamos abiertamente nuestro conjunto de datos de referencia, nuestro aprovechamiento de agentes y nuestro código de evaluación para lograr una replicabilidad total en esta URL https bajo una licencia Apache 2.
Publicado originalmente en export.arxiv.org el 31 de marzo de 2026.
Ver fuente original
