Resumen: Recientemente, la IA de agente se ha convertido en un campo de investigación cada vez más popular. Sin embargo, argumentamos que las prácticas actuales de investigación de agentes carecen de estandarización y rigor científico, lo que dificulta realizar comparaciones justas entre los métodos. Como resultado, aún no está claro cómo las diferentes opciones de diseño en los marcos de agentes afectan la efectividad, y medir su progreso sigue siendo desafiante. En este trabajo, realizamos un estudio empírico sistemático sobre el punto de referencia de GAIA y el brownsecompt para examinar el impacto de las opciones de diseño populares en los componentes clave de los agentes de una manera justa y rigurosa. Encontramos que la falta de un protocolo de evaluación estándar hace que los trabajos anteriores, incluso los de código abierto, no reproducibles, con una varianza significativa entre las ejecuciones aleatorias. Por lo tanto, introducimos un protocolo de evaluación más robusto para estabilizar las comparaciones. Nuestro estudio revela qué componentes y diseños son cruciales para agentes efectivos, mientras que otros son redundantes, a pesar de parecer lógicos. Basado en nuestros hallazgos, construimos y de código abierto Oagents, un nuevo marco de agentes de la Fundación que logra un rendimiento de vanguardia entre los proyectos de código abierto. Oagents ofrece un diseño modular para varios componentes de agentes, promoviendo futuras investigaciones en AI de agente.
Publicado Originalme en export.arxiv.org El 22 de junio de 2025.
Ver Fuente Original