Oagents: un estudio empírico de la construcción de agentes efectivos

Resumen: Recientemente, la IA de agente se ha convertido en un campo de investigación cada vez más popular. Sin embargo, argumentamos que las prácticas actuales de investigación de agentes carecen de estandarización y rigor científico, lo que dificulta realizar comparaciones justas entre los métodos. Como resultado, aún no está claro cómo las diferentes opciones de diseño en los marcos de agentes afectan la efectividad, y medir su progreso sigue siendo desafiante. En este trabajo, realizamos un estudio empírico sistemático sobre el punto de referencia de GAIA y el brownsecompt para examinar el impacto de las opciones de diseño populares en los componentes clave de los agentes de una manera justa y rigurosa. Encontramos que la falta de un protocolo de evaluación estándar hace que los trabajos anteriores, incluso los de código abierto, no reproducibles, con una varianza significativa entre las ejecuciones aleatorias. Por lo tanto, introducimos un protocolo de evaluación más robusto para estabilizar las comparaciones. Nuestro estudio revela qué componentes y diseños son cruciales para agentes efectivos, mientras que otros son redundantes, a pesar de parecer lógicos. Basado en nuestros hallazgos, construimos y de código abierto Oagents, un nuevo marco de agentes de la Fundación que logra un rendimiento de vanguardia entre los proyectos de código abierto. Oagents ofrece un diseño modular para varios componentes de agentes, promoviendo futuras investigaciones en AI de agente.

Publicado Originalme en export.arxiv.org El 22 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Repensar la calidad del razonamiento en modelos de idiomas grandes a través de la cadena de pensamiento mejorada a través de RL

Un marco de explicación argumentativa para el modelo de razón generalizada con precedentes inconsistentes

Cómo prosperar como trabajador remoto

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido