AGENTEARK: un punto de referencia integral para evaluar las arquitecturas de los agentes en la empresa

Resumen: Si bien los componentes individuales de las arquitecturas de agente se han estudiado de forma aislada, sigue habiendo una comprensión empírica limitada de cómo las diferentes dimensiones de diseño interactúan dentro de sistemas complejos de agentes múltiples. Este estudio tiene como objetivo abordar estas brechas proporcionando un punto de referencia integral específico de la empresa que evalúa 18 configuraciones de agente distintas en modelos de idiomas grandes de última generación. Examinamos cuatro dimensiones críticas del sistema de agente: estrategia de orquestación, implementación rápida del agente (reacción versus llamadas a funciones), arquitectura de memoria e integración de herramientas de pensamiento. Nuestro punto de referencia revela importantes preferencias arquitectónicas específicas del modelo que desafían el paradigma de talla única prevalente en los sistemas de IA agente. También revela debilidades significativas en el rendimiento agente general en las tareas empresariales con los modelos de puntaje más altos que logran un máximo de 35.3 % de éxito en la tarea más compleja y 70.8 % en la tarea más simple. Esperamos que estos hallazgos informen el diseño de futuros sistemas de agente al permitir decisiones más respaldadas empíricamente con respecto a los componentes arquitectónicos y la selección de modelos.

Publicado Originalme en export.arxiv.org El 15 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Una lesión en la rodilla lanzó la carrera de este pionero de la realidad virtual

Drones autoadapeantes para mundos impredecibles

Esta startup quiere usar vigas de energía para perforar pozos geotérmicos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido