Resumen:Los agentes están avanzando rápidamente en la automatización del trabajo digital, pero las empresas enfrentan un desafío más difícil: ir más allá de los prototipos hacia sistemas implementados que brinden un valor comercial mensurable. Este camino se complica por los marcos fragmentados, el lento desarrollo y la ausencia de prácticas de evaluación estandarizadas. Los agentes generalistas han surgido como una dirección prometedora, sobresaliendo en los puntos de referencia académicos y ofreciendo flexibilidad en todos los tipos de tareas, aplicaciones y modalidades. Sin embargo, la evidencia de su uso en entornos de empresas de producción sigue siendo limitada. Este artículo informa la experiencia de IBM en el desarrollo y puesta a prueba de Computer Using Generalist Agent (CUGA), que ha sido de código abierto para la comunidad (esta URL https). CUGA adopta una arquitectura de planificador-ejecutor jerárquica con sólidas bases analíticas, logrando un rendimiento de última generación en AppWorld y WebArena. Más allá de los puntos de referencia, se evaluó en un piloto dentro del dominio de adquisición de talento de subcontratación de procesos empresariales, abordando los requisitos empresariales de escalabilidad, auditabilidad, seguridad y gobernanza. Para respaldar la evaluación, presentamos BPO-TA, un punto de referencia de 26 tareas que abarca 13 puntos finales de análisis. En evaluaciones preliminares, CUGA se acercó a la precisión de los agentes especializados al tiempo que indicó potencial para reducir el tiempo y el costo de desarrollo. Nuestra contribución es doble: presentar evidencia temprana de agentes generalistas que operan a escala empresarial y destilar lecciones técnicas y organizativas de este piloto inicial. Describimos los requisitos y los próximos pasos para hacer avanzar las arquitecturas de grado de investigación como CUGA en sistemas robustos y listos para la empresa.
Publicado originalmente en export.arxiv.org el 28 de octubre de 2025.
Ver fuente original
