Resumen: Este documento presenta TextSC {infantaGent-next}, un agente generalista capaz de interactuar con las computadoras de manera multimodal, que abarca texto, imágenes, audio y video. A diferencia de los enfoques existentes que construyen flujos de trabajo intrincados alrededor de un solo modelo grande o solo proporcionan modularidad del flujo de trabajo, nuestro agente integra agentes de visión basados en herramientas y puros dentro de una arquitectura altamente modular, lo que permite que diferentes modelos resuelvan tareas desacopladas de manera colaborativa de manera paso a paso. Nuestra generalidad se demuestra por nuestra capacidad de evaluar no solo los puntos de referencia del mundo real basados en la visión puro (es decir, Osworld), sino también más generales o más generales de referencia intensivos en herramientas (por ejemplo, Gaia y Swe-Bench). Específicamente, logramos $ mathbf {7.27 %} $ precisión en Osworld, más alto que Claude-Computer-Use. Los códigos y los scripts de evaluación son de código abierto en esta URL HTTPS.
Publicado Originalme en rss.arxiv.org El 18 de mayo de 2025.
Ver Fuente Original