Infantagent-next: un agente generalista multimodal para la interacción automatizada de la computadora

Resumen: Este documento presenta TextSC {infantaGent-next}, un agente generalista capaz de interactuar con las computadoras de manera multimodal, que abarca texto, imágenes, audio y video. A diferencia de los enfoques existentes que construyen flujos de trabajo intrincados alrededor de un solo modelo grande o solo proporcionan modularidad del flujo de trabajo, nuestro agente integra agentes de visión basados en herramientas y puros dentro de una arquitectura altamente modular, lo que permite que diferentes modelos resuelvan tareas desacopladas de manera colaborativa de manera paso a paso. Nuestra generalidad se demuestra por nuestra capacidad de evaluar no solo los puntos de referencia del mundo real basados en la visión puro (es decir, Osworld), sino también más generales o más generales de referencia intensivos en herramientas (por ejemplo, Gaia y Swe-Bench). Específicamente, logramos $ mathbf {7.27 %} $ precisión en Osworld, más alto que Claude-Computer-Use. Los códigos y los scripts de evaluación son de código abierto en esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 18 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La asociación de Vodafone y los Parques Nacionales del Reino Unido utiliza tecnología de IA para ayudar a conectar a las personas con la naturaleza y protegerla para el futuro

El futuro del trabajo

Sesión Informata Horizonte Europa Clúster 4: Digital E Industria

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido