En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Infantagent-next: un agente generalista multimodal para la interacción automatizada de la computadora

Infantagent-next: un agente generalista multimodal para la interacción automatizada de la computadora

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Este documento presenta TextSC {infantaGent-next}, un agente generalista capaz de interactuar con las computadoras de manera multimodal, que abarca texto, imágenes, audio y video. A diferencia de los enfoques existentes que construyen flujos de trabajo intrincados alrededor de un solo modelo grande o solo proporcionan modularidad del flujo de trabajo, nuestro agente integra agentes de visión basados ​​en herramientas y puros dentro de una arquitectura altamente modular, lo que permite que diferentes modelos resuelvan tareas desacopladas de manera colaborativa de manera paso a paso. Nuestra generalidad se demuestra por nuestra capacidad de evaluar no solo los puntos de referencia del mundo real basados ​​en la visión puro (es decir, Osworld), sino también más generales o más generales de referencia intensivos en herramientas (por ejemplo, Gaia y Swe-Bench). Específicamente, logramos $ mathbf {7.27 %} $ precisión en Osworld, más alto que Claude-Computer-Use. Los códigos y los scripts de evaluación son de código abierto en esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 18 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web