Resumen: Este documento presenta GUI-BOWL, un modelo de agente de GUI fundamental que logra un rendimiento de vanguardia entre los modelos de extremo a extremo de código abierto en diez puntos de referencia de GUI en entornos de escritorio y móviles, cubriendo a tierra, respuesta de preguntas, planificación, toma de decisiones y conocimiento de procedimiento. GUI-OWL-7B logra 66.4 en AndroidWorld y 29.4 en Osworld. Sobre la base de esto, proponemos el marco de agente de GUI de uso general de agente de uso general que mejora aún más el rendimiento a 73.3 en AndroidWorld y 37.7 en Osworld, estableciendo un nuevo estado del arte para los marcos de agentes GUI de código abierto. GUI-OWL incorpora tres innovaciones clave: (1) Infraestructura de entorno a gran escala: un entorno virtual basado en la nube que abarca Android, Ubuntu, MacOS y Windows, lo que permite nuestro marco de producción de trayectoria de GUI autoevolución. Esto genera datos de interacción de alta calidad a través de la generación automatizada de consultas y la validación de corrección, aprovechando GUI-OWN para refinar las trayectorias de iteración, formando un bucle de mejora personal. Admite diversas tuberías de datos y reduce la anotación manual. (2) Diversas capacidades de agente fundamental: al integrar la base de la UI, la planificación, la semántica de acción y los patrones de razonamiento, la GUI-OWL admite la toma de decisiones de extremo a extremo y puede actuar como un componente modular en sistemas de múltiples agentes. (3) Entorno escalable RL: Desarrollamos un marco de aprendizaje de refuerzo escalable con capacitación totalmente asincrónica para la alineación del mundo real. También presentamos la optimización de políticas relativas (TRPO) conscientes de la trayectoria para RL en línea, logrando 34.9 en Osworld. GUI-OWN y MOBILES-AGENT-V3 son de código abierto en esta URL HTTPS.
Publicado Originalme en export.arxiv.org El 21 de agosto de 2025.
Ver Fuente Original
