Resumen:El artículo presenta GUI-Owl-1.5, el último modelo de agente GUI nativo que presenta variantes de instrucción/pensamiento en múltiples tamaños (2B/4B/8B/32B/235B) y admite una variedad de plataformas (escritorio, móvil, navegador y más) para permitir la colaboración en el borde de la nube y la interacción en tiempo real. GUI-Owl-1.5 logra resultados de última generación en más de 20 pruebas comparativas de GUI en modelos de código abierto: (1) en tareas de automatización de GUI, obtiene 56,5 en OSWorld, 71,6 en AndroidWorld y 48,4 en WebArena; (2) en tareas de conexión a tierra, obtiene 80,3 en ScreenSpotPro; (3) en tareas de llamada de herramientas, obtiene 47,6 en OSWorld-MCP y 46,8 en MobileWorld; (4) en tareas de memoria y conocimiento obtiene 75,5 en GUI-Knowledge Bench. GUI-Owl-1.5 incorpora varias innovaciones clave: (1) Hybird Data Flywheel: construimos el canal de datos para la comprensión de la interfaz de usuario y la generación de trayectorias en función de una combinación de entornos simulados y entornos sandbox basados en la nube, con el fin de mejorar la eficiencia y la calidad de la recopilación de datos. (2) Mejora unificada de las capacidades de los agentes: utilizamos un canal unificado de síntesis de pensamiento para mejorar las capacidades de razonamiento del modelo, al tiempo que ponemos especial énfasis en mejorar las capacidades clave de los agentes, incluido el uso de herramientas/MCP, la memoria y la adaptación de múltiples agentes; (3) Escalado de RL en entorno multiplataforma: Proponemos un nuevo algoritmo de RL de entorno, MRPO, para abordar los desafíos de los conflictos multiplataforma y la baja eficiencia del entrenamiento de las tareas de largo plazo. Los modelos GUI-Owl-1.5 son de código abierto y hay una demostración en línea de sandbox en la nube disponible en esta URL https.
Publicado originalmente en export.arxiv.org el 19 de febrero de 2026.
Ver fuente original
