Resumen: Los agentes de interfaz gráfica de usuario (GUI) muestran un gran potencial para permitir que los modelos básicos completen tareas del mundo real, revolucionando la interacción persona-computadora y mejorando la productividad humana. En este informe, presentamos OmegaUse, un modelo de agente GUI de propósito general para la ejecución autónoma de tareas en plataformas móviles y de escritorio, que admite escenarios de uso de computadoras y teléfonos. La creación de un modelo de agente GUI eficaz se basa en dos factores: (1) datos de alta calidad y (2) métodos de formación eficaces. Para abordarlos, presentamos un proceso de construcción de datos cuidadosamente diseñado y un paradigma de capacitación desacoplado. Para la construcción de datos, aprovechamos conjuntos de datos de código abierto rigurosamente seleccionados e introducimos un novedoso marco de síntesis automatizada que integra la exploración autónoma ascendente con la generación guiada por taxonomía de arriba hacia abajo para crear datos sintéticos de alta fidelidad. Para la capacitación, para aprovechar mejor estos datos, adoptamos una estrategia de dos etapas: Ajuste fino supervisado (SFT) para establecer una sintaxis de interacción fundamental, seguido de Optimización de políticas relativas al grupo (GRPO) para mejorar la conexión espacial y la planificación secuencial. Para equilibrar la eficiencia computacional con la capacidad de razonamiento agente, OmegaUse se basa en una columna vertebral de una mezcla de expertos (MoE). Para evaluar las capacidades entre terminales en un entorno fuera de línea, presentamos OS-Nav, una suite de referencia que abarca múltiples sistemas operativos: ChiM-Nav, dirigido a entornos móviles Android chinos, y Ubu-Nav, que se centra en interacciones rutinarias de escritorio en Ubuntu. Amplios experimentos muestran que OmegaUse es altamente competitivo en los puntos de referencia de GUI establecidos, logrando una puntuación de última generación (SOTA) del 96,3 % en ScreenSpot-V2 y una tasa de éxito de pasos líder del 79,1 % en AndroidControl. OmegaUse también tiene un excelente desempeño en OS-Nav, alcanzando un 74,24 % de éxito en los pasos en ChiM-Nav y un 55,9 % de éxito promedio en Ubu-Nav.
Publicado originalmente en export.arxiv.org el 28 de enero de 2026.
Ver fuente original
