Resumen: Los grandes modelos multimodales (LMM) tienen agentes de GUI móvil avanzados. Sin embargo, los métodos existentes luchan con los escenarios del mundo real que involucran diversas interfaces de aplicaciones y necesidades en evolución de los usuarios. Los métodos de extremo a extremo que se basan en el sentido común del modelo a menudo fallan en las aplicaciones de cola larga, y los agentes sin la Ley de Interacción del Usuario de la Ley Unilateralmente, dañando la experiencia del usuario. Para abordar estas limitaciones, proponemos hadas, un asistente móvil interactivo de múltiples agentes capaz de acumular continuamente el conocimiento de la aplicación y la autoevolución durante el uso. Fairy permite la colaboración cruzada, la ejecución interactiva y el aprendizaje continuo a través de tres módulos centrales: (i) un planificador de tareas global que descompone las tareas de los usuarios en subestamaciones desde una vista cruzada; (ii) un albacea a nivel de aplicaciones que refina subtrasas en pasos y acciones basadas en la memoria a largo y corto plazo, logrando una ejecución precisa y la interacción del usuario a través de cuatro agentes centrales que operan en bucles duales; y (iii) un autoaprendizaje que consolida la experiencia de ejecución en mapas y trucos de aplicaciones. Para evaluar hadas, presentamos RealMobile-Eval, un punto de referencia del mundo real con una suite métrica integral y agentes basados en LMM para la puntuación automatizada. Los experimentos muestran que Fairy con GPT-4O Backbone supera a la SOTA anterior al mejorar la finalización del requisito del usuario en un 33.7% y reducir los pasos redundantes en un 58.5%, mostrando la efectividad de su interacción y autoaprendizaje.
Publicado Originalme en export.arxiv.org El 25 de septiembre de 2025.
Ver Fuente Original