Resumen:Con el avance de los modelos de lenguajes grandes multimodales (MLLM), la creación de sistemas de agentes GUI se ha convertido en una dirección cada vez más prometedora, especialmente para las plataformas móviles, dados sus ricos ecosistemas de aplicaciones e interacciones táctiles intuitivas. Sin embargo, los agentes de GUI móviles enfrentan un dilema crítico: los modelos verdaderamente en el dispositivo (4B o más pequeños) carecen de rendimiento suficiente, mientras que los modelos capaces (a partir de 7B) son demasiado grandes para la implementación móvil o prohibitivamente costosos (por ejemplo, MLLM de código cerrado solo en la nube). Para resolver esto, proponemos LightAgent, una solución de modelo de base agente móvil que aprovecha la colaboración dispositivo-nube para aprovechar la rentabilidad de los modelos en el dispositivo y la alta capacidad de los modelos en la nube, evitando al mismo tiempo sus inconvenientes. Específicamente, LightAgent mejora Qwen2.5-VL-3B a través de capacitación SFT->GRPO de dos etapas en datos de GUI sintéticos para una toma de decisiones sólida, integra un mecanismo eficiente de razonamiento prolongado para utilizar interacciones históricas con recursos limitados y, de forma predeterminada, solo se ejecuta en el dispositivo escalando subtareas desafiantes a la nube a través de una evaluación de complejidad en tiempo real. Los experimentos en el punto de referencia en línea de AndroidLab y diversas aplicaciones muestran que LightAgent coincide o se acerca a modelos más grandes, con una reducción significativa en los costos de la nube.
Publicado originalmente en export.arxiv.org el 27 de octubre de 2025.
Ver fuente original
