LightAgent: Modelos de base agentes móviles

Resumen:Con el avance de los modelos de lenguajes grandes multimodales (MLLM), la creación de sistemas de agentes GUI se ha convertido en una dirección cada vez más prometedora, especialmente para las plataformas móviles, dados sus ricos ecosistemas de aplicaciones e interacciones táctiles intuitivas. Sin embargo, los agentes de GUI móviles enfrentan un dilema crítico: los modelos verdaderamente en el dispositivo (4B o más pequeños) carecen de rendimiento suficiente, mientras que los modelos capaces (a partir de 7B) son demasiado grandes para la implementación móvil o prohibitivamente costosos (por ejemplo, MLLM de código cerrado solo en la nube). Para resolver esto, proponemos LightAgent, una solución de modelo de base agente móvil que aprovecha la colaboración dispositivo-nube para aprovechar la rentabilidad de los modelos en el dispositivo y la alta capacidad de los modelos en la nube, evitando al mismo tiempo sus inconvenientes. Específicamente, LightAgent mejora Qwen2.5-VL-3B a través de capacitación SFT->GRPO de dos etapas en datos de GUI sintéticos para una toma de decisiones sólida, integra un mecanismo eficiente de razonamiento prolongado para utilizar interacciones históricas con recursos limitados y, de forma predeterminada, solo se ejecuta en el dispositivo escalando subtareas desafiantes a la nube a través de una evaluación de complejidad en tiempo real. Los experimentos en el punto de referencia en línea de AndroidLab y diversas aplicaciones muestran que LightAgent coincide o se acerca a modelos más grandes, con una reducción significativa en los costos de la nube.

Publicado originalmente en export.arxiv.org el 27 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Un análisis multifacético de las habilidades cognitivas: evaluación de métodos rápidos con modelos de lenguaje grandes en la lista de verificación CONSORT

RAVR: razonamiento variacional guiado por referencias y respuestas para modelos de lenguaje grandes

Análisis de aplicaciones de enrutadores industriales eSIM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido