Resumen:El rápido desarrollo del modelo de lenguaje-visión (VLM) ha promovido en gran medida la investigación del agente GUI. Sin embargo, los agentes de GUI todavía enfrentan desafíos importantes en el manejo de tareas a largo plazo. En primer lugar, los modelos de agente único luchan por equilibrar las capacidades de alto nivel y la capacidad de ejecución de bajo nivel, enfrentando problemas frecuentes de acoplamiento de responsabilidades y conflictos de capacidades. En segundo lugar, los agentes carecen de conciencia del estado de la tarea, lo que lleva a una pérdida de progreso en tareas de largo plazo. Para abordar estos desafíos, proponemos un algoritmo de aprendizaje por refuerzo de retroalimentación de ejecución por etapas. A diferencia de entrenar un modelo de política unificado, nos enfocamos en entrenar modelos de programación de alto nivel. En concreto, proponemos y formamos dos agentes: un Coordinador, responsable de la planificación estratégica y descomposición de tareas; y un State Tracker, responsable de la compresión del contexto y la gestión de la información para mantener el estado y la coherencia de la tarea. En base a esto, creamos el marco multiagente Coordinador-Ejecutor-Rastreador de Estado (CES), que se puede integrar con cualquier modelo de Ejecutor de bajo nivel, ayudando al Ejecutor a resolver tareas de largo plazo a través de la programación de tareas y la gestión del estado. Los experimentos sobre puntos de referencia de tareas a largo plazo demuestran que CES mejora significativamente las capacidades de planificación y gestión estatal del sistema. Además, el análisis confirma que nuestro módulo de programación de alto nivel capacitado es un módulo plug-and-play generalizable que mejora significativamente las capacidades a largo plazo de varios Ejecutores. El código puede estar disponible en esta URL https.
Publicado originalmente en export.arxiv.org el 30 de noviembre de 2025.
Ver fuente original
