Resumen: Estudiamos cómo dotar a los agentes GUI de memoria escalable que ayude a generalizar a través de interfaces desconocidas y tareas de largo plazo. Los agentes GUI anteriores comprimen trayectorias pasadas en tokens de texto, lo que aumenta la longitud del contexto y pierde señales visuales decisivas (por ejemplo, el tamaño y la posición exactos del widget). Proponemos una memoria continua que codifica cada trayectoria de la GUI en una secuencia de longitud fija de incrustaciones continuas utilizando el propio VLM como codificador; Estas incorporaciones se conectan directamente a la capa de entrada de la red troncal, lo que reduce drásticamente el costo del contexto y al mismo tiempo preserva la información visual detallada. A medida que aumentan el tamaño de la memoria y la profundidad de recuperación, el rendimiento mejora de forma monótona, a diferencia de las memorias de texto que se degradan con indicaciones largas. Para aumentar la memoria a bajo costo, introducimos un volante de datos de escalamiento automático que (i) descubre nuevos entornos mediante búsqueda, (ii) sintetiza tareas con un VLM de código abierto, (iii) implementa trayectorias con el agente y (iv) verifica el éxito con el mismo VLM. Utilizando este canal, recopilamos más de 100.000 trayectorias por aproximadamente $4000 y ajustamos solo el codificador de memoria (LoRA en un Q-Former, 1,2% de parámetros) con 1500 muestras. En los puntos de referencia de GUI del mundo real, nuestro agente con memoria aumentada mejora constantemente las tasas de éxito en horizontes largos y cambios de distribución. En particular, la memoria continua Qwen-2.5-VL-7B + logra un rendimiento comparable al de los modelos de código cerrado de última generación (por ejemplo, GPT-4o, Claude-4).
Publicado originalmente en export.arxiv.org el 12 de octubre de 2025.
Ver fuente original
