Resumen: El notable progreso de los modelos de visión y lenguaje (VLM) ha permitido a los agentes GUI interactuar con las computadoras de manera similar a la humana. Sin embargo, las tareas de uso de computadoras en el mundo real siguen siendo difíciles debido a los flujos de trabajo de largo plazo, las diversas interfaces y los frecuentes errores intermedios. Trabajos anteriores equipan a los agentes con una memoria externa construida a partir de grandes colecciones de trayectorias, pero se basan en una recuperación plana sobre resúmenes discretos o incrustaciones continuas, sin alcanzar la organización estructurada y las características de autoevolución de la memoria humana. Inspirándonos en el cerebro, proponemos la Memoria Estructurada Híbrida y Autoevolutiva (HyMEM), una memoria basada en gráficos que combina nodos simbólicos discretos de alto nivel con incrustaciones de trayectorias continuas. HyMEM mantiene una estructura gráfica para admitir la recuperación de múltiples saltos, la autoevolución mediante operaciones de actualización de nodos y la actualización de la memoria de trabajo sobre la marcha durante la inferencia. Amplios experimentos muestran que HyMEM mejora constantemente los agentes GUI de código abierto, permitiendo que las redes troncales 7B/8B igualen o superen modelos sólidos de código cerrado; En particular, aumenta Qwen2.5-VL-7B en un +22,5% y supera a Gemini2.5-Pro-Vision y GPT-4o.
Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original
