GUI-Eyes: percepción aumentada con herramientas para la conexión visual en agentes GUI

Resumen: Los avances recientes en los modelos de visión-lenguaje (VLM) y el aprendizaje por refuerzo (RL) han impulsado el progreso en la automatización de GUI. Sin embargo, la mayoría de los métodos existentes se basan en entradas visuales estáticas de un solo disparo y en percepción pasiva, careciendo de la capacidad de determinar de forma adaptativa cuándo, si y cómo observar la interfaz. Presentamos GUI-Eyes, un marco de aprendizaje por refuerzo para la percepción visual activa en tareas GUI. Para adquirir observaciones más informativas, el agente aprende a tomar decisiones estratégicas sobre si invocar herramientas visuales, como recortar o hacer zoom, y cómo hacerlo, dentro de un proceso de razonamiento de dos etapas. Para respaldar este comportamiento, introducimos una estrategia de percepción progresiva que descompone la toma de decisiones en exploración gruesa y fundamentos detallados, coordinados por una política de dos niveles. Además, diseñamos una función de recompensa espacialmente continua adaptada al uso de la herramienta, que integra tanto la proximidad de la ubicación como la superposición de regiones para proporcionar una supervisión densa y aliviar la escasez de recompensas común en los entornos GUI. En la prueba comparativa ScreenSpot-Pro, GUI-Eyes-3B logra una precisión de conexión a tierra del 44,8% utilizando solo 3.000 muestras etiquetadas, superando significativamente las líneas de base supervisadas y basadas en RL. Estos resultados resaltan que la percepción activa consciente de las herramientas, habilitada por el razonamiento de políticas por etapas y la retroalimentación de recompensa detallada, es fundamental para construir agentes GUI robustos y eficientes en datos.

Publicado originalmente en export.arxiv.org el 15 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Integración de series de tiempo en LLM a través de fusión de incrustación de orientación multicapa para pronósticos mejorados

Arquitectos computacionales de la sociedad: aprendizaje automático cuántico para el génesis de las reglas sociales

Actas del primer taller sobre el avance de la inteligencia artificial a través de la teoría de la mente

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido