En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->GUI-Eyes: percepción aumentada con herramientas para la conexión visual en agentes GUI

GUI-Eyes: percepción aumentada con herramientas para la conexión visual en agentes GUI

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los avances recientes en los modelos de visión-lenguaje (VLM) y el aprendizaje por refuerzo (RL) han impulsado el progreso en la automatización de GUI. Sin embargo, la mayoría de los métodos existentes se basan en entradas visuales estáticas de un solo disparo y en percepción pasiva, careciendo de la capacidad de determinar de forma adaptativa cuándo, si y cómo observar la interfaz. Presentamos GUI-Eyes, un marco de aprendizaje por refuerzo para la percepción visual activa en tareas GUI. Para adquirir observaciones más informativas, el agente aprende a tomar decisiones estratégicas sobre si invocar herramientas visuales, como recortar o hacer zoom, y cómo hacerlo, dentro de un proceso de razonamiento de dos etapas. Para respaldar este comportamiento, introducimos una estrategia de percepción progresiva que descompone la toma de decisiones en exploración gruesa y fundamentos detallados, coordinados por una política de dos niveles. Además, diseñamos una función de recompensa espacialmente continua adaptada al uso de la herramienta, que integra tanto la proximidad de la ubicación como la superposición de regiones para proporcionar una supervisión densa y aliviar la escasez de recompensas común en los entornos GUI. En la prueba comparativa ScreenSpot-Pro, GUI-Eyes-3B logra una precisión de conexión a tierra del 44,8% utilizando solo 3.000 muestras etiquetadas, superando significativamente las líneas de base supervisadas y basadas en RL. Estos resultados resaltan que la percepción activa consciente de las herramientas, habilitada por el razonamiento de políticas por etapas y la retroalimentación de recompensa detallada, es fundamental para construir agentes GUI robustos y eficientes en datos.

Publicado originalmente en export.arxiv.org el 15 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web