Resumen: Las consultas de lenguaje natural de la base en las interfaces gráficas de usuario (GUI) plantean desafíos únicos debido a la diversidad de elementos visuales, desorden espacial y la ambigüedad del lenguaje. En este artículo, presentamos DIMO-GUI, un marco sin capacitación para la base de la GUI que aprovecha dos estrategias centrales: base visual dinámica y optimización consciente de la modalidad. En lugar de tratar la GUI como una imagen monolítica, nuestro método divide la entrada en elementos textuales y elementos icónicos, lo que permite que el modelo razone sobre cada modalidad de forma independiente utilizando modelos de lenguaje de visión de uso general. Cuando las predicciones son ambiguas o incorrectas, DIMO-GUI enfoca dinámicamente la atención al generar regiones focales candidatas centradas en las predicciones iniciales del modelo y se acerca incrementalmente en subregiones para refinar el resultado de la conexión a tierra. Este proceso de refinamiento jerárquico ayuda a desambiguar los diseños visualmente abarrotados sin la necesidad de capacitación o anotaciones adicionales. Evaluamos nuestro enfoque en los puntos de referencia estándar de fundamento GUI y demostramos mejoras consistentes sobre las tuberías de inferencia basales, destacando la efectividad de la combinación de la separación de modalidad con razonamiento centrado en la región.
Publicado Originalme en export.arxiv.org El 1 de julio de 2025.
Ver Fuente Original