DIMO-GUI: Avance de la escala del tiempo de prueba en la base de la GUI a través del razonamiento visual consciente de la modalidad

Resumen: Las consultas de lenguaje natural de la base en las interfaces gráficas de usuario (GUI) plantean desafíos únicos debido a la diversidad de elementos visuales, desorden espacial y la ambigüedad del lenguaje. En este artículo, presentamos DIMO-GUI, un marco sin capacitación para la base de la GUI que aprovecha dos estrategias centrales: base visual dinámica y optimización consciente de la modalidad. En lugar de tratar la GUI como una imagen monolítica, nuestro método divide la entrada en elementos textuales y elementos icónicos, lo que permite que el modelo razone sobre cada modalidad de forma independiente utilizando modelos de lenguaje de visión de uso general. Cuando las predicciones son ambiguas o incorrectas, DIMO-GUI enfoca dinámicamente la atención al generar regiones focales candidatas centradas en las predicciones iniciales del modelo y se acerca incrementalmente en subregiones para refinar el resultado de la conexión a tierra. Este proceso de refinamiento jerárquico ayuda a desambiguar los diseños visualmente abarrotados sin la necesidad de capacitación o anotaciones adicionales. Evaluamos nuestro enfoque en los puntos de referencia estándar de fundamento GUI y demostramos mejoras consistentes sobre las tuberías de inferencia basales, destacando la efectividad de la combinación de la separación de modalidad con razonamiento centrado en la región.

Publicado Originalme en export.arxiv.org El 1 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Aprendizaje por refuerzo profundo consciente de las previsiones para una programación eficiente de la carga eléctrica en granjas lecheras

Bongard-RWR+: Representaciones del mundo real de conceptos de grano fino en problemas de Bongard

Agrigpt: un ecosistema de modelo de lenguaje grande para la agricultura

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido