Sparkui-Parser: Mejora de la percepción de la GUI con sólida conexión a tierra y análisis

Resumen: Los modelos de lenguaje grande multimodal existente (MLLMS) para la percepción de la GUI han hecho un gran progreso. Sin embargo, los siguientes desafíos aún existen en métodos anteriores: 1) modelan coordenadas discretas basadas en el mecanismo autorregresivo de texto, lo que resulta en una menor precisión de conexión a tierra y una velocidad de inferencia más lenta. 2) Solo pueden ubicar conjuntos de elementos predefinidos y no son capaces de analizar toda la interfaz, lo que obstaculiza la aplicación amplia y el soporte para tareas aguas abajo. Para abordar los problemas anteriores, proponemos SparkUi-Parser, un nuevo marco de extremo a extremo donde una mayor precisión de localización y capacidad de análisis de grano fino de toda la interfaz se logran simultáneamente. Específicamente, en lugar de utilizar el modelado discreto basado en la probabilidad, realizamos un modelado continuo de coordenadas basadas en un modelo de lenguaje grande (MLLM) previamente capacitado con un enrutador token adicional y un decodificador de coordenadas. Esto mitiga efectivamente las limitaciones inherentes a las características de salida discretas y el proceso de generación de token-by-token de MLLM, en consecuencia, aumenta tanto la precisión como la velocidad de inferencia. Para mejorar aún más la robustez, se introduce un mecanismo de rechazo basado en un algoritmo de correspondencia húngaro modificado, lo que permite al modelo identificar y rechazar elementos inexistentes, reduciendo así los falsos positivos. Además, presentamos ScreenParse, un punto de referencia rigurosamente construido para evaluar sistemáticamente las capacidades de percepción estructural de los modelos GUI en diversos escenarios. Experimentos extensos demuestran que nuestro enfoque supera constantemente los métodos SOTA en ScreensPot, ScreensPot-V2, Cagui-Grounding y PantalParse Benchmars. Los recursos están disponibles en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 7 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

RLNVR: Aprendizaje de refuerzo de recompensas no verificadas del mundo real

Fairy: Asistente móvil interactivo a tareas del mundo real a través de múltiples agentes basados ​​en LMM

Una metodología para evaluar el riesgo de falla de métricas en LLM dentro del ámbito financiero

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

Fairy: Asistente móvil interactivo a tareas del mundo real a través de múltiples agentes basados en LMM