En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Sparkui-Parser: Mejora de la percepción de la GUI con sólida conexión a tierra y análisis

Sparkui-Parser: Mejora de la percepción de la GUI con sólida conexión a tierra y análisis

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje grande multimodal existente (MLLMS) para la percepción de la GUI han hecho un gran progreso. Sin embargo, los siguientes desafíos aún existen en métodos anteriores: 1) modelan coordenadas discretas basadas en el mecanismo autorregresivo de texto, lo que resulta en una menor precisión de conexión a tierra y una velocidad de inferencia más lenta. 2) Solo pueden ubicar conjuntos de elementos predefinidos y no son capaces de analizar toda la interfaz, lo que obstaculiza la aplicación amplia y el soporte para tareas aguas abajo. Para abordar los problemas anteriores, proponemos SparkUi-Parser, un nuevo marco de extremo a extremo donde una mayor precisión de localización y capacidad de análisis de grano fino de toda la interfaz se logran simultáneamente. Específicamente, en lugar de utilizar el modelado discreto basado en la probabilidad, realizamos un modelado continuo de coordenadas basadas en un modelo de lenguaje grande (MLLM) previamente capacitado con un enrutador token adicional y un decodificador de coordenadas. Esto mitiga efectivamente las limitaciones inherentes a las características de salida discretas y el proceso de generación de token-by-token de MLLM, en consecuencia, aumenta tanto la precisión como la velocidad de inferencia. Para mejorar aún más la robustez, se introduce un mecanismo de rechazo basado en un algoritmo de correspondencia húngaro modificado, lo que permite al modelo identificar y rechazar elementos inexistentes, reduciendo así los falsos positivos. Además, presentamos ScreenParse, un punto de referencia rigurosamente construido para evaluar sistemáticamente las capacidades de percepción estructural de los modelos GUI en diversos escenarios. Experimentos extensos demuestran que nuestro enfoque supera constantemente los métodos SOTA en ScreensPot, ScreensPot-V2, Cagui-Grounding y PantalParse Benchmars. Los recursos están disponibles en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 7 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web