Sparkui-Parser: Mejora de la percepción de la GUI con sólida conexión a tierra y análisis
Resumen: Los modelos de lenguaje grande multimodal existente (MLLMS) para la percepción de la GUI han hecho un gran progreso. Sin embargo, los siguientes desafíos aún existen en métodos anteriores: 1) modelan coordenadas discretas basadas en el mecanismo autorregresivo de texto, lo que resulta en una menor precisión de conexión a tierra y una velocidad de inferencia más lenta.
Leer más →