Banco de conocimientos de GUI: revelando la brecha de conocimiento detrás de las fallas de VLM en tareas de GUI

Resumen: Los modelos de lenguaje de gran visión (VLM) tienen una automatización de tareas de interfaz gráfica de usuario (GUI) avanzada, pero aún están por detrás de los humanos. Nuestra hipótesis es que esta brecha se debe a la falta de conocimientos básicos sobre la GUI, que los esquemas de capacitación existentes (como el ajuste supervisado y el aprendizaje por refuerzo) por sí solos no pueden abordar completamente. Al analizar patrones de falla comunes en la ejecución de tareas de GUI, destilamos el conocimiento de la GUI en tres dimensiones: (1) percepción de la interfaz, conocimiento sobre el reconocimiento de widgets y estados del sistema; (2) predicción de interacciones, conocimiento sobre el razonamiento de las transiciones de estados de acción; y (3) comprensión de la instrucción, conocimiento sobre planificación, verificación y evaluación del progreso de la finalización de la tarea. Además, presentamos GUI Knowledge Bench, un punto de referencia con opciones múltiples y preguntas de sí/no en seis plataformas (Web, Android, MacOS, Windows, Linux, IOS) y 292 aplicaciones. Nuestra evaluación muestra que los VLM actuales identifican funciones de widgets, pero tienen dificultades para percibir estados del sistema, predecir acciones y verificar la finalización de tareas. Los experimentos con tareas GUI del mundo real validan aún más el estrecho vínculo entre el conocimiento de la GUI y el éxito de la tarea. Al proporcionar un marco estructurado para evaluar el conocimiento de la GUI, nuestro trabajo respalda la selección de VLM con mayor potencial antes de la capacitación posterior y proporciona información para crear agentes de GUI más capaces.

Publicado originalmente en export.arxiv.org el 30 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Check de racionalidad! Benchmarking la racionalidad de los modelos de idiomas grandes

Infojornada regional Comunidad de Madrid Horizonte Europa Clúster 4: Digital e Industria

La descarga: los secretos de la vitamina D y una fiesta de IA en África

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido