En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Banco de conocimientos de GUI: revelando la brecha de conocimiento detrás de las fallas de VLM en tareas de GUI

Banco de conocimientos de GUI: revelando la brecha de conocimiento detrás de las fallas de VLM en tareas de GUI

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje de gran visión (VLM) tienen una automatización de tareas de interfaz gráfica de usuario (GUI) avanzada, pero aún están por detrás de los humanos. Nuestra hipótesis es que esta brecha se debe a la falta de conocimientos básicos sobre la GUI, que los esquemas de capacitación existentes (como el ajuste supervisado y el aprendizaje por refuerzo) por sí solos no pueden abordar completamente. Al analizar patrones de falla comunes en la ejecución de tareas de GUI, destilamos el conocimiento de la GUI en tres dimensiones: (1) percepción de la interfaz, conocimiento sobre el reconocimiento de widgets y estados del sistema; (2) predicción de interacciones, conocimiento sobre el razonamiento de las transiciones de estados de acción; y (3) comprensión de la instrucción, conocimiento sobre planificación, verificación y evaluación del progreso de la finalización de la tarea. Además, presentamos GUI Knowledge Bench, un punto de referencia con opciones múltiples y preguntas de sí/no en seis plataformas (Web, Android, MacOS, Windows, Linux, IOS) y 292 aplicaciones. Nuestra evaluación muestra que los VLM actuales identifican funciones de widgets, pero tienen dificultades para percibir estados del sistema, predecir acciones y verificar la finalización de tareas. Los experimentos con tareas GUI del mundo real validan aún más el estrecho vínculo entre el conocimiento de la GUI y el éxito de la tarea. Al proporcionar un marco estructurado para evaluar el conocimiento de la GUI, nuestro trabajo respalda la selección de VLM con mayor potencial antes de la capacitación posterior y proporciona información para crear agentes de GUI más capaces.

Publicado originalmente en export.arxiv.org el 30 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web