En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->GUÍA: Resolución del sesgo de dominio en agentes GUI mediante recuperación de vídeo web en tiempo real y anotación Plug-and-Play

GUÍA: Resolución del sesgo de dominio en agentes GUI mediante recuperación de vídeo web en tiempo real y anotación Plug-and-Play

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los grandes modelos de visión y lenguaje han dotado a los agentes GUI de sólidas capacidades generales para la comprensión e interacción de la interfaz. Sin embargo, debido a la exposición insuficiente a los datos de operación de software específicos del dominio durante el entrenamiento, estos agentes exhiben un sesgo de dominio significativo: carecen de familiaridad con los flujos de trabajo de operación específicos (planificación) y los diseños de los elementos de la interfaz de usuario (conexión a tierra) de aplicaciones particulares, lo que limita el desempeño de sus tareas en el mundo real. En este artículo, presentamos GUIDE (GUI Unbiasing via Inspectional-Video Driven Expertise), un marco plug-and-play sin capacitación que resuelve el sesgo del dominio del agente GUI adquiriendo de forma autónoma experiencia específica del dominio a partir de videos tutoriales web a través de un canal de anotaciones automatizadas con recuperación aumentada. GUIDE introduce dos innovaciones clave. En primer lugar, un canal Video-RAG basado en subtítulos desbloquea la semántica del vídeo a través del análisis de subtítulos, realizando una recuperación progresiva en tres etapas (clasificación de dominio, extracción de temas y coincidencia de relevancia) para identificar videos tutoriales relevantes para la tarea. En segundo lugar, un canal de anotaciones totalmente automatizado construido sobre un paradigma de dinámica inversa alimenta fotogramas clave consecutivos mejorados con detección de elementos de la interfaz de usuario en los VLM, infiriendo la planificación necesaria y el conocimiento básico que se inyecta en los módulos correspondientes del agente para abordar ambas manifestaciones de sesgo de dominio. Amplios experimentos en OSWorld demuestran la generalidad de GUIDE como un componente plug-and-play tanto para sistemas multiagente como para agentes de modelo único. Produce consistentemente mejoras de más del 5% y reduce los pasos de ejecución, sin modificar ningún parámetro o arquitectura del modelo, validando GUIDE como una mejora independiente de la arquitectura para superar el sesgo del dominio del agente GUI.

Publicado originalmente en export.arxiv.org el 29 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web