En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Mirage-1: Aumento y actualización del agente GUI con habilidades multimodales jerárquicas

Mirage-1: Aumento y actualización del agente GUI con habilidades multimodales jerárquicas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los esfuerzos recientes para aprovechar el modelo de lenguaje grande multimodal (MLLM) como agentes de la GUI han arrojado resultados prometedores. Sin embargo, estos agentes aún luchan con las tareas de Horizon Long en entornos en línea, principalmente debido al conocimiento insuficiente y la brecha inherente entre los dominios fuera de línea y en línea. En este artículo, inspirados en cómo los humanos generalizan el conocimiento en entornos abiertos, proponemos un módulo de habilidades multimodales jerárquicas (HMS) para abordar el problema del conocimiento insuficiente. Abraza progresivamente las trayectorias en habilidades de ejecución, habilidades centrales y, en última instancia, meta habilidades, proporcionando una estructura de conocimiento jerárquico para la planificación de tareas de horizonte largo. Para cerrar la brecha de dominio, proponemos el algoritmo de búsqueda de árboles de Monte Carlo (SA-MCTS) de Agumento de habilidades, que aprovecha eficientemente las habilidades adquiridas en entornos fuera de línea para reducir el espacio de búsqueda de acción durante la exploración de árboles en línea. Sobre la base de HMS, proponemos Mirage-1, un agente de GUI multimodal, multiplataforma, plug-and-play. Para validar el rendimiento de Mirage-1 en escenarios de horizonte largo del mundo real, construimos un nuevo punto de referencia, Androidlh. Los resultados experimentales muestran que MIRAGE-1 supera a los agentes anteriores en 32 %, 19 %, 15 %y 79 %en AndroidWorld, MobileMiniWob ++, Mind2Web-Live y Androidlh, respectivamente. Página del proyecto: esta URL HTTPS

Publicado Originalme en rss.arxiv.org El 12 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web