En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->GUI-Rise: razonamiento estructurado y resumen histórico para navegación GUI

GUI-Rise: razonamiento estructurado y resumen histórico para navegación GUI

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Si bien los modelos multimodales de lenguaje grande (MLLM) tienen agentes de navegación GUI avanzados, los enfoques actuales enfrentan limitaciones en la generalización entre dominios y la utilización efectiva del historial. Presentamos un marco de razonamiento mejorado que integra sistemáticamente razonamiento estructurado, predicción de acciones y resumen histórico. El componente de razonamiento estructurado genera análisis de cadena de pensamiento coherentes que combinan la estimación del progreso y el razonamiento de decisiones, que informan tanto las predicciones de acciones inmediatas como resúmenes históricos compactos para pasos futuros. Con base en este marco, capacitamos a un agente GUI, textbf{GUI-Rise}, mediante ajustes supervisados ​​en trayectorias pseudoetiquetadas y aprendizaje reforzado con optimización de políticas relativas a grupos (GRPO). Este marco emplea recompensas especializadas, incluido un objetivo consciente del historial, que vincula directamente la calidad del resumen con el desempeño de la acción posterior. Las evaluaciones integrales en puntos de referencia estándar demuestran resultados de última generación en condiciones de datos de entrenamiento idénticas, con un rendimiento particularmente sólido en escenarios fuera de dominio. Estos hallazgos validan la capacidad de nuestro marco para mantener un razonamiento y una generalización sólidos en diversas tareas de navegación GUI. El código está disponible en esta URL https.

Publicado originalmente en export.arxiv.org el 2 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web