GUI-Rise: razonamiento estructurado y resumen histórico para navegación GUI
Resumen:Si bien los modelos multimodales de lenguaje grande (MLLM) tienen agentes de navegación GUI avanzados, los enfoques actuales enfrentan limitaciones en la generalización entre dominios y la utilización efectiva del historial. Presentamos un marco de razonamiento mejorado que integra sistemáticamente razonamiento estructurado, predicción de acciones y resumen histórico.
Leer más →