En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Mire antes de saltar: un modelo gui-crítico-R1 para el diagnóstico de errores preoperatorios en la automatización de la GUI

Mire antes de saltar: un modelo gui-crítico-R1 para el diagnóstico de errores preoperatorios en la automatización de la GUI

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: En los últimos años, los modelos de lenguaje grande (MLLMS) multimodales se han utilizado ampliamente para tareas de razonamiento multimodal, incluida la automatización gráfica de la interfaz de usuario (GUI). A diferencia de las tareas multimodales generales fuera de línea, la automatización de la GUI se ejecuta en entornos interactivos en línea, lo que requiere la toma de decisiones paso a paso basada en el estado del entorno en tiempo real. Esta tarea tiene una menor tolerancia a los errores de toma de decisiones en cada paso, ya que cualquier error puede interrumpir acumulativamente el proceso y potencialmente conducir a resultados irreversibles como deleciones o pagos. Para abordar estos problemas, presentamos un mecanismo crítico preoperatorio que proporciona retroalimentación efectiva antes de la ejecución real, razonando sobre el resultado potencial y la corrección de las acciones. Específicamente, proponemos una estrategia de optimización de políticas relativas de gradiente de sugerencias (S-GRPO) para construir nuestro modelo crítico preoperatorio gui-crítica-R1, incorporando una nueva recompensa de sugerencias para mejorar la fiabilidad de los comentarios del modelo. Además, desarrollamos una tubería de recopilación de datos basada en el arco de razonamiento para crear un tren crítico gui y una prueba de gui-crítica, llenando los vacíos existentes en los datos de los críticos de la GUI. Los experimentos estáticos en la prueba de gui-crítica en los dominios móviles y web revelan que nuestro gui-critic-R1 ofrece ventajas significativas en la precisión crítica en comparación con los MLLM actuales. La evaluación dinámica en la referencia de automatización de la GUI resalta aún más la efectividad y la superioridad de nuestro modelo, como lo demuestran las mejores tasas de éxito y la eficiencia operativa.

Publicado Originalme en rss.arxiv.org El 5 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web