Mire antes de saltar: un modelo gui-crítico-R1 para el diagnóstico de errores preoperatorios en la automatización de la GUI

Resumen: En los últimos años, los modelos de lenguaje grande (MLLMS) multimodales se han utilizado ampliamente para tareas de razonamiento multimodal, incluida la automatización gráfica de la interfaz de usuario (GUI). A diferencia de las tareas multimodales generales fuera de línea, la automatización de la GUI se ejecuta en entornos interactivos en línea, lo que requiere la toma de decisiones paso a paso basada en el estado del entorno en tiempo real. Esta tarea tiene una menor tolerancia a los errores de toma de decisiones en cada paso, ya que cualquier error puede interrumpir acumulativamente el proceso y potencialmente conducir a resultados irreversibles como deleciones o pagos. Para abordar estos problemas, presentamos un mecanismo crítico preoperatorio que proporciona retroalimentación efectiva antes de la ejecución real, razonando sobre el resultado potencial y la corrección de las acciones. Específicamente, proponemos una estrategia de optimización de políticas relativas de gradiente de sugerencias (S-GRPO) para construir nuestro modelo crítico preoperatorio gui-crítica-R1, incorporando una nueva recompensa de sugerencias para mejorar la fiabilidad de los comentarios del modelo. Además, desarrollamos una tubería de recopilación de datos basada en el arco de razonamiento para crear un tren crítico gui y una prueba de gui-crítica, llenando los vacíos existentes en los datos de los críticos de la GUI. Los experimentos estáticos en la prueba de gui-crítica en los dominios móviles y web revelan que nuestro gui-critic-R1 ofrece ventajas significativas en la precisión crítica en comparación con los MLLM actuales. La evaluación dinámica en la referencia de automatización de la GUI resalta aún más la efectividad y la superioridad de nuestro modelo, como lo demuestran las mejores tasas de éxito y la eficiencia operativa.

Publicado Originalme en rss.arxiv.org El 5 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

ORCHID: Clasificación aumentada de recuperación orquestada con toma de decisiones inteligente humana en el circuito para propiedades de alto riesgo

Webinario CDTI Horizonte Europa Convocatoria “Limpio de la industria industrial” 2026-2027. Clúster 4 Industria y Clúster 5 Energía

¿Cómo recuerdan nuestros cuerpos?

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido