D-Artemis: un marco cognitivo deliberativo para múltiples agentes móviles de GUI

Resumen: Los agentes gráficos de la interfaz de usuario (GUI) tienen como objetivo automatizar un amplio espectro de tareas humanas emulando la interacción del usuario. A pesar de los rápidos avances, los enfoques actuales se ven obstaculizados por varios desafíos críticos: cuello de botella de datos en el entrenamiento de extremo a extremo, alto costo de detección de errores retrasados y riesgo de orientación contradictoria. Inspirados en el bucle cognitivo humano de pensamiento, alineación y reflexión, presentamos D-Artemis, un nuevo marco deliberativo en este artículo. D-Artemis aprovecha un mecanismo de recuperación de punta de grano fino y específico para informar su proceso de toma de decisiones. También emplea una etapa proactiva de alineación previa a la ejecución, donde el módulo de verificación de consistencia de acción de la acción pensativa (TAC) Módulo de verificación y el agente de corrección de acción (ACA) trabajan en concierto para mitigar el riesgo de fallas de ejecución. Un agente de reflexión de estado posterior a la ejecución (SRA) completa el bucle cognitivo, lo que permite el aprendizaje estratégico de la experiencia. De manera crucial, D-Artemis mejora las capacidades de los modelos de lenguaje grande (MLLMS) de uso general de uso general (MLLMS) para tareas de GUI sin la necesidad de capacitar en conjuntos de datos de trayectoria complejos, lo que demuestra una fuerte generalización. D-Artemis establece nuevos resultados de última generación (SOTA) en ambos puntos de referencia importantes, logrando una tasa de éxito del 75.8% en AndroidWorld y 96.8% en ScreensPot-V2. Los estudios de ablación extensos demuestran aún más la contribución significativa de cada componente al marco.

Publicado Originalme en export.arxiv.org El 28 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Estabilización de la adaptación de tiempo de prueba abierta a través del filtrado auxiliar primario y la predicción integrada por el conocimiento

IA y conciencia

Wasmcon 2024 Moviéndose hasta el 11 y 12 de noviembre, ubicando con Kubecon + CloudNativecon North America en Salt Lake.

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido