Ver, pensar, ACT: Enseñar agentes multimodales para interactuar de manera efectiva con la GUI identificando a Togarles

Resumen: El advenimiento de los agentes multimodales facilita la interacción efectiva dentro de la interfaz gráfica de usuario (GUI), especialmente en el control de GUI ubicuo. Sin embargo, su incapacidad para ejecutar de manera confiable las instrucciones de control de alternancia sigue siendo un cuello de botella clave. Para investigar esto, construimos un punto de referencia de control estatal con instrucciones de alternancia binaria a partir de conjuntos de datos públicos. Las evaluaciones de los agentes existentes demuestran su falta de fiabilidad, particularmente cuando el estado de alternancia actual ya coincide con el estado deseado. Para abordar el desafío, proponemos el razonamiento consciente del estado (STAR), un método de capacitación que enseña a los agentes a percibir el estado actual de alternativa, analizar el estado deseado de la instrucción y actuar en consecuencia. Los experimentos en tres agentes multimodales demuestran que STAR puede mejorar la precisión de la ejecución de la instrucción en más del 30 %. Otras evaluaciones en tres puntos de referencia públicos muestran que Star también mejora el rendimiento general de la tarea. Finalmente, las evaluaciones en un entorno dinámico destacan el potencial de STAR para las aplicaciones del mundo real. El código, el punto de referencia y los agentes mejorados con estrellas están disponibles en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Dentro del panóptico de vigilancia de Chicago

“El gobierno de la India envió un aviso a las empresas privadas la semana pasada dándoles 90 días para garantizar que una aplicación gubernamental estuviera “preinstalada en todos los teléfonos móviles fabricados o importados para su uso en la India”.

Imagen de teledetección Interpretación inteligente con la perspectiva centrada en el lenguaje: principios, métodos y desafíos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido