Resumen: El advenimiento de los agentes multimodales facilita la interacción efectiva dentro de la interfaz gráfica de usuario (GUI), especialmente en el control de GUI ubicuo. Sin embargo, su incapacidad para ejecutar de manera confiable las instrucciones de control de alternancia sigue siendo un cuello de botella clave. Para investigar esto, construimos un punto de referencia de control estatal con instrucciones de alternancia binaria a partir de conjuntos de datos públicos. Las evaluaciones de los agentes existentes demuestran su falta de fiabilidad, particularmente cuando el estado de alternancia actual ya coincide con el estado deseado. Para abordar el desafío, proponemos el razonamiento consciente del estado (STAR), un método de capacitación que enseña a los agentes a percibir el estado actual de alternativa, analizar el estado deseado de la instrucción y actuar en consecuencia. Los experimentos en tres agentes multimodales demuestran que STAR puede mejorar la precisión de la ejecución de la instrucción en más del 30 %. Otras evaluaciones en tres puntos de referencia públicos muestran que Star también mejora el rendimiento general de la tarea. Finalmente, las evaluaciones en un entorno dinámico destacan el potencial de STAR para las aplicaciones del mundo real. El código, el punto de referencia y los agentes mejorados con estrellas están disponibles en esta URL HTTPS.
Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original