En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Ver, pensar, ACT: Enseñar agentes multimodales para interactuar de manera efectiva con la GUI identificando a Togarles

Ver, pensar, ACT: Enseñar agentes multimodales para interactuar de manera efectiva con la GUI identificando a Togarles

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El advenimiento de los agentes multimodales facilita la interacción efectiva dentro de la interfaz gráfica de usuario (GUI), especialmente en el control de GUI ubicuo. Sin embargo, su incapacidad para ejecutar de manera confiable las instrucciones de control de alternancia sigue siendo un cuello de botella clave. Para investigar esto, construimos un punto de referencia de control estatal con instrucciones de alternancia binaria a partir de conjuntos de datos públicos. Las evaluaciones de los agentes existentes demuestran su falta de fiabilidad, particularmente cuando el estado de alternancia actual ya coincide con el estado deseado. Para abordar el desafío, proponemos el razonamiento consciente del estado (STAR), un método de capacitación que enseña a los agentes a percibir el estado actual de alternativa, analizar el estado deseado de la instrucción y actuar en consecuencia. Los experimentos en tres agentes multimodales demuestran que STAR puede mejorar la precisión de la ejecución de la instrucción en más del 30 %. Otras evaluaciones en tres puntos de referencia públicos muestran que Star también mejora el rendimiento general de la tarea. Finalmente, las evaluaciones en un entorno dinámico destacan el potencial de STAR para las aplicaciones del mundo real. El código, el punto de referencia y los agentes mejorados con estrellas están disponibles en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web