Resumen: La aparición de modelos de lenguaje grande multimodal (MLLMS) ha impulsado el desarrollo de agentes autónomos que operan en interfaces gráficas de usuario (GUI) utilizando una entrada visual pura. Un desafío fundamental es fundamentando robustas instrucciones de lenguaje natural. Esto requiere una alineación espacial precisa, que localiza con precisión las coordenadas de cada elemento y, más críticamente, una alineación semántica correcta, que coincide con las instrucciones con el elemento UI funcionalmente apropiado. Aunque el aprendizaje de refuerzo con recompensas verificables (RLVR) ha demostrado ser efectiva para mejorar la alineación espacial para estos MLLM, encontramos que los cuellos de botella de exploración ineficientes se alinean semánticos, que evitan que los modelos aprendan asociaciones semánticas difíciles. Para abordar este problema de exploración, presentamos la optimización de políticas de exploración adaptativa (AEPO), un nuevo marco de optimización de políticas. AEPO emplea una estrategia de generación múltiple para hacer cumplir una exploración más amplia, que luego se guía por una función de recompensa de exploración adaptativa (AER) teóricamente derivada derivada de los primeros principios de eficiencia ETA = U/C. Nuestros modelos entrenados en AEPO, Infigui-G1-3b e InfigUi-G1-7B, establecen nuevos resultados de última generación en múltiples puntos de referencia de base de GUI desafiantes, logrando mejoras relativas significativas de hasta el 9.0% frente a la línea de base RLVR ingenua en los puntos de referencia diseñados para probar la generalización y el entendimiento semántico. Los recursos están disponibles en esta URL HTTPS.
Publicado Originalme en export.arxiv.org El 10 de agosto de 2025.
Ver Fuente Original