Infigui-G1: avance de la GUI con la optimización de políticas de exploración adaptativa

Resumen: La aparición de modelos de lenguaje grande multimodal (MLLMS) ha impulsado el desarrollo de agentes autónomos que operan en interfaces gráficas de usuario (GUI) utilizando una entrada visual pura. Un desafío fundamental es fundamentando robustas instrucciones de lenguaje natural. Esto requiere una alineación espacial precisa, que localiza con precisión las coordenadas de cada elemento y, más críticamente, una alineación semántica correcta, que coincide con las instrucciones con el elemento UI funcionalmente apropiado. Aunque el aprendizaje de refuerzo con recompensas verificables (RLVR) ha demostrado ser efectiva para mejorar la alineación espacial para estos MLLM, encontramos que los cuellos de botella de exploración ineficientes se alinean semánticos, que evitan que los modelos aprendan asociaciones semánticas difíciles. Para abordar este problema de exploración, presentamos la optimización de políticas de exploración adaptativa (AEPO), un nuevo marco de optimización de políticas. AEPO emplea una estrategia de generación múltiple para hacer cumplir una exploración más amplia, que luego se guía por una función de recompensa de exploración adaptativa (AER) teóricamente derivada derivada de los primeros principios de eficiencia ETA = U/C. Nuestros modelos entrenados en AEPO, Infigui-G1-3b e InfigUi-G1-7B, establecen nuevos resultados de última generación en múltiples puntos de referencia de base de GUI desafiantes, logrando mejoras relativas significativas de hasta el 9.0% frente a la línea de base RLVR ingenua en los puntos de referencia diseñados para probar la generalización y el entendimiento semántico. Los recursos están disponibles en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 10 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Programación de flujo híbrido de Pareto Refined Pareto para la programación de flujo híbrido consciente de la energía con restricciones de bloqueo

Comparación de sistemas dialécticos: contradicción y contraejemplo en el cambio de creencia (versión extendida)

OLG ++: una extensión semántica del gráfico de lógica de obligación

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido