En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Destilación de continuación guiada por habilidades para agentes GUI

Destilación de continuación guiada por habilidades para agentes GUI

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:La mejora de los agentes GUI normalmente se basa en la clonación de comportamientos en trayectorias expertas. Sin embargo, a medida que la política actual se desvía de la política de expertos, inevitablemente encuentra estados fuera de trayectoria inducidos por la política durante la ejecución de circuito cerrado, es decir, estados que quedan fuera de las trayectorias de expertos. Dado que las trayectorias de los expertos no proporcionan demostraciones de estos estados invisibles, dichos estados no reciben una supervisión efectiva, lo que deja a la política incapaz de seleccionar la acción correcta. Para cerrar esta brecha de supervisión, proponemos la Destilación de Continuación Guiada por Habilidades (SGCD), un marco iterativo de superación personal. SGCD primero ejecuta la política simple sin guía de habilidades durante algunos pasos para alcanzar estados realistas fuera de trayectoria. A partir de estos estados, una política guiada por habilidades completa la tarea y produce continuaciones exitosas, que se combinan con trayectorias expertas para proporcionar supervisión sobre los estados fuera de trayectoria inducidos por políticas. Las habilidades se extraen de implementaciones exitosas y fallidas y consisten en planes de continuación, objetivos críticos, trampas de fallas y criterios de éxito. En OSWorld-Verified, SGCD mejora la tasa de éxito de tres modelos base desde un rango inferior al 30% hasta más del 50%, demostrando su eficacia y generalidad.

Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original

admin

Usuario de administración del sitio web