Destilación de continuación guiada por habilidades para agentes GUI
Resumen:La mejora de los agentes GUI normalmente se basa en la clonación de comportamientos en trayectorias expertas. Sin embargo, a medida que la política actual se desvía de la política de expertos, inevitablemente encuentra estados fuera de trayectoria inducidos por la política durante la ejecución de circuito cerrado, es decir, estados que quedan fuera de las trayectorias de expertos.
Leer más →