Resumen: La mayoría del software existente carece de interfaces de programación de aplicaciones (API) accesibles, lo que requiere que los agentes operen únicamente a través de interfaces gráficas de usuario (GUI) basadas en píxeles. En este entorno sin API, los agentes basados en modelos de lenguaje grande (LLM) enfrentan graves cuellos de botella de eficiencia: limitados a experiencias visuales locales, toman decisiones miopes y dependen de prueba y error ineficientes, lo que dificulta tanto la adquisición de habilidades como la planificación a largo plazo. Para abordar estos desafíos, proponemos KG-Agent, un marco de aprendizaje basado en la experiencia que estructura las interacciones sin procesar a nivel de píxel de un agente en un gráfico de conocimiento de estado-acción persistente (SA-KG). KG-Agent supera la exploración ineficiente al vincular estados de GUI funcionalmente similares pero visualmente distintos, formando un rico vecindario de experiencia que permite al agente generalizar a partir de un conjunto diverso de estrategias históricas. Para respaldar el razonamiento a largo plazo, diseñamos un mecanismo de recompensa intrínseco híbrido basado en la topología del gráfico, que combina una recompensa de valor estatal por explotar vías conocidas de alto valor con una recompensa novedosa que fomenta la exploración dirigida. Este enfoque desacopla la planificación estratégica del puro descubrimiento, lo que permite al agente valorar eficazmente las acciones de preparación con gratificación retrasada. Evaluamos KG-Agent en dos entornos de toma de decisiones complejos y abiertos basados en GUI (Civilization V y Slay the Spire), lo que demuestra mejoras significativas en la eficiencia de la exploración y la profundidad estratégica con respecto a los métodos de última generación.
Publicado originalmente en export.arxiv.org el 19 de octubre de 2025.
Ver fuente original
