Resumen: La capacitación de los agentes del modelo de lenguaje grande (LLM) para adquirir las habilidades necesarias y realizar diversas tareas dentro de un entorno está ganando interés como un medio para permitir el final. Sin embargo, crear el conjunto de datos de capacitación para su adquisición de habilidades enfrenta varios desafíos. La colección de trayectoria manual requiere un esfuerzo humano significativo. Otro enfoque, donde los LLM proponen tareas directamente para aprender, a menudo no es válido, ya que los LLM carecen de conocimiento de qué tareas son realmente factibles. Además, los datos generados pueden no proporcionar una señal de aprendizaje significativa, ya que los agentes a menudo ya funcionan bien en las tareas propuestas. Para abordar esto, proponemos un nuevo marco de descubrimiento de habilidades automáticas EXIF para los agentes alimentados por LLM, diseñados para mejorar la viabilidad de los comportamientos objetivo generados al tiempo que tienen en cuenta las capacidades de los agentes. Nuestro método adopta una estrategia de exploración primero mediante el empleo de un agente de exploración (Alice) para capacitar al agente objetivo (BOB) para aprender habilidades esenciales en el medio ambiente. Específicamente, Alice primero interactúa con el entorno para generar retrospectivamente un conjunto de datos de habilidades viables con el medio ambiente, que luego se usa para entrenar a Bob. De manera crucial, incorporamos un circuito de retroalimentación iterativo, donde Alice evalúa el rendimiento de Bob para identificar áreas para mejorar. Esta retroalimentación luego guía la próxima ronda de exploración de Alice, formando un proceso de generación de datos de circuito cerrado. Los experimentos en WebShop y Crafter demuestran la capacidad de Exif para descubrir efectivamente habilidades significativas y expandir iterativamente las capacidades del agente capacitado sin ninguna intervención humana, logrando mejoras sustanciales del rendimiento. Curiosamente, observamos que establecer Alice en el mismo modelo que Bob también mejora notablemente el rendimiento, lo que demuestra el potencial de Exif para construir un sistema de autoevolución.
Publicado Originalme en rss.arxiv.org El 5 de junio de 2025.
Ver Fuente Original