En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Hacia LLM de autoaprendizaje agente en entornos de búsqueda

Hacia LLM de autoaprendizaje agente en entornos de búsqueda

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Estudiamos si el autoaprendizaje puede escalar agentes basados ​​en LLM sin depender de conjuntos de datos seleccionados por humanos o recompensas basadas en reglas predefinidas. A través de experimentos controlados en un entorno de agente de búsqueda, identificamos dos determinantes clave del entrenamiento escalable de agentes: la fuente de señales de recompensa y la escala de los datos de las tareas del agente. Encontramos que las recompensas de un Modelo de Recompensa Generativa (GRM) superan las señales rígidas basadas en reglas para el aprendizaje de dominio abierto, y que la coevolución del GRM con la política aumenta aún más el desempeño. Aumentar el volumen de datos de tareas de los agentes, incluso cuando se generan sintéticamente, mejora sustancialmente las capacidades de los agentes. Sobre la base de estos conocimientos, proponemos textbf{Agentic Self-Learning} (ASL), un marco de aprendizaje por refuerzo de funciones múltiples y de circuito completamente cerrado que unifica la generación de tareas, la ejecución de políticas y la evaluación dentro de un entorno de herramientas compartido y una columna vertebral de LLM. ASL coordina un generador de indicaciones, un modelo de políticas y un modelo de recompensa generativo para formar un círculo virtuoso de establecimiento de tareas más difíciles, verificación más precisa y resolución más sólida. Empíricamente, ASL ofrece ganancias constantes de ronda tras ronda, supera líneas de base sólidas de RLVR (por ejemplo, Search-R1) que se estabilizan o degradan, y continúa mejorando en condiciones de datos sin etiqueta, lo que indica una eficiencia y solidez de muestra superiores. Además, mostramos que la capacidad de verificación de GRM es el principal cuello de botella: si se congela, induce a la piratería de recompensas y detiene el progreso; La capacitación continua de GRM sobre la evolución de la distribución de datos mitiga esto, y una pequeña inyección en la última etapa de datos de verificación reales eleva el techo de rendimiento. Este trabajo establece la fuente de recompensa y la escala de datos como palancas críticas para el aprendizaje de agentes de dominio abierto y demuestra la eficacia de la coevolución multirol para agentes escalables y que mejoran a sí mismos. Los datos y el código de este documento se publican en esta URL https

Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web