Resumen:Estudiamos si el autoaprendizaje puede escalar agentes basados en LLM sin depender de conjuntos de datos seleccionados por humanos o recompensas basadas en reglas predefinidas. A través de experimentos controlados en un entorno de agente de búsqueda, identificamos dos determinantes clave del entrenamiento escalable de agentes: la fuente de señales de recompensa y la escala de los datos de las tareas del agente. Encontramos que las recompensas de un Modelo de Recompensa Generativa (GRM) superan las señales rígidas basadas en reglas para el aprendizaje de dominio abierto, y que la coevolución del GRM con la política aumenta aún más el desempeño. Aumentar el volumen de datos de tareas de los agentes, incluso cuando se generan sintéticamente, mejora sustancialmente las capacidades de los agentes. Sobre la base de estos conocimientos, proponemos textbf{Agentic Self-Learning} (ASL), un marco de aprendizaje por refuerzo de funciones múltiples y de circuito completamente cerrado que unifica la generación de tareas, la ejecución de políticas y la evaluación dentro de un entorno de herramientas compartido y una columna vertebral de LLM. ASL coordina un generador de indicaciones, un modelo de políticas y un modelo de recompensa generativo para formar un círculo virtuoso de establecimiento de tareas más difíciles, verificación más precisa y resolución más sólida. Empíricamente, ASL ofrece ganancias constantes de ronda tras ronda, supera líneas de base sólidas de RLVR (por ejemplo, Search-R1) que se estabilizan o degradan, y continúa mejorando en condiciones de datos sin etiqueta, lo que indica una eficiencia y solidez de muestra superiores. Además, mostramos que la capacidad de verificación de GRM es el principal cuello de botella: si se congela, induce a la piratería de recompensas y detiene el progreso; La capacitación continua de GRM sobre la evolución de la distribución de datos mitiga esto, y una pequeña inyección en la última etapa de datos de verificación reales eleva el techo de rendimiento. Este trabajo establece la fuente de recompensa y la escala de datos como palancas críticas para el aprendizaje de agentes de dominio abierto y demuestra la eficacia de la coevolución multirol para agentes escalables y que mejoran a sí mismos. Los datos y el código de este documento se publican en esta URL https

Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original

Hacia LLM de autoaprendizaje agente en entornos de búsqueda

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Arms: agente adaptativo de equipo rojo contra modelos multimodales con ataques con plug-and-play

¿Son los modelos de idiomas grandes capaces de un razonamiento relacional profundo? Insights de Deepseek-R1 y comparaciones de referencia

PuzzlePlex: Evaluación comparativa de modelos básicos sobre razonamiento y planificación con rompecabezas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido