En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->RODS: Síntesis de datos en línea impulsada por recompensas para agentes de uso de herramientas de múltiples vueltas

RODS: Síntesis de datos en línea impulsada por recompensas para agentes de uso de herramientas de múltiples vueltas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El RL de uso de herramientas de múltiples turnos se ve obstaculizado por el rápido agotamiento de muestras informativas en conjuntos de datos estáticos. Observamos que la señal de gradiente en GRPO se concentra en tareas con la mayor variación de recompensa de implementación, una consecuencia del límite superior de Popoviciu. En consecuencia, las muestras cercanas al límite de capacidad del agente –donde los éxitos y los fracasos están aproximadamente equilibrados– contribuyen a gradientes de políticas desproporcionadamente grandes. A medida que avanza el entrenamiento, este límite cambia continuamente, lo que agota gradualmente el conjunto de muestras informativas en un conjunto de datos estático. Proponemos RODS (síntesis de datos en línea impulsada por recompensas) para resolver este agotamiento. RODS cierra el círculo entre el entrenamiento de RL y la generación de datos al reutilizar la variación de la recompensa de progreso como un detector de límites práctico y de costo cero que no requiere inferencia adicional más allá de las implementaciones ya calculadas para el entrenamiento. Identifica continuamente dichas muestras de límites, sintetiza nuevas variantes de múltiples turnos que coinciden con su complejidad estructural (por ejemplo, topología de API y profundidad de dependencia) a través de un proceso de remuestreo alineado con las habilidades y administra un búfer de reproducción dinámico que evoluciona conjuntamente con la política. A partir de 400 semillas humanas y manteniendo un grupo de entrenamiento activo de ~800 muestras, RODS logra un rendimiento comparable al de una canalización fuera de línea de 17.000 muestras, al tiempo que requiere aproximadamente 20 veces menos trayectorias y mejora la RL de datos fijos y el aumento del entorno en nuestro entorno controlado.

Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original

admin

Usuario de administración del sitio web