RODS: Síntesis de datos en línea impulsada por recompensas para agentes de uso de herramientas de múltiples vueltas

Resumen: El RL de uso de herramientas de múltiples turnos se ve obstaculizado por el rápido agotamiento de muestras informativas en conjuntos de datos estáticos. Observamos que la señal de gradiente en GRPO se concentra en tareas con la mayor variación de recompensa de implementación, una consecuencia del límite superior de Popoviciu. En consecuencia, las muestras cercanas al límite de capacidad del agente –donde los éxitos y los fracasos están aproximadamente equilibrados– contribuyen a gradientes de políticas desproporcionadamente grandes. A medida que avanza el entrenamiento, este límite cambia continuamente, lo que agota gradualmente el conjunto de muestras informativas en un conjunto de datos estático. Proponemos RODS (síntesis de datos en línea impulsada por recompensas) para resolver este agotamiento. RODS cierra el círculo entre el entrenamiento de RL y la generación de datos al reutilizar la variación de la recompensa de progreso como un detector de límites práctico y de costo cero que no requiere inferencia adicional más allá de las implementaciones ya calculadas para el entrenamiento. Identifica continuamente dichas muestras de límites, sintetiza nuevas variantes de múltiples turnos que coinciden con su complejidad estructural (por ejemplo, topología de API y profundidad de dependencia) a través de un proceso de remuestreo alineado con las habilidades y administra un búfer de reproducción dinámico que evoluciona conjuntamente con la política. A partir de 400 semillas humanas y manteniendo un grupo de entrenamiento activo de ~800 muestras, RODS logra un rendimiento comparable al de una canalización fuera de línea de 17.000 muestras, al tiempo que requiere aproximadamente 20 veces menos trayectorias y mejora la RL de datos fijos y el aumento del entorno en nuestro entorno controlado.

Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Una estadística de U ponderada para los análisis de la asociación genética de los datos de secuenciación

Ecosistemas de innovación de la frontera oriental: cooperación entre Finlandia y Letonia para la resiliencia y la competitividad

Infigui-G1: avance de la GUI con la optimización de políticas de exploración adaptativa

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido