En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->De datos sintéticos que evolucionan automáticamente a RL con recompensa verificable: agentes interactivos que utilizan herramientas de múltiples turnos después del entrenamiento

De datos sintéticos que evolucionan automáticamente a RL con recompensa verificable: agentes interactivos que utilizan herramientas de múltiples turnos después del entrenamiento

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los agentes que utilizan herramientas interactivas deben resolver tareas del mundo real a través de una interacción de múltiples turnos tanto con humanos como con entornos externos, lo que requiere seguimiento del estado del diálogo, ejecución de herramientas de múltiples pasos y al mismo tiempo seguir instrucciones complejas. El entrenamiento posterior de dichos agentes es un desafío porque la síntesis de datos de uso de herramientas de múltiples turnos de alta calidad es difícil de escalar, y el aprendizaje por refuerzo (RL) podría enfrentar señales ruidosas causadas por la simulación del usuario, lo que lleva a una degradación de la eficiencia del entrenamiento. Proponemos un marco unificado que combina un agente de datos que evoluciona automáticamente con RL basado en verificadores. Nuestro sistema, EigenData, es un motor jerárquico de múltiples agentes que sintetiza diálogos basados ​​en herramientas junto con verificadores ejecutables por instancia, y mejora la confiabilidad de la generación a través de un proceso de autoevolución de circuito cerrado que actualiza las indicaciones y el flujo de trabajo. A partir de los datos sintéticos, desarrollamos una receta de RL que primero ajusta el modelo de usuario y luego aplica entrenamiento estilo GRPO con ventajas relativas al grupo a nivel de trayectoria y filtrado dinámico, lo que genera mejoras consistentes más allá de SFT. Evaluado en tau^2-bench, nuestro mejor modelo alcanza un 73,0% de aprobado^1 en aerolíneas y un 98,3% de aprobado^1 en telecomunicaciones, igualando o superando los modelos de frontera. En general, nuestros resultados sugieren una vía escalable para iniciar comportamientos complejos de uso de herramientas sin costosas anotaciones humanas.

Publicado originalmente en export.arxiv.org el 1 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web