De datos sintéticos que evolucionan automáticamente a RL con recompensa verificable: agentes interactivos que utilizan herramientas de múltiples turnos después del entrenamiento

Resumen: Los agentes que utilizan herramientas interactivas deben resolver tareas del mundo real a través de una interacción de múltiples turnos tanto con humanos como con entornos externos, lo que requiere seguimiento del estado del diálogo, ejecución de herramientas de múltiples pasos y al mismo tiempo seguir instrucciones complejas. El entrenamiento posterior de dichos agentes es un desafío porque la síntesis de datos de uso de herramientas de múltiples turnos de alta calidad es difícil de escalar, y el aprendizaje por refuerzo (RL) podría enfrentar señales ruidosas causadas por la simulación del usuario, lo que lleva a una degradación de la eficiencia del entrenamiento. Proponemos un marco unificado que combina un agente de datos que evoluciona automáticamente con RL basado en verificadores. Nuestro sistema, EigenData, es un motor jerárquico de múltiples agentes que sintetiza diálogos basados en herramientas junto con verificadores ejecutables por instancia, y mejora la confiabilidad de la generación a través de un proceso de autoevolución de circuito cerrado que actualiza las indicaciones y el flujo de trabajo. A partir de los datos sintéticos, desarrollamos una receta de RL que primero ajusta el modelo de usuario y luego aplica entrenamiento estilo GRPO con ventajas relativas al grupo a nivel de trayectoria y filtrado dinámico, lo que genera mejoras consistentes más allá de SFT. Evaluado en tau^2-bench, nuestro mejor modelo alcanza un 73,0% de aprobado^1 en aerolíneas y un 98,3% de aprobado^1 en telecomunicaciones, igualando o superando los modelos de frontera. En general, nuestros resultados sugieren una vía escalable para iniciar comportamientos complejos de uso de herramientas sin costosas anotaciones humanas.

Publicado originalmente en export.arxiv.org el 1 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Lang-PINN: del lenguaje a las redes neuronales basadas en la física a través de un marco multiagente

Aprovechamiento de los LLM para la extracción de datos estructurados de registros de pacientes no estructurados

URSA: The Universal Research and Scientific Agent

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido