De datos sintéticos que evolucionan automáticamente a RL con recompensa verificable: agentes interactivos que utilizan herramientas de múltiples turnos después del entrenamiento
Resumen: Los agentes que utilizan herramientas interactivas deben resolver tareas del mundo real a través de una interacción de múltiples turnos tanto con humanos como con entornos externos, lo que requiere seguimiento del estado del diálogo, ejecución de herramientas de múltiples pasos y al mismo tiempo seguir instrucciones complejas.
Leer más →