Resumen: Con el rápido avance rápido de la inteligencia de agente, el uso de la herramienta de agente en LLMS se ha vuelto cada vez más importante. Durante las interacciones múltiples giros entre agentes y usuarios, la naturaleza dinámica, incierta y estocástica de las demandas de los usuarios plantea desafíos significativos para las capacidades de invocación de la herramienta del agente. Ya no se espera que los agentes simplemente llamen a las herramientas para entregar un resultado; Más bien, deben refinar iterativamente su comprensión de las necesidades del usuario a través de la comunicación mientras invocan simultáneamente herramientas para resolver las consultas de los usuarios. Los enfoques de aprendizaje de refuerzo existente (RL) para el uso de la herramienta carecen de la integración de usuarios genuinamente dinámicos durante el proceso de capacitación RL. Para cerrar esta brecha, presentamos MUA-RL (aprendizaje de refuerzo de agente de intervitación de usuarios múltiples para el uso de la herramienta de agente), un nuevo marco de aprendizaje de refuerzo que, por primera vez en el campo del uso de la herramienta de agente, integra a los usuarios simulados por LLM en el bucle de aprendizaje de refuerzo. MUA-RL tiene como objetivo permitir que el aprendizaje autónomo de los modelos se comunique con los usuarios de manera eficiente y utilice diversas herramientas para resolver problemas prácticos en interacciones dinámicas de múltiples vueltas. Las evaluaciones se realizan en varios puntos de referencia de uso de herramientas múltiples (ver Figura 1). Específicamente, MUA-RL-32B logra 67.3 en Tau2 Retail, 45.4 en Tau2 Airline, 28.3 en Tau2 Telecom, 28.4 en BFCL-V3 Multi Turn, y 82.5 en Acebench Agent, superando o coincidiendo con el rendimiento de modelos más grandes abiertos como Deepseek-V3-0324 y Qwen3-235. ajustes.
Publicado Originalme en export.arxiv.org El 26 de agosto de 2025.
Ver Fuente Original
