Resumen: Los modelos de idiomas grandes (LLM) tienen cada vez más la tarea de invocar las API empresariales, sin embargo, rutinariamente vacilan cuando las herramientas casi duplicadas compiten por la misma intención del usuario o cuando los argumentos requeridos se dejan inspeccionar. Introducimos a Diaforge (marco de diálogo para la generación y evaluación de la respuesta orgánica), una tubería de tres etapas centrada en la desambiguación que (i) sintetiza diálogos impulsados por la persona y de giro múltiple en el que el asistente debe distinguir entre las herramientas altamente similares, (ii) realiza ajustes finos supervisados de los modelos de origen abierto con rayos de realización a través de 3B-70B, y (((ii), el ajuste de las referencias finales supervisadas de los modelos de evaluación reales de la realización de los rayos reales a través de 3B-70B, y ((((ii) iii) supervisados de los modelos de evaluación de origen de origen razonable a través de 3B-70B, y ((((ii) iii) supervisados de las lecturas finas. Una suite dinámica que vuelve a implementar cada modelo en un bucle de agente en vivo e informa la finalización de objetivos de extremo a extremo junto con las métricas estáticas convencionales. En nuestro dinámico Diabench de referencia, los modelos entrenados con el éxito de la invocación de herramientas de Diaforge en 27 pp sobre GPT-4O y 49 pp sobre Claude-3.5-Sonnet, ambos bajo la solicitud optimizada. Para estimular más investigaciones, lanzamos un corpus abierto de 5000 especificaciones de API empresariales de grado de producción junto con diálogos rigurosamente validados y centrados en la desambiguación, que ofrece un plan práctico para construir agentes confiables y preparados para herramientas para la empresa.
Publicado Originalme en export.arxiv.org El 7 de julio de 2025.
Ver Fuente Original