Resumen:El rendimiento de los agentes basados en LLM depende no sólo del agente en sí sino también de la calidad de las interfaces de herramientas que consume. Si bien el trabajo anterior se ha centrado en gran medida en el ajuste de los agentes, las interfaces de las herramientas (incluidas las descripciones en lenguaje natural y los esquemas de parámetros) siguen estando en gran medida orientadas a los humanos y a menudo se convierten en un cuello de botella, especialmente cuando los agentes deben seleccionar entre grandes conjuntos de herramientas candidatas. Los enfoques existentes para mejorar las interfaces de las herramientas se basan en seguimientos de ejecución, que frecuentemente no están disponibles en entornos de arranque en frío o con privacidad restringida, y generalmente optimizan cada herramienta de forma independiente, lo que limita la escalabilidad y la generalización a herramientas invisibles. Proponemos Trace-Free+, un marco de aprendizaje curricular que transfiere progresivamente la supervisión desde entornos ricos en rastreo a una implementación sin rastreo, fomentando que el modelo abstraiga patrones de uso de interfaz reutilizables y resultados de uso de herramientas. Para respaldar este enfoque, construimos un conjunto de datos a gran escala de interfaces de herramientas de alta calidad utilizando un flujo de trabajo estructurado sobre una colección diversa de herramientas. Los experimentos en StableToolBench y RestBench muestran ganancias constantes en herramientas invisibles, una fuerte generalización entre dominios y solidez a medida que el número de herramientas candidatas aumenta a más de 100, lo que demuestra que la optimización de la interfaz de herramientas es un complemento práctico y desplegable para el ajuste fino de los agentes.
Publicado originalmente en export.arxiv.org el 24 de febrero de 2026.
Ver fuente original
