Resumen: Los sistemas multiagente (MAS) construidos sobre grandes modelos de lenguaje normalmente resuelven tareas complejas coordinando múltiples agentes a través de flujos de trabajo. Los enfoques existentes generan flujos de trabajo ya sea a nivel de tarea o de consulta, pero sus costos y beneficios relativos siguen sin estar claros. Después de repensar y realizar análisis empíricos, mostramos que la generación de flujos de trabajo a nivel de consulta no siempre es necesaria, ya que un pequeño conjunto de los mejores flujos de trabajo a nivel de tareas del top K juntos ya cubren consultas equivalentes o incluso más. Además, encontramos que la evaluación exhaustiva a nivel de tarea basada en la ejecución es extremadamente costosa y frecuentemente poco confiable. Inspirándonos en la idea de la autoevolución y el modelado de recompensas generativas, proponemos un marco de trabajo de generación a nivel de tareas de bajo costo textbf{SCALE}, lo que significa underline{textbf{S}}autopredicción del optimizador con pocos intentos de underline{textbf{CAL}}ibración para la underline{textbf{E}}valuación en lugar de una ejecución de validación completa. Amplios experimentos demuestran que textbf{SCALE} mantiene un rendimiento competitivo, con una degradación promedio de solo el 0,61% en comparación con el enfoque existente en múltiples conjuntos de datos, al tiempo que reduce el uso general de tokens hasta en un 83%.
Publicado originalmente en export.arxiv.org el 18 de enero de 2026.
Ver fuente original
