Resumen: La creciente demanda de servicios de modelos de idiomas grandes (LLMS) impone una implementación sustancial y costos de cálculo a los proveedores. El enrutamiento LLM ofrece una solución rentable al dirigir consultas a la LLM óptima basada en las características de modelo y consulta. Sin embargo, las obras existentes se centran principalmente en escenarios fuera de línea y luchan para adaptarse a la configuración en línea con un alto volumen de consultas y presupuestos de token restringidos. En este trabajo, presentamos el primer algoritmo sin capacitación para escenarios de enrutamiento en línea. Nuestro algoritmo aprovecha la búsqueda aproximada del vecino más cercano para estimar eficientemente las características de consulta y realiza una optimización única en un pequeño conjunto de consultas iniciales para aprender una estrategia de enrutamiento que guía el enrutamiento futuro. Proporcionamos garantías teóricas para demostrar que nuestro algoritmo alcanza una relación competitiva de $ 1 – o (1) $ bajo supuestos naturales, que se valida aún más por experimentos extensos en 3 conjuntos de datos de referencia y 8 líneas de base, que muestra una mejora promedio de 3.55 $ veces $ en un rendimiento general, 1.85 $ Times $ en una eficiencia rentable, y casi 4.25 $ $ $ en la medición de vigencia.
Publicado Originalme en export.arxiv.org El 7 de septiembre de 2025.
Ver Fuente Original