Enrutamiento en línea eficiente sin capacitación para servicio multi-LLM de alto volumen

Resumen: La creciente demanda de servicios de modelos de idiomas grandes (LLMS) impone una implementación sustancial y costos de cálculo a los proveedores. El enrutamiento LLM ofrece una solución rentable al dirigir consultas a la LLM óptima basada en las características de modelo y consulta. Sin embargo, las obras existentes se centran principalmente en escenarios fuera de línea y luchan para adaptarse a la configuración en línea con un alto volumen de consultas y presupuestos de token restringidos. En este trabajo, presentamos el primer algoritmo sin capacitación para escenarios de enrutamiento en línea. Nuestro algoritmo aprovecha la búsqueda aproximada del vecino más cercano para estimar eficientemente las características de consulta y realiza una optimización única en un pequeño conjunto de consultas iniciales para aprender una estrategia de enrutamiento que guía el enrutamiento futuro. Proporcionamos garantías teóricas para demostrar que nuestro algoritmo alcanza una relación competitiva de $ 1 – o (1) $ bajo supuestos naturales, que se valida aún más por experimentos extensos en 3 conjuntos de datos de referencia y 8 líneas de base, que muestra una mejora promedio de 3.55 $ veces $ en un rendimiento general, 1.85 $ Times $ en una eficiencia rentable, y casi 4.25 $ $ $ en la medición de vigencia.

Publicado Originalme en export.arxiv.org El 7 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Descarga de cálculo conjunto y asignación de recursos para la MEC marítima incierta a través de la cooperación de UAV y embarcaciones

DualResearch: recuperación de gráficos duales controlada por entropía para la reconstrucción de respuestas

Predicción de inversión directa extranjera a nivel de ciudad con aprendizaje tabular en datos judiciales

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido