Resumen: Ofrecer LLM de contexto largo es un desafío porque la duración de las solicitudes y la composición de los lotes varían durante la generación del token, lo que hace que la huella de memoria fluctúe significativamente en el tiempo de ejecución. La descarga de cachés KV a la memoria del host limita el uso efectivo de la memoria, pero las estrategias de descarga estáticas y predeterminadas existentes no pueden adaptarse a las demandas de memoria que cambian rápidamente en el servicio de contexto prolongado. Esto a menudo conduce a transferencias KV excesivas de CPU a GPU que se traducen en picos de latencia y frecuentes violaciones de SLO. Para abordar estos desafíos, presentamos ORBITFLOW, un sistema de administración de caché KV adaptable y detallado que cumple con los SLO de latencia en el servicio LLM de contexto prolongado. ORBITFLOW emplea un solucionador ILP liviano para decidir qué cachés KV de capas retener en la GPU para cada solicitud, dentro de las limitaciones de capacidad de memoria. Refina continuamente las ubicaciones de KV en función de los comentarios del tiempo de ejecución cuando el plan activo deja de ser óptimo durante la generación del token. En condiciones de carga pesada, ORBITFLOW invoca un mecanismo alternativo para posponer temporalmente las solicitudes en curso con grandes ocupaciones de memoria, preservando el logro general del SLO. Nuestros experimentos demuestran que ORBITFLOW mejora el logro de SLO para TPOT y TBT hasta en un 66% y 48%, respectivamente, al tiempo que reduce la latencia del percentil 95 en un 38% y logra un rendimiento hasta 3,3 veces mayor en comparación con los métodos de descarga existentes.
Publicado originalmente en export.arxiv.org el 18 de enero de 2026.
Ver fuente original
