Resumen: La caché de valor clave (KV) es integral para la inferencia autorregresiva eficiente en modelos de lenguaje grandes (LLM), sin embargo, su crecimiento ilimitado en escenarios de múltiples turnos con estado presenta desafíos importantes. Este artículo examina la interacción entre las estrategias de gestión de caché KV, los límites del contexto arquitectónico de modelos como meta-llama/Meta-Llama-3-8b-instruct y la integridad de las codificaciones posicionales, a menudo pasada por alto. A través del análisis empírico utilizando un marco de evaluación comparativa con estado, mostramos que la calidad de generación de LLM se degrada drásticamente cuando el caché KV acumulado se acerca o excede la ventana de contexto entrenada del modelo (por ejemplo, 8192 tokens para Llama 3), un modo de falla distinto del agotamiento de la memoria de la GPU. Las estrategias de desalojo comunes, incluso las de alta retención (por ejemplo, 99% a través de AttentionTop), pueden empeorar el desempeño si alteran la coherencia posicional. Debido a que los LLM dependen de señales posicionales consistentes (por ejemplo, RoPE), compactar un caché eliminando tokens no contiguos puede codificar estas señales y generar resultados degenerativos. Además, mostramos que las estrategias simples que preservan bloques de contexto contiguos (por ejemplo, mantener una “esencia” inicial) pueden producir generaciones más coherentes que las complejas o posicionalmente disruptivas. Abogamos por técnicas de desalojo que respeten los límites arquitectónicos, preserven la estructura posicional y vean la “salud del caché” de manera integral más allá del mero tamaño.
Publicado originalmente en export.arxiv.org el 9 de noviembre de 2025.
Ver fuente original
