Gestión de caché KV con estado para LLM: equilibrio de espacio, tiempo, precisión y fidelidad posicional

Resumen: La caché de valor clave (KV) es integral para la inferencia autorregresiva eficiente en modelos de lenguaje grandes (LLM), sin embargo, su crecimiento ilimitado en escenarios de múltiples turnos con estado presenta desafíos importantes. Este artículo examina la interacción entre las estrategias de gestión de caché KV, los límites del contexto arquitectónico de modelos como meta-llama/Meta-Llama-3-8b-instruct y la integridad de las codificaciones posicionales, a menudo pasada por alto. A través del análisis empírico utilizando un marco de evaluación comparativa con estado, mostramos que la calidad de generación de LLM se degrada drásticamente cuando el caché KV acumulado se acerca o excede la ventana de contexto entrenada del modelo (por ejemplo, 8192 tokens para Llama 3), un modo de falla distinto del agotamiento de la memoria de la GPU. Las estrategias de desalojo comunes, incluso las de alta retención (por ejemplo, 99% a través de AttentionTop), pueden empeorar el desempeño si alteran la coherencia posicional. Debido a que los LLM dependen de señales posicionales consistentes (por ejemplo, RoPE), compactar un caché eliminando tokens no contiguos puede codificar estas señales y generar resultados degenerativos. Además, mostramos que las estrategias simples que preservan bloques de contexto contiguos (por ejemplo, mantener una “esencia” inicial) pueden producir generaciones más coherentes que las complejas o posicionalmente disruptivas. Abogamos por técnicas de desalojo que respeten los límites arquitectónicos, preserven la estructura posicional y vean la “salud del caché” de manera integral más allá del mero tamaño.

Publicado originalmente en export.arxiv.org el 9 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Recuperación de vehículos autónomos de inmovilización asistida por modelos de lenguaje grande

Coincidencia en el tiempo de prueba: desbloquear el razonamiento compositivo en modelos multimodales

Planificación de agentes en un viaje de ego: Aprovechando conjuntos de gráfico de ego híbrido para una mejor recuperación de herramientas en la planificación de tareas empresariales

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido