SnapStream: decodificación eficiente de secuencia larga en aceleradores de flujo de datos

Resumen: La proliferación de modelos de lenguaje grande (LLM) de más de 100 mil millones de parámetros con soporte de longitud de contexto de más de 100 mil ha dado como resultado una demanda creciente de memoria en chip para admitir grandes cachés de KV. Técnicas como StreamingLLM y SnapKV demuestran cómo controlar el tamaño de la caché KV manteniendo la precisión del modelo. Sin embargo, estas técnicas no se utilizan comúnmente en implementaciones industriales que utilizan marcos como vLLM o SGLang. La razón es doble: por un lado, los gráficos estáticos y la metodología de procesamiento por lotes continuo empleada por estos marcos hacen difícil admitir modificaciones al algoritmo estándar de atención de múltiples cabezas, mientras que por otro lado, las implicaciones de precisión de tales técnicas en los modelos modernos de razonamiento y seguimiento de instrucciones no se comprenden bien, lo que oscurece la necesidad de implementar estas técnicas. En este artículo, exploramos estas implicaciones de precisión en Llama-3.1-8B-Instruct y DeepSeek-R1, y desarrollamos SnapStream, un método de compresión de caché KV que se puede implementar a escala. Demostramos la eficacia de SnapStream en una implementación tensorial paralela de 16 vías de DeepSeek-671B en aceleradores SambaNova SN40L que funcionan a una longitud de contexto de 128k y hasta 1832 tokens por segundo en un entorno de producción real. SnapStream permite un uso de memoria en el chip mejorado $4times$ e introduce una degradación mínima de la precisión en LongBench-v2, AIME24 y LiveCodeBench. Hasta donde sabemos, esta es la primera implementación de técnicas de atención KV dispersa implementadas en un sistema de inferencia de producción con gráficos estáticos y procesamiento por lotes continuo.

Publicado originalmente en export.arxiv.org el 5 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Piense antes de recuperar: aprender la búsqueda adaptativa en el momento de la prueba con modelos de lenguaje pequeños

Esta startup está a punto de realizar la mayor prueba del mundo real del aluminio como combustible sin emisiones de carbono.

Contratar con modelos de idiomas grandes: una perspectiva de la teoría de la agencia sobre la alineación del modelo de lenguaje grande

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido