En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->SnapStream: decodificación eficiente de secuencia larga en aceleradores de flujo de datos

SnapStream: decodificación eficiente de secuencia larga en aceleradores de flujo de datos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La proliferación de modelos de lenguaje grande (LLM) de más de 100 mil millones de parámetros con soporte de longitud de contexto de más de 100 mil ha dado como resultado una demanda creciente de memoria en chip para admitir grandes cachés de KV. Técnicas como StreamingLLM y SnapKV demuestran cómo controlar el tamaño de la caché KV manteniendo la precisión del modelo. Sin embargo, estas técnicas no se utilizan comúnmente en implementaciones industriales que utilizan marcos como vLLM o SGLang. La razón es doble: por un lado, los gráficos estáticos y la metodología de procesamiento por lotes continuo empleada por estos marcos hacen difícil admitir modificaciones al algoritmo estándar de atención de múltiples cabezas, mientras que por otro lado, las implicaciones de precisión de tales técnicas en los modelos modernos de razonamiento y seguimiento de instrucciones no se comprenden bien, lo que oscurece la necesidad de implementar estas técnicas. En este artículo, exploramos estas implicaciones de precisión en Llama-3.1-8B-Instruct y DeepSeek-R1, y desarrollamos SnapStream, un método de compresión de caché KV que se puede implementar a escala. Demostramos la eficacia de SnapStream en una implementación tensorial paralela de 16 vías de DeepSeek-671B en aceleradores SambaNova SN40L que funcionan a una longitud de contexto de 128k y hasta 1832 tokens por segundo en un entorno de producción real. SnapStream permite un uso de memoria en el chip mejorado $4times$ e introduce una degradación mínima de la precisión en LongBench-v2, AIME24 y LiveCodeBench. Hasta donde sabemos, esta es la primera implementación de técnicas de atención KV dispersa implementadas en un sistema de inferencia de producción con gráficos estáticos y procesamiento por lotes continuo.

Publicado originalmente en export.arxiv.org el 5 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web