SnapStream: decodificación eficiente de secuencia larga en aceleradores de flujo de datos
Resumen: La proliferación de modelos de lenguaje grande (LLM) de más de 100 mil millones de parámetros con soporte de longitud de contexto de más de 100 mil ha dado como resultado una demanda creciente de memoria en chip para admitir grandes cachés de KV. Técnicas como StreamingLLM y SnapKV demuestran cómo controlar el tamaño de la caché KV manteniendo la precisión del modelo.
Leer más →