ACCLLM: Acelerar la inferencia LLM de contexto largo a través del diseño de algoritmo-hardware

Resumen: Recientemente, los modelos de idiomas grandes (LLM) han logrado un gran éxito en el campo de procesamiento del lenguaje natural (PNL), lo que impulsa una creciente demanda para extender su despliegue de los dispositivos Cloud a Edge. Sin embargo, la implementación de LLM en dispositivos de borde limitados por recursos plantea desafíos significativos, incluidos (1) cálculos intensivos y enormes tamaños de modelos, (2) excelentes demandas de memoria y ancho de banda introducido por el proceso de generación autorregresiva y (3) escalabilidad limitada para manejar secuencias largas. Para abordar estos desafíos, proponemos ACCLLM, un marco de aceleración integral que permite una inferencia LLM de contexto largo y rápida a través del algoritmo y el codiseño de hardware. A nivel algorítmico, integramos (1) poda, (2) atención en forma de}} y (3) un innovador W2A8KV4 (pesos de 2 bits, activaciones de 8 bits y la generación de cuantificación de cache KV de 4 bits), así efectivamente reduce de manera efectiva la memoria y los requisitos de la bandera de la banda mientras facilita la generación de la vecisión de larga data. A nivel de hardware, diseñamos un acelerador basado en FPGA dedicado con un motor informático reconfigurable para acomodar de manera efectiva y flexible diversas operaciones que surgen de nuestro algoritmo de compresión, traduciendo así las innovaciones algorítmicas en eficiencia de hardware tangible. Validamos ACCLLM en el Xilinx Alveo U280 FPGA, demostrando una eficiencia energética de 4.07X y un rendimiento de 2.98x en comparación con el vuelo de trabajo de última generación.

Publicado Originalme en rss.arxiv.org El 7 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cantidad: un punto de referencia para verificar la viabilidad de las afirmaciones respaldadas por la literatura en la ciencia de los materiales

Fol-Pretrain: un corpus anotado de complejidad de la lógica de primer orden

Evaluación de LLM para la resolución de problemas matemáticos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido