Resumen: Recientemente, los modelos de idiomas grandes (LLM) han logrado un gran éxito en el campo de procesamiento del lenguaje natural (PNL), lo que impulsa una creciente demanda para extender su despliegue de los dispositivos Cloud a Edge. Sin embargo, la implementación de LLM en dispositivos de borde limitados por recursos plantea desafíos significativos, incluidos (1) cálculos intensivos y enormes tamaños de modelos, (2) excelentes demandas de memoria y ancho de banda introducido por el proceso de generación autorregresiva y (3) escalabilidad limitada para manejar secuencias largas. Para abordar estos desafíos, proponemos ACCLLM, un marco de aceleración integral que permite una inferencia LLM de contexto largo y rápida a través del algoritmo y el codiseño de hardware. A nivel algorítmico, integramos (1) poda, (2) atención en forma de}} y (3) un innovador W2A8KV4 (pesos de 2 bits, activaciones de 8 bits y la generación de cuantificación de cache KV de 4 bits), así efectivamente reduce de manera efectiva la memoria y los requisitos de la bandera de la banda mientras facilita la generación de la vecisión de larga data. A nivel de hardware, diseñamos un acelerador basado en FPGA dedicado con un motor informático reconfigurable para acomodar de manera efectiva y flexible diversas operaciones que surgen de nuestro algoritmo de compresión, traduciendo así las innovaciones algorítmicas en eficiencia de hardware tangible. Validamos ACCLLM en el Xilinx Alveo U280 FPGA, demostrando una eficiencia energética de 4.07X y un rendimiento de 2.98x en comparación con el vuelo de trabajo de última generación.
Publicado Originalme en rss.arxiv.org El 7 de mayo de 2025.
Ver Fuente Original