Resumen: El advenimiento de los modelos LLM Ultra-Low-Bit (1/1.58/2 bits), que coinciden con la perplejidad y el rendimiento de la tarea final de sus contrapartes de precisión completa utilizando el mismo tamaño del modelo, está marcando el comienzo de una nueva era de inferencia de LLM para entornos de recursos limitados como los dispositivos de borde y las PC de AI. Mientras que estos avances de cuantización prometen modelos prometedores que son más rentables en términos de latencia, memoria, rendimiento y consumo de energía, la eficiencia computacional de los tiempos de ejecución de inferencias de última generación (SOTA) (por ejemplo, esta url http) se usa para implementarlos permanece subexplorado. En este trabajo, adoptamos un enfoque ascendente: primero diseñamos e implementamos microkernels de 1 y 2 bits optimizados para las CPU modernas, logrando la eficiencia computacional máxima en una variedad de plataformas de CPU. Integramos estos microkernels en un marco de inferencia LLM de vanguardia, a saber, Pytorch-TPP, y presentan resultados de inferencia de extremo a extremo con modelos de 2 bits que superan el tiempo de ejecución actual de SOTA esta url http por hasta 2.2x, y entrega hasta 7x aceleración en comparación con la inferencia del modelo de 16 bits. Nuestro tiempo de ejecución optimizado avanza el estado de la inferencia de LLM en PC AI y dispositivos de borde, allanando el camino para la implementación eficiente de modelos LLM ultra-bajo.
Publicado Originalme en export.arxiv.org El 11 de agosto de 2025.
Ver Fuente Original