Empujando el sobre de la inferencia de LLM en AI-PC

Resumen: El advenimiento de los modelos LLM Ultra-Low-Bit (1/1.58/2 bits), que coinciden con la perplejidad y el rendimiento de la tarea final de sus contrapartes de precisión completa utilizando el mismo tamaño del modelo, está marcando el comienzo de una nueva era de inferencia de LLM para entornos de recursos limitados como los dispositivos de borde y las PC de AI. Mientras que estos avances de cuantización prometen modelos prometedores que son más rentables en términos de latencia, memoria, rendimiento y consumo de energía, la eficiencia computacional de los tiempos de ejecución de inferencias de última generación (SOTA) (por ejemplo, esta url http) se usa para implementarlos permanece subexplorado. En este trabajo, adoptamos un enfoque ascendente: primero diseñamos e implementamos microkernels de 1 y 2 bits optimizados para las CPU modernas, logrando la eficiencia computacional máxima en una variedad de plataformas de CPU. Integramos estos microkernels en un marco de inferencia LLM de vanguardia, a saber, Pytorch-TPP, y presentan resultados de inferencia de extremo a extremo con modelos de 2 bits que superan el tiempo de ejecución actual de SOTA esta url http por hasta 2.2x, y entrega hasta 7x aceleración en comparación con la inferencia del modelo de 16 bits. Nuestro tiempo de ejecución optimizado avanza el estado de la inferencia de LLM en PC AI y dispositivos de borde, allanando el camino para la implementación eficiente de modelos LLM ultra-bajo.

Publicado Originalme en export.arxiv.org El 11 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Protección de la electrónica contra la descarga electrostática

La base híbrida automatizada utilizando heurísticas estructurales y basadas en datos

LogideBrief: un enfoque automatizado de información automatizada basada en la lógica-temporal con integración de modelos de idiomas grandes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido