MoE-SpAc: inferencia eficiente de MoE basada en la utilidad de activación especulativa en escenarios de borde heterogéneos

Resumen: Los modelos de mezcla de expertos (MoE) permiten un rendimiento escalable pero enfrentan graves limitaciones de memoria en los dispositivos perimetrales. Las estrategias de descarga existentes luchan contra los cuellos de botella de E/S debido a la naturaleza dinámica y con poca información de la activación experta autorregresiva. En este artículo, proponemos reutilizar la decodificación especulativa (SD) no simplemente como un acelerador de computación, sino como un sensor informativo de anticipación para la gestión de la memoria, respaldado por nuestros análisis teóricos y empíricos. Por lo tanto, presentamos MoE-SpAc, un marco de inferencia de MoE que integra un estimador de utilidad especulativa para rastrear la demanda de expertos, un equilibrador de carga de trabajo heterogéneo para dividir dinámicamente el cálculo a través de la optimización de enteros en línea y un motor de ejecución asincrónico para unificar la captación previa y el desalojo en el mismo espacio de utilidad. Amplios experimentos en siete puntos de referencia demuestran que MoE-SpAc logra una mejora del 42 % en TPS con respecto a la línea de base basada en SOTA SD y una aceleración promedio de 4,04 veces con respecto a todas las líneas de base estándar. El código está disponible en esta URL https .

Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El primer día del agente: evaluación comparativa de escenarios de aprendizaje, exploración y programación en el lugar de trabajo

Mentes adaptativas: empoderar a los agentes con LoRA como herramientas

PaperScout: un agente autónomo para la búsqueda de artículos académicos con optimización de políticas a nivel de secuencia basada en procesos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido