MoE-SpAc: inferencia eficiente de MoE basada en la utilidad de activación especulativa en escenarios de borde heterogéneos
Resumen: Los modelos de mezcla de expertos (MoE) permiten un rendimiento escalable pero enfrentan graves limitaciones de memoria en los dispositivos perimetrales. Las estrategias de descarga existentes luchan contra los cuellos de botella de E/S debido a la naturaleza dinámica y con poca información de la activación experta autorregresiva.
Leer más →