Resumen: Los modelos de mezcla de expertos (MoE) permiten un rendimiento escalable pero enfrentan graves limitaciones de memoria en los dispositivos perimetrales. Las estrategias de descarga existentes luchan contra los cuellos de botella de E/S debido a la naturaleza dinámica y con poca información de la activación experta autorregresiva. En este artículo, proponemos reutilizar la decodificación especulativa (SD) no simplemente como un acelerador de computación, sino como un sensor informativo de anticipación para la gestión de la memoria, respaldado por nuestros análisis teóricos y empíricos. Por lo tanto, presentamos MoE-SpAc, un marco de inferencia de MoE que integra un estimador de utilidad especulativa para rastrear la demanda de expertos, un equilibrador de carga de trabajo heterogéneo para dividir dinámicamente el cálculo a través de la optimización de enteros en línea y un motor de ejecución asincrónico para unificar la captación previa y el desalojo en el mismo espacio de utilidad. Amplios experimentos en siete puntos de referencia demuestran que MoE-SpAc logra una mejora del 42 % en TPS con respecto a la línea de base basada en SOTA SD y una aceleración promedio de 4,04 veces con respecto a todas las líneas de base estándar. El código está disponible en esta URL https .
Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original
