MoE Top-p dinámico controlable por escasez para preentrenamiento de modelos de cimientos grandes

Resumen: Las arquitecturas dispersas de mezcla de expertos (MoE) escalan efectivamente la capacidad del modelo activando solo un subconjunto de expertos para cada token de entrada. Sin embargo, la estrategia de enrutamiento estándar Top-k impone un patrón de escasez uniforme que ignora la dificultad variable de los tokens. Si bien el enrutamiento Top-p ofrece una alternativa flexible, las implementaciones existentes generalmente dependen de un umbral de probabilidad global fijo, lo que resulta en costos computacionales incontrolados y sensibilidad a la selección de hiperparámetros. En este artículo, proponemos DTop-p MoE, un mecanismo de enrutamiento Top-p dinámico controlable por escasez. Para resolver el desafío de optimizar un umbral no diferenciable, utilizamos un controlador proporcional-integral (PI) que ajusta dinámicamente el umbral de probabilidad para alinear la escasez de expertos activados en ejecución con un objetivo específico. Además, introducimos un mecanismo de normalización de enrutamiento dinámico que adapta los logits de enrutamiento por capas, lo que permite que diferentes capas aprendan distintos patrones de selección de expertos mientras utilizan un umbral de probabilidad global. Amplios experimentos con modelos de lenguaje grandes y transformadores de difusión demuestran que DTop-p supera consistentemente las líneas base Top-k y Top-p de umbral fijo. Nuestro análisis confirma que DTop-p mantiene un control preciso sobre la cantidad de expertos activados mientras asigna recursos de manera adaptativa entre diferentes tokens y capas. Además, DTop-p exhibe sólidas propiedades de escala con respecto a la granularidad de los expertos, la capacidad de los expertos, el tamaño del modelo y el tamaño del conjunto de datos, lo que ofrece un marco sólido para la capacitación previa del MoE a gran escala.

Publicado originalmente en export.arxiv.org el 16 de diciembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

IA agente para la toma de decisiones de riesgo crediticio autónoma, explicable y en tiempo real

MPR-GUI: Evaluación comparativa y mejora de la percepción y el razonamiento multilingüe en agentes GUI

GUI-Rise: razonamiento estructurado y resumen histórico para navegación GUI

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido