En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->MoE Top-p dinámico controlable por escasez para preentrenamiento de modelos de cimientos grandes

MoE Top-p dinámico controlable por escasez para preentrenamiento de modelos de cimientos grandes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las arquitecturas dispersas de mezcla de expertos (MoE) escalan efectivamente la capacidad del modelo activando solo un subconjunto de expertos para cada token de entrada. Sin embargo, la estrategia de enrutamiento estándar Top-k impone un patrón de escasez uniforme que ignora la dificultad variable de los tokens. Si bien el enrutamiento Top-p ofrece una alternativa flexible, las implementaciones existentes generalmente dependen de un umbral de probabilidad global fijo, lo que resulta en costos computacionales incontrolados y sensibilidad a la selección de hiperparámetros. En este artículo, proponemos DTop-p MoE, un mecanismo de enrutamiento Top-p dinámico controlable por escasez. Para resolver el desafío de optimizar un umbral no diferenciable, utilizamos un controlador proporcional-integral (PI) que ajusta dinámicamente el umbral de probabilidad para alinear la escasez de expertos activados en ejecución con un objetivo específico. Además, introducimos un mecanismo de normalización de enrutamiento dinámico que adapta los logits de enrutamiento por capas, lo que permite que diferentes capas aprendan distintos patrones de selección de expertos mientras utilizan un umbral de probabilidad global. Amplios experimentos con modelos de lenguaje grandes y transformadores de difusión demuestran que DTop-p supera consistentemente las líneas base Top-k y Top-p de umbral fijo. Nuestro análisis confirma que DTop-p mantiene un control preciso sobre la cantidad de expertos activados mientras asigna recursos de manera adaptativa entre diferentes tokens y capas. Además, DTop-p exhibe sólidas propiedades de escala con respecto a la granularidad de los expertos, la capacidad de los expertos, el tamaño del modelo y el tamaño del conjunto de datos, lo que ofrece un marco sólido para la capacitación previa del MoE a gran escala.

Publicado originalmente en export.arxiv.org el 16 de diciembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web