En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Autoenrutamiento: enrutamiento experto sin parámetros desde estados ocultos

Autoenrutamiento: enrutamiento experto sin parámetros desde estados ocultos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las capas de mezcla de expertos (MoE) aumentan la capacidad del modelo al activar solo un pequeño subconjunto de expertos por token y, por lo general, dependen de un enrutador aprendido para asignar estados ocultos a asignaciones de expertos. En este trabajo, nos preguntamos si un enrutador aprendido dedicado es estrictamente necesario en la configuración MoE que estudiamos. Proponemos Self-Routing, un mecanismo de enrutamiento sin parámetros que utiliza un subespacio designado del estado oculto del token directamente como logits expertos, eliminando por completo la proyección del enrutador y dejando el resto de la capa MoE sin cambios. Evaluamos el autoenrutamiento en el modelado de lenguaje a escala GPT-2 y la clasificación ImageNet-1K comparándolo con un enrutador aprendido estándar, líneas base de enrutamiento aleatorio y líneas base densas que no son MoE. Nuestros resultados muestran que el autoenrutamiento sigue siendo competitivo con la línea base del enrutador aprendido, al tiempo que elimina todos los parámetros de enrutamiento dedicados y produce una utilización experta más equilibrada, con aproximadamente un 17 % más de entropía de enrutamiento normalizado promedio y sin pérdida explícita de equilibrio de carga. En ImageNet-1K con DeiT-S/16, el autoenrutamiento también mejora ligeramente con respecto al MoE del enrutador aprendido correspondiente. Estos hallazgos sugieren que el enrutamiento MoE efectivo puede surgir de la propia representación oculta sin requerir un módulo de enrutador aprendido por separado.

Publicado originalmente en export.arxiv.org el 1 de abril de 2026.
Ver fuente original

admin

Usuario de administración del sitio web