En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Hecto: expertos modulares dispersos para razonamiento adaptable e interpretable

Hecto: expertos modulares dispersos para razonamiento adaptable e interpretable

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: los modelos de mezcla de expertos (MOE) permiten el cálculo condicional mediante las entradas de enrutamiento a expertos especializados, pero estos expertos dependen de sesgos inductivos idénticos, lo que limita la diversidad representativa. Esta vía de cálculo estático es ineficiente para las entradas que requieren diferentes tipos de razonamiento y limita la especialización e interpretabilidad. Proponemos a Hecto, una arquitectura MOE ligera que aprovecha la heterogeneidad arquitectónica al combinar un experto en Gru para el razonamiento temporal y un experto en FFNN para la abstracción estática bajo un mecanismo escaso de activación de la activación. Evaluado en tres puntos de referencia de razonamiento (AG News, SST-2, Hotpotqa) y una tarea de regresión (STS-B), coincidencias de HectO o sana estrechamente las líneas de base homogéneas en el rendimiento a pesar de recibir representaciones de entrada aisladas, al tiempo que logran una especialización clara de expertos, con cada experto que se alinean con los tipos de razonamiento distintos (tipos temporales temporales). En tamaños de lotes más grandes, Hecto exhibe un rendimiento mejorado, que se beneficia de las limitaciones computacionales relajadas que permiten que su arquitectura heterogénea optimice de manera más efectiva. Los resultados de la ablación aislaron la diversidad arquitectónica como la fuente de la estabilidad e interpretabilidad de Hecto en diversas tareas de razonamiento. En general, Hecto se establece como un nuevo punto de referencia para el cálculo condicional, que ofrece un marco de principios para un razonamiento especializado en regímenes de baja recursos con su fuerza modelo derivada de la especialización de principios.

Publicado Originalme en export.arxiv.org El 30 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web