En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Enrutamiento del modelo de recompensa en alineación

Enrutamiento del modelo de recompensa en alineación

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El aprendizaje de refuerzo de la retroalimentación humana o de IA (RLHF / RLAIF) se ha convertido en el paradigma estándar para alinear modelos de idiomas grandes (LLM). Sin embargo, la mayoría de las tuberías dependen de un modelo de recompensa único (RM), limitan la calidad de la alineación y arriesgan el sobreajuste. El trabajo reciente explora la enrutamiento de RM: seleccionar dinámicamente un RM de un grupo candidato para explotar las fortalezas complementarias mientras mantiene las llamadas de $ O (1) $ RM, pero los métodos existentes sufren de arranque en frío e insuficiente exploración. Proponemos BayesianRouter, un marco de enrutamiento híbrido que combina el aprendizaje de fortalezas de RM fuera de línea con la selección bayesiana en línea. En la etapa fuera de línea, un enrutador de tareas múltiples está capacitado en datos de preferencias para estimar la confiabilidad por RM. En la etapa en línea, un enrutador de muestreo de Thompson bayesiano realiza una selección de RM por QUERERY, inicializando vectores de peso específicos de RM con incrustaciones fuera de línea como antecedentes gaussianos y actualizando adaptativamente sus posteriores con recompensas en línea para adaptarse a la distribución de políticas en evolución. Experimentos extensos sobre instrucciones (Alpacaeval-2, Arena-Hard, MT-Bench) y razonamiento (GSM8K, MMLU) muestran que BayesianRouter supera constantemente a RMS individual, conjunto de RM y métodos de enrutamiento existentes.

Publicado Originalme en export.arxiv.org El 5 de octubre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web