Enrutamiento del modelo de recompensa en alineación

Resumen: El aprendizaje de refuerzo de la retroalimentación humana o de IA (RLHF / RLAIF) se ha convertido en el paradigma estándar para alinear modelos de idiomas grandes (LLM). Sin embargo, la mayoría de las tuberías dependen de un modelo de recompensa único (RM), limitan la calidad de la alineación y arriesgan el sobreajuste. El trabajo reciente explora la enrutamiento de RM: seleccionar dinámicamente un RM de un grupo candidato para explotar las fortalezas complementarias mientras mantiene las llamadas de $ O (1) $ RM, pero los métodos existentes sufren de arranque en frío e insuficiente exploración. Proponemos BayesianRouter, un marco de enrutamiento híbrido que combina el aprendizaje de fortalezas de RM fuera de línea con la selección bayesiana en línea. En la etapa fuera de línea, un enrutador de tareas múltiples está capacitado en datos de preferencias para estimar la confiabilidad por RM. En la etapa en línea, un enrutador de muestreo de Thompson bayesiano realiza una selección de RM por QUERERY, inicializando vectores de peso específicos de RM con incrustaciones fuera de línea como antecedentes gaussianos y actualizando adaptativamente sus posteriores con recompensas en línea para adaptarse a la distribución de políticas en evolución. Experimentos extensos sobre instrucciones (Alpacaeval-2, Arena-Hard, MT-Bench) y razonamiento (GSM8K, MMLU) muestran que BayesianRouter supera constantemente a RMS individual, conjunto de RM y métodos de enrutamiento existentes.

Publicado Originalme en export.arxiv.org El 5 de octubre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El IoT2025 reunirá a los principales científicos académicos, investigadores y académicos en el dominio de interés de todo el mundo.

WildSci: avance del razonamiento científico a partir de la literatura salvaje

Pregunte, aclare, optimice: colaboración entre agentes humanos y LLM para un control de inventario más inteligente

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido