Mezclar o fusionar: hacia el aprendizaje por refuerzo multidominio para modelos de lenguajes grandes

Resumen: El aprendizaje por refuerzo con recompensas verificables (RLVR) juega un papel clave en la estimulación de la capacidad de razonamiento explícito de los modelos de lenguaje grande (LLM). Podemos lograr un rendimiento de nivel experto en algunos dominios específicos a través de RLVR, como codificación o matemáticas. Cuando se requiere un modelo general de nivel experto multidominio, debemos considerar cuidadosamente la colaboración de RLVR en diferentes dominios. Los modelos de última generación actuales emplean principalmente dos paradigmas de entrenamiento diferentes para RLVR multidominio: RLVR multitarea mixto y RLVR separado seguido de fusión de modelos. Sin embargo, la mayoría de los trabajos no proporcionaron una comparación y análisis detallados sobre estos paradigmas. Con este fin, elegimos múltiples tareas de alto nivel de uso común (por ejemplo, matemáticas, codificación, ciencias y seguimiento de instrucciones) como nuestros dominios objetivo y diseñamos experimentos cualitativos y cuantitativos extensos utilizando conjuntos de datos de código abierto. Encontramos que el RLVR entre dominios exhibe pocas interferencias mutuas, y los dominios de razonamiento intensivo demuestran efectos mutuamente sinérgicos. Además, analizamos los mecanismos internos de ganancias mutuas desde las perspectivas de la geometría del espacio de peso, el comportamiento de predicción del modelo y las restricciones de información. Este proyecto se denomina M2RL, que significa capacitación mixta multitarea o capacitación separada seguida de fusión de modelos para aprendizaje por refuerzo, y la página de inicio está en esta URL https

Publicado originalmente en export.arxiv.org el 15 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Análisis teórico de la información de modelos mundiales en maximizadores de recompensa óptimos.

Bootstrapping LLM robustez para la seguridad de VLM mediante la reducción de la brecha de modalidad previa

Plantillas de información: un nuevo paradigma para la adquisición de características activas inteligentes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido