Resumen: El aprendizaje por refuerzo con recompensas verificables (RLVR) juega un papel clave en la estimulación de la capacidad de razonamiento explícito de los modelos de lenguaje grande (LLM). Podemos lograr un rendimiento de nivel experto en algunos dominios específicos a través de RLVR, como codificación o matemáticas. Cuando se requiere un modelo general de nivel experto multidominio, debemos considerar cuidadosamente la colaboración de RLVR en diferentes dominios. Los modelos de última generación actuales emplean principalmente dos paradigmas de entrenamiento diferentes para RLVR multidominio: RLVR multitarea mixto y RLVR separado seguido de fusión de modelos. Sin embargo, la mayoría de los trabajos no proporcionaron una comparación y análisis detallados sobre estos paradigmas. Con este fin, elegimos múltiples tareas de alto nivel de uso común (por ejemplo, matemáticas, codificación, ciencias y seguimiento de instrucciones) como nuestros dominios objetivo y diseñamos experimentos cualitativos y cuantitativos extensos utilizando conjuntos de datos de código abierto. Encontramos que el RLVR entre dominios exhibe pocas interferencias mutuas, y los dominios de razonamiento intensivo demuestran efectos mutuamente sinérgicos. Además, analizamos los mecanismos internos de ganancias mutuas desde las perspectivas de la geometría del espacio de peso, el comportamiento de predicción del modelo y las restricciones de información. Este proyecto se denomina M2RL, que significa capacitación mixta multitarea o capacitación separada seguida de fusión de modelos para aprendizaje por refuerzo, y la página de inicio está en esta URL https
Publicado originalmente en export.arxiv.org el 15 de febrero de 2026.
Ver fuente original
