¿Puede un dominio ayudar a otros? Un estudio centrado en los datos sobre el razonamiento de múltiples dominios a través del aprendizaje de refuerzo

Resumen: El aprendizaje de refuerzo con recompensas verificables (RLVR) se ha convertido en un poderoso paradigma para mejorar las capacidades de razonamiento de LLM. La investigación existente se ha concentrado predominantemente en dominios de razonamiento aislados, como la resolución de problemas matemáticos, las tareas de codificación o el razonamiento lógico. Sin embargo, los escenarios de razonamiento del mundo real exigen inherentemente una aplicación integrada de múltiples habilidades cognitivas. A pesar de esto, la interacción entre estas habilidades de razonamiento bajo aprendizaje de refuerzo sigue siendo poco conocida. Para cerrar esta brecha, presentamos una investigación sistemática del razonamiento de dominios múltiples dentro del marco RLVR, centrándonos explícitamente en tres dominios primarios: razonamiento matemático, generación de códigos y resolución lógica de rompecabezas. Realizamos un estudio integral que comprende cuatro componentes clave: (1) Aprovechando el algoritmo GRPO y la familia modelo QWEN-2.5-7B, nuestro estudio evalúa a fondo las mejoras en el dominio de los modelos y las capacidades de generalización de dominios cruzados cuando se capacitan en datos de dominios únicos. (2) Además, examinamos las interacciones intrincadas que incluyen mejoras mutuas y conflictos que emergen durante el entrenamiento combinado de dominio cruzado. (3) Para comprender mejor la influencia de SFT en RL, también analizamos y comparamos las diferencias de rendimiento entre los modelos base e instruidos en configuraciones idénticas de RL. (4) Además, profundizamos en detalles críticos de capacitación RL, explorando sistemáticamente los impactos de las estrategias de aprendizaje del plan de estudios, las variaciones en el diseño de recompensas y los factores específicos del lenguaje. A través de experimentos extensos, nuestros resultados ofrecen información significativa sobre la dinámica que rige las interacciones de dominio, revelando factores clave que influyen en el rendimiento de razonamiento especializado y generalizable. Estos hallazgos proporcionan una valiosa orientación para optimizar las metodologías RL para fomentar capacidades integrales de razonamiento de dominios múltiples en LLM.

Publicado Originalme en export.arxiv.org El 23 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Lang2Act: razonamiento visual detallado a través de cadenas de herramientas lingüísticas autoemergentes

Mortar: Mecánica en evolución para el diseño automático de juegos

Información de la industria: Quantum Computing Rise Sparks Seguridad de los temores en medio de la escasez de habilidades

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido