Resumen: El razonamiento basado en reglas ha sido reconocido como uno de los problemas fundamentales en el razonamiento, mientras que las desviaciones en los formatos de reglas, los tipos y la complejidad en las aplicaciones del mundo real plantean desafíos graves. Estudios recientes han demostrado que los grandes modelos de razonamiento (LRM) tienen capacidades de razonamiento notables, y su rendimiento se ve mejorado sustancialmente por el aprendizaje de refuerzo (RL). Sin embargo, sigue siendo una pregunta abierta si los modelos de razonamiento pequeños (SRMS) pueden aprender el razonamiento basado en reglas de manera efectiva con una generalización sólida en diversas tareas y dominios. Para abordar esto, introducimos un razonamiento basado en reglas reforzado, también conocido como gobernante, un método simple pero efectivo para llevar a cabo un razonamiento basado en reglas a través de una amplia colección de tareas seleccionadas y un nuevo enfoque de muestreo dinámico de dominio. Específicamente, el gobernante resume cada lote de entrenamiento actualizando los pesos de muestreo de diferentes dominios basados en recompensas históricas. Esto facilita el aumento de dominio y los horarios flexibles de aprendizaje en línea para RL, lo que evita la necesidad de recetas de formación de mezclas de ingeniería humana pre-hoc utilizadas en los métodos existentes. Las evaluaciones empíricas sobre los puntos de referencia en distribución (ID) y fuera de distribución (OOD) revelan que el gobernante supera a los LRM de fronteras mediante un margen significativo ($ delta $ 4.1% puntos promedio en ocho tareas de identificación y $ delta $ 10.4% Puntos promedio en tres tareas OOD sobre Openi-O1). En particular, nuestro enfoque también exhibe una mayor eficiencia computacional en comparación con los métodos de muestreo dinámico previo para RL.
Publicado Originalme en rss.arxiv.org El 11 de junio de 2025.
Ver Fuente Original