Resumen: El aprendizaje por refuerzo con recompensas verificables (RLVR) ofrece un mecanismo sólido para mejorar el razonamiento matemático en modelos grandes. Sin embargo, identificamos una falta sistemática de énfasis en preguntas más desafiantes en los métodos existentes tanto desde la perspectiva algorítmica como de datos, a pesar de su importancia para perfeccionar las capacidades subdesarrolladas. Algorítmicamente, la Optimización de Políticas Relativas de Grupo (GRPO), ampliamente utilizada, sufre de un desequilibrio implícito en el que la magnitud de las actualizaciones de políticas es menor para preguntas más difíciles. En cuanto a los datos, los enfoques de aumento principalmente reformulan las preguntas para mejorar la diversidad sin aumentar sistemáticamente la dificultad intrínseca. Para abordar estos problemas, proponemos un marco MathForge dual para mejorar el razonamiento matemático al abordar preguntas más difíciles desde ambas perspectivas, que comprende un algoritmo de optimización de políticas de grupo consciente de la dificultad (DGPO) y una estrategia de reformulación de preguntas de múltiples aspectos (MQR). Específicamente, DGPO primero rectifica el desequilibrio implícito en GRPO a través de una estimación de la ventaja del grupo balanceada por dificultad, y luego prioriza las preguntas más difíciles mediante una ponderación a nivel de pregunta consciente de la dificultad. Mientras tanto, MQR reformula las preguntas en múltiples aspectos para aumentar la dificultad y al mismo tiempo mantener la respuesta dorada original. En general, MathForge forma un bucle sinérgico: MQR expande la frontera de los datos y DGPO aprende efectivamente de los datos aumentados. Amplios experimentos muestran que MathForge supera significativamente a los métodos existentes en diversas tareas de razonamiento matemático. El código y los datos aumentados están disponibles en esta URL https.
Publicado originalmente en export.arxiv.org el 28 de enero de 2026.
Ver fuente original
