Resumen: Los avances recientes demuestran que el aprendizaje de refuerzo con recompensas verificables (RLVR) mejora significativamente las capacidades de razonamiento de los modelos de idiomas grandes (LLM). Sin embargo, RLVR estándar enfrenta desafíos con escasez de recompensa, donde cero recompensas de respuestas candidatas consistentemente incorrectas no proporcionan señal de aprendizaje, particularmente en tareas desafiantes. Para abordar esto, proponemos GRPO de aprendizaje mutuo múltiple experto (MEML-GRPO), un marco innovador que utiliza diversas indicaciones de expertos como indicaciones del sistema para generar una gama más amplia de respuestas, lo que aumenta sustancialmente la probabilidad de identificar soluciones correctas. Además, presentamos un mecanismo de aprendizaje mutuo entre expertos que facilita el intercambio de conocimientos y la transferencia entre los expertos, lo que aumenta aún más el rendimiento del modelo a través de RLVR. Experimentos extensos en múltiples puntos de referencia de razonamiento muestran que MEML-GRPO ofrece mejoras significativas, logrando una ganancia de rendimiento promedio de 4.89% con QWEN y 11.33% con LLAMA, superando efectivamente las limitaciones centrales de los métodos RLVR tradicionales.
Publicado Originalme en export.arxiv.org El 13 de agosto de 2025.
Ver Fuente Original