MEML-GRPO: aprendizaje mutuo múltiple heterogéneo para avance RLVR

Resumen: Los avances recientes demuestran que el aprendizaje de refuerzo con recompensas verificables (RLVR) mejora significativamente las capacidades de razonamiento de los modelos de idiomas grandes (LLM). Sin embargo, RLVR estándar enfrenta desafíos con escasez de recompensa, donde cero recompensas de respuestas candidatas consistentemente incorrectas no proporcionan señal de aprendizaje, particularmente en tareas desafiantes. Para abordar esto, proponemos GRPO de aprendizaje mutuo múltiple experto (MEML-GRPO), un marco innovador que utiliza diversas indicaciones de expertos como indicaciones del sistema para generar una gama más amplia de respuestas, lo que aumenta sustancialmente la probabilidad de identificar soluciones correctas. Además, presentamos un mecanismo de aprendizaje mutuo entre expertos que facilita el intercambio de conocimientos y la transferencia entre los expertos, lo que aumenta aún más el rendimiento del modelo a través de RLVR. Experimentos extensos en múltiples puntos de referencia de razonamiento muestran que MEML-GRPO ofrece mejoras significativas, logrando una ganancia de rendimiento promedio de 4.89% con QWEN y 11.33% con LLAMA, superando efectivamente las limitaciones centrales de los métodos RLVR tradicionales.

Publicado Originalme en export.arxiv.org El 13 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

The Download: un nuevo hogar bajo el mar y clonación de mascotas

Paul Timmers & Georg Serentschy: soberanía y 6g

Medición de capacidades científicas de modelos de lenguaje con un laboratorio seco de biología de sistemas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido