DaGRPO: Rectificar el conflicto de gradiente en el razonamiento mediante la optimización de políticas relativas de grupo conscientes de la distinción

Resumen: La evolución de los modelos de lenguaje grandes (LLM) ha catalizado un cambio de paradigma desde la instrucción superficial hasta el razonamiento riguroso a largo plazo. Si bien la optimización de políticas relativas al grupo (GRPO) ha surgido como un mecanismo fundamental para obtener tales capacidades de razonamiento posteriores al entrenamiento debido a su desempeño excepcional, sigue plagado de una inestabilidad significativa en el entrenamiento y una eficiencia de muestra deficiente. Teóricamente, identificamos la causa fundamental de estos problemas como la falta de distinción dentro de las implementaciones de políticas: para consultas de rutina, muestras altamente homogéneas inducen conflictos de gradiente destructivos; mientras que para consultas difíciles, la escasez de muestras positivas válidas da como resultado una optimización ineficaz. Para cerrar esta brecha, proponemos la Optimización de Políticas Relativas de Grupo consciente de la distinción (DaGRPO). DaGRPO incorpora dos mecanismos centrales: (1) Rectificación de gradiente a nivel de secuencia, que utiliza puntuación detallada para enmascarar dinámicamente pares de muestras con baja distinción, erradicando así los conflictos de gradiente en la fuente; y (2) Aumento de datos fuera de la política, que introduce anclajes de alta calidad para recuperar señales de entrenamiento para tareas desafiantes. Amplios experimentos en 9 puntos de referencia de razonamiento matemático y generalización fuera de distribución (OOD) demuestran que DaGRPO supera significativamente las líneas de base SFT, GRPO e híbridas existentes, logrando un nuevo rendimiento de vanguardia (por ejemplo, una ganancia de precisión promedio de +4,7 % en los puntos de referencia matemáticos). Además, un análisis en profundidad confirma que DaGRPO mitiga eficazmente la explosión de gradientes y acelera la aparición de capacidades de razonamiento de cadena larga.

Publicado originalmente en export.arxiv.org el 8 de diciembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Mezcla de difusión: inferencia de alineación de preferencias múltiples para modelos de difusión

Desde la conexión a tierra hasta la skolemización: una arquitectura simbólica vectorial limitada por la lógica para la respuesta de consulta compleja

OIPC: Optimización de las preferencias relativas del grupo impulsada por la confianza intrínseca para un aprendizaje por refuerzo eficiente

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido