En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->DaGRPO: Rectificar el conflicto de gradiente en el razonamiento mediante la optimización de políticas relativas de grupo conscientes de la distinción

DaGRPO: Rectificar el conflicto de gradiente en el razonamiento mediante la optimización de políticas relativas de grupo conscientes de la distinción

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La evolución de los modelos de lenguaje grandes (LLM) ha catalizado un cambio de paradigma desde la instrucción superficial hasta el razonamiento riguroso a largo plazo. Si bien la optimización de políticas relativas al grupo (GRPO) ha surgido como un mecanismo fundamental para obtener tales capacidades de razonamiento posteriores al entrenamiento debido a su desempeño excepcional, sigue plagado de una inestabilidad significativa en el entrenamiento y una eficiencia de muestra deficiente. Teóricamente, identificamos la causa fundamental de estos problemas como la falta de distinción dentro de las implementaciones de políticas: para consultas de rutina, muestras altamente homogéneas inducen conflictos de gradiente destructivos; mientras que para consultas difíciles, la escasez de muestras positivas válidas da como resultado una optimización ineficaz. Para cerrar esta brecha, proponemos la Optimización de Políticas Relativas de Grupo consciente de la distinción (DaGRPO). DaGRPO incorpora dos mecanismos centrales: (1) Rectificación de gradiente a nivel de secuencia, que utiliza puntuación detallada para enmascarar dinámicamente pares de muestras con baja distinción, erradicando así los conflictos de gradiente en la fuente; y (2) Aumento de datos fuera de la política, que introduce anclajes de alta calidad para recuperar señales de entrenamiento para tareas desafiantes. Amplios experimentos en 9 puntos de referencia de razonamiento matemático y generalización fuera de distribución (OOD) demuestran que DaGRPO supera significativamente las líneas de base SFT, GRPO e híbridas existentes, logrando un nuevo rendimiento de vanguardia (por ejemplo, una ganancia de precisión promedio de +4,7 % en los puntos de referencia matemáticos). Además, un análisis en profundidad confirma que DaGRPO mitiga eficazmente la explosión de gradientes y acelera la aparición de capacidades de razonamiento de cadena larga.

Publicado originalmente en export.arxiv.org el 8 de diciembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web