En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Cuando el bien se encuentra con el mal: condicionamiento del contexto bilateral con corrección de confianza en la recompensa para GRPO

Cuando el bien se encuentra con el mal: condicionamiento del contexto bilateral con corrección de confianza en la recompensa para GRPO

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La optimización de políticas relativas de grupo (GRPO) se ha convertido en un método eficaz para entrenar modelos de razonamiento. Si bien calcula las ventajas basándose en la media del grupo, GRPO trata cada resultado como una muestra independiente durante la optimización y pasa por alto una señal estructural vital: el contraste natural entre las soluciones correctas e incorrectas dentro del mismo grupo, ignorando así los ricos datos comparativos que podrían aprovecharse comparando explícitamente los razonamientos exitosos con los fallidos. Para aprovechar esto, presentamos una reformulación contrastiva de GRPO, que muestra que el objetivo de GRPO implícitamente maximiza el margen entre los ratios de políticas de muestras correctas e incorrectas. Sobre la base de esta información, proponemos el condicionamiento de contexto bilateral (BICC), un mecanismo que permite al modelo hacer referencias cruzadas de rastros de razonamiento exitosos y fallidos durante la optimización, lo que permite un flujo de información directo entre muestras. Además, introducimos la Corrección de Confianza de Recompensa (RCC) para estabilizar el entrenamiento ajustando dinámicamente la línea de base de ventaja en GRPO utilizando la covarianza de confianza de recompensa derivada de la aproximación de primer orden del estimador minimizador de varianza. Ambos mecanismos no requieren muestreo adicional ni modelos auxiliares y pueden adaptarse a todas las variantes de GRPO. Los experimentos sobre puntos de referencia de razonamiento matemático demuestran mejoras consistentes en modelos y algoritmos integrales. El código está disponible en href{esta URL https{}esta URL https}.

Publicado originalmente en export.arxiv.org el 15 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web