Cuando el bien se encuentra con el mal: condicionamiento del contexto bilateral con corrección de confianza en la recompensa para GRPO

Resumen: La optimización de políticas relativas de grupo (GRPO) se ha convertido en un método eficaz para entrenar modelos de razonamiento. Si bien calcula las ventajas basándose en la media del grupo, GRPO trata cada resultado como una muestra independiente durante la optimización y pasa por alto una señal estructural vital: el contraste natural entre las soluciones correctas e incorrectas dentro del mismo grupo, ignorando así los ricos datos comparativos que podrían aprovecharse comparando explícitamente los razonamientos exitosos con los fallidos. Para aprovechar esto, presentamos una reformulación contrastiva de GRPO, que muestra que el objetivo de GRPO implícitamente maximiza el margen entre los ratios de políticas de muestras correctas e incorrectas. Sobre la base de esta información, proponemos el condicionamiento de contexto bilateral (BICC), un mecanismo que permite al modelo hacer referencias cruzadas de rastros de razonamiento exitosos y fallidos durante la optimización, lo que permite un flujo de información directo entre muestras. Además, introducimos la Corrección de Confianza de Recompensa (RCC) para estabilizar el entrenamiento ajustando dinámicamente la línea de base de ventaja en GRPO utilizando la covarianza de confianza de recompensa derivada de la aproximación de primer orden del estimador minimizador de varianza. Ambos mecanismos no requieren muestreo adicional ni modelos auxiliares y pueden adaptarse a todas las variantes de GRPO. Los experimentos sobre puntos de referencia de razonamiento matemático demuestran mejoras consistentes en modelos y algoritmos integrales. El código está disponible en href{esta URL https{}esta URL https}.

Publicado originalmente en export.arxiv.org el 15 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Luchando contra el fraude financiero de próxima generación

El estimador de signos: alineación de LLM frente a la heterogeneidad de elección

Jornada informativa del EIC en Nicosia, Chipre

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido