Resumen: El aprendizaje por refuerzo a partir de recompensas verificables (RLVR) mejora significativamente el razonamiento de los modelos de lenguajes grandes (LLM), pero sufre gravemente de degeneración de la calibración, donde los modelos se vuelven excesivamente confiados en las respuestas incorrectas. Estudios anteriores se dedican a incorporar directamente el objetivo de calibración al objetivo de optimización existente. Sin embargo, nuestro análisis teórico demuestra que existe un conflicto de gradiente fundamental entre la optimización para maximizar la precisión de las políticas y minimizar el error de calibración. Sobre la base de esta idea, proponemos DCPO, un marco simple pero eficaz que desacopla sistemáticamente el razonamiento y los objetivos de calibración. Amplios experimentos demuestran que nuestro DCPO no solo preserva la precisión a la par con GRPO, sino que también logra el mejor rendimiento de calibración y mitiga sustancialmente el problema del exceso de confianza. Nuestro estudio proporciona información valiosa y una solución práctica para una implementación de LLM más confiable.
Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original
