Desacoplar el razonamiento y la confianza: resucitar la calibración en el aprendizaje por refuerzo a partir de recompensas verificables

Resumen: El aprendizaje por refuerzo a partir de recompensas verificables (RLVR) mejora significativamente el razonamiento de los modelos de lenguajes grandes (LLM), pero sufre gravemente de degeneración de la calibración, donde los modelos se vuelven excesivamente confiados en las respuestas incorrectas. Estudios anteriores se dedican a incorporar directamente el objetivo de calibración al objetivo de optimización existente. Sin embargo, nuestro análisis teórico demuestra que existe un conflicto de gradiente fundamental entre la optimización para maximizar la precisión de las políticas y minimizar el error de calibración. Sobre la base de esta idea, proponemos DCPO, un marco simple pero eficaz que desacopla sistemáticamente el razonamiento y los objetivos de calibración. Amplios experimentos demuestran que nuestro DCPO no solo preserva la precisión a la par con GRPO, sino que también logra el mejor rendimiento de calibración y mitiga sustancialmente el problema del exceso de confianza. Nuestro estudio proporciona información valiosa y una solución práctica para una implementación de LLM más confiable.

Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Humancompatible.interconnect: Propiedades de prueba de usos repetidos de las interconexiones de sistemas de IA

Ken Sinclair: Lenguaje natural: la interfaz semántica para el gemelo digital

Identificación de dos funciones de valor aditivo lineal por partes a partir de información de preferencias anónima

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido