Desacoplar el razonamiento y la confianza: resucitar la calibración en el aprendizaje por refuerzo a partir de recompensas verificables
Resumen: El aprendizaje por refuerzo a partir de recompensas verificables (RLVR) mejora significativamente el razonamiento de los modelos de lenguajes grandes (LLM), pero sufre gravemente de degeneración de la calibración, donde los modelos se vuelven excesivamente confiados en las respuestas incorrectas.
Leer más →