Resumen: El aprendizaje por refuerzo con recompensas verificables (RLVR) demuestra un potencial significativo para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLM). Sin embargo, los métodos RLVR existentes a menudo se ven limitados por problemas como recompensas generales, ruido de recompensa y exploración ineficiente, que conducen a un entrenamiento inestable y un colapso de la entropía. Para abordar este desafío, proponemos el método de optimización de preferencias relativas del grupo impulsado por la confianza intrínseca (OIPC). La intuición detrás de esto radica en el hecho de que las probabilidades de que un LLM genere diferentes respuestas pueden reflejar inherente y directamente su autoevaluación del proceso de razonamiento. Inspirándose en la idea del modelado de preferencias, ICPO calcula una puntuación de ventaja de preferencia para cada respuesta comparando las probabilidades de generación relativas de múltiples respuestas bajo el mismo mensaje de entrada, e integra esta puntuación con recompensas verificables para guiar el proceso de exploración. Hemos descubierto que la puntuación de ventaja de preferencia no solo alivia los problemas de las recompensas generales y el ruido de las recompensas, sino que también frena eficazmente los errores de exceso de confianza, mejora la superioridad relativa de las respuestas de alta calidad infravaloradas y evita que el modelo se sobreajuste a estrategias específicas, facilitando así una exploración más exhaustiva. Experimentos exhaustivos en cuatro puntos de referencia de dominio general y tres puntos de referencia matemáticos demuestran que ICPO mejora constantemente el razonamiento en comparación con GRPO.
Publicado originalmente en export.arxiv.org el 26 de noviembre de 2025.
Ver fuente original
