Resumen: Los avances recientes en grandes modelos de lenguaje (LLM) han cambiado el paradigma posterior al entrenamiento desde el ajuste de la instrucción tradicional y la alineación de las preferencias humanas hacia el aprendizaje por refuerzo (RL) centrado en las capacidades de razonamiento. Sin embargo, numerosos informes técnicos indican que la recompensa RL puramente basada en reglas frecuentemente da como resultado cadenas de razonamiento de mala calidad o inconsistencias entre los procesos de razonamiento y las respuestas finales, particularmente cuando el modelo base es de menor escala. Durante el proceso de exploración de RL, los modelos pueden emplear cadenas de razonamiento de baja calidad debido a la falta de conocimiento, produciendo ocasionalmente respuestas correctas al azar y recibiendo recompensas basadas en jueces establecidos basados en reglas. Esto limita el potencial de las organizaciones con recursos limitados para realizar capacitación de aprendizaje por refuerzo directo en modelos de menor escala. Proponemos un novedoso modelo de recompensa basado en la confianza diseñado para mejorar las capacidades de razonamiento STEM. A diferencia de los enfoques convencionales, nuestro modelo penaliza no sólo las respuestas incorrectas sino también las respuestas correctas con baja confianza, promoviendo así un razonamiento más sólido y lógicamente consistente. Validamos la eficacia de nuestro enfoque mediante evaluaciones estáticas, pruebas de inferencia Best-of-N y capacitación RL basada en PPO. Nuestro método supera a varios modelos de recompensa de código abierto de última generación en diversos puntos de referencia STEM. Lanzamos nuestros códigos y modelo en esta URL https.
Publicado originalmente en export.arxiv.org el 11 de noviembre de 2025.
Ver fuente original
