Resumen: El aprendizaje de refuerzo (RL) se ha convertido recientemente en el paradigma dominante para fortalecer las capacidades de razonamiento de los modelos de idiomas grandes (LLM). Sin embargo, las funciones de recompensa basadas en reglas comúnmente utilizadas en los puntos de referencia matemáticos o de programación evalúan solo el formato de respuesta y la corrección, sin proporcionar ninguna señal de si la cadena de pensamiento inducida (COT) realmente mejora la respuesta. Además, dicha capacitación específica de la tarea ofrece un control limitado sobre la profundidad lógica y, por lo tanto, puede no revelar la capacidad de razonamiento genuina de un modelo. Proponemos la recompensa de eficiencia de razonamiento dinámico (DRER): un marco de recompensa RL plug-and-play que reestructura las señales de recompensa y ventaja. (i) Una recompensa de calidad de razonamiento asigna un crédito de grano fino a aquellas cadenas de razonamiento que aumentan demostrablemente la probabilidad de la respuesta correcta, incentivando directamente las trayectorias con tokens de cuna beneficiosos. (ii) Una ventaja de longitud dinámica decae la ventaja de las respuestas cuya longitud se desvía de un umbral derivado de validación, estabilizando el entrenamiento. Para facilitar la evaluación rigurosa, también lanzamos LogicTree, un conjunto de datos de razonamiento deductivo construido dinámicamente que funciona como datos de entrenamiento RL y como un punto de referencia integral. Los experimentos confirman la efectividad de Drer: nuestro modelo 7B alcanza el rendimiento del nivel GPT-O3-Mini en Logictree con 400 pasos de trianos, mientras que la confianza promedio de las respuestas acuáticas aumenta un 30%. El modelo exhibe aún más la generalización en diversos conjuntos de datos de construcción lógica y el punto de referencia matemático AIME24. Estos resultados iluminan cómo RL da forma al comportamiento de la cuna y trazan un camino práctico hacia la mejora de las habilidades de construcción formal en modelos de idiomas grandes. Todos los códigos y datos están disponibles en el repositorio esta URL HTTPS.
Publicado Originalme en export.arxiv.org El 8 de septiembre de 2025.
Ver Fuente Original