Resumen: Se ha demostrado que el entrenamiento posterior de modelos de lenguaje grandes (LLM) basado en el aprendizaje por refuerzo con recompensas verificables (RLVR) mejora la precisión en las tareas de razonamiento y continúa atrayendo una atención significativa. Sin embargo, los métodos RLVR existentes suelen tratar todos los tokens de manera uniforme sin tener en cuenta las ventajas a nivel de token. Estos métodos evalúan principalmente el rendimiento en función de la exactitud de la respuesta final o la precisión de Pass@K y, sin embargo, hacen afirmaciones sobre el RL posterior al entrenamiento, lo que conduce a mejores trazas de razonamiento. Esto motiva nuestra investigación sobre el efecto del post-entrenamiento de RL en tokens intermedios que no están directamente incentivados. Para estudiar esto, diseñamos una configuración experimental utilizando el algoritmo GRPO con el modelo Qwen-2.5-0.5B en el conjunto de datos GSM8K. Introducimos la coherencia de seguimiento, una medida basada en la lógica de primer orden (FOL) para capturar la coherencia de los pasos de razonamiento mediante la identificación de errores en los seguimientos. Distinguimos entre validez de traza y coherencia de traza, señalando que la primera implica solidez lógica mientras que la segunda mide la coherencia local a través de la falta de errores. Nuestros resultados muestran que el post-entrenamiento de RL en general mejora la coherencia del seguimiento con las ganancias más significativas en problemas en los que el modelo base falla pero el modelo de RL tiene éxito. Sorprendentemente, la RL mejora la coherencia local sin producir necesariamente soluciones válidas o correctas. Esto resalta una distinción crucial: una mayor coherencia local en los pasos de razonamiento no garantiza la corrección de la respuesta final. Sostenemos que las afirmaciones de un razonamiento mejorado a través de RL deben examinarse con cuidado, ya que pueden basarse en una coherencia de traza mejorada, que puede no traducirse en pruebas matemáticas completamente válidas.
Publicado originalmente en export.arxiv.org el 21 de octubre de 2025.
Ver fuente original