 Resumen:El postentrenamiento basado en el aprendizaje por refuerzo (RL) ha sido crucial para permitir el razonamiento de varios pasos en grandes modelos de razonamiento (LRM), sin embargo, los esquemas de recompensa actuales generalmente se centran en los resultados. Proponemos PM4GRPO, una optimización de políticas relativas al grupo (GRPO) consciente del razonamiento que aumenta las recompensas de respuesta/formato estándar con señales sobre el procedimiento de razonamiento. Con este fin, se utilizan técnicas de minería de procesos para calcular una recompensa de conformidad escalar que mide qué tan estrechamente se alinea el razonamiento de un modelo de políticas con el modelo de maestro previamente capacitado. Los resultados empíricos de cinco puntos de referencia demuestran que PM4GRPO supera significativamente las metodologías existentes para la posformación basada en GRPO. Estos resultados resaltan que aprovechar la minería de procesos para GRPO consciente del razonamiento mejora efectivamente las capacidades de razonamiento de los modelos de políticas.
Resumen:El postentrenamiento basado en el aprendizaje por refuerzo (RL) ha sido crucial para permitir el razonamiento de varios pasos en grandes modelos de razonamiento (LRM), sin embargo, los esquemas de recompensa actuales generalmente se centran en los resultados. Proponemos PM4GRPO, una optimización de políticas relativas al grupo (GRPO) consciente del razonamiento que aumenta las recompensas de respuesta/formato estándar con señales sobre el procedimiento de razonamiento. Con este fin, se utilizan técnicas de minería de procesos para calcular una recompensa de conformidad escalar que mide qué tan estrechamente se alinea el razonamiento de un modelo de políticas con el modelo de maestro previamente capacitado. Los resultados empíricos de cinco puntos de referencia demuestran que PM4GRPO supera significativamente las metodologías existentes para la posformación basada en GRPO. Estos resultados resaltan que aprovechar la minería de procesos para GRPO consciente del razonamiento mejora efectivamente las capacidades de razonamiento de los modelos de políticas.
Publicado originalmente en export.arxiv.org el 29 de octubre de 2025.
Ver fuente original

 
 
			 
							 
							 
							