GRPO consciente del razonamiento mediante minería de procesos

Resumen:El postentrenamiento basado en el aprendizaje por refuerzo (RL) ha sido crucial para permitir el razonamiento de varios pasos en grandes modelos de razonamiento (LRM), sin embargo, los esquemas de recompensa actuales generalmente se centran en los resultados. Proponemos PM4GRPO, una optimización de políticas relativas al grupo (GRPO) consciente del razonamiento que aumenta las recompensas de respuesta/formato estándar con señales sobre el procedimiento de razonamiento. Con este fin, se utilizan técnicas de minería de procesos para calcular una recompensa de conformidad escalar que mide qué tan estrechamente se alinea el razonamiento de un modelo de políticas con el modelo de maestro previamente capacitado. Los resultados empíricos de cinco puntos de referencia demuestran que PM4GRPO supera significativamente las metodologías existentes para la posformación basada en GRPO. Estos resultados resaltan que aprovechar la minería de procesos para GRPO consciente del razonamiento mejora efectivamente las capacidades de razonamiento de los modelos de políticas.

Publicado originalmente en export.arxiv.org el 29 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Numina: un punto de referencia de comprensión natural para la inteligencia multidimensional y las habilidades de razonamiento numérico

AssetOpsbench: agentes de IA de evaluación comparativa para la automatización de tareas en operaciones y mantenimiento de activos industriales

El primer día del agente: evaluación comparativa de escenarios de aprendizaje, exploración y programación en el lugar de trabajo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido