Resumen: Proponemos la optimización de políticas conscientes de los procesos (PAPO), un método que integra la evaluación a nivel de proceso en la optimización de políticas relativas al grupo (GRPO) a través de la normalización de ventajas desacopladas, para abordar dos limitaciones de los diseños de recompensas existentes. Los modelos de recompensa por resultados (ORM) evalúan únicamente la corrección de la respuesta final, tratan todas las respuestas correctas de manera idéntica independientemente de la calidad del razonamiento y pierden gradualmente la señal de ventaja a medida que los grupos se vuelven uniformemente correctos. Los modelos de recompensa de proceso (PRM) ofrecen una supervisión más rica, pero el uso directo de puntuaciones de PRM provoca piratería de recompensas, donde los modelos explotan la verbosidad para inflar las puntuaciones mientras la precisión colapsa. PAPO resuelve ambos componiendo la ventaja de un componente de resultado Aout, derivado de ORM y normalizado en todas las respuestas, y un componente de proceso Aproc, derivado de un PRM basado en rúbricas y normalizado exclusivamente entre las respuestas correctas. Este diseño desacoplado garantiza que Aout fije el entrenamiento en la corrección, mientras que Aproc diferencia la calidad del razonamiento sin distorsionar la señal del resultado. Los experimentos en múltiples escalas de modelos y seis puntos de referencia demuestran que PAPO supera consistentemente a ORM, alcanzando un 51,3 % frente a un 46,3 % en OlympiadBench, mientras continúa mejorando a medida que ORM se estabiliza y disminuye.
Publicado originalmente en export.arxiv.org el 29 de marzo de 2026.
Ver fuente original
