Resumen: El aprendizaje por refuerzo con recompensas verificables (RLVR) ha logrado un éxito notable en tareas de razonamiento lógico, pero aún no está claro si la alineación del modelo de lenguaje grande (LLM) requiere enfoques fundamentalmente diferentes. Dada la aparente tolerancia a múltiples respuestas válidas en el razonamiento moral, una hipótesis natural es que las tareas de alineación requieren inherentemente algoritmos de coincidencia de distribución que busquen la diversidad en lugar de métodos basados en políticas que maximicen la recompensa. Realizamos el primer estudio empírico integral que compara ambos paradigmas en MoReBench. Para permitir un entrenamiento RLVR estable, creamos un canal de recompensas basado en rúbricas entrenando un modelo de juez Qwen3-1.7B. Contrariamente a nuestra hipótesis, encontramos que los enfoques de coincidencia de distribución no demuestran ventajas significativas sobre los métodos de maximización de recompensas como se esperaba en las tareas de alineación. A través de la visualización semántica que mapea las respuestas de alta recompensa al espacio semántico, demostramos que el razonamiento moral exhibe distribuciones de alta recompensa más concentradas que el razonamiento matemático, donde diversas estrategias de solución producen recompensas igualmente altas. Este hallazgo contrario a la intuición explica por qué la optimización de búsqueda de modo resulta igual o más efectiva para las tareas de alineación. Nuestros resultados sugieren que las tareas de alineación no requieren inherentemente algoritmos que preserven la diversidad, y los métodos RLVR estándar para maximizar la recompensa pueden transferirse efectivamente al razonamiento moral sin mecanismos explícitos de diversidad.
Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original
