Resumen: Los modelos de recompensa pueden mejorar significativamente las capacidades de razonamiento de los modelos de lenguajes grandes (LLM), pero generalmente requieren una gran cantidad de datos seleccionados y una capacitación costosa. Para mitigar estos desafíos, los enfoques sin capacitación, como LLM-as-a-Judge, aprovechan las habilidades de razonamiento intrínsecas de los LLM para evaluar las respuestas, logrando resultados prometedores. Trabajos recientes también han indicado que la confianza del modelo puede servir eficazmente como métrica de recompensa, distinguiendo entre rutas de cadena de pensamiento (CoT) y no CoT. Sin embargo, el concepto de utilizar la confianza como recompensa no se ha estudiado exhaustivamente. En este trabajo, investigamos sistemáticamente la confianza como recompensa (CRew), un método simple pero poderoso sin entrenamiento que utiliza la confianza a nivel de token en las respuestas finales del modelo como indicador de recompensa, especialmente adecuado para tareas cerradas. A través de extensos experimentos en tareas de razonamiento matemático, demostramos que CRew supera los enfoques de recompensa sin entrenamiento existentes en los puntos de referencia MATH500 y RewardMATH, e incluso supera a la mayoría de los modelos de recompensa entrenados. Además, identificamos una fuerte correlación entre las puntuaciones de CRew y el rendimiento de razonamiento real del modelo. Además, descubrimos que CRew puede filtrar eficazmente datos de entrenamiento de alta calidad. Sobre la base de estos conocimientos, proponemos CRew-DPO, una estrategia de capacitación que construye datos de preferencia a partir de puntuaciones de confianza combinadas con señales de corrección. El ajuste con CRew-DPO mejora aún más las capacidades de evaluación del modelo y supera consistentemente los métodos de autoformación existentes.
Publicado originalmente en export.arxiv.org el 15 de octubre de 2025.
Ver fuente original
