Más allá de la corrección: modelado de recompensas consciente de la confianza para mejorar el razonamiento de los modelos de lenguaje extenso

Resumen: Los avances recientes en grandes modelos de lenguaje (LLM) han cambiado el paradigma posterior al entrenamiento desde el ajuste de la instrucción tradicional y la alineación de las preferencias humanas hacia el aprendizaje por refuerzo (RL) centrado en las capacidades de razonamiento. Sin embargo, numerosos informes técnicos indican que la recompensa RL puramente basada en reglas frecuentemente da como resultado cadenas de razonamiento de mala calidad o inconsistencias entre los procesos de razonamiento y las respuestas finales, particularmente cuando el modelo base es de menor escala. Durante el proceso de exploración de RL, los modelos pueden emplear cadenas de razonamiento de baja calidad debido a la falta de conocimiento, produciendo ocasionalmente respuestas correctas al azar y recibiendo recompensas basadas en jueces establecidos basados en reglas. Esto limita el potencial de las organizaciones con recursos limitados para realizar capacitación de aprendizaje por refuerzo directo en modelos de menor escala. Proponemos un novedoso modelo de recompensa basado en la confianza diseñado para mejorar las capacidades de razonamiento STEM. A diferencia de los enfoques convencionales, nuestro modelo penaliza no sólo las respuestas incorrectas sino también las respuestas correctas con baja confianza, promoviendo así un razonamiento más sólido y lógicamente consistente. Validamos la eficacia de nuestro enfoque mediante evaluaciones estáticas, pruebas de inferencia Best-of-N y capacitación RL basada en PPO. Nuestro método supera a varios modelos de recompensa de código abierto de última generación en diversos puntos de referencia STEM. Lanzamos nuestros códigos y modelo en esta URL https.

Publicado originalmente en export.arxiv.org el 11 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Este punto de referencia usó AITA de Reddit para probar cuánto modelos de IA nos apestan

Eduflow: avance de la competencia de resolución de problemas de MLLMS a través de una crítica multiperspectiva múltiple

Generación de declaraciones de consenso justas con elección social en MDP a nivel de token

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido