En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Más allá de la corrección: modelado de recompensas consciente de la confianza para mejorar el razonamiento de los modelos de lenguaje extenso

Más allá de la corrección: modelado de recompensas consciente de la confianza para mejorar el razonamiento de los modelos de lenguaje extenso

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los avances recientes en grandes modelos de lenguaje (LLM) han cambiado el paradigma posterior al entrenamiento desde el ajuste de la instrucción tradicional y la alineación de las preferencias humanas hacia el aprendizaje por refuerzo (RL) centrado en las capacidades de razonamiento. Sin embargo, numerosos informes técnicos indican que la recompensa RL puramente basada en reglas frecuentemente da como resultado cadenas de razonamiento de mala calidad o inconsistencias entre los procesos de razonamiento y las respuestas finales, particularmente cuando el modelo base es de menor escala. Durante el proceso de exploración de RL, los modelos pueden emplear cadenas de razonamiento de baja calidad debido a la falta de conocimiento, produciendo ocasionalmente respuestas correctas al azar y recibiendo recompensas basadas en jueces establecidos basados ​​en reglas. Esto limita el potencial de las organizaciones con recursos limitados para realizar capacitación de aprendizaje por refuerzo directo en modelos de menor escala. Proponemos un novedoso modelo de recompensa basado en la confianza diseñado para mejorar las capacidades de razonamiento STEM. A diferencia de los enfoques convencionales, nuestro modelo penaliza no sólo las respuestas incorrectas sino también las respuestas correctas con baja confianza, promoviendo así un razonamiento más sólido y lógicamente consistente. Validamos la eficacia de nuestro enfoque mediante evaluaciones estáticas, pruebas de inferencia Best-of-N y capacitación RL basada en PPO. Nuestro método supera a varios modelos de recompensa de código abierto de última generación en diversos puntos de referencia STEM. Lanzamos nuestros códigos y modelo en esta URL https.

Publicado originalmente en export.arxiv.org el 11 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web