En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Los métodos de diversificación de datos en la alineación mejoran el rendimiento de las matemáticas en LLMS

Los métodos de diversificación de datos en la alineación mejoran el rendimiento de las matemáticas en LLMS

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Si bien los avances recientes en el aprendizaje de preferencias han mejorado la alineación en la retroalimentación humana, el razonamiento matemático sigue siendo un desafío persistente. Investigamos cómo las estrategias de diversificación de datos en la optimización de preferencias pueden mejorar las capacidades de razonamiento matemático de grandes modelos de idiomas (LLM). Evaluamos tres métodos comunes de generación de datos: muestreo de temperatura, solicitante de cadena de pensamiento y búsqueda de árboles de Monte Carlo (MCTS) e introduce diversificado-pensamiento (DTS), un nuevo enfoque estructurado que descompone sistemáticamente los problemas en diversas rutas de razonamiento. Nuestros resultados muestran que con datos de preferencia estratégicamente diversificados, los modelos pueden mejorar sustancialmente el rendimiento del razonamiento matemático, con el mejor enfoque que produce ganancias de 7.1% en GSM8K y 4.2% en matemáticas sobre el modelo base. A pesar de su fuerte rendimiento, DTS incurre solo en una sobrecarga computacional marginal (1.03x) en comparación con la línea de base, mientras que MCTS es casi cinco veces más costoso con mayores rendimientos. Estos hallazgos demuestran que la exploración estructurada de diversos métodos de resolución de problemas crea datos de preferencia más efectivos para la alineación matemática que los enfoques tradicionales.

Publicado Originalme en export.arxiv.org El 3 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web