En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Optimización de mezcla de datos para ajuste fino supervisado de modelos de idiomas grandes

Optimización de mezcla de datos para ajuste fino supervisado de modelos de idiomas grandes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La optimización de las mezclas de datos para ajuste fino supervisado (SFT) de modelos de lenguaje grande (LLM) es fundamental para desarrollar modelos de propósito general, pero esta área permanece subexplorada. En este documento, enmarcamos la mezcla de datos como un problema de optimización e presentamos un método novedoso diseñado para minimizar la pérdida de validación. Nuestro enfoque parametriza la pérdida modelando datos efectivos transferidos y aprovechando las leyes de escala para ajustar. Al experimentar con varias mezclas de datos a pequeña escala, ajustamos estos parámetros y obtenemos los pesos óptimos. Proporcionamos pruebas matemáticas y resultados empíricos que demuestran que nuestro algoritmo logra un excelente rendimiento general e individual en todos los dominios. A través de experimentos controlados, mostramos que los modelos entrenados con nuestros pesos optimizados funcionan a la par con aquellos que usan pesos óptimos determinados a través de la búsqueda de la red, con una pérdida por dominio solo 0.66% más alta que la mejor pérdida de dominio de la búsqueda de cuadrícula en promedio. Además, mostramos que volver a verificar los conjuntos de datos SFT populares utilizando nuestro método mejora tanto la pérdida de validación como el rendimiento posterior. Finalmente, discutimos cómo nuestro método puede generalizar para guiar la selección de datos para modelos específicos del dominio y proporcionar información sobre SFT.

Publicado Originalme en export.arxiv.org El 18 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web