Resumen: La optimización de las mezclas de datos para ajuste fino supervisado (SFT) de modelos de lenguaje grande (LLM) es fundamental para desarrollar modelos de propósito general, pero esta área permanece subexplorada. En este documento, enmarcamos la mezcla de datos como un problema de optimización e presentamos un método novedoso diseñado para minimizar la pérdida de validación. Nuestro enfoque parametriza la pérdida modelando datos efectivos transferidos y aprovechando las leyes de escala para ajustar. Al experimentar con varias mezclas de datos a pequeña escala, ajustamos estos parámetros y obtenemos los pesos óptimos. Proporcionamos pruebas matemáticas y resultados empíricos que demuestran que nuestro algoritmo logra un excelente rendimiento general e individual en todos los dominios. A través de experimentos controlados, mostramos que los modelos entrenados con nuestros pesos optimizados funcionan a la par con aquellos que usan pesos óptimos determinados a través de la búsqueda de la red, con una pérdida por dominio solo 0.66% más alta que la mejor pérdida de dominio de la búsqueda de cuadrícula en promedio. Además, mostramos que volver a verificar los conjuntos de datos SFT populares utilizando nuestro método mejora tanto la pérdida de validación como el rendimiento posterior. Finalmente, discutimos cómo nuestro método puede generalizar para guiar la selección de datos para modelos específicos del dominio y proporcionar información sobre SFT.
Publicado Originalme en export.arxiv.org El 18 de agosto de 2025.
Ver Fuente Original