Optimización de mezcla de datos para ajuste fino supervisado de modelos de idiomas grandes

Resumen: La optimización de las mezclas de datos para ajuste fino supervisado (SFT) de modelos de lenguaje grande (LLM) es fundamental para desarrollar modelos de propósito general, pero esta área permanece subexplorada. En este documento, enmarcamos la mezcla de datos como un problema de optimización e presentamos un método novedoso diseñado para minimizar la pérdida de validación. Nuestro enfoque parametriza la pérdida modelando datos efectivos transferidos y aprovechando las leyes de escala para ajustar. Al experimentar con varias mezclas de datos a pequeña escala, ajustamos estos parámetros y obtenemos los pesos óptimos. Proporcionamos pruebas matemáticas y resultados empíricos que demuestran que nuestro algoritmo logra un excelente rendimiento general e individual en todos los dominios. A través de experimentos controlados, mostramos que los modelos entrenados con nuestros pesos optimizados funcionan a la par con aquellos que usan pesos óptimos determinados a través de la búsqueda de la red, con una pérdida por dominio solo 0.66% más alta que la mejor pérdida de dominio de la búsqueda de cuadrícula en promedio. Además, mostramos que volver a verificar los conjuntos de datos SFT populares utilizando nuestro método mejora tanto la pérdida de validación como el rendimiento posterior. Finalmente, discutimos cómo nuestro método puede generalizar para guiar la selección de datos para modelos específicos del dominio y proporcionar información sobre SFT.

Publicado Originalme en export.arxiv.org El 18 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Deformador: acoplamiento patrones localizados deformados con un contexto global para un robusto reconocimiento de voz de extremo a extremo

AI de Agentic: AI de próxima generación que funciona de manera autónoma

Un marco de evaluación multimodal automatizado para asistentes inteligentes móviles

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido