Injerto de conocimiento de modelos de idiomas grandes

Resumen: La transferencia de capacidad cruzada es un desafío clave en la investigación del modelo de lenguaje grande (LLM), con aplicaciones en integración de tareas múltiples, compresión del modelo y aprendizaje continuo. Trabajos recientes como Fusellm y Fusechat han demostrado el potencial de transferir múltiples capacidades de modelos a modelos livianos, mejorando la adaptabilidad y la eficiencia, lo que motiva nuestra investigación a métodos de transferencia de capacidad cruzada más eficientes. Sin embargo, los enfoques existentes se centran principalmente en modelos pequeños y homogéneos, lo que limita su aplicabilidad. Para modelos grandes y heterogéneos, la destilación de conocimiento con ajuste fino de parámetro completo a menudo pasa por alto la capacidad intrínseca del modelo de estudiante y corre el riesgo de olvidar catastróficos, mientras que los métodos PEFT luchan por absorber efectivamente el conocimiento de las LLM de origen. Para abordar estos problemas, presentamos Graftllm, un método novedoso que almacena las capacidades del modelo de origen en un modelo de destino con formato Skillpack. Este enfoque preserva las capacidades generales, reduce los conflictos de parámetros y admite el aprendizaje continuo y la fusión del modelo olvidados. Empleamos una estrategia de compresión adaptativa consciente del módulo para comprimir actualizaciones de parámetros, asegurando un almacenamiento eficiente al tiempo que mantiene el conocimiento específico de la tarea. El Skillpack resultante sirve como un portador de conocimiento compacto y transferible, ideal para la fusión del modelo heterogéneo y el aprendizaje continuo. Los experimentos en varios escenarios demuestran que GraftllM supera a las técnicas existentes en la transferencia de conocimiento, la fusión de conocimiento y el aprendizaje sin olvidar, proporcionando una solución escalable y eficiente para la transferencia de capacidad cruzada. El código está disponible públicamente en: esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 26 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Una prueba de similitud U generalizada para el análisis multivariado de los datos de secuenciación

Ai Noter – Pinchar la brecha entre las leyes científicas derivadas por los sistemas de IA y el conocimiento canónico a través de la inferencia abductiva

Los centros de datos pueden albergar IA, pero los operadores no confían en la IA (todavía)

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido