Déjalo en el especialista: reparación de LLMS dispersos con escasos ajustes finos a través de la evolución de la escasez

Resumen: Grandes modelos de idiomas (LLM) han logrado un éxito notable en varias tareas, pero enfrentan desafíos de implementación debido a sus demandas computacionales masivas. Si bien los métodos de poda posteriores al entrenamiento como SPARSEGPT y WANDA pueden reducir efectivamente el tamaño del modelo, pero luchar por mantener el rendimiento del modelo a niveles de escasez altos, lo que limita su utilidad para las tareas aguas abajo. Los métodos existentes de ajuste fino, como el ajuste completo y el lora, no conservan la escasez, ya que requieren actualizar las métricas densas enteras, no adecuadas para LLMS dispersos. En este artículo, proponemos la evolución de la escasez ajustado (SEFT), un método novedoso diseñado específicamente para LLMS dispersos. SEFT evoluciona dinámicamente la topología escasa de los modelos podados durante el ajuste fino, al tiempo que preserva la escasez general a lo largo del proceso. Las fortalezas de SEFT se encuentran en su capacidad para realizar una adaptación específica de la tarea a través de una estrategia de caída de peso, lo que permite que el modelo podado autoadaptara su patrón de conectividad disperso basado en el conjunto de datos de destino. Además, se emplea un criterio de poda impulsado por la sensibilidad para garantizar que el nivel de escasez deseado se mantenga constantemente durante el ajuste fino. Nuestros experimentos sobre varios LLM, incluidas las familias de Llama, Deepseek y Mistral, en un conjunto diverso de puntos de referencia demuestran que SEFT alcanza un rendimiento más fuerte al tiempo que ofrece memoria superior y eficiencia del tiempo en comparación con las líneas de base existentes. Nuestro código está disponible públicamente en: esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 1 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Escala de investigación de estrategias de factores de exploración UCT independientes

La IA podría predecir quién sufrirá un infarto

La alineación de turnos de distribución ayuda a los LLM a simular distribuciones de respuestas a encuestas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido