En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Déjalo en el especialista: reparación de LLMS dispersos con escasos ajustes finos a través de la evolución de la escasez

Déjalo en el especialista: reparación de LLMS dispersos con escasos ajustes finos a través de la evolución de la escasez

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Grandes modelos de idiomas (LLM) han logrado un éxito notable en varias tareas, pero enfrentan desafíos de implementación debido a sus demandas computacionales masivas. Si bien los métodos de poda posteriores al entrenamiento como SPARSEGPT y WANDA pueden reducir efectivamente el tamaño del modelo, pero luchar por mantener el rendimiento del modelo a niveles de escasez altos, lo que limita su utilidad para las tareas aguas abajo. Los métodos existentes de ajuste fino, como el ajuste completo y el lora, no conservan la escasez, ya que requieren actualizar las métricas densas enteras, no adecuadas para LLMS dispersos. En este artículo, proponemos la evolución de la escasez ajustado (SEFT), un método novedoso diseñado específicamente para LLMS dispersos. SEFT evoluciona dinámicamente la topología escasa de los modelos podados durante el ajuste fino, al tiempo que preserva la escasez general a lo largo del proceso. Las fortalezas de SEFT se encuentran en su capacidad para realizar una adaptación específica de la tarea a través de una estrategia de caída de peso, lo que permite que el modelo podado autoadaptara su patrón de conectividad disperso basado en el conjunto de datos de destino. Además, se emplea un criterio de poda impulsado por la sensibilidad para garantizar que el nivel de escasez deseado se mantenga constantemente durante el ajuste fino. Nuestros experimentos sobre varios LLM, incluidas las familias de Llama, Deepseek y Mistral, en un conjunto diverso de puntos de referencia demuestran que SEFT alcanza un rendimiento más fuerte al tiempo que ofrece memoria superior y eficiencia del tiempo en comparación con las líneas de base existentes. Nuestro código está disponible públicamente en: esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 1 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web