En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Sobrecarga: modelos de dos etapas para la decodificación de modelos de lenguaje eficiente

Sobrecarga: modelos de dos etapas para la decodificación de modelos de lenguaje eficiente

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: los modelos de idiomas grandes (LLM) se destacan en diversas tareas, pero enfrentan desafíos de implementación significativos debido a los altos costos de inferencia. La inferencia de LLM comprende las etapas de prefiércol (computas) y decodificaciones (unidas a la memoria), con una latencia dominante de decodificación, particularmente para secuencias largas. Los modelos de decodificadores actuales solo manejan ambas etapas de manera uniforme, a pesar de sus distintos perfiles computacionales. Proponemos sobre el sobrecarga, que desacopla estas etapas para optimizar las compensaciones de eficiencia de precisión. El sobrecargador comienza con un modelo completo para la pregramado, el sistema de procesamiento y las entradas de los usuarios en paralelo. Luego cambia a un modelo podado denso, mientras se genera tokens secuencialmente. Aprovechando más cálculo durante la pregrama, el sobrecarga mejora la calidad de la generación con una sobrecarga de latencia mínima. Nuestra configuración de sobrecarga 3B a 1B supera a los modelos podados 1B en un 83.2%, mientras que la configuración de 8B a 3B mejora más de 3B podados en un 79.2% en promedio en promedio de puntos de referencia estándar. El sobrecarga coincide con el rendimiento de los modelos del mismo tamaño entrenados desde cero, mientras usa datos de entrenamiento significativamente menos. Nuestro código está disponible en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 12 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web