En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->SpeContext: permitir un razonamiento eficiente de contexto largo con escasez de contexto especulativo en LLM

SpeContext: permitir un razonamiento eficiente de contexto largo con escasez de contexto especulativo en LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:En este artículo, señalamos que el objetivo de los algoritmos de recuperación es alinearse con el LLM, lo cual es similar al objetivo de destilación del conocimiento en los LLM. Analizamos la similitud en el enfoque de la información entre el modelo de lenguaje destilado (DLM) y el LLM original desde la perspectiva de la teoría de la información y, por lo tanto, proponemos un paradigma novedoso que aprovecha un DLM como algoritmo de recuperación. Con base en esta información, presentamos SpeContext, un algoritmo y un codiseño de sistema para el razonamiento de contexto prolongado. (1) A nivel de algoritmo, SpeContext propone un cabezal de recuperación liviano basado en los pesos de atención a nivel de cabezal de DLM, logrando una reducción de parámetros > 90 % mediante la poda de la redundancia. (2) A nivel del sistema, SpeContext diseña un flujo de datos de captación previa asíncrono a través de la estrategia de carga elástica, superponiendo efectivamente la recuperación de caché KV con el cálculo LLM. (3) En el nivel de compilación, SpeContext construye el modelo de memoria teórico e implementa un sistema de administración de memoria adaptativa para lograr la aceleración maximizando la utilización de la memoria de la GPU. Implementamos y evaluamos SpeContext en dos entornos con recursos limitados: la nube y el borde. Amplios experimentos muestran que, en comparación con el marco Huggingface, SpeContext logra una mejora del rendimiento de hasta 24,89 veces en la nube y una aceleración de 10,06 veces en el borde con una pérdida de precisión insignificante, superando la frontera de precisión y rendimiento de Pareto.

Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web