SpeContext: permitir un razonamiento eficiente de contexto largo con escasez de contexto especulativo en LLM

Resumen:En este artículo, señalamos que el objetivo de los algoritmos de recuperación es alinearse con el LLM, lo cual es similar al objetivo de destilación del conocimiento en los LLM. Analizamos la similitud en el enfoque de la información entre el modelo de lenguaje destilado (DLM) y el LLM original desde la perspectiva de la teoría de la información y, por lo tanto, proponemos un paradigma novedoso que aprovecha un DLM como algoritmo de recuperación. Con base en esta información, presentamos SpeContext, un algoritmo y un codiseño de sistema para el razonamiento de contexto prolongado. (1) A nivel de algoritmo, SpeContext propone un cabezal de recuperación liviano basado en los pesos de atención a nivel de cabezal de DLM, logrando una reducción de parámetros > 90 % mediante la poda de la redundancia. (2) A nivel del sistema, SpeContext diseña un flujo de datos de captación previa asíncrono a través de la estrategia de carga elástica, superponiendo efectivamente la recuperación de caché KV con el cálculo LLM. (3) En el nivel de compilación, SpeContext construye el modelo de memoria teórico e implementa un sistema de administración de memoria adaptativa para lograr la aceleración maximizando la utilización de la memoria de la GPU. Implementamos y evaluamos SpeContext en dos entornos con recursos limitados: la nube y el borde. Amplios experimentos muestran que, en comparación con el marco Huggingface, SpeContext logra una mejora del rendimiento de hasta 24,89 veces en la nube y una aceleración de 10,06 veces en el borde con una pérdida de precisión insignificante, superando la frontera de precisión y rendimiento de Pareto.

Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Razonamiento LLM controlable mediante dirección basada en codificador automático disperso

La descarga: un vistazo al futuro de la IA

Hacia una recompensa escalable y verificable: evaluación basada en el estado proxy para agentes LLM que llaman a herramientas de múltiples turnos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido