CollectiveKV: Desacoplar y compartir información colaborativa en recomendación secuencial

Resumen: Los modelos de recomendación secuencial se utilizan ampliamente en aplicaciones, pero enfrentan estrictos requisitos de latencia. Los modelos convencionales aprovechan el mecanismo de atención de Transformer para mejorar el rendimiento, pero su complejidad computacional crece con la longitud de la secuencia, lo que genera un desafío de latencia para secuencias largas. En consecuencia, la tecnología de caché KV se ha explorado recientemente en sistemas de recomendación secuencial para reducir la latencia de inferencia. Sin embargo, la caché KV introduce una sobrecarga de almacenamiento sustancial en los sistemas de recomendación secuencial, que a menudo tienen una gran base de usuarios con secuencias de historial de usuarios potencialmente muy largas. En este trabajo, observamos que las secuencias de KV entre diferentes usuarios exhiben similitudes significativas, lo que indica la existencia de señales colaborativas en KV. Además, analizamos el KV mediante descomposición de valores singulares (SVD) y encontramos que la información en KV se puede dividir en dos partes: la mayor parte de la información se puede compartir entre los usuarios, mientras que una pequeña parte es específica del usuario. Motivados por esto, proponemos CollectiveKV, un mecanismo para compartir KV entre usuarios. Captura la información compartida entre los usuarios a través de un grupo KV global que se puede aprender. Durante la inferencia, cada usuario recupera KV compartidos de alta dimensión del grupo y los concatena con KV específicos de usuario de baja dimensión para obtener el KV final. Los experimentos con cinco modelos de recomendación secuencial y tres conjuntos de datos muestran que nuestro método puede comprimir la caché KV a solo el 0,8% de su tamaño original, manteniendo o incluso mejorando el rendimiento del modelo.

Publicado originalmente en export.arxiv.org el 27 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Generalización de agentes basados ​​en modelos de idiomas grandes: una encuesta integral

Dentro del experimento de alto riesgo de Amsterdam para crear un bienestar justo ai

Women Techeu: solicite propuestas de consorcios para implementar la iniciativa Women Techeu

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

Generalización de agentes basados en modelos de idiomas grandes: una encuesta integral