En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->CollectiveKV: Desacoplar y compartir información colaborativa en recomendación secuencial

CollectiveKV: Desacoplar y compartir información colaborativa en recomendación secuencial

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de recomendación secuencial se utilizan ampliamente en aplicaciones, pero enfrentan estrictos requisitos de latencia. Los modelos convencionales aprovechan el mecanismo de atención de Transformer para mejorar el rendimiento, pero su complejidad computacional crece con la longitud de la secuencia, lo que genera un desafío de latencia para secuencias largas. En consecuencia, la tecnología de caché KV se ha explorado recientemente en sistemas de recomendación secuencial para reducir la latencia de inferencia. Sin embargo, la caché KV introduce una sobrecarga de almacenamiento sustancial en los sistemas de recomendación secuencial, que a menudo tienen una gran base de usuarios con secuencias de historial de usuarios potencialmente muy largas. En este trabajo, observamos que las secuencias de KV entre diferentes usuarios exhiben similitudes significativas, lo que indica la existencia de señales colaborativas en KV. Además, analizamos el KV mediante descomposición de valores singulares (SVD) y encontramos que la información en KV se puede dividir en dos partes: la mayor parte de la información se puede compartir entre los usuarios, mientras que una pequeña parte es específica del usuario. Motivados por esto, proponemos CollectiveKV, un mecanismo para compartir KV entre usuarios. Captura la información compartida entre los usuarios a través de un grupo KV global que se puede aprender. Durante la inferencia, cada usuario recupera KV compartidos de alta dimensión del grupo y los concatena con KV específicos de usuario de baja dimensión para obtener el KV final. Los experimentos con cinco modelos de recomendación secuencial y tres conjuntos de datos muestran que nuestro método puede comprimir la caché KV a solo el 0,8% de su tamaño original, manteniendo o incluso mejorando el rendimiento del modelo.

Publicado originalmente en export.arxiv.org el 27 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web