PRIMAVERA: Personalización continua de LLM mediante adaptación paramétrica selectiva y generación interpolada de recuperación

Resumen: La personalización de modelos de lenguaje grandes generalmente se basa en la recuperación estática o en una adaptación única, asumiendo que las preferencias del usuario permanecen invariantes con el tiempo. Sin embargo, las interacciones del mundo real son dinámicas, donde los intereses de los usuarios evolucionan continuamente, lo que plantea un desafío para que los modelos se adapten a la deriva de preferencias sin un olvido catastrófico. Los enfoques estándar de aprendizaje continuo a menudo tienen dificultades en este contexto, ya que se actualizan indiscriminadamente en flujos de interacción ruidosos, sin poder distinguir los cambios de preferencias genuinos de los contextos transitorios. Para abordar esto, presentamos SPRInG, un novedoso marco semiparamétrico diseñado para una personalización continua efectiva. Durante el entrenamiento, SPRInG emplea una adaptación selectiva impulsada por la deriva, que utiliza una función de puntuación basada en la probabilidad para identificar interacciones de alta novedad. Esto permite que el modelo actualice selectivamente el adaptador específico del usuario en señales de deriva y al mismo tiempo preserve los residuos difíciles de aprender en un búfer de reproducción. Durante la inferencia, aplicamos una estricta selección de relevancia y fusionamos el conocimiento paramétrico con el historial recuperado mediante interpolación logit. Los experimentos en el punto de referencia de generación personalizada de formato largo demuestran que SPRInG supera las líneas de base existentes, validando su solidez para la personalización continua en el mundo real.

Publicado originalmente en export.arxiv.org el 15 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

FINSTAT2SQL: una tubería Text2SQL para análisis de estados financieros

LLM-WikiRace: Evaluación comparativa de la planificación y el razonamiento a largo plazo con respecto a gráficos de conocimiento del mundo real

Epistemología bayesiana con autoridad ponderada: una arquitectura formal para el razonamiento científico autónomo que promueve la verdad

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido