En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Modelo de fusión para la edición de conocimiento

Modelo de fusión para la edición de conocimiento

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de idiomas grandes (LLM) requieren actualizaciones continuas para mantener el conocimiento preciso y actual a medida que el mundo evoluciona. Si bien los enfoques de edición de conocimiento existentes ofrecen varias soluciones para la actualización del conocimiento, a menudo luchan con escenarios de edición secuenciales y dañan las capacidades generales del modelo, lo que obstaculiza significativamente su aplicabilidad práctica. Este documento propone un marco de dos etapas que combina un ajuste fino supervisado (R-SFT) sólido con fusión del modelo para la edición del conocimiento. Nuestro método primero ajusta el LLM para internalizar completamente los nuevos conocimientos, luego fusiona el modelo ajustado con el modelo de base original para preservar el conocimiento recién adquirido y las capacidades generales. Los resultados experimentales demuestran que nuestro enfoque supera significativamente los métodos existentes en la edición secuencial al tiempo que preserva el rendimiento original del modelo, todo sin requerir ningún cambio arquitectónico. El código está disponible en: esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 16 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web