En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->S3lora: poda segura guiada por la nitidez espectral en la adaptación del agente planificador

S3lora: poda segura guiada por la nitidez espectral en la adaptación del agente planificador

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Adaptación de modelos de lenguaje grande (LLM) utilizando técnicas de ajuste fino (PEFT) eficientes en parámetros, como Lora, ha habilitado capacidades potentes en agentes basados ​​en LLM. Sin embargo, estas adaptaciones pueden comprometer involuntariamente la alineación de seguridad, lo que lleva a comportamientos inseguros o inestables, particularmente en tareas de planificación de agentes. Los métodos de adaptación de seguridad existentes a menudo requieren acceso a los puntos de control del modelo base y ajustados a la instrucción, que con frecuencia no están disponibles en la práctica, lo que limita su aplicabilidad. Proponemos S3LORA (lora de poda guiada por la nitidez espectral segura), un marco ligero, sin datos e independiente del modelo que mitiga los riesgos de seguridad en modelos adaptados a Lora al inspeccionar solo las actualizaciones de peso ajustadas. Primero introducimos SVD de magnitud normalizada esféricamente (MAS-SVD), que analiza de manera robusta las propiedades estructurales de las actualizaciones de Lora al tiempo que preservan la información de magnitud global. Luego diseñamos el índice de nitidez espectral (SSI), una métrica consciente de la nitidez para detectar capas con actualizaciones altamente concentradas y potencialmente inseguras. Estas capas se podan pos-hoc para reducir el riesgo sin sacrificar el rendimiento de la tarea. Experimentos extensos y estudios de ablación en las tareas de planificación de agentes y generación de idiomas muestran que S3LORA mejora constantemente las métricas de seguridad al tiempo que mantiene o mejora las métricas de servicios públicos y reduce significativamente el costo de inferencia. Estos resultados establecen S3Lora como una solución práctica y escalable para implementar de forma segura agentes basados ​​en LLM en entornos del mundo real, con recursos limitados y de seguridad crítica.

Publicado Originalme en export.arxiv.org El 21 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web