S3lora: poda segura guiada por la nitidez espectral en la adaptación del agente planificador

Resumen: Adaptación de modelos de lenguaje grande (LLM) utilizando técnicas de ajuste fino (PEFT) eficientes en parámetros, como Lora, ha habilitado capacidades potentes en agentes basados en LLM. Sin embargo, estas adaptaciones pueden comprometer involuntariamente la alineación de seguridad, lo que lleva a comportamientos inseguros o inestables, particularmente en tareas de planificación de agentes. Los métodos de adaptación de seguridad existentes a menudo requieren acceso a los puntos de control del modelo base y ajustados a la instrucción, que con frecuencia no están disponibles en la práctica, lo que limita su aplicabilidad. Proponemos S3LORA (lora de poda guiada por la nitidez espectral segura), un marco ligero, sin datos e independiente del modelo que mitiga los riesgos de seguridad en modelos adaptados a Lora al inspeccionar solo las actualizaciones de peso ajustadas. Primero introducimos SVD de magnitud normalizada esféricamente (MAS-SVD), que analiza de manera robusta las propiedades estructurales de las actualizaciones de Lora al tiempo que preservan la información de magnitud global. Luego diseñamos el índice de nitidez espectral (SSI), una métrica consciente de la nitidez para detectar capas con actualizaciones altamente concentradas y potencialmente inseguras. Estas capas se podan pos-hoc para reducir el riesgo sin sacrificar el rendimiento de la tarea. Experimentos extensos y estudios de ablación en las tareas de planificación de agentes y generación de idiomas muestran que S3LORA mejora constantemente las métricas de seguridad al tiempo que mantiene o mejora las métricas de servicios públicos y reduce significativamente el costo de inferencia. Estos resultados establecen S3Lora como una solución práctica y escalable para implementar de forma segura agentes basados en LLM en entornos del mundo real, con recursos limitados y de seguridad crítica.

Publicado Originalme en export.arxiv.org El 21 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Aprendizaje por refuerzo para tareas desordenadas a largo plazo: de máquinas de recompensa booleanas a acopladas

Diseño robusto de algoritmos heurísticos con LLM

Difusión rápida de Monte Carlo: Speedup 100x a través de una planificación escasa paralela

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido