LatentGuard: dirección latente controlable para un rechazo robusto de ataques y generación de respuesta confiable

Resumen: Lograr una sólida alineación de seguridad en modelos de idiomas grandes (LLM), mientras que preservar su utilidad sigue siendo un desafío fundamental. Los enfoques existentes a menudo luchan por equilibrar la seguridad integral con capacidad de control de grano fino a nivel de representación. Introducimos a LatentGuard, un nuevo marco de tres etapas que combina la alineación de comportamiento con el control de espacio latente supervisado para la dirección de seguridad interpretable y precisa. Nuestro enfoque comienza ajustando un LLM en conjuntos de datos racionalizados que contienen ambas respuestas de rechazo mejoradas de razonamiento a las indicaciones adversas y las respuestas normales mejoradas para el razonamiento a consultas benignas, estableciendo priors de comportamiento robustos en escenarios de seguridad y preservadores de utilidades. Luego entrenamos un autoencoder variacional estructurado (VAE) en activaciones intermedias de MLP, supervisadas por anotaciones de etiqueta múltiple, incluidos tipos de ataque, métodos de ataque e indicadores benignos. Esta supervisión permite a los VAE aprender representaciones latentes desenredadas que capturan características adversas distintas mientras mantienen la interpretabilidad semántica. A través de la manipulación específica de las dimensiones latentes aprendidas, LatentGuard logra un comportamiento selectivo de rechazo, bloqueando efectivamente las solicitudes dañinas al tiempo que preserva la ayuda para los casos de uso legítimos. Los experimentos en QWEN3-8B demuestran mejoras significativas tanto en la capacidad de control de seguridad como en la interpretabilidad de la respuesta sin comprometer la utilidad. La validación de la arquitectura cruzada en Mistral-7B confirma la generalización de nuestro enfoque de dirección latente, mostrando una efectividad constante en diferentes familias modelo. Nuestros resultados sugieren que la intervención estructurada de nivel de representación ofrece una vía prometedora hacia la construcción de sistemas LLM más seguros pero prácticos.

Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Punto de estabilización del razonamiento: una señal de tiempo de entrenamiento para evidencia estable y confianza en atajos

Lang-PINN: del lenguaje a las redes neuronales basadas en la física a través de un marco multiagente

Marcos de IA de agente: arquitecturas, protocolos y desafíos de diseño

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido