En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->LatentGuard: dirección latente controlable para un rechazo robusto de ataques y generación de respuesta confiable

LatentGuard: dirección latente controlable para un rechazo robusto de ataques y generación de respuesta confiable

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Lograr una sólida alineación de seguridad en modelos de idiomas grandes (LLM), mientras que preservar su utilidad sigue siendo un desafío fundamental. Los enfoques existentes a menudo luchan por equilibrar la seguridad integral con capacidad de control de grano fino a nivel de representación. Introducimos a LatentGuard, un nuevo marco de tres etapas que combina la alineación de comportamiento con el control de espacio latente supervisado para la dirección de seguridad interpretable y precisa. Nuestro enfoque comienza ajustando un LLM en conjuntos de datos racionalizados que contienen ambas respuestas de rechazo mejoradas de razonamiento a las indicaciones adversas y las respuestas normales mejoradas para el razonamiento a consultas benignas, estableciendo priors de comportamiento robustos en escenarios de seguridad y preservadores de utilidades. Luego entrenamos un autoencoder variacional estructurado (VAE) en activaciones intermedias de MLP, supervisadas por anotaciones de etiqueta múltiple, incluidos tipos de ataque, métodos de ataque e indicadores benignos. Esta supervisión permite a los VAE aprender representaciones latentes desenredadas que capturan características adversas distintas mientras mantienen la interpretabilidad semántica. A través de la manipulación específica de las dimensiones latentes aprendidas, LatentGuard logra un comportamiento selectivo de rechazo, bloqueando efectivamente las solicitudes dañinas al tiempo que preserva la ayuda para los casos de uso legítimos. Los experimentos en QWEN3-8B ​​demuestran mejoras significativas tanto en la capacidad de control de seguridad como en la interpretabilidad de la respuesta sin comprometer la utilidad. La validación de la arquitectura cruzada en Mistral-7B confirma la generalización de nuestro enfoque de dirección latente, mostrando una efectividad constante en diferentes familias modelo. Nuestros resultados sugieren que la intervención estructurada de nivel de representación ofrece una vía prometedora hacia la construcción de sistemas LLM más seguros pero prácticos.

Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web