Inyección de inmediato directa transferible mediante muestreo MCMC guiado por activación

Resumen: Los ataques de inyección directa (DPI) representan una amenaza de seguridad crítica para los modelos de idiomas grandes (LLM) debido a su baja barrera de ejecución y alto daño potencial. Para abordar la impracticabilidad de los métodos existentes de caja blanca/cajera gris y la pobre transferibilidad de los métodos de caja negra, proponemos un marco de ataque de inyección inmediata guiada por activaciones. Primero construimos un modelo basado en la energía (EBM) utilizando activaciones de un modelo sustituto para evaluar la calidad de las indicaciones adversas. Guiado por el EBM capacitado, empleamos el muestreo de la cadena Markov de nivel token Monte Carlo (MCMC) para optimizar adaptativamente las indicaciones adversas, lo que permite ataques de caja negra sin gradiente. Los resultados experimentales demuestran nuestra transferibilidad de modelos cruzados superiores, alcanzando la tasa de éxito de ataque del 49.6% (ASR) en cinco LLM principales y una mejora del 34.6% sobre las indicaciones hechas por humanos y manteniendo un 36,6% de ASR en escenarios de tareas invisibles. El análisis de interpretabilidad revela una correlación entre las activaciones y la efectividad del ataque, destacando el papel crítico de los patrones semánticos en la explotación de vulnerabilidad transferible.

Publicado Originalme en export.arxiv.org El 9 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Razonamiento múltiple para el análisis de fenotipos de imágenes cardiovasculares

Modelos de base para diseño biológico habilitado para AI

Insider de computación en la nube: la revolución de restablecimiento de nubes: por qué el 70% de las empresas están dejando atrás la nube pública

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido