Resumen: Los ataques de inyección directa (DPI) representan una amenaza de seguridad crítica para los modelos de idiomas grandes (LLM) debido a su baja barrera de ejecución y alto daño potencial. Para abordar la impracticabilidad de los métodos existentes de caja blanca/cajera gris y la pobre transferibilidad de los métodos de caja negra, proponemos un marco de ataque de inyección inmediata guiada por activaciones. Primero construimos un modelo basado en la energía (EBM) utilizando activaciones de un modelo sustituto para evaluar la calidad de las indicaciones adversas. Guiado por el EBM capacitado, empleamos el muestreo de la cadena Markov de nivel token Monte Carlo (MCMC) para optimizar adaptativamente las indicaciones adversas, lo que permite ataques de caja negra sin gradiente. Los resultados experimentales demuestran nuestra transferibilidad de modelos cruzados superiores, alcanzando la tasa de éxito de ataque del 49.6% (ASR) en cinco LLM principales y una mejora del 34.6% sobre las indicaciones hechas por humanos y manteniendo un 36,6% de ASR en escenarios de tareas invisibles. El análisis de interpretabilidad revela una correlación entre las activaciones y la efectividad del ataque, destacando el papel crítico de los patrones semánticos en la explotación de vulnerabilidad transferible.
Publicado Originalme en export.arxiv.org El 9 de septiembre de 2025.
Ver Fuente Original