Resumen: Se ha propuesto una gran cantidad de ataques con jailbreaking para obtener respuestas dañinas de LLMS ajustados a la seguridad. Estos métodos logran coaccionar la salida objetivo en sus entornos originales, pero sus ataques varían sustancialmente en la fluidez y el esfuerzo computacional. En este trabajo, proponemos un modelo de amenaza unificado para la comparación de principios de estos métodos. Nuestro modelo de amenaza verifica si es probable que ocurra un jailbreak determinado en la distribución del texto. Para esto, construimos un modelo de lenguaje N-Gram en tokens 1T, que, a diferencia de la perplejidad basada en el modelo, permite una evaluación LLM-Agnóstica, no paramétrica e inherentemente interpretable. Adaptamos los ataques populares a este modelo de amenaza y, por primera vez, comparamos estos ataques con igual pie con él. Después de una comparación extensa, encontramos que las tasas de éxito de ataques contra los modelos modernos ajustados a la seguridad son más bajas de lo presentado anteriormente y que los ataques basados en la optimización discreta superan significativamente los ataques recientes basados en LLM. Siendo inherentemente interpretable, nuestro modelo de amenaza permite un análisis exhaustivo y una comparación de los ataques de jailbreak. Encontramos que los ataques efectivos explotan y abusan a los bigrams infrecuentes, ya sea seleccionando los ausentes del texto del mundo real o los raros, por ejemplo, específicos para los conjuntos de datos REDDIT o de código.
Publicado Originalme en rss.arxiv.org El 11 de junio de 2025.
Ver Fuente Original