En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Un modelo de amenaza de perplejidad de N-Gram interpretable para un modelo de lenguaje grande jailbreaks

Un modelo de amenaza de perplejidad de N-Gram interpretable para un modelo de lenguaje grande jailbreaks

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Se ha propuesto una gran cantidad de ataques con jailbreaking para obtener respuestas dañinas de LLMS ajustados a la seguridad. Estos métodos logran coaccionar la salida objetivo en sus entornos originales, pero sus ataques varían sustancialmente en la fluidez y el esfuerzo computacional. En este trabajo, proponemos un modelo de amenaza unificado para la comparación de principios de estos métodos. Nuestro modelo de amenaza verifica si es probable que ocurra un jailbreak determinado en la distribución del texto. Para esto, construimos un modelo de lenguaje N-Gram en tokens 1T, que, a diferencia de la perplejidad basada en el modelo, permite una evaluación LLM-Agnóstica, no paramétrica e inherentemente interpretable. Adaptamos los ataques populares a este modelo de amenaza y, por primera vez, comparamos estos ataques con igual pie con él. Después de una comparación extensa, encontramos que las tasas de éxito de ataques contra los modelos modernos ajustados a la seguridad son más bajas de lo presentado anteriormente y que los ataques basados ​​en la optimización discreta superan significativamente los ataques recientes basados ​​en LLM. Siendo inherentemente interpretable, nuestro modelo de amenaza permite un análisis exhaustivo y una comparación de los ataques de jailbreak. Encontramos que los ataques efectivos explotan y abusan a los bigrams infrecuentes, ya sea seleccionando los ausentes del texto del mundo real o los raros, por ejemplo, específicos para los conjuntos de datos REDDIT o de código.

Publicado Originalme en rss.arxiv.org El 11 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web