Resumen: Se ha propuesto una gran cantidad de ataques con jailbreaking para obtener respuestas dañinas de LLMS ajustados a la seguridad. Estos métodos logran coaccionar la salida objetivo en sus entornos originales, pero sus ataques varían sustancialmente en la fluidez y el esfuerzo computacional. En este trabajo, proponemos un modelo de amenaza unificado para la comparación de principios de estos métodos. Nuestro modelo de amenaza verifica si es probable que ocurra un jailbreak determinado en la distribución del texto. Para esto, construimos un modelo de lenguaje N-Gram en tokens 1T, que, a diferencia de la perplejidad basada en el modelo, permite una evaluación LLM-Agnóstica, no paramétrica e inherentemente interpretable. Adaptamos los ataques populares a este modelo de amenaza y, por primera vez, comparamos estos ataques con igual pie con él. Después de una comparación extensa, encontramos que las tasas de éxito de ataques contra los modelos modernos ajustados a la seguridad son más bajas de lo presentado anteriormente y que los ataques basados en la optimización discreta superan significativamente los ataques recientes basados en LLM. Siendo inherentemente interpretable, nuestro modelo de amenaza permite un análisis exhaustivo y una comparación de los ataques de jailbreak. Encontramos que los ataques efectivos explotan y abusan a los bigrams infrecuentes, ya sea seleccionando los ausentes del texto del mundo real o los raros, por ejemplo, específicos para los conjuntos de datos REDDIT o de código.

Publicado Originalme en rss.arxiv.org El 11 de junio de 2025.
Ver Fuente Original

Un modelo de amenaza de perplejidad de N-Gram interpretable para un modelo de lenguaje grande jailbreaks

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Shade-Arena: Evaluación de sabotaje y monitoreo en agentes de LLM

Potenciales de representación de modelos fundamentales para la alineación multimodal: una encuesta

Razonamiento M2: empoderamiento de MLLM con razonamiento general y espacial unificado

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido