En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Lavado dañino: Jailbreaking LLMS con estilos abductores y codificación simbólica

Lavado dañino: Jailbreaking LLMS con estilos abductores y codificación simbólica

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje grande (LLMS) han demostrado capacidades notables en diversas tareas, pero su posible mal uso para fines dañinos sigue siendo una preocupación significativa. Para fortalecer las defensas contra tales vulnerabilidades, es esencial investigar los ataques universales de jailbreak que explotan las debilidades intrínsecas en los paradigmas de arquitectura y aprendizaje de LLM. En respuesta, proponemos textbf {H} Armful TextBF {P} Rompt TextBf {La} Under (Hapla), una técnica de jailbreaking novedosa y ampliamente aplicable que requiere solo acceso de caja negra a modelos de destino. Hapla incorpora dos estrategias principales: 1) Textit {Framing abductive}, que instruye a los LLM a inferir pasos intermedios plausibles hacia actividades dañinas, en lugar de responder directamente a consultas dañinas explícitas; y 2) textit {codificación simbólica}, un enfoque ligero y flexible diseñado para ofuscar contenido dañino, dado que los LLM actuales siguen siendo sensibles principalmente a palabras clave dañinas explícitas. Los resultados experimentales muestran que Hapla alcanza más del 95% de la tasa de éxito de ataque en los modelos de la serie GPT y el 70% en todos los objetivos. Un análisis adicional con diversas reglas de codificación simbólica también revela un desafío fundamental: sigue siendo difícil sintonizar de manera segura LLM sin disminuir significativamente su ayuda al responder a las consultas benignas.

Publicado Originalme en export.arxiv.org El 15 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web