Resumen: Los modelos de lenguaje grande (LLMS) han demostrado capacidades notables en diversas tareas, pero su posible mal uso para fines dañinos sigue siendo una preocupación significativa. Para fortalecer las defensas contra tales vulnerabilidades, es esencial investigar los ataques universales de jailbreak que explotan las debilidades intrínsecas en los paradigmas de arquitectura y aprendizaje de LLM. En respuesta, proponemos textbf {H} Armful TextBF {P} Rompt TextBf {La} Under (Hapla), una técnica de jailbreaking novedosa y ampliamente aplicable que requiere solo acceso de caja negra a modelos de destino. Hapla incorpora dos estrategias principales: 1) Textit {Framing abductive}, que instruye a los LLM a inferir pasos intermedios plausibles hacia actividades dañinas, en lugar de responder directamente a consultas dañinas explícitas; y 2) textit {codificación simbólica}, un enfoque ligero y flexible diseñado para ofuscar contenido dañino, dado que los LLM actuales siguen siendo sensibles principalmente a palabras clave dañinas explícitas. Los resultados experimentales muestran que Hapla alcanza más del 95% de la tasa de éxito de ataque en los modelos de la serie GPT y el 70% en todos los objetivos. Un análisis adicional con diversas reglas de codificación simbólica también revela un desafío fundamental: sigue siendo difícil sintonizar de manera segura LLM sin disminuir significativamente su ayuda al responder a las consultas benignas.

Publicado Originalme en export.arxiv.org El 15 de septiembre de 2025.
Ver Fuente Original

Lavado dañino: Jailbreaking LLMS con estilos abductores y codificación simbólica

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

BlackBextOblueprint: Extracción de la lógica interpretable de los sistemas heredados utilizando el aprendizaje de refuerzo y el análisis contrafactual

AI incorporada de múltiples agentes: avances y direcciones futuras

Próximamente: nuestra lista 2025 de compañías de tecnología climática para ver

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido