Un marco dinámico de juego de Stackelberg para la defensa de AI de Agente contra LLM Jailbreaking

Resumen: A medida que los modelos de idiomas grandes (LLM) se implementan cada vez más en aplicaciones críticas, el desafío de la jailbreak, donde los adversarios manipulan los modelos para evitar mecanismos de seguridad, se ha convertido en una preocupación significativa. Este artículo presenta un marco dinámico de juegos Stackelberg para modelar las interacciones entre atacantes y defensores en el contexto de LLM Jailbreaking. El marco trata la dinámica de respuesta rápida como un juego secuencial de forma extensa, donde el defensor, como líder, se compromete a una estrategia mientras anticipa las respuestas óptimas del atacante. Proponemos una nueva solución de IA de agente, el “Agente Púrpura”, que integra la exploración adversaria y las estrategias defensivas utilizando árboles aleatorios (RRT) de exploración rápida. El agente púrpura simula activamente posibles trayectorias de ataque e interviene de manera proactiva para evitar resultados nocivos. Este enfoque ofrece un método de principios para analizar la dinámica adversaria y proporciona una base para mitigar el riesgo de jailbreaking.

Publicado Originalme en export.arxiv.org El 13 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Repensar la calidad del razonamiento en modelos de idiomas grandes a través de la cadena de pensamiento mejorada a través de RL

Aprendizaje de refuerzo de múltiples agentes para observación autónoma de tierra multisatélite: un estudio de caso realista

Ontología AIdentifyAGE para el apoyo a la toma de decisiones en la evaluación forense de la edad dental

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido