Resumen: A medida que los modelos de idiomas grandes (LLM) se implementan cada vez más en aplicaciones críticas, el desafío de la jailbreak, donde los adversarios manipulan los modelos para evitar mecanismos de seguridad, se ha convertido en una preocupación significativa. Este artículo presenta un marco dinámico de juegos Stackelberg para modelar las interacciones entre atacantes y defensores en el contexto de LLM Jailbreaking. El marco trata la dinámica de respuesta rápida como un juego secuencial de forma extensa, donde el defensor, como líder, se compromete a una estrategia mientras anticipa las respuestas óptimas del atacante. Proponemos una nueva solución de IA de agente, el “Agente Púrpura”, que integra la exploración adversaria y las estrategias defensivas utilizando árboles aleatorios (RRT) de exploración rápida. El agente púrpura simula activamente posibles trayectorias de ataque e interviene de manera proactiva para evitar resultados nocivos. Este enfoque ofrece un método de principios para analizar la dinámica adversaria y proporciona una base para mitigar el riesgo de jailbreaking.
Publicado Originalme en export.arxiv.org El 13 de julio de 2025.
Ver Fuente Original