En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Un marco dinámico de juego de Stackelberg para la defensa de AI de Agente contra LLM Jailbreaking

Un marco dinámico de juego de Stackelberg para la defensa de AI de Agente contra LLM Jailbreaking

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: A medida que los modelos de idiomas grandes (LLM) se implementan cada vez más en aplicaciones críticas, el desafío de la jailbreak, donde los adversarios manipulan los modelos para evitar mecanismos de seguridad, se ha convertido en una preocupación significativa. Este artículo presenta un marco dinámico de juegos Stackelberg para modelar las interacciones entre atacantes y defensores en el contexto de LLM Jailbreaking. El marco trata la dinámica de respuesta rápida como un juego secuencial de forma extensa, donde el defensor, como líder, se compromete a una estrategia mientras anticipa las respuestas óptimas del atacante. Proponemos una nueva solución de IA de agente, el “Agente Púrpura”, que integra la exploración adversaria y las estrategias defensivas utilizando árboles aleatorios (RRT) de exploración rápida. El agente púrpura simula activamente posibles trayectorias de ataque e interviene de manera proactiva para evitar resultados nocivos. Este enfoque ofrece un método de principios para analizar la dinámica adversaria y proporciona una base para mitigar el riesgo de jailbreaking.

Publicado Originalme en export.arxiv.org El 13 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web