En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Manténgase en el personaje, manténgase a salvo: autoevolución adversaria de ciclo dual para agentes que desempeñan roles de seguridad

Manténgase en el personaje, manténgase a salvo: autoevolución adversaria de ciclo dual para agentes que desempeñan roles de seguridad

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los juegos de rol basados ​​en LLM han mejorado rápidamente en fidelidad, sin embargo, una mayor adherencia a las limitaciones de la persona comúnmente aumenta la vulnerabilidad a los ataques de jailbreak, especialmente para personas riesgosas o negativas. La mayoría del trabajo anterior mitiga este problema con soluciones de tiempo de capacitación (por ejemplo, curación de datos o regularización orientada a la alineación). Sin embargo, estos enfoques son costosos de mantener a medida que las personas y las estrategias de ataque evolucionan, pueden degradar el comportamiento de los personajes y, por lo general, no son factibles para los LLM de frontera cerrada. Proponemos un marco de autoevolución adversarial de ciclo dual sin capacitación con dos ciclos acoplados. Un ciclo de atacante dirigido a una persona sintetiza indicaciones de jailbreak progresivamente más fuertes, mientras que un ciclo de defensor de juego de roles destila las fallas observadas en una base de conocimiento jerárquica de (i) reglas de seguridad globales, (ii) limitaciones basadas en la persona y (iii) ejemplos seguros en el personaje. En el momento de la inferencia, el Defensor recupera y compone conocimiento estructurado de esta jerarquía para guiar la generación, produciendo respuestas que permanecen fieles a la persona objetivo y al mismo tiempo satisfacen las limitaciones de seguridad. Amplios experimentos en múltiples LLM patentados muestran ganancias consistentes sobre bases sólidas tanto en fidelidad de roles como en resistencia al jailbreak, y una generalización sólida a personas invisibles e indicaciones de ataque.

Publicado originalmente en export.arxiv.org el 16 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web