Manténgase en el personaje, manténgase a salvo: autoevolución adversaria de ciclo dual para agentes que desempeñan roles de seguridad

Resumen: Los juegos de rol basados en LLM han mejorado rápidamente en fidelidad, sin embargo, una mayor adherencia a las limitaciones de la persona comúnmente aumenta la vulnerabilidad a los ataques de jailbreak, especialmente para personas riesgosas o negativas. La mayoría del trabajo anterior mitiga este problema con soluciones de tiempo de capacitación (por ejemplo, curación de datos o regularización orientada a la alineación). Sin embargo, estos enfoques son costosos de mantener a medida que las personas y las estrategias de ataque evolucionan, pueden degradar el comportamiento de los personajes y, por lo general, no son factibles para los LLM de frontera cerrada. Proponemos un marco de autoevolución adversarial de ciclo dual sin capacitación con dos ciclos acoplados. Un ciclo de atacante dirigido a una persona sintetiza indicaciones de jailbreak progresivamente más fuertes, mientras que un ciclo de defensor de juego de roles destila las fallas observadas en una base de conocimiento jerárquica de (i) reglas de seguridad globales, (ii) limitaciones basadas en la persona y (iii) ejemplos seguros en el personaje. En el momento de la inferencia, el Defensor recupera y compone conocimiento estructurado de esta jerarquía para guiar la generación, produciendo respuestas que permanecen fieles a la persona objetivo y al mismo tiempo satisfacen las limitaciones de seguridad. Amplios experimentos en múltiples LLM patentados muestran ganancias consistentes sobre bases sólidas tanto en fidelidad de roles como en resistencia al jailbreak, y una generalización sólida a personas invisibles e indicaciones de ataque.

Publicado originalmente en export.arxiv.org el 16 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Vías ASR dinámicas: un enfoque de enmascaramiento adaptativo hacia la poda eficiente de un modelo ASR multilingüe

El fino de la fina centrada en desambiguación hace que las herramientas empresariales llamen a las LLMS más realistas y menos riesgosas

Conoce al empresario etíope que reinventa la producción de amoníaco

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido