Manténgase en el personaje, manténgase a salvo: autoevolución adversaria de ciclo dual para agentes que desempeñan roles de seguridad
Resumen: Los juegos de rol basados en LLM han mejorado rápidamente en fidelidad, sin embargo, una mayor adherencia a las limitaciones de la persona comúnmente aumenta la vulnerabilidad a los ataques de jailbreak, especialmente para personas riesgosas o negativas.
Leer más →