Resumen: Los métodos agentes han surgido como un paradigma poderoso y autónomo que mejora el razonamiento, la colaboración y el control adaptativo, permitiendo que los sistemas coordinen y resuelvan tareas complejas de forma independiente. Ampliamos este paradigma a la alineación de la seguridad mediante la introducción de Agentic Moderation, un marco independiente del modelo que aprovecha agentes especializados para defender sistemas multimodales contra ataques de jailbreak. A diferencia de los enfoques anteriores que se aplican como una capa estática sobre entradas o salidas y proporcionan solo clasificaciones binarias (seguras o inseguras), nuestro método integra agentes dinámicos y cooperativos, incluidos Shield, Responder, Evaluator y Reflector, para lograr una moderación interpretable y consciente del contexto. Amplios experimentos en cinco conjuntos de datos y cuatro modelos representativos de lenguaje y visión ampliados (LVLM) demuestran que nuestro enfoque reduce la tasa de éxito de ataques (ASR) entre un 7% y un 19%, mantiene una tasa de no seguimiento (NF) estable y mejora la tasa de rechazo (RR) entre un 4% y un 20%, logrando un rendimiento de seguridad sólido, interpretable y bien equilibrado. Al aprovechar la flexibilidad y la capacidad de razonamiento de las arquitecturas agentic, Agentic Moderation proporciona una aplicación de seguridad modular, escalable y detallada, destacando el potencial más amplio de los sistemas agentic como base para la gobernanza de seguridad automatizada.
Publicado originalmente en export.arxiv.org el 29 de octubre de 2025.
Ver fuente original
