En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Moderación agente: diseño multiagente para modelos de visión y lenguaje más seguros

Moderación agente: diseño multiagente para modelos de visión y lenguaje más seguros

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los métodos agentes han surgido como un paradigma poderoso y autónomo que mejora el razonamiento, la colaboración y el control adaptativo, permitiendo que los sistemas coordinen y resuelvan tareas complejas de forma independiente. Ampliamos este paradigma a la alineación de la seguridad mediante la introducción de Agentic Moderation, un marco independiente del modelo que aprovecha agentes especializados para defender sistemas multimodales contra ataques de jailbreak. A diferencia de los enfoques anteriores que se aplican como una capa estática sobre entradas o salidas y proporcionan solo clasificaciones binarias (seguras o inseguras), nuestro método integra agentes dinámicos y cooperativos, incluidos Shield, Responder, Evaluator y Reflector, para lograr una moderación interpretable y consciente del contexto. Amplios experimentos en cinco conjuntos de datos y cuatro modelos representativos de lenguaje y visión ampliados (LVLM) demuestran que nuestro enfoque reduce la tasa de éxito de ataques (ASR) entre un 7% y un 19%, mantiene una tasa de no seguimiento (NF) estable y mejora la tasa de rechazo (RR) entre un 4% y un 20%, logrando un rendimiento de seguridad sólido, interpretable y bien equilibrado. Al aprovechar la flexibilidad y la capacidad de razonamiento de las arquitecturas agentic, Agentic Moderation proporciona una aplicación de seguridad modular, escalable y detallada, destacando el potencial más amplio de los sistemas agentic como base para la gobernanza de seguridad automatizada.

Publicado originalmente en export.arxiv.org el 29 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web