Moderación agente: diseño multiagente para modelos de visión y lenguaje más seguros

Resumen: Los métodos agentes han surgido como un paradigma poderoso y autónomo que mejora el razonamiento, la colaboración y el control adaptativo, permitiendo que los sistemas coordinen y resuelvan tareas complejas de forma independiente. Ampliamos este paradigma a la alineación de la seguridad mediante la introducción de Agentic Moderation, un marco independiente del modelo que aprovecha agentes especializados para defender sistemas multimodales contra ataques de jailbreak. A diferencia de los enfoques anteriores que se aplican como una capa estática sobre entradas o salidas y proporcionan solo clasificaciones binarias (seguras o inseguras), nuestro método integra agentes dinámicos y cooperativos, incluidos Shield, Responder, Evaluator y Reflector, para lograr una moderación interpretable y consciente del contexto. Amplios experimentos en cinco conjuntos de datos y cuatro modelos representativos de lenguaje y visión ampliados (LVLM) demuestran que nuestro enfoque reduce la tasa de éxito de ataques (ASR) entre un 7% y un 19%, mantiene una tasa de no seguimiento (NF) estable y mejora la tasa de rechazo (RR) entre un 4% y un 20%, logrando un rendimiento de seguridad sólido, interpretable y bien equilibrado. Al aprovechar la flexibilidad y la capacidad de razonamiento de las arquitecturas agentic, Agentic Moderation proporciona una aplicación de seguridad modular, escalable y detallada, destacando el potencial más amplio de los sistemas agentic como base para la gobernanza de seguridad automatizada.

Publicado originalmente en export.arxiv.org el 29 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Eso es tan difícil: las técnicas de conjunto de moda para la clasificación de LLM en la ingesta legal civil y la referencia

LLM-BI: Hacia la inferencia bayesiana totalmente automatizada con modelos de idiomas grandes

Murata comercializa un módulo combinado Wi-Fi 6e/Bluetooth compacto y multifuncional para dispositivos IoT

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido