En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Agentes centinela para AI de agente segura y confiable en sistemas de múltiples agentes

Agentes centinela para AI de agente segura y confiable en sistemas de múltiples agentes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Este documento propone un nuevo marco arquitectónico destinado a mejorar la seguridad y la confiabilidad en los sistemas de múltiples agentes (MAS). Un componente central de este marco es una red de agentes centinela, que funciona como una capa de seguridad distribuida que integra técnicas como el análisis semántico a través de modelos de lenguaje grande (LLMS), análisis de comportamiento, verificación de recuperación y detección de anomalías de agentes cruzados. Dichos agentes pueden supervisar las comunicaciones entre agentes, identificar posibles amenazas, hacer cumplir los controles de privacidad y acceso y mantener registros integrales de auditoría. Complementaria a la idea de los agentes centinela es el uso de un agente coordinador. El agente coordinador supervisa la implementación de políticas y gestiona la participación del agente. Además, el coordinador también ingiere alertas de agentes centinela. Según estas alertas, puede adaptar las políticas, aislar o en cuarentena a los agentes que se portan mal, y contener amenazas para mantener la integridad del ecosistema MAS. Este enfoque de seguridad de doble capa, que combina el monitoreo continuo de los agentes centinela con las funciones de gobernanza de los agentes coordinadores, respalda los mecanismos de defensa dinámicos y adaptativos contra una variedad de amenazas, incluidos la inyección rápida, el comportamiento de los agentes colusivos, las alucinaciones generadas por los LLM, las infracciones privadas y los ataques coordinados multi-agentes. Además del diseño arquitectónico, presentamos un estudio de simulación donde se inyectaron 162 ataques sintéticos de diferentes familias (inyección inmediata, alucinación y exfiltración de datos) en un entorno de conversación de múltiples agentes. Los agentes centinela detectaron con éxito los intentos de ataque, confirmando la viabilidad práctica del enfoque de monitoreo propuesto. El marco también ofrece una mejor observabilidad del sistema, respalda el cumplimiento regulatorio y permite la evolución de la política a lo largo del tiempo.

Publicado Originalme en export.arxiv.org El 18 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web